A CMOS Probabilistic Computing Chip With In-situ hardware Aware Learning

要約

このペーパーでは、キメラグラフで構成された440スピンを備えた確率的ビット物理学にインスパイアされたソルバーを示し、0.44 mm^2の面積を占めています。
エリア効率は、ニューロンアップデート回路の現在のモード実装、アナログブロックの標準セル設計、ピッチにデジタルブロックにマッチした標準セル設計、およびデジタルコンポーネントとアナログコンポーネントの両方の共有電源を通じて最大化されます。
このアプローチによって導入されたプロセスのバリエーション関連の不一致は、トレーニング中にハードウェア認識対照的な発散アルゴリズムを使用して効果的に軽減されます。
モデリングロジックゲートやフル加算器などの確率的コンピューティングタスクを実行するチップの能力、およびMaxcutなどの最適化タスクは、AIおよび機械学習アプリケーションの可能性を示しています。

要約(オリジナル)

This paper demonstrates a probabilistic bit physics inspired solver with 440 spins configured in a Chimera graph, occupying an area of 0.44 mm^2. Area efficiency is maximized through a current-mode implementation of the neuron update circuit, standard cell design for analog blocks pitch-matched to digital blocks, and a shared power supply for both digital and analog components. Process variation related mismatches introduced by this approach are effectively mitigated using a hardware aware contrastive divergence algorithm during training. We validate the chip’s ability to perform probabilistic computing tasks such as modeling logic gates and full adders, as well as optimization tasks such as MaxCut, demonstrating its potential for AI and machine learning applications.

arxiv情報

著者 Jinesh Jhonsa,William Whitehead,David McCarthy,Shuvro Chowdhury,Kerem Camsari,Luke Theogarajan
発行日 2025-04-28 16:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR | A CMOS Probabilistic Computing Chip With In-situ hardware Aware Learning はコメントを受け付けていません

What Should We Engineer in Prompts? Training Humans in Requirement-Driven LLM Use

要約

複雑なタスクのLLMSを促す(たとえば、トリップアドバイザーチャットボットの構築)には、カスタマイズされた要件を明確に明確に表現する必要があります(たとえば、「TL; DR」で応答を開始します)。
ただし、既存の迅速なエンジニアリングの指示には、要件の明確化に関する集中トレーニングが不足していることが多く、代わりにますます自動化可能な戦略を強調する傾向があります(例えば、ロールプレイや「段階的な段階を考える」などのトリック)。
ギャップに対処するために、要件指向のプロンプトエンジニアリング(ロープ)を紹介します。これは、プロンプト中に明確で完全な要件を生成することに人間の注意を集中させるパラダイムです。
LLMで生成されたフィードバックを使用して意図的な実践を提供する評価およびトレーニングスイートを通じてロープを実装します。
30の初心者を使用したランダム化比較実験では、ロープは従来の迅速なエンジニアリングトレーニング(20%対1%のゲイン)を大幅に上回ります。これは、自動迅速な最適化が閉じることができないギャップです。
さらに、入力要件の品質とLLM出力の間に直接的な相関関係を示します。
私たちの仕事は、より多くのエンドユーザーに複雑なLLMアプリケーションを構築できるようにする方法を舗装しています。

要約(オリジナル)

Prompting LLMs for complex tasks (e.g., building a trip advisor chatbot) needs humans to clearly articulate customized requirements (e.g., ‘start the response with a tl;dr’). However, existing prompt engineering instructions often lack focused training on requirement articulation and instead tend to emphasize increasingly automatable strategies (e.g., tricks like adding role-plays and ‘think step-by-step’). To address the gap, we introduce Requirement-Oriented Prompt Engineering (ROPE), a paradigm that focuses human attention on generating clear, complete requirements during prompting. We implement ROPE through an assessment and training suite that provides deliberate practice with LLM-generated feedback. In a randomized controlled experiment with 30 novices, ROPE significantly outperforms conventional prompt engineering training (20% vs. 1% gains), a gap that automatic prompt optimization cannot close. Furthermore, we demonstrate a direct correlation between the quality of input requirements and LLM outputs. Our work paves the way to empower more end-users to build complex LLM applications.

arxiv情報

著者 Qianou Ma,Weirui Peng,Chenyang Yang,Hua Shen,Kenneth Koedinger,Tongshuang Wu
発行日 2025-04-28 16:07:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | What Should We Engineer in Prompts? Training Humans in Requirement-Driven LLM Use はコメントを受け付けていません

Automated decision-making for dynamic task assignment at scale

要約

動的タスクの割り当て問題(DTAP)は、リソースをリアルタイムでタスクに一致させることに関係し、リソースコストやタスクサイクル時間などの目標を最小限に抑えます。
この作業では、すべてのタスクが一連の確率的シーケンスで構成されるケースであるDTAPバリアントを検討します。
この場合、DTAPには、可能な限り迅速にリクエストを処理するアクティビティを割り当てる従業員の決定が含まれます。
近年、Deep Renection Learning(DRL)は、このDTAPバリアントに取り組むための有望なツールとして浮上していますが、ほとんどの研究は、小規模で合成問題の解決に限定されており、実際のユースケースによってもたらされる課題を無視しています。
このギャップを埋めるために、この作業は、実際のスケールDTAPのためのDRLベースの意思決定支援システム(DSS)を提案しています。
この目的のために、2つの新しい要素を持つDRLエージェントを導入します。観測とアクションのグラフ構造と、任意のDTAPを効果的に表すことができるアクションと、タスクの平均サイクル時間を最小化する目的と同等の報酬関数です。
これらの2つのノベルティの組み合わせにより、エージェントは実際のスケールDTAPの効果的で一般化可能な割り当てポリシーを学習できます。
提案されているDSSは、プロセスマイニングを通じて実世界のログからパラメーターが抽出される5つのDTAPインスタンスで評価されます。
実験的評価は、提案されているDRLエージェントがすべてのDTAPインスタンスで最高のベースラインと一致または上回る方法を示しており、さまざまな時間視野とインスタンス全体で一般化します。

要約(オリジナル)

The Dynamic Task Assignment Problem (DTAP) concerns matching resources to tasks in real time while minimizing some objectives, like resource costs or task cycle time. In this work, we consider a DTAP variant where every task is a case composed of a stochastic sequence of activities. The DTAP, in this case, involves the decision of which employee to assign to which activity to process requests as quickly as possible. In recent years, Deep Reinforcement Learning (DRL) has emerged as a promising tool for tackling this DTAP variant, but most research is limited to solving small-scale, synthetic problems, neglecting the challenges posed by real-world use cases. To bridge this gap, this work proposes a DRL-based Decision Support System (DSS) for real-world scale DTAPS. To this end, we introduce a DRL agent with two novel elements: a graph structure for observations and actions that can effectively represent any DTAP and a reward function that is provably equivalent to the objective of minimizing the average cycle time of tasks. The combination of these two novelties allows the agent to learn effective and generalizable assignment policies for real-world scale DTAPs. The proposed DSS is evaluated on five DTAP instances whose parameters are extracted from real-world logs through process mining. The experimental evaluation shows how the proposed DRL agent matches or outperforms the best baseline in all DTAP instances and generalizes on different time horizons and across instances.

arxiv情報

著者 Riccardo Lo Bianco,Willem van Jaarsveld,Jeroen Middelhuis,Luca Begnardi,Remco Dijkman
発行日 2025-04-28 16:08:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC | Automated decision-making for dynamic task assignment at scale はコメントを受け付けていません

Probabilistic and Causal Satisfiability: Constraining the Model

要約

確率的および因果的推論における満足度問題の複雑さを研究します。
ランダム変数$ x_1、x_2、\ ldots $ over有限ドメインを超えると、基本的な用語は、$ p(x_1 = x_1)$または$ p(x_1 = x_1 \ vee x_2 = x_2)$などの原子イベント$ x_i = x_i $を介した命題式の確率です。
基本的な用語は、加算(線形項の生成)または乗算(多項式用語)を使用して組み合わせることができます。
確率的満足度の問題は、共同確率分布がそのような用語での(in)等ティのブールの組み合わせを満たすかどうかを尋ねます。
Fagin et al。
(1990)基本的および線形用語の場合、この問題はNP不完全であり、Moss \ ‘et al。
(2022)多項式の用語については、実質の実存理論のために完全であることを証明しました。
パールの因果階層(PCH)は、介入的で反事実的な推論で確率的設定を拡張し、言語の表現力を豊かにします。
ただし、Moss \ ‘et al。
(2022)満足度の複雑さのままであることがわかりました。
van der Zander et al。
(2023)は、言語に疎外演算子を導入することで複雑さの大幅な増加を誘発することを示しました。
モデルを制約することにより、問題に2つの新しい次元を追加することにより、この作業を拡張します。
まず、Pearl’s Do-Calculusのような設定によって動機付けられた基礎となる構造因果モデルのグラフ構造を修正し、異なる算術とPCHレベルでほぼ完全な景観を与えます。
第二に、小さなモデルを研究します。
以前の研究では、満足できるインスタンスが多項式サイズモデルを認めることが示されましたが、これはコンパクトな疎外ではもはや保証されていません。
さまざまな設定にわたる小型モデル制約の下での満足度の複雑さを特徴付けます。

要約(オリジナル)

We study the complexity of satisfiability problems in probabilistic and causal reasoning. Given random variables $X_1, X_2,\ldots$ over finite domains, the basic terms are probabilities of propositional formulas over atomic events $X_i = x_i$, such as $P(X_1 = x_1)$ or $P(X_1 = x_1 \vee X_2 = x_2)$. The basic terms can be combined using addition (yielding linear terms) or multiplication (polynomial terms). The probabilistic satisfiability problem asks whether a joint probability distribution satisfies a Boolean combination of (in)equalities over such terms. Fagin et al. (1990) showed that for basic and linear terms, this problem is NP-complete, making it no harder than Boolean satisfiability, while Moss\’e et al. (2022) proved that for polynomial terms, it is complete for the existential theory of the reals. Pearl’s Causal Hierarchy (PCH) extends the probabilistic setting with interventional and counterfactual reasoning, enriching the expressiveness of languages. However, Moss\’e et al. (2022) found that satisfiability complexity remains unchanged. Van der Zander et al. (2023) showed that introducing a marginalization operator to languages induces a significant increase in complexity. We extend this line of work by adding two new dimensions to the problem by constraining the models. First, we fix the graph structure of the underlying structural causal model, motivated by settings like Pearl’s do-calculus, and give a nearly complete landscape across different arithmetics and PCH levels. Second, we study small models. While earlier work showed that satisfiable instances admit polynomial-size models, this is no longer guaranteed with compact marginalization. We characterize the complexities of satisfiability under small-model constraints across different settings.

arxiv情報

著者 Markus Bläser,Julian Dörfler,Maciej Liśkiewicz,Benito van der Zander
発行日 2025-04-28 16:14:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.LO | Probabilistic and Causal Satisfiability: Constraining the Model はコメントを受け付けていません

Capturing Aerodynamic Characteristics of ATTAS Aircraft with Evolving Intelligent System

要約

空力係数の正確なモデリングは、最新の航空機システムのパフォーマンスを理解し、最適化するために重要です。
このホワイトペーパーでは、ATTAS航空機の空力係数をモデル化するために空力特性を表現するための進化するタイプ2量子ファジーニューラルネットワーク(ET2QFNN)の新しい展開を提示します。
ET2QFNNは、従来のバッチ学習アプローチではなく、増分学習戦略を通じて、ルールベースの構造を備えた複数の線形サブモデルを作成することにより、非線形航空機モデルを表すことができます。
さらに、量子メンバーシップ機能、および自動ルール学習およびパラメーター調整機能を介して、不確実性とデータノイズに対する堅牢性を高めます。
ATTASの飛行データを介した空力係数の推定中に、トレーニングフェーズで2つの異なる研究が行われます。1つは大量のデータを使用し、もう1つは限られた量のデータです。
結果は、ET2QFNNのモデリングパフォーマンスがベースラインの対応物と比較して優れていることを示しています。
さらに、ET2QFNNは、タイプ1ファジーの対応物と比較して、規則が少ない空力モデルを推定しました。
さらに、提案されたアプローチにDeltaメソッドを適用することにより、航空機の安定性と制御誘導体が分析されます。
結果は、空力係数を表す際に提案されたET2QFNNの優位性を証明しています。

要約(オリジナル)

Accurate modeling of aerodynamic coefficients is crucial for understanding and optimizing the performance of modern aircraft systems. This paper presents the novel deployment of an Evolving Type-2 Quantum Fuzzy Neural Network (eT2QFNN) for modeling the aerodynamic coefficients of the ATTAS aircraft to express the aerodynamic characteristics. eT2QFNN can represent the nonlinear aircraft model by creating multiple linear submodels with its rule-based structure through an incremental learning strategy rather than a traditional batch learning approach. Moreover, it enhances robustness to uncertainties and data noise through its quantum membership functions, as well as its automatic rule-learning and parameter-tuning capabilities. During the estimation of the aerodynamic coefficients via the flight data of the ATTAS, two different studies are conducted in the training phase: one with a large amount of data and the other with a limited amount of data. The results show that the modeling performance of the eT2QFNN is superior in comparison to baseline counterparts. Furthermore, eT2QFNN estimated the aerodynamic model with fewer rules compared to Type-1 fuzzy counterparts. In addition, by applying the Delta method to the proposed approach, the stability and control derivatives of the aircraft are analyzed. The results prove the superiority of the proposed eT2QFNN in representing aerodynamic coefficients.

arxiv情報

著者 Aydoğan Soylu,Tufan Kumbasar
発行日 2025-04-28 16:21:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY | Capturing Aerodynamic Characteristics of ATTAS Aircraft with Evolving Intelligent System はコメントを受け付けていません

Securing GenAI Multi-Agent Systems Against Tool Squatting: A Zero Trust Registry-Based Approach

要約

生成AI(GENAI)マルチエージェントシステム(MAS)の台頭により、エージェントが外部ツールを発見および相互作用できるようにする標準化されたプロトコルが必要です。
ただし、これらのプロトコルは、特に新しいセキュリティの課題を導入します。
ツールスクワット;
欺cept的な登録またはツールの表現。
このペーパーでは、モデルコンテキストプロトコル(MCP)やエージェントプロトコル間のシームレスな通信など、新たな相互運用性標準のコンテキスト内でツールしゃがむ脅威を分析します。
これらのリスクを軽減するために設計された包括的なツールレジストリシステムを導入します。
管理者制御登録、集中型ツール発見、専用エージェントおよびツールレジストリサービスを介して実施される細かい粒度のアクセスポリシー、ツールバージョンと既知の脆弱性に基づくダイナミックトラストスコアリングメカニズム、および時間内に資格提供を介したセキュリティ中心のアーキテクチャを提案します。
設計原則に基づいて、提案されたレジストリフレームワークは、マルチエージェントシステムの柔軟性とパワーを維持しながら、一般的なツールスクワットベクトルを効果的に防ぐことを目的としています。
この作業は、急速に進化するGenaiエコシステムの重要なセキュリティギャップに対処し、生産環境での安全なツール統合の基盤を提供します。

要約(オリジナル)

The rise of generative AI (GenAI) multi-agent systems (MAS) necessitates standardized protocols enabling agents to discover and interact with external tools. However, these protocols introduce new security challenges, particularly; tool squatting; the deceptive registration or representation of tools. This paper analyzes tool squatting threats within the context of emerging interoperability standards, such as Model Context Protocol (MCP) or seamless communication between agents protocols. It introduces a comprehensive Tool Registry system designed to mitigate these risks. We propose a security-focused architecture featuring admin-controlled registration, centralized tool discovery, fine grained access policies enforced via dedicated Agent and Tool Registry services, a dynamic trust scoring mechanism based on tool versioning and known vulnerabilities, and just in time credential provisioning. Based on its design principles, the proposed registry framework aims to effectively prevent common tool squatting vectors while preserving the flexibility and power of multi-agent systems. This work addresses a critical security gap in the rapidly evolving GenAI ecosystem and provides a foundation for secure tool integration in production environments.

arxiv情報

著者 Vineeth Sai Narajala,Ken Huang,Idan Habler
発行日 2025-04-28 16:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Securing GenAI Multi-Agent Systems Against Tool Squatting: A Zero Trust Registry-Based Approach はコメントを受け付けていません

Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI Agents

要約

生成AI(Genai)エージェントがエンタープライズの設定でより一般的になるにつれて、従来のシステムによってもたらされるものとは大きく異なるセキュリティの課題を導入します。
これらのエージェントはLLMだけではありません。
彼らは、多くの場合、人間の監視を最小限に抑えて、覚えていて、行動し、行動します。
このペーパーでは、Genaiエージェント専用に調整された包括的な脅威モデルを紹介し、自律性、永続的なメモリアクセス、複雑な推論、およびツール統合がどのように新しいリスクを生み出すかに焦点を当てています。
この研究作業は、9つの主要な脅威を特定し、認知アーキテクチャの脆弱性、時間的持続性の脅威、運用上の実行の脆弱性、信頼境界違反、ガバナンス回避の5つの重要なドメインにまたがるそれらを整理します。
これらの脅威は、既存のフレームワークや標準的なアプローチで検出するのが困難な、遅延の搾取性、クロスシステムの伝播、クロスシステムの横方向の動き、微妙な目標の不整列などの実際的な課題をもたらす理論的だけではありません。
これに対処するために、研究作業は2つの補完的なフレームワークを提示します。ATFAA-エージェント固有のリスクを編成する自律AIエージェントの高度な脅威フレームワークと、エネルギーエクスポージャーを減らすために設計された実用的な緩和戦略を提案するフレームワーク。
この作業は、LLMおよびAIセキュリティでの既存の作業に基づいていますが、焦点はエージェントを異なるものにし、なぜそれらの違いが重要なのかに焦点を当てています。
最終的に、この研究は、Genaiのエージェントがセキュリティのために新しいレンズを必要とすると主張しています。
独自のアーキテクチャと行動を説明するために脅威モデルと防御を適応できない場合、強力な新しいツールを深刻な企業責任に変える危険があります。

要約(オリジナル)

As generative AI (GenAI) agents become more common in enterprise settings, they introduce security challenges that differ significantly from those posed by traditional systems. These agents are not just LLMs; they reason, remember, and act, often with minimal human oversight. This paper introduces a comprehensive threat model tailored specifically for GenAI agents, focusing on how their autonomy, persistent memory access, complex reasoning, and tool integration create novel risks. This research work identifies 9 primary threats and organizes them across five key domains: cognitive architecture vulnerabilities, temporal persistence threats, operational execution vulnerabilities, trust boundary violations, and governance circumvention. These threats are not just theoretical they bring practical challenges such as delayed exploitability, cross-system propagation, cross system lateral movement, and subtle goal misalignments that are hard to detect with existing frameworks and standard approaches. To help address this, the research work present two complementary frameworks: ATFAA – Advanced Threat Framework for Autonomous AI Agents, which organizes agent-specific risks, and SHIELD, a framework proposing practical mitigation strategies designed to reduce enterprise exposure. While this work builds on existing work in LLM and AI security, the focus is squarely on what makes agents different and why those differences matter. Ultimately, this research argues that GenAI agents require a new lens for security. If we fail to adapt our threat models and defenses to account for their unique architecture and behavior, we risk turning a powerful new tool into a serious enterprise liability.

arxiv情報

著者 Vineeth Sai Narajala,Om Narayan
発行日 2025-04-28 16:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Securing Agentic AI: A Comprehensive Threat Model and Mitigation Framework for Generative AI Agents はコメントを受け付けていません

Enhancing short-term traffic prediction by integrating trends and fluctuations with attention mechanism

要約

トラフィックフローの予測は、インテリジェントな輸送システムの重要なコンポーネントですが、長期的な傾向と短期的な変動との相互作用により、トラフィックを正確に予測することは依然として困難です。
標準的なディープラーニングモデルは、一般的な傾向に焦点を当てながら、それらのアーキテクチャが本質的に微調整された変動を滑らかにするため、これらの課題に苦労することがよくあります。
この制限は、ローパスフィルタリング効果、安定性を支持するゲートバイアス、および長期情報保持を優先するメモリ更新メカニズムから生じます。
これらの欠点に対処するために、この研究では、トラフィックフローダイナミクスの補完的な側面をキャプチャするように設計された並行して処理された2つの入力機能を使用して、長期的な傾向と短期変動情報の両方を統合するハイブリッドディープ学習フレームワークを紹介します。
さらに、私たちのアプローチは、注意メカニズム、特にバダナウの注意を活用して、トラフィックデータ内の重要な時間ステップに選択的に焦点を当て、輻輳やその他の一時的な現象を予測するモデルの能力を高めます。
実験結果は、両方のブランチから学習した機能が補完的であり、ベースラインモデルと比較して複数の予測視野にわたって適合度の統計を大幅に改善することを示しています。
特に、注意メカニズムは、即時の変動を直接標的とすることにより、短期予測の精度を向上させますが、長期的な傾向を完全に統合する課題は残っています。
このフレームワークは、トラフィック予測モデルの堅牢性と精度を進めることにより、より効果的な混雑緩和と都市のモビリティ計画に貢献できます。

要約(オリジナル)

Traffic flow prediction is a critical component of intelligent transportation systems, yet accurately forecasting traffic remains challenging due to the interaction between long-term trends and short-term fluctuations. Standard deep learning models often struggle with these challenges because their architectures inherently smooth over fine-grained fluctuations while focusing on general trends. This limitation arises from low-pass filtering effects, gate biases favoring stability, and memory update mechanisms that prioritize long-term information retention. To address these shortcomings, this study introduces a hybrid deep learning framework that integrates both long-term trend and short-term fluctuation information using two input features processed in parallel, designed to capture complementary aspects of traffic flow dynamics. Further, our approach leverages attention mechanisms, specifically Bahdanau attention, to selectively focus on critical time steps within traffic data, enhancing the model’s ability to predict congestion and other transient phenomena. Experimental results demonstrate that features learned from both branches are complementary, significantly improving the goodness-of-fit statistics across multiple prediction horizons compared to a baseline model. Notably, the attention mechanism enhances short-term forecast accuracy by directly targeting immediate fluctuations, though challenges remain in fully integrating long-term trends. This framework can contribute to more effective congestion mitigation and urban mobility planning by advancing the robustness and precision of traffic prediction models.

arxiv情報

著者 Adway Das,Agnimitra Sengupta,S. Ilgin Guler
発行日 2025-04-28 16:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG, stat.AP | Enhancing short-term traffic prediction by integrating trends and fluctuations with attention mechanism はコメントを受け付けていません

How Group Lives Go Well

要約

このペーパーでは、グループの幸福の存在論的空間を探り、集団福祉、グループ機能、およびオントロジーエンジニアリングのコンテキスト内での長期的な貢献を表現するためのフレームワークを提案します。
従来の幸福理論は、快楽主義、欲望の満足度、または客観的リストモデルに依存することが多い個々の状態に焦点を当てています。
このようなアプローチは、個々の犠牲がより広い社会的進歩に貢献する場合を説明するのに苦労しています。これは、グループの繁栄をモデリングする上で重要な課題です。
これに対処するために、この紙は幸福の反事実的アカウント(CT)を改良および拡張します。これは、近くの可能性のある世界の仮説的な対応物と個人の実際の幸福を比較することにより、イベントの良さを評価します。
便利ですが、このフレームワークはグループレベルのオントロジーには不十分です。このオントロジーは、即時の個々の結果ではなく、機能的持続性、制度的役割、歴史的影響に依存しています。
基本的な正式なオントロジー(BFO)に基づいて、この論文では、グループの繁栄がグループ機能の観点から評価されるモデルを紹介します。このモデルは、メンバーが役割を果たし、生物学的システムや設計されたアーティファクトに似た持続条件を示します。
このアプローチにより、縦断的な社会的貢献をモデル化するためのセマンティックな相互運用性が可能になり、グループ福祉、社会制度、およびグループの繁栄に関する構造化された推論が時間とともに繁栄します。

要約(オリジナル)

This paper explores the ontological space of group well being, proposing a framework for representing collective welfare, group functions, and long term contributions within an ontology engineering context. Traditional well being theories focus on individual states, often relying on hedonistic, desire satisfaction, or objective list models. Such approaches struggle to account for cases where individual sacrifices contribute to broader social progress, a critical challenge in modeling group flourishing. To address this, the paper refines and extends the Counterfactual Account (CT) of well being, which evaluates goodness of an event by comparing an individual’s actual well being with a hypothetical counterpart in a nearby possible world. While useful, this framework is insufficient for group level ontologies, where well being depends on functional persistence, institutional roles, and historical impact rather than immediate individual outcomes. Drawing on Basic Formal Ontology (BFO), the paper introduces a model in which group flourishing is evaluated in terms of group functional, where members bear roles and exhibit persistence conditions akin to biological systems or designed artifacts. This approach enables semantic interoperability for modeling longitudinal social contributions, allowing for structured reasoning about group welfare, social institutions, and group flourishing over time.

arxiv情報

著者 John Beverley,Regina Hurley
発行日 2025-04-28 16:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT | How Group Lives Go Well はコメントを受け付けていません

TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons

要約

タスク指向のダイアログ(TOD)システムは、大規模な言語モデル(LLM)によって推進される革命を経験していますが、これらのシステムの評価方法論は、洗練度の高まりには不十分です。
従来の自動メトリックは以前のモジュラーシステムを効果的に評価しましたが、対話レベルのみに焦点を当てており、ユーザーエージェントのインタラクション中に発生する可能性のある重要な中間エラーを検出することはできません。
このホワイトペーパーでは、TD-Eval(ターンおよびダイアログレベルの評価)を紹介します。これは、全体的な対話レベルの比較で微細なターンレベル分析を統合する2段階の評価フレームワークです。
ターンレベルでは、会話の結束、バックエンドの知識の一貫性、およびポリシーコンプライアンスの3つのTOD固有の次元に沿って各応答を評価します。
一方、ペアワイズ比較を使用して対話レベルの品質を提供するTodエージェントアリーナを設計します。
Multiwoz 2.4および{\ tau} -benchの実験を通じて、TD-Valが従来の指標が見逃している会話エラーを効果的に識別することを実証します。
さらに、TD-Evalは、従来のLLMベースのメトリックよりも、人間の判断とより良い整合性を示しています。
これらの調査結果は、TD-EvalがTODシステム評価のための新しいパラダイムを導入し、将来の研究のためのプラグアンドプレイフレームワークでターンレベルとシステムレベルの両方を効率的に評価することを示しています。

要約(オリジナル)

Task-oriented dialogue (TOD) systems are experiencing a revolution driven by Large Language Models (LLMs), yet the evaluation methodologies for these systems remain insufficient for their growing sophistication. While traditional automatic metrics effectively assessed earlier modular systems, they focus solely on the dialogue level and cannot detect critical intermediate errors that can arise during user-agent interactions. In this paper, we introduce TD-EVAL (Turn and Dialogue-level Evaluation), a two-step evaluation framework that unifies fine-grained turn-level analysis with holistic dialogue-level comparisons. At turn level, we evaluate each response along three TOD-specific dimensions: conversation cohesion, backend knowledge consistency, and policy compliance. Meanwhile, we design TOD Agent Arena that uses pairwise comparisons to provide a measure of dialogue-level quality. Through experiments on MultiWOZ 2.4 and {\tau}-Bench, we demonstrate that TD-EVAL effectively identifies the conversational errors that conventional metrics miss. Furthermore, TD-EVAL exhibits better alignment with human judgments than traditional and LLM-based metrics. These findings demonstrate that TD-EVAL introduces a new paradigm for TOD system evaluation, efficiently assessing both turn and system levels with a plug-and-play framework for future research.

arxiv情報

著者 Emre Can Acikgoz,Carl Guo,Suvodip Dey,Akul Datta,Takyoung Kim,Gokhan Tur,Dilek Hakkani-Tür
発行日 2025-04-28 16:57:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons はコメントを受け付けていません