DeepNote: Note-Centric Deep Retrieval-Augmented Generation

要約

検索された生成(RAG)は、外部の知識を組み込むことにより、質問回答(QA)の大規模な言語モデル(LLM)の事実上の誤りと幻覚を軽減します。
ただし、既存の適応RAGメソッドは、検索タイミングを予測するためにLLMSに依存し、検索された情報を生成に直接使用し、実際の情報のニーズを反映していないことが多く、検索された知識を完全に活用します。
メモ中心の適応検索を通じて知識ソースの詳細かつ堅牢な探索を実現する適応的なRAGフレームワークであるDeepNoteを開発します。
DeepNoteは、知識を洗練および蓄積するためのキャリアとしてメモを採用しています。
詳細な調査中に、これらのメモを使用して検索タイミングを決定し、検索クエリを定式化し、知識の成長を繰り返し評価し、最終的に回答生成に最適なメモを活用します。
広範な実験と分析は、DeepNoteがすべてのベースライン( +10.2%〜 +20.1%)を大幅に上回り、高密度と品質の両方で知識を収集する能力を示すことを示しています。
さらに、DPOはDeepNoteのパフォーマンスをさらに向上させます。
コードとデータは、https://github.com/thunlp/deepnoteで入手できます。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) mitigates factual errors and hallucinations in Large Language Models (LLMs) for question-answering (QA) by incorporating external knowledge. However, existing adaptive RAG methods rely on LLMs to predict retrieval timing and directly use retrieved information for generation, often failing to reflect real information needs and fully leverage retrieved knowledge. We develop DeepNote, an adaptive RAG framework that achieves in-depth and robust exploration of knowledge sources through note-centric adaptive retrieval. DeepNote employs notes as carriers for refining and accumulating knowledge. During in-depth exploration, it uses these notes to determine retrieval timing, formulate retrieval queries, and iteratively assess knowledge growth, ultimately leveraging the best note for answer generation. Extensive experiments and analyses demonstrate that DeepNote significantly outperforms all baselines (+10.2% to +20.1%) and exhibits the ability to gather knowledge with both high density and quality. Additionally, DPO further improves the performance of DeepNote. The code and data are available at https://github.com/thunlp/DeepNote.

arxiv情報

著者 Ruobing Wang,Qingfei Zhao,Yukun Yan,Daren Zha,Yuxuan Chen,Shi Yu,Zhenghao Liu,Yixuan Wang,Shuo Wang,Xu Han,Zhiyuan Liu,Maosong Sun
発行日 2025-04-07 16:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DeepNote: Note-Centric Deep Retrieval-Augmented Generation はコメントを受け付けていません

LLM-based Automated Grading with Human-in-the-Loop

要約

人工知能(AI)技術の台頭、特に大規模な言語モデル(LLM)は、教育分野に大きな進歩をもたらしました。
さまざまなアプリケーションの中で、オープンエンドのテキスト応答の評価に焦点を当てた自動短い回答グレーディング(ASAG)は、LLMSの導入で顕著な進歩を遂げています。
これらのモデルは、従来のASAGアプローチと比較してグレーディングパフォーマンスを向上させるだけでなく、事前に定義された「ゴールデン」回答との単純な比較を超えて移動し、ルーブリックベースの評価などのより洗練されたグレーディングシナリオを可能にします。
ただし、既存のLLM駆動方法は、完全に自動化されたアプローチに依存しているため、ルーブリックベースの評価で人間レベルのグレーディングパフォーマンスを達成する上で依然として課題に直面しています。
この作業では、人間のループ(HITL)アプローチを通じてインタラクティブな機能を活用することにより、ASAGタスクにおけるLLMSの可能性を調査します。
提案されたフレームワークであるGradeHitlは、LLMの生成特性を利用して、人間の専門家に質問を投げかけ、グレーディングルーブリックを動的に洗練するための洞察を取り入れています。
この適応プロセスは、グレーディングの精度を大幅に改善し、既存の方法を上回り、ASAGを人間レベルの評価に近づけます。

要約(オリジナル)

The rise of artificial intelligence (AI) technologies, particularly large language models (LLMs), has brought significant advancements to the field of education. Among various applications, automatic short answer grading (ASAG), which focuses on evaluating open-ended textual responses, has seen remarkable progress with the introduction of LLMs. These models not only enhance grading performance compared to traditional ASAG approaches but also move beyond simple comparisons with predefined ‘golden’ answers, enabling more sophisticated grading scenarios, such as rubric-based evaluation. However, existing LLM-powered methods still face challenges in achieving human-level grading performance in rubric-based assessments due to their reliance on fully automated approaches. In this work, we explore the potential of LLMs in ASAG tasks by leveraging their interactive capabilities through a human-in-the-loop (HITL) approach. Our proposed framework, GradeHITL, utilizes the generative properties of LLMs to pose questions to human experts, incorporating their insights to refine grading rubrics dynamically. This adaptive process significantly improves grading accuracy, outperforming existing methods and bringing ASAG closer to human-level evaluation.

arxiv情報

著者 Hang Li,Yucheng Chu,Kaiqi Yang,Yasemin Copur-Gencturk,Jiliang Tang
発行日 2025-04-07 16:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM-based Automated Grading with Human-in-the-Loop はコメントを受け付けていません

PrefRAG: Preference-Driven Multi-Source Retrieval Augmented Generation

要約

検索された生成(RAG)は、大規模な言語モデル(LLM)の幻覚の問題とパラメーター化された知識の制限を緩和するための信頼できる外部知識増強技術として浮上しています。
既存の適応ラグ(ARAG)システムは、単一のソース内で詳細な探索に優れていますが、内部の知識機能を予見できないため、さまざまな検索ソースを効果的かつ制御できるように探索するのに苦労しています。
私たちは、嗜好駆動型の適応検索と自己反省を通じて、多様な検索ソースの詳細かつ制御可能な調査を可能にすることにより、RAGを強化するPreFragである新しいマルチソースARAGシステムを開発します。
PREFRAGは、最初に適応性のある検索およびサプリメントの制御可能なローカルソースを完全に検討し、必要に応じてWebを使用して、最終的に知識観察の最適なソースを選択します。
その後、PreFragは、質の高いフィードバックに回答して検索プロセスにフィードを与え、それを生成の観点から最適化して高品質の応答を生成します。
広範な実験では、その優位性、高い検索効率、および知識の制御可能性を確認します。
PreFragは、バニララグと主要なMS-Aragをそれぞれ最大25.6%と13.9%上回ります。
さらに、DPOでトレーニングされたPreFragは、より高いパフォーマンスを達成します。
コードとデータは、https://github.com/qingfei1/prefrag.gitで入手できます。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) has emerged as a reliable external knowledge augmentation technique to mitigate hallucination issues and parameterized knowledge limitations in Large Language Models (LLMs). Existing adaptive RAG (ARAG) systems excel at in-depth exploration within a single source but struggle to effectively and controllably explore different retrieval sources, as they fail to foresee their internal knowledge features. We develop a novel multi-source ARAG system, PrefRAG, which enhances RAG by enabling in-depth and controllable exploration of diverse retrieval sources through preference-driven adaptive retrieval and self-reflection. PrefRAG first fully explores controllable local sources in adaptive retrieval and supplements with the web when appropriate, ultimately selecting the optimal source for knowledge observation. Subsequently, PrefRAG feeds answer quality feedback into the retrieval process, optimizing it from the generation perspective to produce higher-quality responses. Extensive experiments confirm its superiority, high retrieval efficiency, and knowledge controllability. PrefRAG outperforms Vanilla RAG and the leading MS-ARAG by up to 25.6% and 13.9% respectively. Additionally, PrefRAG trained with DPO achieves higher performance. The code and data are available at https://github.com/QingFei1/PrefRAG.git.

arxiv情報

著者 Qingfei Zhao,Ruobing Wang,Yukuo Cen,Daren Zha,Shicheng Tan,Jie Tang
発行日 2025-04-07 16:38:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PrefRAG: Preference-Driven Multi-Source Retrieval Augmented Generation はコメントを受け付けていません

Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

要約

ベンチマークスコアが高いにもかかわらず、大規模な言語モデル(LLM)はしばしば単純な問題に失敗し、重要な疑問を提起します。LLMSは数学的原則を学びますか、それとも単にパターンを記憶していますか?
最近の作品のようにますます複雑なベンチマークを設計するのではなく、小学校の2つのinteger追加($ 0 $ 2^{64} $)を使用してこれを調査し、2つのコアプロパティを調査します:通勤($ a+b = b+a $)と組成一般化(等型シンボリックマッピング、E.G。、$ 7 \ rightarrow y $)。
最先端のLLMは、数値追加で73.8-99.8 \%の精度を達成しますが、シンボリックマッピングでパフォーマンスは$ \ leq $ 7.5 \%に崩壊し、学習ルールを一般化できなかったことを示します。
数字カウントと頻繁な通勤違反による非モノトニックパフォーマンススケーリング($ A+B \ NEQ B+A $の1,700件を超えるケース)これをさらにサポートします。
追加ルールを明示的に提供することは、平均して81.2 \%でパフォーマンスを低下させますが、自己実現はベースラインの精度を維持し、LLM算術処理が人間定義の原則と誤って整列されていることを示唆しています。
私たちの調査結果は、現在のLLMが本物のルール学習よりもメモリパターンに依存していることを示しています。これは、アーキテクチャの制限と、真の数学的推論を達成するための新しいアプローチの必要性を強調しています。

要約(オリジナル)

Despite high benchmark scores, Large Language Models (LLMs) often fail simple problem, raising a critical question: Do LLMs learn mathematical principles or merely memorize patterns? Rather than designing increasingly complex benchmarks like recent works, we investigate this using elementary two-integer addition ($0$ to $2^{64}$), probing two core properties: commutativity ($A+B=B+A$) and compositional generalization (via isomorphic symbolic mappings, e.g., $7 \rightarrow y$). While state-of-the-art LLMs achieve 73.8-99.8\% accuracy on numerical addition, performance collapses to $\leq$7.5\% under symbolic mapping, indicating failure to generalize learned rules. Non-monotonic performance scaling with digit count and frequent commutativity violations (over 1,700 cases of $A+B \neq B+A$) further support this. Explicitly providing addition rules degrades performance by 81.2\% on average, while self-explanation maintains baseline accuracy, suggesting LLM arithmetic processing is misaligned with human-defined principles. Our findings indicate current LLMs rely on memory pattern over genuine rule learning, highlighting architectural limitations and the need for new approaches to achieve true mathematical reasoning.

arxiv情報

著者 Yang Yan,Yu Lu,Renjun Xu,Zhenzhong Lan
発行日 2025-04-07 16:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models はコメントを受け付けていません

Enhancing LLM-Based Short Answer Grading with Retrieval-Augmented Generation

要約

短い回答評価は科学教育の重要な要素であり、学生の複雑な3次元の理解を評価できるようにします。
言語タスクで人間のような能力を備えた大規模な言語モデル(LLM)は、人間の成績を支援することにますます人気があります。
ただし、ドメインの知識におけるLLMSの制限は、タスク固有の要件に対する理解を制限し、満足のいくパフォーマンスを達成する能力を妨げます。
検索された生成(RAG)は、LLMが評価中に関連するドメイン固有の知識にアクセスできるようにすることにより、有望なソリューションとして浮上します。
この作業では、質問と学生の回答のコンテキストに基づいてドメイン固有の知識を動的に取得および組み込む自動化されたグレーディングのための適応的なRAGフレームワークを提案します。
私たちのアプローチでは、セマンティック検索とキュレーションされた教育源を組み合わせて、貴重な参照資料を取得します。
科学教育データセットの実験結果は、ベースラインLLMアプローチと比較して、システムがグレーディング精度の改善を達成することを示しています。
調査結果は、Ragで強化されたグレーディングシステムが、効率的なパフォーマンスの向上を伴う信頼できるサポートとして役立つことを示唆しています。

要約(オリジナル)

Short answer assessment is a vital component of science education, allowing evaluation of students’ complex three-dimensional understanding. Large language models (LLMs) that possess human-like ability in linguistic tasks are increasingly popular in assisting human graders to reduce their workload. However, LLMs’ limitations in domain knowledge restrict their understanding in task-specific requirements and hinder their ability to achieve satisfactory performance. Retrieval-augmented generation (RAG) emerges as a promising solution by enabling LLMs to access relevant domain-specific knowledge during assessment. In this work, we propose an adaptive RAG framework for automated grading that dynamically retrieves and incorporates domain-specific knowledge based on the question and student answer context. Our approach combines semantic search and curated educational sources to retrieve valuable reference materials. Experimental results in a science education dataset demonstrate that our system achieves an improvement in grading accuracy compared to baseline LLM approaches. The findings suggest that RAG-enhanced grading systems can serve as reliable support with efficient performance gains.

arxiv情報

著者 Yucheng Chu,Peng He,Hang Li,Haoyu Han,Kaiqi Yang,Yu Xue,Tingting Li,Joseph Krajcik,Jiliang Tang
発行日 2025-04-07 17:17:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing LLM-Based Short Answer Grading with Retrieval-Augmented Generation はコメントを受け付けていません

PHEONA: An Evaluation Framework for Large Language Model-based Approaches to Computational Phenotyping

要約

計算表現型は生物医学の研究に不可欠ですが、特に従来の方法には一般的に広範な手動データレビューが含まれるため、多くの場合、かなりの時間とリソースが必要です。
機械学習と自然言語処理の進歩が役立っていますが、さらなる改善が必要です。
テキストベースのタスクのLLMの既知の利点にもかかわらず、これらのタスクに大きな言語モデル(LLMS)を使用して調査した研究はほとんどありません。
この分野でのさらなる研究を容易にするために、コンテキスト固有の考慮事項を概説する観察健康データ(Pheona)の表現型の評価、評価フレームワークを開発しました。
概念分類にPheonaを適用し、実証しました。これは、急性呼吸不全(ARF)呼吸補助療法のためのより広範な表現型療法プロセス内の特定のタスクです。
テストしたサンプルの概念から、高い分類精度を達成し、LLMベースの方法が計算表現型プロセスを改善する可能性を示唆しています。

要約(オリジナル)

Computational phenotyping is essential for biomedical research but often requires significant time and resources, especially since traditional methods typically involve extensive manual data review. While machine learning and natural language processing advancements have helped, further improvements are needed. Few studies have explored using Large Language Models (LLMs) for these tasks despite known advantages of LLMs for text-based tasks. To facilitate further research in this area, we developed an evaluation framework, Evaluation of PHEnotyping for Observational Health Data (PHEONA), that outlines context-specific considerations. We applied and demonstrated PHEONA on concept classification, a specific task within a broader phenotyping process for Acute Respiratory Failure (ARF) respiratory support therapies. From the sample concepts tested, we achieved high classification accuracy, suggesting the potential for LLM-based methods to improve computational phenotyping processes.

arxiv情報

著者 Sarah Pungitore,Shashank Yadav,Vignesh Subbian
発行日 2025-04-07 17:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PHEONA: An Evaluation Framework for Large Language Model-based Approaches to Computational Phenotyping はコメントを受け付けていません

Truthful or Fabricated? Using Causal Attribution to Mitigate Reward Hacking in Explanations

要約

鎖の説明は、大規模な言語モデル(LLM)の決定プロセスを検査し、モデル出力の信頼性を評価するために広く使用されており、LLMと人間の効果的なコラボレーションに重要になっています。
優先最適化(アライメントフェーズの重要なステップ)が、これらの説明の忠実さを誤って減らすことができることを実証します。
これは、アラインメントをガイドする報酬モデル(RM)が、応答の予想される品質と説明の適切性の両方を最適化する(例えば、バイアスの最小化や安全基準に準拠するなど)、潜在的な競合を生み出すために発生します。
RMには、モデルの内部決定プロセスと生成された説明との一貫性を評価するメカニズムがありません。
その結果、LLMは、その推論を正確に反映するのではなく、報酬を最大化するために調整された説明を提供しながら、高度に得点する最終的な応答を生成することにより、「報酬ハッキング」に従事する可能性があります。
この問題に対処するために、RMの入力を予測の因果的な帰属で強化することを提案し、RMが生成された自己実現とモデルの決定プロセスとの間の矛盾を検出できるようにします。
制御された設定では、このアプローチがLLMの傾向を減らして誤解を招く説明を生成することを示します。

要約(オリジナル)

Chain-of-thought explanations are widely used to inspect the decision process of large language models (LLMs) and to evaluate the trustworthiness of model outputs, making them important for effective collaboration between LLMs and humans. We demonstrate that preference optimization – a key step in the alignment phase – can inadvertently reduce the faithfulness of these explanations. This occurs because the reward model (RM), which guides alignment, is tasked with optimizing both the expected quality of the response and the appropriateness of the explanations (e.g., minimizing bias or adhering to safety standards), creating potential conflicts. The RM lacks a mechanism to assess the consistency between the model’s internal decision process and the generated explanation. Consequently, the LLM may engage in ‘reward hacking’ by producing a final response that scores highly while giving an explanation tailored to maximize reward rather than accurately reflecting its reasoning. To address this issue, we propose enriching the RM’s input with a causal attribution of the prediction, allowing the RM to detect discrepancies between the generated self-explanation and the model’s decision process. In controlled settings, we show that this approach reduces the tendency of the LLM to generate misleading explanations.

arxiv情報

著者 Pedro Ferreira,Wilker Aziz,Ivan Titov
発行日 2025-04-07 17:49:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Truthful or Fabricated? Using Causal Attribution to Mitigate Reward Hacking in Explanations はコメントを受け付けていません

Explainable AI for Enhancing Efficiency of DL-based Channel Estimation

要約

人工知能(AI)ベースの意思決定のサポートは、将来の6Gネットワ​​ークの重要な要素であり、ネイティブAIの概念が導入されます。
さらに、AIは、自律運転や医療診断などのさまざまな重要なアプリケーションで広く採用されています。
このようなアプリケーションでは、AIをブラックボックスモデルとして使用することは危険で挑戦的です。
したがって、これらのモデルが下した決定を理解し、信頼することが重要です。
この問題への取り組みは、ブラックボックスモデルの動作の背後にあるロジックを説明することを目的とした説明可能なAI(XAI)スキームを開発し、その効率的で安全な展開を確保することで達成できます。
最近、ワイヤレス通信のチャネル推定に向けた新しい摂動ベースのXai-Chestフレームワークを提案しました。
Xai-Chestフレームワークの中心的なアイデアは、無関係なノイズに高いノイズを誘導することにより、関連するモデル入力を識別することです。
この原稿は、Xai-Chestフレームワークの詳細な理論的基礎を提供します。
特に、Xai-Chest損失関数の分析式と、ノイズしきい値の微調整最適化問題を導き出します。
したがって、設計されたXai-Chestは、採用されたモデルのアーキテクチャを最適化しながら全体的なパフォーマンスをさらに向上させることができるスマート入力機能選択方法論を提供します。
シミュレーション結果は、Xai-Chestフレームワークが有効な解釈を提供することを示しています。ここでは、古典的なDLベースのチャネル推定と比較して、必要な計算の複雑さを減らしながら、ビットエラー率のパフォーマンスが向上します。

要約(オリジナル)

The support of artificial intelligence (AI) based decision-making is a key element in future 6G networks, where the concept of native AI will be introduced. Moreover, AI is widely employed in different critical applications such as autonomous driving and medical diagnosis. In such applications, using AI as black-box models is risky and challenging. Hence, it is crucial to understand and trust the decisions taken by these models. Tackling this issue can be achieved by developing explainable AI (XAI) schemes that aim to explain the logic behind the black-box model behavior, and thus, ensure its efficient and safe deployment. Recently, we proposed a novel perturbation-based XAI-CHEST framework that is oriented toward channel estimation in wireless communications. The core idea of the XAI-CHEST framework is to identify the relevant model inputs by inducing high noise on the irrelevant ones. This manuscript provides the detailed theoretical foundations of the XAI-CHEST framework. In particular, we derive the analytical expressions of the XAI-CHEST loss functions and the noise threshold fine-tuning optimization problem. Hence the designed XAI-CHEST delivers a smart input feature selection methodology that can further improve the overall performance while optimizing the architecture of the employed model. Simulation results show that the XAI-CHEST framework provides valid interpretations, where it offers an improved bit error rate performance while reducing the required computational complexity in comparison to the classical DL-based channel estimation.

arxiv情報

著者 Abdul Karim Gizzini,Yahia Medjahdi,Ali J. Ghandour,Laurent Clavier
発行日 2025-04-07 13:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.SP | Explainable AI for Enhancing Efficiency of DL-based Channel Estimation はコメントを受け付けていません

Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID

要約

熱赤外ビデオで複数の無人航空機(UAV)を検出および追跡することは、コントラストが低い、環境ノイズ、および小さなターゲットサイズのために本質的に困難です。
このペーパーでは、熱赤外線ビデオでのマルチUAV追跡に対処するための簡単なアプローチを提供し、検出と追跡の最近の進歩を活用しています。
深いYolov5の組み合わせで確立されたYolov5に依存する代わりに、Yolov12とボットソートに構築された追跡フレームワークを紹介し、テーラードトレーニングと推論戦略で強化されました。
第4回Anti-UAVチャレンジメトリックに続いてアプローチを評価し、競争力のあるパフォーマンスに達します。
特に、Contrastの強化や時間的情報融合を使用してUAV機能を濃縮することなく、強力な結果を達成し、マルチUAV追跡タスクの「強力なベースライン」としてのアプローチを強調しました。
実装の詳細、詳細な実験分析、および潜在的な改善の議論を提供します。
このコードは、https://github.com/wish44165/yolov12-bot-sort-reidで入手できます。

要約(オリジナル)

Detecting and tracking multiple unmanned aerial vehicles (UAVs) in thermal infrared video is inherently challenging due to low contrast, environmental noise, and small target sizes. This paper provides a straightforward approach to address multi-UAV tracking in thermal infrared video, leveraging recent advances in detection and tracking. Instead of relying on the well-established YOLOv5 with DeepSORT combination, we present a tracking framework built on YOLOv12 and BoT-SORT, enhanced with tailored training and inference strategies. We evaluate our approach following the 4th Anti-UAV Challenge metrics and reach competitive performance. Notably, we achieved strong results without using contrast enhancement or temporal information fusion to enrich UAV features, highlighting our approach as a ‘Strong Baseline’ for multi-UAV tracking tasks. We provide implementation details, in-depth experimental analysis, and a discussion of potential improvements. The code is available at https://github.com/wish44165/YOLOv12-BoT-SORT-ReID .

arxiv情報

著者 Yu-Hsi Chen
発行日 2025-04-07 13:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID はコメントを受け付けていません

Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning

要約

マルチエージェントコラボレーションは、大規模な言語モデル(LLM)の推論能力を強化するための有望なフレームワークとして浮上しています。
このアプローチは推論能力を改善しますが、反復剤の相互作用のためにかなりの計算オーバーヘッドが発生します。
さらに、コラボレーションを必要としないクエリの議論に従事すると、エラー生成のリスクが増加します。
これらの課題に対処するために、エージェントの最初の対応の信頼性スコアに基づいて議論プロセスを選択的にアクティブ化する適応的なマルチエージェント討論フレームワークである必要な場合にのみ議論を提案します。
討論がトリガーされているクエリの場合、エージェントは参加エージェントと自信スコアからの応答を使用して出力を改良します。
実験結果は、このメカニズムが既存のマルチエージェント討論システムのパフォーマンスを維持または上回りながら、効率を大幅に改善することを示しています。
また、信頼誘導の議論がエラーの伝播を緩和し、信頼できる応答の選択的組み込みを強化することがわかります。
これらの結果は、LLMベースのコラボレーションの実用的な展開を促進し、効率的かつ効果的なマルチエージェント推論の最適化戦略としてダウンしています。

要約(オリジナル)

Multiagent collaboration has emerged as a promising framework for enhancing the reasoning capabilities of large language models (LLMs). While this approach improves reasoning capability, it incurs substantial computational overhead due to iterative agent interactions. Furthermore, engaging in debates for queries that do not necessitate collaboration amplifies the risk of error generation. To address these challenges, we propose Debate Only When Necessary (DOWN), an adaptive multiagent debate framework that selectively activates the debate process based on the confidence score of the agent’s initial response. For queries where debate is triggered, agents refine their outputs using responses from participating agents and their confidence scores. Experimental results demonstrate that this mechanism significantly improves efficiency while maintaining or even surpassing the performance of existing multiagent debate systems. We also find that confidence-guided debate mitigates error propagation and enhances the selective incorporation of reliable responses. These results establish DOWN as an optimization strategy for efficient and effective multiagent reasoning, facilitating the practical deployment of LLM-based collaboration.

arxiv情報

著者 Sugyeong Eo,Hyeonseok Moon,Evelyn Hayoon Zi,Chanjun Park,Heuiseok Lim
発行日 2025-04-07 13:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning はコメントを受け付けていません