Can Language Models Follow Multiple Turns of Entangled Instructions?

要約

大規模な言語モデル(LLMS)の指導能力を改善する上での重要な成果にもかかわらず、複数の潜在的に絡み合ったまたは矛盾する指示を処理する能力は依然としてかなりの課題です。
実際のシナリオは、秘密のプライバシー、個人的な好み、優先順位付けなど、時間の経過とともに複数の指示にわたって一貫性を必要とすることがよくあります。これは、複数のターンを統合する洗練された能力を要求し、命令が交差または競合するときに競合する目標のバランスを慎重にバランスさせます。
この作業は、複数のターンの命令を処理する際のLLMSの機能の体系的な調査を提示し、3つのレベルの難易度をカバーします。(1)命令から情報を取得し、(2)ターン全体の追跡と推論、および(3)指示間の競合を解決する。
人間のループアプローチを通じて約1.1kの高品質のマルチターン会話を備えたマルチハーヒント構造を構築し、静的とダイナミクス、推論、マルチタスクなどの9つの機能カテゴリを作成します。
私たちの発見は、異なる機能間の興味深いトレードオフを明らかにしています。
GPTモデルは優れた暗記を示していますが、選択的な情報源泉徴収を必要とするプライバシー保護タスクの有効性の低下を示しています。
より大きなモデルは、より強い推論能力を示しますが、矛盾する指示の解決に依然として苦労しています。
重要なことに、これらのパフォーマンスのギャップは、記憶のタスクに関する強力なBLEUスコアを示しているため、これらのパフォーマンスのギャップは情報の損失のみに起因することはできませんが、その注意メカニズムは複数の関連命令を効果的に統合できません。
これらの調査結果は、マルチターン命令を含む複雑な現実世界のタスクの改善のための重要な領域を強調しています。

要約(オリジナル)

Despite significant achievements in improving the instruction-following capabilities of large language models (LLMs), the ability to process multiple potentially entangled or conflicting instructions remains a considerable challenge. Real-world scenarios often require consistency across multiple instructions over time, such as secret privacy, personal preferences, and prioritization, which demand sophisticated abilities to integrate multiple turns and carefully balance competing objectives when instructions intersect or conflict. This work presents a systematic investigation of LLMs’ capabilities in handling multiple turns of instructions, covering three levels of difficulty: (1) retrieving information from instructions, (2) tracking and reasoning across turns, and (3) resolving conflicts among instructions. We construct MultiTurnInstruct with around 1.1K high-quality multi-turn conversations through the human-in-the-loop approach and result in nine capability categories, including statics and dynamics, reasoning, and multitasking. Our finding reveals an intriguing trade-off between different capabilities. While GPT models demonstrate superior memorization, they show reduced effectiveness in privacy-protection tasks requiring selective information withholding. Larger models exhibit stronger reasoning capabilities but still struggle with resolving conflicting instructions. Importantly, these performance gaps cannot be attributed solely to information loss, as models demonstrate strong BLEU scores on memorization tasks but their attention mechanisms fail to integrate multiple related instructions effectively. These findings highlight critical areas for improvement in complex real-world tasks involving multi-turn instructions.

arxiv情報

著者 Chi Han
発行日 2025-03-17 14:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can Language Models Follow Multiple Turns of Entangled Instructions? はコメントを受け付けていません

Training Neural Networks as Recognizers of Formal Languages

要約

正式な言語理論の観点からニューラルネットワークアーキテクチャの計算力を特徴付けることは、現代AIの推論能力の下限と上限を説明するため、重要な研究の依然として重要な研究のラインです。
ただし、これらの境界を経験的にテストする場合、既存の作業はしばしば、実験とそれらがサポートすることを意図している正式な主張との間に矛盾を残します。
問題は、正式な言語理論が特に認識者に関係していることです。入力として文字列を受け取るマシンと、それが言語に属するかどうかを分類することです。
一方、代わりに、根本的な理論と非公式な意味でのみ類似している、言語モデリングやシーケンスからシーケンスへの変換など、プロキシタスクの言語モデルを評価することが一般的です。
さまざまな言語に適用できる一般的な方法を使用して、文字列のバイナリ分類器としてニューラルネットワークを直接トレーニングおよび評価することにより、この不一致を修正します。
その一部として、Sn {\ ae} Bjarnarson et alによって最近提案されたアルゴリズムを拡張します。
(2025)通常の言語からの文字列の効率的な長さ制御されたサンプリング。
3つの神経アーキテクチャのチョムスキー階層全体のさまざまな言語で結果を提供します:単純なRNN、LSTM、因果マスクされたトランスです。
RNNとLSTMはしばしばトランスを上回ることができ、言語モデリングなどの補助トレーニング目標が役立つことがわかりますが、言語やアーキテクチャ間のパフォーマンスを均一に改善する目標はありません。
私たちの貢献は、将来の仕事における言語認識の主張の理論的に健全な経験的テストを促進します。
データセットは、Flare(正式な言語認識)と呼ばれるベンチマークとしてコードをリリースしました。

要約(オリジナル)

Characterizing the computational power of neural network architectures in terms of formal language theory remains a crucial line of research, as it describes lower and upper bounds on the reasoning capabilities of modern AI. However, when empirically testing these bounds, existing work often leaves a discrepancy between experiments and the formal claims they are meant to support. The problem is that formal language theory pertains specifically to recognizers: machines that receive a string as input and classify whether it belongs to a language. On the other hand, it is common instead to evaluate language models on proxy tasks, e.g., language modeling or sequence-to-sequence transduction, that are similar in only an informal sense to the underlying theory. We correct this mismatch by training and evaluating neural networks directly as binary classifiers of strings, using a general method that can be applied to a wide variety of languages. As part of this, we extend an algorithm recently proposed by Sn{\ae}bjarnarson et al. (2025) for efficient length-controlled sampling of strings from regular languages. We provide results on a variety of languages across the Chomsky hierarchy for three neural architectures: a simple RNN, an LSTM, and a causally-masked transformer. We find that the RNN and LSTM often outperform the transformer, and that auxiliary training objectives such as language modeling can help, although no single objective uniformly improves performance across languages and architectures. Our contributions will facilitate theoretically sound empirical testing of language recognition claims in future work. We have released our datasets as a benchmark called FLaRe (Formal Language Recognition), along with our code.

arxiv情報

著者 Alexandra Butoi,Ghazal Khalighinejad,Anej Svete,Josef Valvoda,Ryan Cotterell,Brian DuSell
発行日 2025-03-17 14:51:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Training Neural Networks as Recognizers of Formal Languages はコメントを受け付けていません

TablePilot; Recommending Human-Preferred Tabular Data Analysis with Large Language Models

要約

多くのシナリオでは表形式のデータ分析が重要ですが、新しいテーブルの最も関連性の高いデータ分析クエリと結果を効率的に識別することは重要な課題です。
表形式データの複雑さ、多様な分析操作、および高品質の分析の需要により、プロセスは退屈になります。
これらの課題に対処するために、表形式のデータ分析ワークフローの新しいテーブルに合わせたクエリコードと表現のトリプレットを推奨することを目指しています。
このホワイトペーパーでは、テーブルパイロットを提示します。これは、ユーザープロファイルや以前の相互作用に依存することなく、大規模な言語モデルを活用して包括的かつ優れた分析結果を自律的に生成するための大規模な言語モデルを活用する先駆的な表パイロットを紹介します。
このフレームワークには、分析の準備と分析の最適化に重要な設計が組み込まれ、精度が向上します。
さらに、推奨の品質をさらに向上させ、人間の好みに合わせてより適切に整合するための新しい方法であるRec-Alignを提案します。
包括的な表形式データ分析の推奨用に特別に設計されたデータセットであるDARTの実験は、フレームワークの有効性を示しています。
GPT-4Oに基づいて、調整されたテーブルパイロットは77.0%のトップ5の推奨リコールを実現します。
人間の評価は、表形式データ分析ワークフローを最適化する際のその有効性をさらに強調しています。

要約(オリジナル)

Tabular data analysis is crucial in many scenarios, yet efficiently identifying the most relevant data analysis queries and results for a new table remains a significant challenge. The complexity of tabular data, diverse analytical operations, and the demand for high-quality analysis make the process tedious. To address these challenges, we aim to recommend query-code-result triplets tailored for new tables in tabular data analysis workflows. In this paper, we present TablePilot, a pioneering tabular data analysis framework leveraging large language models to autonomously generate comprehensive and superior analytical results without relying on user profiles or prior interactions. The framework incorporates key designs in analysis preparation and analysis optimization to enhance accuracy. Additionally, we propose Rec-Align, a novel method to further improve recommendation quality and better align with human preferences. Experiments on DART, a dataset specifically designed for comprehensive tabular data analysis recommendation, demonstrate the effectiveness of our framework. Based on GPT-4o, the tuned TablePilot achieves 77.0% top-5 recommendation recall. Human evaluations further highlight its effectiveness in optimizing tabular data analysis workflows.

arxiv情報

著者 Deyin Yi,Yihao Liu,Lang Cao,Mengyu Zhou,Haoyu Dong,Shi Han,Dongmei Zhang
発行日 2025-03-17 15:16:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TablePilot; Recommending Human-Preferred Tabular Data Analysis with Large Language Models はコメントを受け付けていません

In-context Learning vs. Instruction Tuning: The Case of Small and Multilingual Language Models

要約

次の命令は、大規模な言語モデルがダウンストリームタスクを実行する重要な能力です。
命令アライメントへの標準的なアプローチは、キュレーションされた命令データセットを介したモデルチューニングの特定の段階に依存しており、オプションでは人間の好みに対するアライメントステップで補完されました。
最近の研究では、コンテキスト学習(ICL)の代替案の可能性が示されており、基本モデルを指示に向けて導きます。
このタイプのアプローチは、さまざまなタイプの使用に適応されるさまざまなサイズの言語とモデル間の指示を拡張するために特に関連しています。
この作業では、英語、フランス語、スペイン語でICLと命令を小言語モデルで比較し、基本モデルに直接優先最適化(DPO)を適用する実験結果を提供します。
我々の結果は、多言語および小規模なモデルを含むシナリオにより、パフォーマンス後のICL命令が格下げされることを示しており、DPOアライメントによって部分的に緩和されただけです。
この研究の目的は、現在の長所と指示のための代替方法の制限についての理解を深めることを目的としています。

要約(オリジナル)

Instruction following is a critical ability for Large Language Models to perform downstream tasks. The standard approach to instruction alignment has relied on a specific phase of model tuning over curated instruction datasets, optionally complemented with an alignment step over human preferences. Recent work has shown the potential of in-context learning (ICL) alternatives to guide base models towards instruction following. This type of approach is particularly relevant to extend instruction following across languages and models of varying sizes adapted to different types of usage. In this work we compare ICL and instruction fine-tuning in English, French and Spanish, on Small Language Models, and provide experimental results on applying Direct Preference Optimisation (DPO) over base models. Our results show that scenarios involving multilingual and smaller models result in downgraded ICL instruction following performance, only partially mitigated by DPO alignment. This study aims to further our understanding of current strengths and limitations of alternative methods for instruction following.

arxiv情報

著者 David Ponce,Thierry Etchegoyhen
発行日 2025-03-17 15:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | In-context Learning vs. Instruction Tuning: The Case of Small and Multilingual Language Models はコメントを受け付けていません

BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks

要約

マルチモーダルAIには、領収書の処理、ワークフローの理解、ドキュメントからのデータの抽出、レポートの要約など、ドキュメント理解タスクを大幅に強化する可能性があります。
長期にわたる出力を必要とするコード生成タスクも、マルチモダリティによって強化できます。
それにもかかわらず、トレーニングデータへのアクセスが制限されているため、オープンアクセスを妨げる制限的なライセンスへのアクセスが制限されているため、商用アプリケーションでの使用はしばしば制限されています。
これらの制限に対処するために、30のタスクにわたって750万のマルチモーダルドキュメントで構成される高品質のオープンアクセスデータセットであるBigDocs-7.5Mを導入します。
効率的なデータキュレーションプロセスを使用して、データが高品質でライセンスが守られていることを確認します。
私たちのプロセスは、フィルタリングルール、追跡可能なメタデータ、および慎重なコンテンツ分析を通じて、説明責任、責任、および透明性を強調しています。
さらに、10の新しいタスクを備えたベンチマークスイートであるBigDocs-Benchを紹介します。このタスクでは、グラフィカルユーザーインターフェイス(GUI)と画像からのコード生成を介した推論を含む実際のユースケースを反映するデータセットを作成します。
私たちの実験では、BigDocs-Benchでのトレーニングにより、ドキュメントの推論とScreenshot2HTMLやImage2Latex生成などの構造化された出力タスクで、クローズドソースGPT-4Oよりも最大25.8%の平均パフォーマンスが向上することが示されています。
最後に、人間の評価では、GPT-4oを超えるBigDocsでトレーニングされたモデルからの出力の好みが示されました。
これは、BigDocsが学者とオープンソースコミュニティの両方がAIツールを活用および改善して、マルチモーダル機能を強化し、推論を文書化するのに役立つことを示唆しています。
このプロジェクトは、https://bigdocs.github.ioでホストされています。

要約(オリジナル)

Multimodal AI has the potential to significantly enhance document-understanding tasks, such as processing receipts, understanding workflows, extracting data from documents, and summarizing reports. Code generation tasks that require long-structured outputs can also be enhanced by multimodality. Despite this, their use in commercial applications is often limited due to limited access to training data and restrictive licensing, which hinders open access. To address these limitations, we introduce BigDocs-7.5M, a high-quality, open-access dataset comprising 7.5 million multimodal documents across 30 tasks. We use an efficient data curation process to ensure our data is high-quality and license-permissive. Our process emphasizes accountability, responsibility, and transparency through filtering rules, traceable metadata, and careful content analysis. Additionally, we introduce BigDocs-Bench, a benchmark suite with 10 novel tasks where we create datasets that reflect real-world use cases involving reasoning over Graphical User Interfaces (GUI) and code generation from images. Our experiments show that training with BigDocs-Bench improves average performance up to 25.8% over closed-source GPT-4o in document reasoning and structured output tasks such as Screenshot2HTML or Image2Latex generation. Finally, human evaluations showed a preference for outputs from models trained on BigDocs over GPT-4o. This suggests that BigDocs can help both academics and the open-source community utilize and improve AI tools to enhance multimodal capabilities and document reasoning. The project is hosted at https://bigdocs.github.io .

arxiv情報

著者 Juan Rodriguez,Xiangru Jian,Siba Smarak Panigrahi,Tianyu Zhang,Aarash Feizi,Abhay Puri,Akshay Kalkunte,François Savard,Ahmed Masry,Shravan Nayak,Rabiul Awal,Mahsa Massoud,Amirhossein Abaskohi,Zichao Li,Suyuchen Wang,Pierre-André Noël,Mats Leon Richter,Saverio Vadacchino,Shubham Agarwal,Sanket Biswas,Sara Shanian,Ying Zhang,Noah Bolger,Kurt MacDonald,Simon Fauvel,Sathwik Tejaswi,Srinivas Sunkara,Joao Monteiro,Krishnamurthy DJ Dvijotham,Torsten Scholak,Nicolas Chapados,Sepideh Kharagani,Sean Hughes,M. Özsu,Siva Reddy,Marco Pedersoli,Yoshua Bengio,Christopher Pal,Issam Laradji,Spandana Gella,Perouz Taslakian,David Vazquez,Sai Rajeswar
発行日 2025-03-17 16:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks はコメントを受け付けていません

Aligned Probing: Relating Toxic Behavior and Model Internals

要約

Aligned Probingを導入します。これは、出力と内部表現(内部)に基づいて、言語モデル(LMS)の動作を整列させる新しい解釈可能性フレームワークです。
このフレームワークを使用して、20を超えるOlmo、Llama、およびMistralモデルを調べ、毒性の行動と内部の視点を初めて橋渡しします。
我々の結果は、LMSが入力の毒性レベルとその後の出力、特に下層層での情報を強くエンコードすることを示しています。
LMSがどのように異なるかに焦点を当てることは、入力毒性に関する情報を強くエンコードするときに、より少ない毒性出力を生成するという相関的および因果的証拠の両方を提供します。
また、モデルの行動と内部は脅威などの一意の属性によって異なるため、毒性の不均一性を強調します。
最後に、解毒、マルチプロムプト評価、モデルの量子化、およびトレーニング前のダイナミクスを分析する4つのケーススタディが、さらに具体的な洞察を備えた調整プローブの実際的な影響を強調しています。
私たちの調査結果は、毒性の文脈内外でのLMSのより全体的な理解に貢献しています。

要約(オリジナル)

We introduce aligned probing, a novel interpretability framework that aligns the behavior of language models (LMs), based on their outputs, and their internal representations (internals). Using this framework, we examine over 20 OLMo, Llama, and Mistral models, bridging behavioral and internal perspectives for toxicity for the first time. Our results show that LMs strongly encode information about the toxicity level of inputs and subsequent outputs, particularly in lower layers. Focusing on how unique LMs differ offers both correlative and causal evidence that they generate less toxic output when strongly encoding information about the input toxicity. We also highlight the heterogeneity of toxicity, as model behavior and internals vary across unique attributes such as Threat. Finally, four case studies analyzing detoxification, multi-prompt evaluations, model quantization, and pre-training dynamics underline the practical impact of aligned probing with further concrete insights. Our findings contribute to a more holistic understanding of LMs, both within and beyond the context of toxicity.

arxiv情報

著者 Andreas Waldis,Vagrant Gautam,Anne Lauscher,Dietrich Klakow,Iryna Gurevych
発行日 2025-03-17 17:23:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Aligned Probing: Relating Toxic Behavior and Model Internals はコメントを受け付けていません

SuperBPE: Space Travel for Language Models

要約

ほぼすべての言語モデル(LM)トークン化スキームにわたる仮定は、トークンがサブワード、つまり単語の境界内に含まれるべきであるということです。
一見合理的な帰納的バイアスを提供しながら、この一般的な慣行は現代のLMSの可能性を制限しているのでしょうか?
Whitespaceは、マルチワード式(例えば、「ちなみに」)、概念を表現するために必要な単語の数の交差的な変動(ドイツ語の「スペーススーツヘルメット」が「ラウマンツハルム」)の交差的な変動と、ホワイトスペースを使用しない言語(E.G.、中国)を表現する信頼できる意味の区切り文字ではありません。
サブワードを超えたトークン化の可能性を調査するために、「スーパーワード」トークンザー、SuperBPEを導入します。これには、単純なプレシングカリキションをバイトペアエンコーディング(BPE)アルゴリズムに組み込み、最初にサブワードを学習し、次にホワイトスペースを橋渡しします。
これにより、エンコード効率の劇的な改善がもたらされます。語彙サイズを200kに修正すると、SuperBPEは平均してBPEよりも最大33%少ないトークンの固定テキストをエンコードします。
実験では、モデルサイズ、語彙サイズ、およびトレーニングの計算を修正しながら、8b変圧器LMSをゼロから取得し、語彙を学習するためのアルゴリズムのみを変化させます。
SuperBPEで訓練されたモデルは、30のダウンストリームタスク(MMLUで +8.2%を含む)にわたってBPEベースラインで平均 +4​​.0%の絶対改善を達成し、同時に推論時に27%少ない計算が必要です。
分析では、SuperBPEは、トークンあたりの難易度でより均一なテキストのセグメンテーションをもたらすことがわかります。
定性的には、これは、SuperBPEトークンが多くの場合、単一のユニットとして意味的に機能する一般的なマルチワード式をキャプチャすることが多いためかもしれません。
SuperBPEは、エンコード効率とダウンストリームパフォーマンスの両方を改善し、全体的に優れた言語モデルをもたらす、トークン化の局所的な修正であり、トークン化の局所的な変更です。

要約(オリジナル)

The assumption across nearly all language model (LM) tokenization schemes is that tokens should be subwords, i.e., contained within word boundaries. While providing a seemingly reasonable inductive bias, is this common practice limiting the potential of modern LMs? Whitespace is not a reliable delimiter of meaning, as evidenced by multi-word expressions (e.g., ‘by the way’), crosslingual variation in the number of words needed to express a concept (e.g., ‘spacesuit helmet’ in German is ‘raumanzughelm’), and languages that do not use whitespace at all (e.g., Chinese). To explore the potential of tokenization beyond subwords, we introduce a ‘superword’ tokenizer, SuperBPE, which incorporates a simple pretokenization curriculum into the byte-pair encoding (BPE) algorithm to first learn subwords, then superwords that bridge whitespace. This brings dramatic improvements in encoding efficiency: when fixing the vocabulary size to 200k, SuperBPE encodes a fixed piece of text with up to 33% fewer tokens than BPE on average. In experiments, we pretrain 8B transformer LMs from scratch while fixing the model size, vocabulary size, and train compute, varying *only* the algorithm for learning the vocabulary. Our model trained with SuperBPE achieves an average +4.0% absolute improvement over the BPE baseline across 30 downstream tasks (including +8.2% on MMLU), while simultaneously requiring 27% less compute at inference time. In analysis, we find that SuperBPE results in segmentations of text that are more uniform in per-token difficulty. Qualitatively, this may be because SuperBPE tokens often capture common multi-word expressions that function semantically as a single unit. SuperBPE is a straightforward, local modification to tokenization that improves both encoding efficiency and downstream performance, yielding better language models overall.

arxiv情報

著者 Alisa Liu,Jonathan Hayase,Valentin Hofmann,Sewoong Oh,Noah A. Smith,Yejin Choi
発行日 2025-03-17 17:53:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | SuperBPE: Space Travel for Language Models はコメントを受け付けていません

Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs

要約

特に医学や法律などのハイステークスドメインでは、知識集約型のタスクでは、関連する情報を取得するだけでなく、因果的推論と説明可能性を提供することが重要です。
大規模な言語モデル(LLM)は、自然言語の理解と生成タスクで顕著なパフォーマンスを達成しています。
しかし、彼らはしばしば、新しい知識を取り入れ、幻覚を生み出し、推論プロセスを説明するのが難しいなどの制限に苦しんでいます。
これらの課題に対処するために、知識グラフとグラフの検索された生成(グラフrag)を統合することが効果的なソリューションとして浮上しています。
従来のグラフラグ法は、多くの場合、単純なグラフのトラバーサルまたはセマンティックの類似性に依存しています。これは、因果関係をキャプチャしたり、モデルの内部推論ステップとうまく調和していません。
このホワイトペーパーでは、大規模な知識グラフをフィルタリングして因果効果エッジを強調し、検索プロセスをモデルの考え方(COT)に合わせ、マルチステージパスの改善を通じて推論を強化する新しいパイプラインを提案します。
医学的な質問タスクに関する実験では、複数の大規模な言語モデル(LLMS)にわたって最大10 \%の絶対改善があり、一貫した利益が示されています。
このアプローチは、因果的推論と段階的な検索を組み合わせることの価値を示しており、複雑なクエリに対してより解釈可能で論理的に接地されたソリューションにつながります。

要約(オリジナル)

In knowledge-intensive tasks, especially in high-stakes domains like medicine and law, it is critical not only to retrieve relevant information but also to provide causal reasoning and explainability. Large language models (LLMs) have achieved remarkable performance in natural language understanding and generation tasks. However, they often suffer from limitations such as difficulty in incorporating new knowledge, generating hallucinations, and explaining their reasoning process. To address these challenges, integrating knowledge graphs with Graph Retrieval-Augmented Generation (Graph RAG) has emerged as an effective solution. Traditional Graph RAG methods often rely on simple graph traversal or semantic similarity, which do not capture causal relationships or align well with the model’s internal reasoning steps. This paper proposes a novel pipeline that filters large knowledge graphs to emphasize cause-effect edges, aligns the retrieval process with the model’s chain-of-thought (CoT), and enhances reasoning through multi-stage path improvements. Experiments on medical question-answering tasks show consistent gains, with up to a 10\% absolute improvement across multiple large language models (LLMs). This approach demonstrates the value of combining causal reasoning with stepwise retrieval, leading to more interpretable and logically grounded solutions for complex queries.

arxiv情報

著者 Hang Luo,Jian Zhang,Chujun Li
発行日 2025-03-17 14:32:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph-Augmented LLMs はコメントを受け付けていません

Robust Decision-Making Via Free Energy Minimization

要約

画期的なパフォーマンスにもかかわらず、最先端の自律エージェントは、トレーニングや環境条件が一貫性のないときに不正行為をする可能性があり、軽微な不一致が望ましくない行動や壊滅的な失敗につながります。
これらのトレーニング/環境のあいまいさに対する堅牢性は、インテリジェントエージェントの中心的な要件であり、その充足は、現実の世界にエージェントを展開する際の長年の課題です。
ここでは、トレーニングを通じて堅牢性を求める主流のビューから出発すると、このコアプロパティを設計する自由エネルギーモデルであるDR-Freeを紹介します。
自由エネルギーの最小化により、エージェントの意思決定メカニズムに堅牢性を直接配線します。
自由エネルギー原理の堅牢な拡張と新しい解像度エンジンを組み合わせることにより、DR-Freeは、あいまいさに対して最適なポリシーを返します。
さらに、初めて、最適な決定と必要なベイジアンの信念の更新における曖昧さの機械的役割を明らかにします。
私たちは、障害物で満たされた曖昧な環境をナビゲートする本物のローバーを含む実験的なテストベッドでDR-Freeを評価します。
すべての実験で、DR-Freeにより、DR-Free Failを使用しないエージェントを最小化する標準の自由エネルギーを最小限に抑える場合でも、ロボットは目標に向かってうまくナビゲートできます。
要するに、DRフリーは、以前の方法を避けるシナリオに取り組むことができます。このマイルストーンは、マルチエージェント設定での展開と、おそらくより深いレベルでの両方の展開を刺激する可能性があります。

要約(オリジナル)

Despite their groundbreaking performance, state-of-the-art autonomous agents can misbehave when training and environmental conditions become inconsistent, with minor mismatches leading to undesirable behaviors or even catastrophic failures. Robustness towards these training/environment ambiguities is a core requirement for intelligent agents and its fulfillment is a long-standing challenge when deploying agents in the real world. Here, departing from mainstream views seeking robustness through training, we introduce DR-FREE, a free energy model that installs this core property by design. It directly wires robustness into the agent decision-making mechanisms via free energy minimization. By combining a robust extension of the free energy principle with a novel resolution engine, DR-FREE returns a policy that is optimal-yet-robust against ambiguity. Moreover, for the first time, it reveals the mechanistic role of ambiguity on optimal decisions and requisite Bayesian belief updating. We evaluate DR-FREE on an experimental testbed involving real rovers navigating an ambiguous environment filled with obstacles. Across all the experiments, DR-FREE enables robots to successfully navigate towards their goal even when, in contrast, standard free energy minimizing agents that do not use DR-FREE fail. In short, DR-FREE can tackle scenarios that elude previous methods: this milestone may inspire both deployment in multi-agent settings and, at a perhaps deeper level, the quest for a biologically plausible explanation of how natural agents – with little or no training – survive in capricious environments.

arxiv情報

著者 Allahkaram Shafiei,Hozefa Jesawada,Karl Friston,Giovanni Russo
発行日 2025-03-17 14:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY, math.OC | Robust Decision-Making Via Free Energy Minimization はコメントを受け付けていません

GraphRouter: A Graph-based Router for LLM Selections

要約

急速に成長している大規模な言語モデル(LLMS)は、特にパフォーマンスと計算コストのトレードオフを考慮して、特定のクエリに適切なLLMを効率的に選択する上で重要な課題を提示します。
現在のLLM選択方法は、タスク、クエリ、およびLLM間のコンテキスト相互作用を活用する能力が限られているため、トランスダクティブ学習フレームワークへの依存のために、新しいLLMとさまざまなタスク全体に一般化するのに苦労しています。
これらの欠点に対処するために、LLM選択プロセスを強化するためにタスク、クエリ、およびLLMSのコンテキスト情報を完全に利用するGraphRouterと名付けられた新しい誘導グラフフレームワークを紹介します。
GraphRouterは、タスク、クエリ、およびLLMノードを含む不均一なグラフを構築し、相互作用がエッジとして表され、クエリの要件とLLMの機能の間のコンテキスト情報を効率的にキャプチャします。
革新的なエッジ予測メカニズムを通じて、GraphRouterは潜在的なエッジの属性(LLM応答の効果とコスト)を予測することができ、再訓練を必要とせずに既存および新しく導入されたLLMの両方に適応する最適化された推奨事項を可能にします。
3つの異なる効果コスト重量シナリオにわたる包括的な実験により、GraphRouterは既存のルーターを大幅に上回り、12.3%の最小パフォーマンス改善を提供することが示されています。
さらに、新しいLLMS設定全体で強化された一般化を達成し、少なくとも9.5%の増加と計算需要の大幅な削減により、多様なタスクをサポートします。
この作業は、LLMSのコンテキストおよび適応的選択のためのグラフベースのアプローチを適用するよう努め、実際のアプリケーションの洞察を提供します。
GraphRouterのコードは、https://github.com/ulab-uiuc/graphrouterでリリースされています。

要約(オリジナル)

The rapidly growing number and variety of Large Language Models (LLMs) present significant challenges in efficiently selecting the appropriate LLM for a given query, especially considering the trade-offs between performance and computational cost. Current LLM selection methods often struggle to generalize across new LLMs and different tasks because of their limited ability to leverage contextual interactions among tasks, queries, and LLMs, as well as their dependence on a transductive learning framework. To address these shortcomings, we introduce a novel inductive graph framework, named as GraphRouter, which fully utilizes the contextual information among tasks, queries, and LLMs to enhance the LLM selection process. GraphRouter constructs a heterogeneous graph comprising task, query, and LLM nodes, with interactions represented as edges, which efficiently captures the contextual information between the query’s requirements and the LLM’s capabilities. Through an innovative edge prediction mechanism, GraphRouter is able to predict attributes (the effect and cost of LLM response) of potential edges, allowing for optimized recommendations that adapt to both existing and newly introduced LLMs without requiring retraining. Comprehensive experiments across three distinct effect-cost weight scenarios have shown that GraphRouter substantially surpasses existing routers, delivering a minimum performance improvement of 12.3%. In addition, it achieves enhanced generalization across new LLMs settings and supports diverse tasks with at least a 9.5% boost in effect and a significant reduction in computational demands. This work endeavors to apply a graph-based approach for the contextual and adaptive selection of LLMs, offering insights for real-world applications. Our codes for GraphRouter is released at https://github.com/ulab-uiuc/GraphRouter.

arxiv情報

著者 Tao Feng,Yanzhen Shen,Jiaxuan You
発行日 2025-03-17 15:08:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | GraphRouter: A Graph-based Router for LLM Selections はコメントを受け付けていません