High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning

要約

現在、大規模な言語モデル(LLMS)は、すべてのプロンプトに応答しています。
ただし、知識や能力を欠いている場合、誤った回答を生み出すことができます。これは、幻覚として知られる問題です。
代わりに、トレーニング後のLLMを提案して、その正しさに自信があり、そうでなければ(部分的に)棄権する場合にのみコンテンツを生成します。
具体的には、私たちの方法である停止は、モデルが確実に生成できないものをコードする能力に整合したトレーニング後のデータを生成します。
事前に処理されたLLMの応答を事実上のフラグメント(原子ステートメントまたは推論手順)に分割することにより、このデータを生成し、グラウンドトゥルース情報を使用して誤った断片を識別します。
誤ったフラグメントを削除するか、「ここから不確かな」に置き換えることにより、能力に合わせた微調整応答を実践します。
3つの異なるトレードオフしきい値で停止して、伝記の執筆、数学、コーディング、および薬のための4つのオープンソースモデルを微調整します。
HALTは、正確さのために応答の完全性を効果的に交換し、応答フラグメントの平均正確性を平均で15%増加させ、その結果、関連するベースラインと比較してF1スコア(完全性と応答の完全性と正確性)が4%改善されます。
最も正確さのために停止を調整することにより、正確性を備えた単一の信頼できるllama3-70bモデルをトレーニングし、4つのドメインすべてで51%から87%に増加し、標準的な微調整で達成された応答の完全性の53%を維持します。

要約(オリジナル)

Large Language Models (LLMs) currently respond to every prompt. However, they can produce incorrect answers when they lack knowledge or capability — a problem known as hallucination. We instead propose post-training an LLM to generate content only when confident in its correctness and to otherwise (partially) abstain. Specifically, our method, HALT, produces capability-aligned post-training data that encodes what the model can and cannot reliably generate. We generate this data by splitting responses of the pretrained LLM into factual fragments (atomic statements or reasoning steps), and use ground truth information to identify incorrect fragments. We achieve capability-aligned finetuning responses by either removing incorrect fragments or replacing them with ‘Unsure from Here’ — according to a tunable threshold that allows practitioners to trade off response completeness and mean correctness of the response’s fragments. We finetune four open-source models for biography writing, mathematics, coding, and medicine with HALT for three different trade-off thresholds. HALT effectively trades off response completeness for correctness, increasing the mean correctness of response fragments by 15% on average, while resulting in a 4% improvement in the F1 score (mean of completeness and correctness of the response) compared to the relevant baselines. By tuning HALT for highest correctness, we train a single reliable Llama3-70B model with correctness increased from 51% to 87% across all four domains while maintaining 53% of the response completeness achieved with standard finetuning.

arxiv情報

著者 Tim Franzmeyer,Archie Sravankumar,Lijuan Liu,Yuning Mao,Rui Hou,Sinong Wang,Jakob N. Foerster,Luke Zettlemoyer,Madian Khabsa
発行日 2025-06-04 15:16:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning はコメントを受け付けていません

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

要約

言語モデル(LMS)の不確実性の定量化(UQ)は、安全性と信頼性を改善するための鍵です。
多くの場合、AUROCのようなメトリックを使用して、UQメソッド(ネガティブシーケンス確率など)がタスクの正しさ関数(例:Rouge-L)とどれだけ適しているかを評価します。
UQメソッドと正確性関数の両方が同じ要因によってバイアスされている場合、相互のバイアスが体系的に歪んでいることを示します。
第一に、相互のバイアスが非ランダムなバイアスがオーロックランキングをゆがめ、ベンチマークの完全性を損なうことを正式に証明します。
第二に、これは、語彙ベースおよび埋め込みベースのメトリックから、4つのデータセットx 4モデルx 8 UQメソッドを越えて、語彙ベースおよび埋め込みベースのメトリックからLM-a-a-a-judgeアプローチまで、7つの広く使用されている正確性関数をテストすることにより、経験的に発生することを確認します。
私たちの分析は、正確さ関数の長さのバイアスがUQメソッドの長さバイアスと相互作用することにより、UQ評価を歪めることを示しています。
LM-as-a-judgeメソッドを最も長さが偏っていないことを特定し、より公平なUQ評価のための有望なパスを提供します。

要約(オリジナル)

Uncertainty Quantification (UQ) in Language Models (LMs) is key to improving their safety and reliability. Evaluations often use metrics like AUROC to assess how well UQ methods (e.g., negative sequence probabilities) correlate with task correctness functions (e.g., ROUGE-L). We show that mutual biases–when both UQ methods and correctness functions are biased by the same factors–systematically distort evaluation. First, we formally prove that any mutual bias non-randomly skews AUROC rankings, compromising benchmark integrity. Second, we confirm this happens empirically by testing 7 widely used correctness functions, from lexical-based and embedding-based metrics to LM-as-a-judge approaches, across 4 datasets x 4 models x 8 UQ methods. Our analysis shows that length biases in correctness functions distort UQ assessments by interacting with length biases in UQ methods. We identify LM-as-a-judge methods as the least length-biased, offering a promising path for a fairer UQ evaluation.

arxiv情報

著者 Andrea Santilli,Adam Golinski,Michael Kirchhof,Federico Danieli,Arno Blaas,Miao Xiong,Luca Zappella,Sinead Williamson
発行日 2025-06-04 15:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results はコメントを受け付けていません

AI and the Dynamic Supply of Training Data

要約

人工知能(AI)システムは、人間で生成されたデータに大きく依存していますが、そのデータの背後にある人々はしばしば見落とされています。
人間の行動は、既存の作品へのアクセスを制限したり、どのタイプの新しい作品を作成したり、まさに作成するかを決定することで、AIトレーニングデータセットで大きな役割を果たすことができます。
作成者の行動の変化が、作業が商用AIのトレーニングデータになったときに調べます。
具体的には、約600万の高品質の写真とイラストを備えた人気のあるストックイメージプラットフォームであるUnsplashの貢献者に焦点を当てています。
2020年の夏、Unsplashは研究プログラムを開始し、商用AI使用のために25,000の画像のデータセットをリリースしました。
貢献者の反応を研究し、このデータセットに作品が含まれていた貢献者との貢献者を比較しています。
我々の結果は、扱われた貢献者がプラットフォームをより高い速度でプラットフォームを残し、新しいアップロードの速度を大幅に減速させたことを示唆しています。
プロの写真家と影響を受けたユーザーがより強く影響を受けたユーザーは、アマチュアや影響を受けないユーザーよりも強い反応を示しました。
また、影響を受けるユーザーがプラットフォームへの貢献の多様性と斬新さを変えたことを示しています。
私たちの調査結果は、重要なトレードオフを強調しています。AI機能を拡大するためのドライブと、トレーニングデータを作成するインセンティブです。
ダイナミック補償スキームや構造化されたデータ市場を含む政策提案を、データフロンティアでインセンティブを再編成することを締めくくります。

要約(オリジナル)

Artificial intelligence (AI) systems rely heavily on human-generated data, yet the people behind that data are often overlooked. Human behavior can play a major role in AI training datasets, be it in limiting access to existing works or in deciding which types of new works to create or whether to create any at all. We examine creators’ behavioral change when their works become training data for commercial AI. Specifically, we focus on contributors on Unsplash, a popular stock image platform with about 6 million high-quality photos and illustrations. In the summer of 2020, Unsplash launched a research program and released a dataset of 25,000 images for commercial AI use. We study contributors’ reactions, comparing contributors whose works were included in this dataset to contributors whose works were not. Our results suggest that treated contributors left the platform at a higher-than-usual rate and substantially slowed down the rate of new uploads. Professional photographers and more heavily affected users had a stronger reaction than amateurs and less affected users. We also show that affected users changed the variety and novelty of contributions to the platform, which can potentially lead to lower-quality AI outputs in the long run. Our findings highlight a critical trade-off: the drive to expand AI capabilities versus the incentives of those producing training data. We conclude with policy proposals, including dynamic compensation schemes and structured data markets, to realign incentives at the data frontier.

arxiv情報

著者 Christian Peukert,Florian Abeillon,Jérémie Haese,Franziska Kaiser,Alexander Staub
発行日 2025-06-04 15:28:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, econ.GN, q-fin.EC | AI and the Dynamic Supply of Training Data はコメントを受け付けていません

REAL: Response Embedding-based Alignment for LLMs

要約

大規模な言語モデル(LLM)を人間の好みに合わせることは、通常、監視されたデータセットでのトレーニングを含む、役立つ安全なAIツールを構築する上で重要なステップです。
直接選好最適化(DPO)などの一般的なアルゴリズムは、人間の注釈に従ってランク付けされたAI生成された応答のペアに依存しています。
応答ペアの注釈プロセスは、人間のバイアスをもたらす可能性があります。
正しい選好データセットを構築することは、アライメントパイプラインの費用のかかる部分です。
LLMSアラインメントの注釈効率と品質を改善するために、REAL:Response EmbeddingベースのLLMSのアラインメントを提案します。LLMSは、応答候補のセットからラベルを付けるためのあまり曖昧な選好ペアを取得することに焦点を当てた高品質のトレーニングデータセットを構築するための戦略です。
私たちの選択プロセスは、プロンプトとは独立して埋め込み応答の類似性に基づいています。これは、オフポリシー設定で選択プロセスを保証し、トレーニング中の類似性を適応的に測定することを避けます。
実世界のデータセットSHP2および合成HH-RLHFベンチマークの実験結果は、異なる応答ペアを選択すると、LLMSの直接アラインメントが強化され、遺伝性標識エラーが減少することが示されています。
異なる応答ペアに合わせたモデルは、対話タスクのより良いマージンと勝利率を取得しました。
私たちの調査結果は、異なるペアに焦点を当てることで、ラベルエラーを減らし、LLMアライメント効率を改善し、アノテーターの作業の最大65ドル\%$を節約できることを示唆しています。

要約(オリジナル)

Aligning large language models (LLMs) to human preferences is a crucial step in building helpful and safe AI tools, which usually involve training on supervised datasets. Popular algorithms such as Direct Preference Optimization (DPO) rely on pairs of AI-generated responses ranked according to human annotation. The response pair annotation process might bring human bias. Building a correct preference dataset is the costly part of the alignment pipeline. To improve annotation efficiency and quality in the LLMs alignment, we propose REAL: Response Embedding-based Alignment for LLMs, a strategy for constructing a high-quality training dataset that focuses on acquiring the less ambiguous preference pairs for labeling out of a set of response candidates. Our selection process is based on the similarity of embedding responses independently of prompts, which guarantees the selection process in an off-policy setting, avoiding adaptively measuring the similarity during the training. Experimental results on real-world dataset SHP2 and synthetic HH-RLHF benchmarks indicate that choosing dissimilar response pairs enhances the direct alignment of LLMs while reducing inherited labeling errors. The model aligned with dissimilar response pairs obtained a better margin and win rate on the dialogue task. Our findings suggest that focusing on distinct pairs can reduce the label error and improve LLM alignment efficiency, saving up to $65\%$ of annotators’ work.

arxiv情報

著者 Honggen Zhang,Xufeng Zhao,Igor Molybog,June Zhang
発行日 2025-06-04 15:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | REAL: Response Embedding-based Alignment for LLMs はコメントを受け付けていません

LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation

要約

医学の大規模な言語モデル(LLM)を評価することは重要です。なぜなら、医療アプリケーションにはエラーの余地がほとんどなく、高精度が必要だからです。
現在の医療ベンチマークには、3つの主要なタイプがあります。健康診断ベース、包括的な医療、および専門的な評価です。
ただし、これらのベンチマークには、問題の設計(主に複数選択)、データソース(多くの場合、実際の臨床シナリオから派生していない)、および評価方法(複雑な推論の評価が不十分)に制限があります。
これらの問題に対処するために、LLMEVAL-MEDを提示します。これは、実世界の電子健康記録と専門家が設計した臨床シナリオから作成された2,996の質問を含む5つのコア医療分野をカバーする新しいベンチマークです。
また、自動評価パイプラインを設計し、専門家が開発したチェックリストをLLM-As-Judgeフレームワークに組み込みます。
さらに、私たちの方法論は、信頼性を確保するために専門家のフィードバックに基づいて、ヒューマンマシン契約分析、動的に改良されたチェックリストとプロンプトを通じてマシンのスコアリングを検証します。
LLMEVAL-MEDで3つのカテゴリ(専門的な医療モデル、オープンソースモデル、クローズドソースモデル)にわたって13のLLMを評価し、医療ドメインにおけるLLMの安全で効果的な展開のための貴重な洞察を提供します。
データセットはhttps://github.com/llmeval/llmeval-medでリリースされます。

要約(オリジナル)

Evaluating large language models (LLMs) in medicine is crucial because medical applications require high accuracy with little room for error. Current medical benchmarks have three main types: medical exam-based, comprehensive medical, and specialized assessments. However, these benchmarks have limitations in question design (mostly multiple-choice), data sources (often not derived from real clinical scenarios), and evaluation methods (poor assessment of complex reasoning). To address these issues, we present LLMEval-Med, a new benchmark covering five core medical areas, including 2,996 questions created from real-world electronic health records and expert-designed clinical scenarios. We also design an automated evaluation pipeline, incorporating expert-developed checklists into our LLM-as-Judge framework. Furthermore, our methodology validates machine scoring through human-machine agreement analysis, dynamically refining checklists and prompts based on expert feedback to ensure reliability. We evaluate 13 LLMs across three categories (specialized medical models, open-source models, and closed-source models) on LLMEval-Med, providing valuable insights for the safe and effective deployment of LLMs in medical domains. The dataset is released in https://github.com/llmeval/LLMEval-Med.

arxiv情報

著者 Ming Zhang,Yujiong Shen,Zelin Li,Huayu Sha,Binze Hu,Yuhui Wang,Chenhao Huang,Shichun Liu,Jingqi Tong,Changhao Jiang,Mingxu Chai,Zhiheng Xi,Shihan Dou,Tao Gui,Qi Zhang,Xuanjing Huang
発行日 2025-06-04 15:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation はコメントを受け付けていません

EuroLLM-9B: Technical Report

要約

このレポートは、24の公式欧州連合言語すべてと11の追加言語をカバーすることにより、欧州市民のニーズをサポートするためにゼロから訓練された大規模な言語モデルであるEurollm-9Bを提示します。
Eurollmは、既存のオープンな大手言語モデルで過小評価され、サービスが不十分であるヨーロッパの言語の問題に対処しています。
トークン剤の設計、建築仕様、データフィルタリング、トレーニング手順など、Eurollm-9Bの開発の包括的な概要を提供します。
AIベースの多言語フィルターであるEurofilterの作成や、ヨーロッパ言語の言語カバレッジを強化するポストトレーニング用の新しい合成データセットであるEuroblocks-Syntheticの設計など、トレーニング前のデータ収集とフィルタリングパイプラインについて説明します。
評価の結果は、多言語のベンチマークと機械翻訳タスクでのEurollm-9Bの競争力のあるパフォーマンスを示しており、その規模の主要なヨーロッパ製LLMとして確立しています。
オープンな研究と採用をサポートするために、ベースおよび命令チューニングモデル、ユーロフィルター分類器、合成後のトレーニングデータセットなど、この作業のすべての主要なコンポーネントをリリースします。

要約(オリジナル)

This report presents EuroLLM-9B, a large language model trained from scratch to support the needs of European citizens by covering all 24 official European Union languages and 11 additional languages. EuroLLM addresses the issue of European languages being underrepresented and underserved in existing open large language models. We provide a comprehensive overview of EuroLLM-9B’s development, including tokenizer design, architectural specifications, data filtering, and training procedures. We describe the pre-training data collection and filtering pipeline, including the creation of EuroFilter, an AI-based multilingual filter, as well as the design of EuroBlocks-Synthetic, a novel synthetic dataset for post-training that enhances language coverage for European languages. Evaluation results demonstrate EuroLLM-9B’s competitive performance on multilingual benchmarks and machine translation tasks, establishing it as the leading open European-made LLM of its size. To support open research and adoption, we release all major components of this work, including the base and instruction-tuned models, the EuroFilter classifier, and the synthetic post-training dataset.

arxiv情報

著者 Pedro Henrique Martins,João Alves,Patrick Fernandes,Nuno M. Guerreiro,Ricardo Rei,Amin Farajian,Mateusz Klimaszewski,Duarte M. Alves,José Pombal,Manuel Faysse,Pierre Colombo,François Yvon,Barry Haddow,José G. C. de Souza,Alexandra Birch,André F. T. Martins
発行日 2025-06-04 15:43:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | EuroLLM-9B: Technical Report はコメントを受け付けていません

AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

要約

具体化されたエージェントの一部として、ユーザーからの自然言語の指示を考慮して、大規模な言語モデル(LLM)が行動計画に使用されます。
ただし、実際の環境でのあいまいな指示に対処することは、LLMSにとって課題です。
タスクのあいまいさの検出のためのさまざまな方法が提案されています。
ただし、異なるデータセットでテストされており、普遍的なベンチマークがないため、それらを比較することは困難です。
このため、キッチン環境のロボットに宛てられた曖昧な指示の完全なテキストデータセットであるAmbik(キッチン環境での曖昧なタスク)を提案します。
AmbikはLLMSの支援を受けて収集され、人間が検証されています。
曖昧さのタイプ(人間の好み、常識の知識、安全性、安全性)、環境の説明、質問と回答、ユーザーの意図、タスクプラン、合計2000のタスクで、曖昧なタスクとその明確な対応物で構成されています。
Ambikが研究者が曖昧さ検出方法の統一された比較を実行できるようになることを願っています。
Ambikはhttps://github.com/cog-model/ambik-datasetで入手できます。

要約(オリジナル)

As a part of an embodied agent, Large Language Models (LLMs) are typically used for behavior planning given natural language instructions from the user. However, dealing with ambiguous instructions in real-world environments remains a challenge for LLMs. Various methods for task ambiguity detection have been proposed. However, it is difficult to compare them because they are tested on different datasets and there is no universal benchmark. For this reason, we propose AmbiK (Ambiguous Tasks in Kitchen Environment), the fully textual dataset of ambiguous instructions addressed to a robot in a kitchen environment. AmbiK was collected with the assistance of LLMs and is human-validated. It comprises 1000 pairs of ambiguous tasks and their unambiguous counterparts, categorized by ambiguity type (Human Preferences, Common Sense Knowledge, Safety), with environment descriptions, clarifying questions and answers, user intents, and task plans, for a total of 2000 tasks. We hope that AmbiK will enable researchers to perform a unified comparison of ambiguity detection methods. AmbiK is available at https://github.com/cog-model/AmbiK-dataset.

arxiv情報

著者 Anastasiia Ivanova,Eva Bakaeva,Zoya Volovikova,Alexey K. Kovalev,Aleksandr I. Panov
発行日 2025-06-04 15:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO | AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment はコメントを受け付けていません

Zero-shot cross-modal transfer of Reinforcement Learning policies through a Global Workspace

要約

人間は複数の感覚を通して世界を知覚し、周囲の包括的な表現を作成し、ドメイン全体で情報を一般化できるようにします。
たとえば、シーンのテキストの説明が与えられると、人間はそれを精神的に視覚化できます。
ロボット工学や強化学習(RL)などの分野では、エージェントは複数のセンサーを介して環境に関する情報にアクセスすることもできます。
しかし、センサー間の冗長性と相補性は、堅牢性の原因(センサーの障害に対する例:ドメインを横断する転送など)として活用することが困難です。
以前の研究では、「グローバルワークスペース」の認知科学の概念に基づいて、堅牢で柔軟なマルチモーダル表現を効率的に構築できることが実証されました。
ここでは、このような脳に触発されたマルチモーダル表現がRLエージェントにとって有利である可能性があるかどうかを調査します。
まず、「グローバルワークスペース」を訓練して、2つの入力モダリティ(視覚入力、またはエージェントの状態および/またはその環境を表す属性ベクトル)を介して環境について収集された情報を活用します。
次に、この凍結グローバルワークスペースを使用してRLエージェントポリシーをトレーニングします。
2つの異なる環境とタスクで、我々の結果は、入力モダリティ間でゼロショットクロスモーダル転送を実行するモデルの能力、つまり、追加のトレーニングや微調整なしに、属性ベクトル(および逆)で以前にトレーニングされたポリシーを画像入力に適用する能力を明らかにします。
完全なグローバルワークスペースのバリエーションとアブレーション(コントラスト学習を介して訓練されたクリップのようなマルチモーダル表現を含む)は、同じ一般化能力を表示しませんでした。

要約(オリジナル)

Humans perceive the world through multiple senses, enabling them to create a comprehensive representation of their surroundings and to generalize information across domains. For instance, when a textual description of a scene is given, humans can mentally visualize it. In fields like robotics and Reinforcement Learning (RL), agents can also access information about the environment through multiple sensors; yet redundancy and complementarity between sensors is difficult to exploit as a source of robustness (e.g. against sensor failure) or generalization (e.g. transfer across domains). Prior research demonstrated that a robust and flexible multimodal representation can be efficiently constructed based on the cognitive science notion of a ‘Global Workspace’: a unique representation trained to combine information across modalities, and to broadcast its signal back to each modality. Here, we explore whether such a brain-inspired multimodal representation could be advantageous for RL agents. First, we train a ‘Global Workspace’ to exploit information collected about the environment via two input modalities (a visual input, or an attribute vector representing the state of the agent and/or its environment). Then, we train a RL agent policy using this frozen Global Workspace. In two distinct environments and tasks, our results reveal the model’s ability to perform zero-shot cross-modal transfer between input modalities, i.e. to apply to image inputs a policy previously trained on attribute vectors (and vice-versa), without additional training or fine-tuning. Variants and ablations of the full Global Workspace (including a CLIP-like multimodal representation trained via contrastive learning) did not display the same generalization abilities.

arxiv情報

著者 Léopold Maytié,Benjamin Devillers,Alexandre Arnold,Rufin VanRullen
発行日 2025-06-04 15:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Zero-shot cross-modal transfer of Reinforcement Learning policies through a Global Workspace はコメントを受け付けていません

Optimizing Sensory Neurons: Nonlinear Attention Mechanisms for Accelerated Convergence in Permutation-Invariant Neural Networks for Reinforcement Learning

要約

トレーニング強化学習(RL)エージェントには、多くの場合、重要な計算リソースと延長トレーニング時間が必要です。
これに対処するために、Google Brainの感覚ニューロンによって築かれた基礎の上に構築され、感覚ニューロンシステムの順列化内容を維持する強化学習タスクのための新しいニューラルアーキテクチャを導入しました。
ベースラインモデルは、従来のアプローチよりも大幅なパフォーマンスの改善を示しましたが、学習プロセスの効率をさらに向上させる機会を特定しました。
マッピング関数を使用して、キーベクトル(k)の非線形変換を組み込んだ修正された注意メカニズムを提案し、新しいキーベクトル(k ‘)のセットになります。
この非線形マッピングは、注意メカニズムの表現能力を高め、モデルがより複雑な特徴の相互作用をエンコードし、パフォーマンスを損なうことなく収束を加速させることができます。
強化されたモデルは、学習効率の大幅な改善を示しており、強化学習アルゴリズムを進める際の非線形注意メカニズムの可能性を示しています。

要約(オリジナル)

Training reinforcement learning (RL) agents often requires significant computational resources and extended training times. To address this, we build upon the foundation laid by Google Brain’s Sensory Neuron, which introduced a novel neural architecture for reinforcement learning tasks that maintained permutation in-variance in the sensory neuron system. While the baseline model demonstrated significant performance improvements over traditional approaches, we identified opportunities to enhance the efficiency of the learning process further. We propose a modified attention mechanism incorporating a non-linear transformation of the key vectors (K) using a mapping function, resulting in a new set of key vectors (K’). This non-linear mapping enhances the representational capacity of the attention mechanism, allowing the model to encode more complex feature interactions and accelerating convergence without compromising performance. Our enhanced model demonstrates significant improvements in learning efficiency, showcasing the potential for non-linear attention mechanisms in advancing reinforcement learning algorithms.

arxiv情報

著者 Junaid Muzaffar,Khubaib Ahmed,Ingo Frommholz,Zeeshan Pervez,Ahsan ul Haq
発行日 2025-06-04 15:54:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Optimizing Sensory Neurons: Nonlinear Attention Mechanisms for Accelerated Convergence in Permutation-Invariant Neural Networks for Reinforcement Learning はコメントを受け付けていません

TextAtari: 100K Frames Game Playing with Language Agents

要約

TextAtariは、最大100,000のステップにまたがる非常に長期の意思決定タスクで言語エージェントを評価するためのベンチマークです。
古典的なアタリゲームの視覚的状態表現を豊かなテキストの説明に変換することにより、Textatariは、自然言語処理でシーケンシャルな意思決定を橋渡しする挑戦的なテストベッドを作成します。
ベンチマークには、さまざまな複雑さ、アクションスペース、および計画の視野を持つ100近くの異なるタスクが含まれており、すべてが監視されていない表現学習フレームワーク(Atariari)を通じてテキストとしてレンダリングされます。
3つのエージェントフレームワーク(ゼロショット、少ないショットチェーン、および反射推論)にわたって、3つのオープンソースの大型言語モデル(QWEN2.5-7B、GEMMA-7B、およびLLAMA3.1-8B)を評価して、これらの長期の課題の異なる形態の事前知識がパフォーマンスにどのように影響するかを評価します。
4つのシナリオ、根本的、不明瞭な、手動の増強、および参照ベースの投資は、エージェントの意思決定に関する意味的理解、指導の理解、および専門家のデモンストレーションの影響を調査します。
私たちの結果は、広範な計画タスクにおける言語エージェントと人間のプレーヤーの間の重要なパフォーマンスギャップを明らかにし、数万のステップにわたる順次推論、州の追跡、戦略的計画の課題を強調しています。
Textatariは、標準化された評価プロトコル、ベースラインの実装、および言語モデルと計画の交差点で研究を進めるためのフレームワークを提供します。

要約(オリジナル)

We present TextAtari, a benchmark for evaluating language agents on very long-horizon decision-making tasks spanning up to 100,000 steps. By translating the visual state representations of classic Atari games into rich textual descriptions, TextAtari creates a challenging test bed that bridges sequential decision-making with natural language processing. The benchmark includes nearly 100 distinct tasks with varying complexity, action spaces, and planning horizons, all rendered as text through an unsupervised representation learning framework (AtariARI). We evaluate three open-source large language models (Qwen2.5-7B, Gemma-7B, and Llama3.1-8B) across three agent frameworks (zero-shot, few-shot chain-of-thought, and reflection reasoning) to assess how different forms of prior knowledge affect performance on these long-horizon challenges. Four scenarios-Basic, Obscured, Manual Augmentation, and Reference-based-investigate the impact of semantic understanding, instruction comprehension, and expert demonstrations on agent decision-making. Our results reveal significant performance gaps between language agents and human players in extensive planning tasks, highlighting challenges in sequential reasoning, state tracking, and strategic planning across tens of thousands of steps. TextAtari provides standardized evaluation protocols, baseline implementations, and a framework for advancing research at the intersection of language models and planning.

arxiv情報

著者 Wenhao Li,Wenwu Li,Chuyun Shen,Junjie Sheng,Zixiao Huang,Di Wu,Yun Hua,Wei Yin,Xiangfeng Wang,Hongyuan Zha,Bo Jin
発行日 2025-06-04 15:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | TextAtari: 100K Frames Game Playing with Language Agents はコメントを受け付けていません