Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks

要約

現在の LLM ベンチマークは、モデルの事実と意味関係の記憶を評価することに焦点を当てており、主に長期記憶の意味的側面を評価しています。
ただし、人間の場合、長期記憶にはエピソード記憶も含まれており、記憶をその状況(記憶が起こった時間や場所など)に結び付けます。
記憶を文脈化する能力は、多くの認知タスクや日常の機能にとって非常に重要です。
この形式のメモリは、既存のベンチマークを使用した LLM では評価されていません。
LLM における記憶評価のギャップに対処するために、認知心理学におけるエピソード記憶の研究に使用されるタスクを応用した Sequence Order Recall Tasks (SORT) を導入します。
SORT は、LLM がテキスト セグメントの正しい順序を呼び出すことを要求し、簡単に拡張可能で追加の注釈を必要としない一般的なフレームワークを提供します。
我々は、最近パブリックドメインに追加された 9 冊の書籍から抽出された 36,000 のセグメントのペアで構成される初期評価データセット Book-SORT を提示します。
155 人の参加者を対象とした人体実験に基づいて、人間は本の長期記憶に基づいて順序を思い出すことができることを示しました。
SORT 評価中に関連するテキストがコンテキスト内で与えられると、モデルが高精度でタスクを実行できることがわかりました。
ただし、トレーニング中にのみ書籍のテキストを提示した場合、LLM の SORT でのパフォーマンスは不十分です。
SORT はメモリのより多くの側面を評価できるようにすることで、メモリ拡張モデルの新たな開発に役立つと考えています。

要約(オリジナル)

Current LLM benchmarks focus on evaluating models’ memory of facts and semantic relations, primarily assessing semantic aspects of long-term memory. However, in humans, long-term memory also includes episodic memory, which links memories to their contexts, such as the time and place they occurred. The ability to contextualize memories is crucial for many cognitive tasks and everyday functions. This form of memory has not been evaluated in LLMs with existing benchmarks. To address the gap in evaluating memory in LLMs, we introduce Sequence Order Recall Tasks (SORT), which we adapt from tasks used to study episodic memory in cognitive psychology. SORT requires LLMs to recall the correct order of text segments, and provides a general framework that is both easily extendable and does not require any additional annotations. We present an initial evaluation dataset, Book-SORT, comprising 36k pairs of segments extracted from 9 books recently added to the public domain. Based on a human experiment with 155 participants, we show that humans can recall sequence order based on long-term memory of a book. We find that models can perform the task with high accuracy when relevant text is given in-context during the SORT evaluation. However, when presented with the book text only during training, LLMs’ performance on SORT falls short. By allowing to evaluate more aspects of memory, we believe that SORT will aid in the emerging development of memory-augmented models.

arxiv情報

著者 Mathis Pink,Vy A. Vo,Qinyuan Wu,Jianing Mu,Javier S. Turek,Uri Hasson,Kenneth A. Norman,Sebastian Michelmann,Alexander Huth,Mariya Toneva
発行日 2024-10-10 17:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction

要約

離散データの生成モデリングは、ChatGPT のようなテキストベースのエージェントから、タンパク質配列におけるまさに生命の構成要素の設計に至るまで、重要なアプリケーションの基礎となります。
ただし、アプリケーション ドメインは、指定されたプロパティ、報酬、またはアフィニティ メトリックを満たすために、通常は RLHF を介して生成プロセスを操作することにより、生成されたデータを制御する必要があります。
この論文では、従来の自己回帰モデルに代わる強力な代替手段を提供する最近の離散拡散モデルであるマスク拡散モデル (MDM) のステアリングの問題を研究します。
ターゲットの事後ベイズからサンプリングすることを学習することで、事前トレーニングされた MDM を操作するタスクを確率的推論の問題としてキャストする新しいフレームワークである、離散ノイズ除去事後予測 (DDPP) を紹介します。
私たちの DDPP フレームワークは、すべてシミュレーション不要で、一般的な微分不可能な報酬関数に適用しながらスケーラブルな 3 つの新しい目標のファミリーにつながります。
経験的に、クラス条件付きのピクセルレベルの画像モデリング、テキストベースの報酬を使用した MDM の RLHF ベースのアライメント、およびより多様な二次構造と短いタンパク質を生成するタンパク質言語モデルの微調整を実行するように MDM を操作することにより、DDPP をインスタンス化します。
私たちは、報酬を最適化したタンパク質配列の一過性発現を観察するウェットラボ検証を通じて設計を実証します。

要約(オリジナル)

Generative modeling of discrete data underlies important applications spanning text-based agents like ChatGPT to the design of the very building blocks of life in protein sequences. However, application domains need to exert control over the generated data by steering the generative process – typically via RLHF – to satisfy a specified property, reward, or affinity metric. In this paper, we study the problem of steering Masked Diffusion Models (MDMs), a recent class of discrete diffusion models that offer a compelling alternative to traditional autoregressive models. We introduce Discrete Denoising Posterior Prediction (DDPP), a novel framework that casts the task of steering pre-trained MDMs as a problem of probabilistic inference by learning to sample from a target Bayesian posterior. Our DDPP framework leads to a family of three novel objectives that are all simulation-free, and thus scalable while applying to general non-differentiable reward functions. Empirically, we instantiate DDPP by steering MDMs to perform class-conditional pixel-level image modeling, RLHF-based alignment of MDMs using text-based rewards, and finetuning protein language models to generate more diverse secondary structures and shorter proteins. We substantiate our designs via wet-lab validation, where we observe transient expression of reward-optimized protein sequences.

arxiv情報

著者 Jarrid Rector-Brooks,Mohsin Hasan,Zhangzhi Peng,Zachary Quinn,Chenghao Liu,Sarthak Mittal,Nouha Dziri,Michael Bronstein,Yoshua Bengio,Pranam Chatterjee,Alexander Tong,Avishek Joey Bose
発行日 2024-10-10 17:18:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

AutoRD: An Automatic and End-to-End System for Rare Disease Knowledge Graph Construction Based on Ontologies-enhanced Large Language Models

要約

希少疾患は世界中で何百万人もの人々に影響を与えていますが、有病率が低いため研究の焦点が限られていることがよくあります。
その結果、診断が長期化し、承認された治療法が不足します。
大規模言語モデル (LLM) の最近の進歩により、医療情報の抽出の自動化が期待され、医療の診断と管理が改善される可能性が示されています。
しかし、ほとんどのLLMは、特に希少疾患に関する専門的な医学知識を欠いており、最新の希少疾患情報を扱うのに苦労しています。
また、希少疾患データを効果的に管理することはできず、診断や管理のタスクには直接適していません。
私たちの目的は、AutoRD と呼ばれるエンドツーエンドのシステムを作成することです。これは、希少疾患に関する医学書からの情報の抽出を自動化し、実体とその関係に焦点を当てています。
AutoRD は、最新の構造化された知識を統合し、希少疾患の抽出タスクにおいて優れたパフォーマンスを発揮します。
一般的な LLM や従来の手法を超えることを目指して、AutoRD のパフォーマンスを評価するためにさまざまな実験を行っています。

要約(オリジナル)

Rare diseases affect millions worldwide but often face limited research focus due to their low prevalence. This results in prolonged diagnoses and a lack of approved therapies. Recent advancements in Large Language Models (LLMs) have shown promise in automating the extraction of medical information, offering potential to improve medical diagnosis and management. However, most LLMs lack professional medical knowledge, especially concerning rare diseases, and struggle to handle the latest rare disease information. They also cannot effectively manage rare disease data and are not directly suitable for diagnosis and management tasks. Our objective is to create an end-to-end system called AutoRD, which automates the extraction of information from medical texts about rare diseases, focusing on entities and their relations. AutoRD integrates up-to-date structured knowledge and demonstrates superior performance in rare disease extraction tasks. We conduct various experiments to evaluate AutoRD’s performance, aiming to surpass common LLMs and traditional methods.

arxiv情報

著者 Lang Cao,Jimeng Sun,Adam Cross
発行日 2024-10-10 17:24:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Mini-batch Coresets for Memory-efficient Training of Large Language Models

要約

より大きなミニバッチを使用してトレーニングすると、収束率が向上し、優れたパフォーマンスが得られます。
ただし、大規模言語モデル (LLM) では、大規模な GPU メモリ要件が原因で、大規模なミニバッチを使用したトレーニングが法外になります。
この問題に対処するための効果的なアプローチは、より大きなミニバッチの勾配に厳密に一致する小さなミニバッチ コアセットを見つけることです。
ただし、言語データ内のソースの非常に不均衡な性質、Adam オプティマイザーの使用、および LLM の勾配次元が非常に大きいため、このアプローチは LLM では実行不可能で効果的ではありません。
この研究では、トレーニング LLM (CoLM) 用のコアセットを提案することで、上記の課題に対処します。
まず、勾配マッチングによって見つかったミニバッチ コアセットには、小さなソースの代表的な例が含まれていないため、最適なパフォーマンスを得るには、ミニバッチ コアセットに小さなソースのすべての例を含めることが重要であることを示します。
次に、履歴指数によって勾配を正規化し、Adam でトレーニングするためのミニバッチ コアセットを見つけます。
最後に、0 次法を活用して最後の V 射影行列の滑らかな勾配を見つけ、それをスパース化して、正規化された勾配の大きさが最大の次元を維持します。
CoLM を適用して、MathInstruct および SuperGLUE ベンチマークの LoRA を使用して Phi-2、Phi-3、および Zephyr を微調整します。
注目すべきことに、CoLM は微調整に必要なメモリを 2 分の 1 に削減し、さらに 4 倍大きいミニバッチを使用したトレーニングよりも優れたパフォーマンスを発揮します。
特に、CoLM は、LoRA などの既存のメモリ効率の高いトレーニング手法と簡単に積み重ねることができます。

要約(オリジナル)

Training with larger mini-batches improves the convergence rate and can yield superior performance. However, training with large mini-batches becomes prohibitive for Large Language Models (LLMs), due to the large GPU memory requirement. To address this problem, an effective approach is finding small mini-batch coresets that closely match the gradient of larger mini-batches. However, this approach becomes infeasible and ineffective for LLMs, due to the highly imbalanced nature of the sources in language data, use of the Adam optimizer, and the very large gradient dimensionality of LLMs. In this work, we address the above challenges by proposing Coresets for Training LLMs (CoLM). First, we show that mini-batch coresets found by gradient matching do not contain representative examples of the small sources w.h.p., and thus including all examples of the small sources in the mini-batch coresets is crucial for optimal performance. Second, we normalize the gradients by their historical exponential to find mini-batch coresets for training with Adam. Finally, we leverage zeroth-order methods to find smooth gradient of the last V -projection matrix and sparsify it to keep the dimensions with the largest normalized gradient magnitude. We apply CoLM to fine-tuning Phi-2, Phi-3, and Zephyr with LoRA on MathInstruct and SuperGLUE benchmark. Remarkably, CoLM reduces the memory requirement of fine-tuning by 2x and even outperforms training with 4x larger mini-batches. Notably, CoLM easily stack with existing memory-efficient training methods, such as LoRA.

arxiv情報

著者 Dang Nguyen,Wenhan Yang,Rathul Anand,Yu Yang,Baharan Mirzasoleiman
発行日 2024-10-10 17:25:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Hammer: Robust Function-Calling for On-Device Language Models via Function Masking

要約

大規模な言語モデルは、外部ツールや API 呼び出しを備えた場合に自律エージェントとして実行する際に優れた価値を実証しています。
それにもかかわらず、複雑なタスクを実行する潜在能力を効果的に活用するには、関数呼び出し機能の強化が不可欠です。
このペーパーでは、既存の関数呼び出しモデルの重大なギャップを特定します。このギャップでは、多くの場合、特定の命名規則によって誤解されることが原因で、ベンチマーク間でパフォーマンスが大幅に異なります。
このような問題に対処するために、オンデバイス関数呼び出し用に特別に設計された新しい基盤モデル ファミリである Hammer を紹介します。
Hammer は、無関係な関数に対するモデルの感度を高め、誤解を招くことを最小限に抑えるために関数マスキング技術を組み込む拡張データセットを採用しています。
私たちの経験的評価により、Hammer が大規模なモデルよりも優れたパフォーマンスを発揮するだけでなく、さまざまなベンチマークにわたって堅牢な一般化を示し、sota 結果を達成できることが明らかになりました。
私たちのオープンソースへの貢献には、無関係性検出のための特殊なデータセット、強化された一般化のためのチューニング フレームワーク、および関数呼び出しパフォーマンスの新しい標準を確立する Hammer モデルが含まれます。

要約(オリジナル)

Large language models have demonstrated impressive value in performing as autonomous agents when equipped with external tools and API calls. Nonetheless, effectively harnessing their potential for executing complex tasks crucially relies on enhancements in their function calling capabilities. This paper identifies a critical gap in existing function calling models, where performance varies significantly across benchmarks, often due to being misled by specific naming conventions. To address such an issue, we introduce Hammer, a novel family of foundation models specifically engineered for on-device function calling. Hammer employs an augmented dataset that enhances models’ sensitivity to irrelevant functions and incorporates function masking techniques to minimize misleading. Our empirical evaluations reveal that Hammer not only outperforms larger models but also demonstrates robust generalization across diverse benchmarks, achieving sota results. Our open source contributions include a specialized dataset for irrelevance detection, a tuning framework for enhanced generalization, and the Hammer models, establishing a new standard for function calling performance.

arxiv情報

著者 Qiqiang Lin,Muning Wen,Qiuying Peng,Guanyu Nie,Junwei Liao,Jun Wang,Xiaoyun Mo,Jiamu Zhou,Cheng Cheng,Yin Zhao,Jun Wang,Weinan Zhang
発行日 2024-10-10 17:29:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | コメントする

DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory

要約

大規模言語モデル (LLM) は、機械翻訳 (MT) の品質を合理的に向上させました。
しかし、MT-LLM に関する現在の研究のほとんどは、文書全体を処理する際に翻訳の一貫性と精度を維持するという大きな課題に依然として直面しています。
このホワイトペーパーでは、これらの制限を克服するために設計されたドキュメントレベルの翻訳エージェントである DelTA を紹介します。
DelTA は、固有名詞レコード、対訳要約、長期メモリ、短期メモリなど、さまざまな粒度とスパンにわたる情報を格納するマルチレベル メモリ構造を備えており、これらは補助的な LLM ベースのコンポーネントによって継続的に取得および更新されます。
実験結果は、4 つのオープン/クローズドソース LLM と 2 つの代表的な文書翻訳データセットにわたる翻訳の一貫性と品質の点で、DelTA が強力なベースラインを大幅に上回っており、一貫性スコアで最大 4.58 パーセント ポイント、COMET スコアで最大 5 の向上を達成していることを示しています。
平均3.16点。
DelTA は文ごとの翻訳戦略を採用しており、文の省略がないことを保証し、主流の方法と比較してメモリ効率の高いソリューションを提供します。
さらに、DelTA により代名詞の翻訳精度が向上し、エージェントの要約コンポーネントもクエリベースの要約タスクのツールとして期待されます。
コードとデータは https://github.com/YutongWang1216/DocMTAgent でリリースされています。

要約(オリジナル)

Large language models (LLMs) have achieved reasonable quality improvements in machine translation (MT). However, most current research on MT-LLMs still faces significant challenges in maintaining translation consistency and accuracy when processing entire documents. In this paper, we introduce DelTA, a Document-levEL Translation Agent designed to overcome these limitations. DelTA features a multi-level memory structure that stores information across various granularities and spans, including Proper Noun Records, Bilingual Summary, Long-Term Memory, and Short-Term Memory, which are continuously retrieved and updated by auxiliary LLM-based components. Experimental results indicate that DelTA significantly outperforms strong baselines in terms of translation consistency and quality across four open/closed-source LLMs and two representative document translation datasets, achieving an increase in consistency scores by up to 4.58 percentage points and in COMET scores by up to 3.16 points on average. DelTA employs a sentence-by-sentence translation strategy, ensuring no sentence omissions and offering a memory-efficient solution compared to the mainstream method. Furthermore, DelTA improves pronoun translation accuracy, and the summary component of the agent also shows promise as a tool for query-based summarization tasks. We release our code and data at https://github.com/YutongWang1216/DocMTAgent.

arxiv情報

著者 Yutong Wang,Jiali Zeng,Xuebo Liu,Derek F. Wong,Fandong Meng,Jie Zhou,Min Zhang
発行日 2024-10-10 17:30:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Asynchronous Graph Generator

要約

マルチチャネル時系列の代入と予測のための新しいグラフ アテンション ネットワークである非同期グラフ ジェネレーター (AGG) を紹介します。
AGG は、反復コンポーネントや時間的/空間的規則性に関する仮定から解放され、学習可能な埋め込みを介して測定値、タイムスタンプ、チャネル固有の特徴をノードに直接エンコードします。
これらの埋め込みにより、アテンション メカニズムを通じて、均質なグラフの形式で対象の変数間の表現的な関係を発見することができます。
トレーニングが完了すると、AGG は \emph{条件付きアテンション生成} によって代入を実行します。つまり、指定されたタイムスタンプとチャネル仕様を条件とした新しいノードを作成します。
提案された AGG は文献内の関連手法と比較され、そのパフォーマンスがデータ拡張の観点から分析されます。
私たちの実験により、AGG がベンチマーク データセット \emph{北京大気質}、\emph{PhysioNet ICU 2012}、\emph{UCI ローカリゼーション} の時系列代入、分類、予測において最先端の結果を達成し、優れたパフォーマンスを達成したことが明らかになりました。
その他の最近のアテンションベースのネットワーク。

要約(オリジナル)

We introduce the asynchronous graph generator (AGG), a novel graph attention network for imputation and prediction of multi-channel time series. Free from recurrent components or assumptions about temporal/spatial regularity, AGG encodes measurements, timestamps and channel-specific features directly in the nodes via learnable embeddings. Through an attention mechanism, these embeddings allow for discovering expressive relationships among the variables of interest in the form of a homogeneous graph. Once trained, AGG performs imputation by \emph{conditional attention generation}, i.e., by creating a new node conditioned on given timestamps and channel specification. The proposed AGG is compared to related methods in the literature and its performance is analysed from a data augmentation perspective. Our experiments reveal that AGG achieved state-of-the-art results in time series imputation, classification and prediction for the benchmark datasets \emph{Beijing Air Quality}, \emph{PhysioNet ICU 2012} and \emph{UCI localisation}, outperforming other recent attention-based networks.

arxiv情報

著者 Christopher P. Ley,Felipe Tobar
発行日 2024-10-10 17:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は、さまざまなタスクにわたって有望な進歩を示していますが、依然として重大な信頼性の問題に直面しています。
以前の研究では、言語モデリングに分割共形予測 (SCP) を適用して、統計的保証のある予測セットを構築しました。
ただし、これらの方法は通常、内部モデルのロジットに依存するか、複数選択の設定に制限されるため、動的で制限のない環境での汎用性と適応性が妨げられます。
このペーパーでは、オープンエンドとクローズドエンドの両方のシナリオでサンプリングをサポートするあらゆる MLLM に適用できる、リスク管理と評価のための 2 段階のフレームワークである TRON を紹介します。
TRON は 2 つの主なコンポーネントで構成されます: (1) 最小サイズの応答セットをサンプルする新しい等角スコア、および (2) 自己無撞着理論に基づいて高品質の応答を特定し、2 つの特定のリスク レベルでエラー率を制御する不適合スコア

さらに、オープンエンドのコンテキスト内の予測セットの意味的冗長性を初めて調査し、平均セットサイズに基づく MLLM の有望な評価指標につながります。
8 つの MLLM を利用した 4 つのビデオ質問応答 (VideoQA) データセットにわたる包括的な実験により、TRON はユーザーが指定した 2 つのリスク レベルの範囲内で望ましいエラー率を達成できることがわかりました。
さらに、重複排除された予測セットは適応性を維持しながら、さまざまなリスク レベルでのリスク評価の効率と安定性を高めます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) exhibit promising advancements across various tasks, yet they still encounter significant trustworthiness issues. Prior studies apply Split Conformal Prediction (SCP) in language modeling to construct prediction sets with statistical guarantees. However, these methods typically rely on internal model logits or are restricted to multiple-choice settings, which hampers their generalizability and adaptability in dynamic, open-ended environments. In this paper, we introduce TRON, a two-step framework for risk control and assessment, applicable to any MLLM that supports sampling in both open-ended and closed-ended scenarios. TRON comprises two main components: (1) a novel conformal score to sample response sets of minimum size, and (2) a nonconformity score to identify high-quality responses based on self-consistency theory, controlling the error rates by two specific risk levels. Furthermore, we investigate semantic redundancy in prediction sets within open-ended contexts for the first time, leading to a promising evaluation metric for MLLMs based on average set size. Our comprehensive experiments across four Video Question-Answering (VideoQA) datasets utilizing eight MLLMs show that TRON achieves desired error rates bounded by two user-specified risk levels. Additionally, deduplicated prediction sets maintain adaptiveness while being more efficient and stable for risk assessment under different risk levels.

arxiv情報

著者 Qingni Wang,Tiantian Geng,Zhiyuan Wang,Teng Wang,Bo Fu,Feng Zheng
発行日 2024-10-10 17:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM | コメントする

$\textbf{PLUM}$: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases

要約

優先学習は、正しいコードと間違ったコードを区別するようにモデルが明示的にトレーニングされていない、コード言語モデルの教師あり微調整 (SFT) の制限に対処する有望なソリューションを提供します。
最近の調査結果は、ポリシー上のデータが優先学習の成功の鍵であることを示しており、優先データはトレーニングされている同じポリシー LM を使用して収集されます。
これに触発されて、コード L$\textbf{M} のテスト ケースを備えたオンポリシー $\textbf{P}$reference $\textbf{L}$獲得フレームワーク A$\textbf{u}$gmented PLUM を提案します。
$s。
このフレームワークは 3 つの主要な段階で動作します: (1) 自然言語命令からのテスト ケースの自動生成、(2) ポリシーからサンプリングされた候補コード ソリューションを評価することによる優先データの作成。その後、そのデータは (3) トレーニングに使用できます。
政策LM。
PLUM を使用すると、報酬モデルをトレーニングする必要性がなくなり、ポリシーに基づいた大規模なデータ照合やオンライン嗜好データの照合が可能になります。
PLUM は、標準的なベンチマーク (HumanEval、MBPP) とより困難なベンチマーク (LiveCodeBench) の両方で評価され、元の SFT モデルやその他の実行フィードバック主導のアプローチに比べて大幅な改善を実現します。
PLUM の利点は、SFT で十分にトレーニングされている場合でも、広く使用されているさまざまなコード LM にわたって一貫していることを示します。
たとえば、PLUM は、標準ベンチマークでは平均で最大 4.8%、LiveCodeBench では 11.8% 合格率を向上させ、その有効性と汎用性を実証しています。
また、包括的な実験により、ポリシーに基づく学習とオンラインの好みの学習の利点も実証します。

要約(オリジナル)

Preference learning provides a promising solution to address the limitations of supervised fine-tuning (SFT) for code language models, where the model is not explicitly trained to differentiate between correct and incorrect code. Recent findings demonstrate that on-policy data is the key to successful preference learning, where the preference data is collected using the same policy LM being trained. Inspired by this, we propose PLUM, an on-policy $\textbf{P}$reference $\textbf{L}$earning framework A$\textbf{u}$gmented with test cases for code L$\textbf{M}$ s. The framework operates in three key stages: (1) automatic generation of test cases from natural language instructions, (2) creation of a preference data by evaluating candidate code solutions sampled from the policy, which can then be used to (3) train the policy LM. PLUM levitates the need to train reward models, allowing for large scale on-policy and online preference data collation. PLUM is evaluated on both standard benchmarks (HumanEval, MBPP) and more challenging ones (LiveCodeBench), delivering substantial improvements over original SFT’ed models and other execution-feedback-driven approaches. We show PLUM’s benefits are consistent across various widely-used code LMs even they have been well-trained with SFT. For example, PLUM increases pass rates by up to 4.8% on average on standard benchmarks and 11.8% on LiveCodeBench, demonstrating its effectiveness and generalizability. We also demonstrate the benefits of on-policy and online preference learning by comprehensive experimentation.

arxiv情報

著者 Dylan Zhang,Shizhe Diao,Xueyan Zou,Hao Peng
発行日 2024-10-10 17:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE | コメントする

From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions

要約

ツール学習により、大規模言語モデル (LLM) はツールを呼び出して外部環境と対話できるようになり、トレーニング前のデータに固有の制限を軽減する効果的な戦略として機能します。
このプロセスでは、LLM の使用手順を提供するツールのドキュメントが重要な役割を果たし、それによってツールの効果的な利用が促進されます。
このホワイトペーパーでは、既存の人間中心のツールのドキュメントに内在する不備や不正確さによる、LLM と外部ツールとの間の理解のギャップを埋めるという重要な課題に焦点を当てます。
私たちは、LLM と外部ツールとの相互作用から生じるフィードバックと軌跡の分析を通じて、ツールのドキュメントを動的に洗練することを目的とした新しいフレームワークである DRAFT を提案します。
この方法論は革新的な試行錯誤のアプローチを軸にしており、経験の収集、経験からの学習、ドキュメントの書き換えという 3 つの異なる学習フェーズで構成され、ツールのドキュメントを繰り返し強化します。
このプロセスは、多様性を促進する探索戦略を実装して探索の多様性を確保し、ツール適応型終了メカニズムを実装することでさらに最適化され、効率を高めながら過剰適合を防止します。
複数のデータセットに対する広範な実験により、DRAFT の反復的なフィードバックベースの改良によりドキュメントの品質が大幅に改善され、LLM によるツールのより深い理解とより効果的な利用が促進されることが実証されました。
特に、私たちの分析により、私たちのアプローチによって洗練されたツールのドキュメントが堅牢なクロスモデル一般化機能を実証していることが明らかになりました。

要約(オリジナル)

Tool learning enables Large Language Models (LLMs) to interact with external environments by invoking tools, serving as an effective strategy to mitigate the limitations inherent in their pre-training data. In this process, tool documentation plays a crucial role by providing usage instructions for LLMs, thereby facilitating effective tool utilization. This paper concentrates on the critical challenge of bridging the comprehension gap between LLMs and external tools due to the inadequacies and inaccuracies inherent in existing human-centric tool documentation. We propose a novel framework, DRAFT, aimed at Dynamically Refining tool documentation through the Analysis of Feedback and Trails emanating from LLMs’ interactions with external tools. This methodology pivots on an innovative trial-and-error approach, consisting of three distinct learning phases: experience gathering, learning from experience, and documentation rewriting, to iteratively enhance the tool documentation. This process is further optimized by implementing a diversity-promoting exploration strategy to ensure explorative diversity and a tool-adaptive termination mechanism to prevent overfitting while enhancing efficiency. Extensive experiments on multiple datasets demonstrate that DRAFT’s iterative, feedback-based refinement significantly ameliorates documentation quality, fostering a deeper comprehension and more effective utilization of tools by LLMs. Notably, our analysis reveals that the tool documentation refined via our approach demonstrates robust cross-model generalization capabilities.

arxiv情報

著者 Changle Qu,Sunhao Dai,Xiaochi Wei,Hengyi Cai,Shuaiqiang Wang,Dawei Yin,Jun Xu,Ji-Rong Wen
発行日 2024-10-10 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする