LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models

要約

MAMBAなどの状態空間モデル(SSM)は、長いコンテキストシーケンスモデリングのためのトランスの効率的な代替品として浮上しています。
しかし、採用の拡大にもかかわらず、SSMには、注意ベースのアーキテクチャを理解し改善するために重要な解釈可能性ツールがありません。
最近の取り組みは、Mambaの内部メカニズムに関する洞察を提供しますが、トークンごとの貢献を明示的に分解することはなく、Mambaがレイヤー全体でシーケンスを選択的に処理する方法を理解するギャップを残します。
この作業では、MAMBA-1とMAMBA-2の両方の新しいトークンレベルの分解方法であるLATIMを紹介し、細粒の解釈可能性を可能にします。
機械の翻訳、コピー、検索ベースの世代など、多様なタスク全体で方法を広範囲に評価し、マンバのトークン間相互作用パターンを明らかにする際のその有効性を示しています。

要約(オリジナル)

State space models (SSMs), such as Mamba, have emerged as an efficient alternative to transformers for long-context sequence modeling. However, despite their growing adoption, SSMs lack the interpretability tools that have been crucial for understanding and improving attention-based architectures. While recent efforts provide insights into Mamba’s internal mechanisms, they do not explicitly decompose token-wise contributions, leaving gaps in understanding how Mamba selectively processes sequences across layers. In this work, we introduce LaTIM, a novel token-level decomposition method for both Mamba-1 and Mamba-2 that enables fine-grained interpretability. We extensively evaluate our method across diverse tasks, including machine translation, copying, and retrieval-based generation, demonstrating its effectiveness in revealing Mamba’s token-to-token interaction patterns.

arxiv情報

著者 Hugo Pitorro,Marcos Treviso
発行日 2025-02-21 17:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models はコメントを受け付けていません

ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms

要約

ユニットテストの生成は、LLMSの有望で重要なユースケースになっています。
ただし、LLMユニットテスト生成機能を評価するための既存の評価ベンチマークは、より実用的で挑戦的なプロジェクトレベルのコードベースではなく、機能またはクラスレベルのコードに焦点を当てています。
このような制限に対処するために、Python、Java、およびJavaScriptをカバーする単体テスト生成のプロジェクトレベルのベンチマークであるProjectTestを提案します。
ProjectTestは、言語ごとに20の中程度の高品質のプロジェクトを備えています。
ProjectTestで9つのフロンティアLLMを評価し、結果は、PicthonとJavaのProjecttestで中程度のパフォーマンスを示し、ProjectTestの難易度を強調していることを示しています。
また、徹底的なエラー分析も実施します。これは、Claude-3.5-SonnetなどのフロンティアLLMでさえ、コンピレーションやカスケードエラーを含む重要な基本的でありながら重大なエラーがあることを示しています。
この観察に動機付けられて、エラー固定メカニズムを装備した場合の可能性を評価するために、手動のエラー固定シナリオと自己誤差固定シナリオの下ですべてのフロンティアLLMをさらに評価します。
コードとデータセットは、\ href {https://github.com/yibowang214/projecttest} {projecttest}で入手できます。

要約(オリジナル)

Unit test generation has become a promising and important use case of LLMs. However, existing evaluation benchmarks for assessing LLM unit test generation capabilities focus on function- or class-level code rather than more practical and challenging project-level codebases. To address such limitation, we propose ProjectTest, a project-level benchmark for unit test generation covering Python, Java, and JavaScript. ProjectTest features 20 moderate-sized and high-quality projects per language. We evaluate nine frontier LLMs on ProjectTest and the results show that all frontier LLMs tested exhibit moderate performance on ProjectTest on Python and Java, highlighting the difficulty of ProjectTest. We also conduct a thorough error analysis, which shows that even frontier LLMs, such as Claude-3.5-Sonnet, have significant basic yet critical errors, including compilation and cascade errors. Motivated by this observation, we further evaluate all frontier LLMs under manual error-fixing and self-error-fixing scenarios to assess their potential when equipped with error-fixing mechanisms. Our code and dataset is available at \href{https://github.com/YiboWANG214/ProjectTest}{ProjectTest}.

arxiv情報

著者 Yibo Wang,Congying Xia,Wenting Zhao,Jiangshu Du,Chunyu Miao,Zhongfen Deng,Philip S. Yu,Chen Xing
発行日 2025-02-21 17:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms はコメントを受け付けていません

Machine-generated text detection prevents language model collapse

要約

大規模な言語モデル(LLM)がますます普及するにつれて、生成された出力がWeb全体で増殖し、機械で生成されたコンテンツが人間の著作テキストを希釈する未来を危険にさらしています。
WebデータはLLM Pretrainingの主要なリソースであるため、将来のモデルは合成データの未知の部分でトレーニングされます。
これにより、モデルの崩壊につながります。これは、モデルが独自のエラーを強化し、モデルパフォーマンスの低下を経験する変性プロセスです。
この研究では、再帰トレーニング中の生成されたデータの特性、人間の参照との類似性、および結果として生成されたモデルパフォーマンスを分析するモデル崩壊に対するデコード戦略の影響を調査します。
最も重要なモデルの劣化につながるデコード戦略を使用して、トレーニングデータの起源(人間または合成)が不明である場合、モデルの崩壊を避ける方法という質問に取り組みます。
マシンで生成されたテキスト検出器からの重要な重みを使用して、データ分布の再サンプリングに基づいて新しい方法論を設計します。
私たちの方法は、オープンエンドのテキスト生成タスクで2つのLLMバリアント(GPT-2およびSMOLLM2)で検証されており、モデル崩壊を防ぐことができることを示しています。
パフォーマンス。

要約(オリジナル)

As Large Language Models (LLMs) become increasingly prevalent, their generated outputs are proliferating across the web, risking a future where machine-generated content dilutes human-authored text. Since web data is the primary resource for LLM pretraining, future models will be trained on an unknown portion of synthetic data. This will lead to model collapse, a degenerative process which causes models to reinforce their own errors and experience a drop in model performance. In this study, we investigate the impact of decoding strategy on model collapse, where we analyse the characteristics of the generated data during recursive training, its similarity to human references and the resulting model performance. Using the decoding strategies that lead to the most significant model degradation, we tackle the question: how to avoid model collapse when the origin (human or synthetic) of the training data is unknown. We design a novel methodology based on resampling the data distribution using importance weights from our machine-generated text detector. Our method is validated on two LLM variants (GPT-2 and SmolLM2) on the open-ended text generation task, demonstrating that we can successfully prevent model collapse and when there is enough human-authored data in the training dataset, our method improves model performance.

arxiv情報

著者 George Drayson,Vasileios Lampos
発行日 2025-02-21 18:22:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Machine-generated text detection prevents language model collapse はコメントを受け付けていません

Adapting Large Language Models for Character-based Augmentative and Alternative Communication

要約

拡張および代替コミュニケーション(AAC)のユーザーは、文字言語モデルを使用するインターフェイスを介して文字ごとに書くことができます。
ただし、ほとんどの最先端の大規模な前提条件モデルは、可変長のサブワードトークンを予測します。
このようなモデルを実際に使用して、正確で効率的なキャラクターの予測を行う方法を調査します。
私たちは、AAC通信の書かれたものや書かれた通信にどの程度有用であるかに従って、各文が評価される文章の大規模なデータセットを使用してモデルを微調整します。
アルゴリズムを使用してサブワードの大手言語モデルから文字予測を生成することは、分類レイヤーを追加したり、バイトレベルモデルを使用したりするよりも、より正確な予測を提供することがわかります。
また、当社のドメイン適応手順は、単純な会話テキストのモデルパフォーマンスを改善するのに効果的であることがわかります。

要約(オリジナル)

Users of Augmentative and Alternative Communication (AAC) may write letter-by-letter via an interface that uses a character language model. However, most state-of-the-art large pretrained language models predict subword tokens of variable length. We investigate how to practically use such models to make accurate and efficient character predictions. We fine-tune models using a large dataset of sentences we curated in which each sentence is rated according to how useful it might be for spoken or written AAC communication. We find that using an algorithm to produce character predictions from a subword large language model provides more accurate predictions than adding a classification layer or using a byte-level model. We also find that our domain adaptation procedure is effective at improving model performance on simple, conversational text.

arxiv情報

著者 Dylan Gaines,Keith Vertanen
発行日 2025-02-21 18:27:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Adapting Large Language Models for Character-based Augmentative and Alternative Communication はコメントを受け付けていません

Privacy Ripple Effects from Adding or Removing Personal Information in Language Model Training

要約

個人を特定できる情報(PII)の繊細な性質により、その所有者は、その包含を制御するか、大規模モデル(LLM)トレーニングから削除を要求する権限を持っている可能性があります。
これを超えて、データセットのキュレーション手法が進化するため、または再訓練のために新しく削られたため、または新しい下流の微調整段階に含まれていたため、PIIはトレーニングデータセットから追加または削除される場合があります。
PII暗記の量と容易さは、トレーニングパイプライン全体で進化し、一般的に変更された設計選択に依存するモデルの動的な特性であることがわかります。
そのような3つの新しい現象を特徴づけます。(1)トレーニングで後で見られる同様に見えるPIIは、私たちが援助の記憶と呼ぶもので以前に見られるシーケンスの暗記を引き出すことができます。これは重要な要因です(設定では、最大1/3)
;
(2)PIIを追加すると、他のPIIの暗記が大幅に増加する可能性があります(設定では、$ \ ampr!7.5 \ times $)。
(3)PIIを除去すると、他のPIIが記憶される可能性があります。
モデル作成者は、新しいPII逆流のリスクを回避するためにモデルをトレーニングする際に、これらの1次および2次プライバシーのリスクを考慮する必要があります。

要約(オリジナル)

Due to the sensitive nature of personally identifiable information (PII), its owners may have the authority to control its inclusion or request its removal from large-language model (LLM) training. Beyond this, PII may be added or removed from training datasets due to evolving dataset curation techniques, because they were newly scraped for retraining, or because they were included in a new downstream fine-tuning stage. We find that the amount and ease of PII memorization is a dynamic property of a model that evolves throughout training pipelines and depends on commonly altered design choices. We characterize three such novel phenomena: (1) similar-appearing PII seen later in training can elicit memorization of earlier-seen sequences in what we call assisted memorization, and this is a significant factor (in our settings, up to 1/3); (2) adding PII can increase memorization of other PII significantly (in our settings, as much as $\approx\!7.5\times$); and (3) removing PII can lead to other PII being memorized. Model creators should consider these first- and second-order privacy risks when training models to avoid the risk of new PII regurgitation.

arxiv情報

著者 Jaydeep Borkar,Matthew Jagielski,Katherine Lee,Niloofar Mireshghallah,David A. Smith,Christopher A. Choquette-Choo
発行日 2025-02-21 18:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Privacy Ripple Effects from Adding or Removing Personal Information in Language Model Training はコメントを受け付けていません

PIP-KAG: Mitigating Knowledge Conflicts in Knowledge-Augmented Generation via Parametric Pruning

要約

知識総生成(KAG)は、外部の知識を統合することにより、大規模な言語モデル(LLM)の内部メモリを更新することに大きな期待を示しています。
ただし、KAGは、内部メモリが外部情報と矛盾する場合、必然的に知識の競合に直面しています。
これらの紛争を緩和するための現在のアプローチは、主に外部の知識の利用の改善に焦点を当てています。
ただし、これらの方法は、内部の知識がLLMの生成プロセスに影響を与え続けているため、知識の競合の問題を緩和する上での有効性のみが限られていることを示しています。
この論文では、LLMの内部知識を剪定し、LLMSが外部ソースをより適切に活用できるようにプラグアンドプレイ適応モジュールを組み込んだパラメトリックプルーニングベースの知識補給(PIP-KAG)アプローチを提案します。
さらに、LLMの幻覚に基づいてCoconflictQAベンチマークを構築し、質問に答える際の文脈的忠実さをよりよく評価します。
CoconflictQAの実験結果は、PIP-KAGが知識の競合を大幅に減らし、コンテキストの忠実度を改善することを示しています。
特に、PIP-KAGはLLMのパラメーターを13%削減し、KAGフレームワーク内のLLMのパラメーター効率を高めます。
すべてのコードはhttps://github.com/openbmb/pip-kagで入手できます。

要約(オリジナル)

Knowledge-Augmented Generation (KAG) has shown great promise in updating the internal memory of Large Language Models (LLMs) by integrating external knowledge. However, KAG inevitably faces knowledge conflicts when the internal memory contradicts external information. Current approaches to mitigating these conflicts mainly focus on improving external knowledge utilization. However, these methods have shown only limited effectiveness in mitigating the knowledge conflict problem, as internal knowledge continues to influence the generation process of LLMs. In this paper, we propose a ParametrIc Pruning-based Knowledge-Augmented Generation (PIP-KAG) approach, which prunes internal knowledge of LLMs and incorporates a plug-and-play adaptation module to help LLMs better leverage external sources. Additionally, we construct the CoConflictQA benchmark based on the hallucination of LLMs to better evaluate contextual faithfulness during answering questions. Experimental results on CoConflictQA demonstrate that PIP-KAG significantly reduces knowledge conflicts and improves context fidelity. Notably, PIP-KAG reduces LLM’s parameters by 13%, enhancing parameter efficiency in LLMs within the KAG framework. All codes are available at https://github.com/OpenBMB/PIP-KAG.

arxiv情報

著者 Pengcheng Huang,Zhenghao Liu,Yukun Yan,Xiaoyuan Yi,Hao Chen,Zhiyuan Liu,Maosong Sun,Tong Xiao,Ge Yu,Chenyan Xiong
発行日 2025-02-21 15:50:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PIP-KAG: Mitigating Knowledge Conflicts in Knowledge-Augmented Generation via Parametric Pruning はコメントを受け付けていません

Zweistein: A Dynamic Programming Evaluation Function for Einstein Würfelt Nicht!

要約

このペーパーでは、アインシュタインw \ ‘urfelt nichtの動的プログラミング評価機能であるZweisteinを紹介します!
(EWN)。
Zweisteinは、人間の知識に頼って評価機能を作成する代わりに、パラメーターチューニングの必要性を排除するデータ中心のアプローチを使用します。
アイデアは、すべてのピースの角までの距離を記録するベクトルを使用することです。
この距離ベクトルは、EWNの本質をキャプチャします。
多くの従来のEWN評価機能を上回るだけでなく、TCGA 2023コンペティションで1位になりました。

要約(オリジナル)

This paper introduces Zweistein, a dynamic programming evaluation function for Einstein W\’urfelt Nicht! (EWN). Instead of relying on human knowledge to craft an evaluation function, Zweistein uses a data-centric approach that eliminates the need for parameter tuning. The idea is to use a vector recording the distance to the corner of all pieces. This distance vector captures the essence of EWN. It not only outperforms many traditional EWN evaluation functions but also won first place in the TCGA 2023 competition.

arxiv情報

著者 Wei Lin. Hsueh,Tsan Sheng. Hsu
発行日 2025-02-21 15:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Zweistein: A Dynamic Programming Evaluation Function for Einstein Würfelt Nicht! はコメントを受け付けていません

Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples

要約

特定の問題に対する多様なソリューションを生成する能力は、人間の創造性の特徴です。
この多様な推論は、機械にとっても重要であり、その堅牢性を高め、科学的発見などの多くのアプリケーションで人間を支援できるようにします。
ただし、大規模な言語モデル(LLM)を使用したマルチステップ推論に対する既存のアプローチは、より多様な有効なソリューションをさらに発見することなく、主に推論の精度にのみ焦点を合わせています。
たとえば、監視された微調整はLLMの推論品質を改善することができますが、可能なソリューションの全範囲をキャプチャするために広範な監視されたデータが必要です。
報酬最大化強化学習は、ソリューションの多様性を無視しながら、限られた最高の報酬ソリューションを見つけることを目的としています。
このギャップを埋めるために、最小限のデータで推論の品質と多様性を改善することを目的とした効率的な多様性を求めるLLM Finetuningメソッドである推論の流れ(for)を提案します。
ダグ構造化された推論グラフのマルコフの流れとして、マルチステップLLMの推論を定式化するため。
この定式化により、ターゲットの問題の(正常ではない)報酬に比例した確率でLLMを微調整するために、原則的なGflownetアプローチを組み込み、適応させることができます。
広範な実験では、トレーニングの例が限られている(例:15の例)が、多様で創造的で高品質のソリューションの発見を可能にし、BlockSworldを含む6つの挑戦的な推論タスクにわたって幅広い既存の推論とトレーニング方法を大幅に上回ることを示しています(BlockSworldを含む)
具体化された推論)、Game24(数学パズル解決)、ルービックキューブ(空間推論)、1D-ARC(抽象化
推論)、GSM8K(数学推論)、およびProntoqa(論理的推論)。
コードはhttps://github.com/yu-fangxu/forで入手できます。

要約(オリジナル)

The ability to generate diverse solutions to a given problem is a hallmark of human creativity. This divergent reasoning is also crucial for machines, enhancing their robustness and enabling them to assist humans in many applications such as scientific discovery. However, existing approaches to multi-step reasoning with large language models (LLMs) have mostly focused only on reasoning accuracy, without further discovering more diverse valid solutions. For example, supervised fine-tuning can improve LLM reasoning quality, but requires extensive supervised data to capture the full range of possible solutions. Reward-maximization reinforcement learning aims to find limited highest-reward solutions while neglecting the solution diversity. To fill this gap, we propose Flow of Reasoning (FoR), an efficient diversity-seeking LLM finetuning method aimed at improving reasoning quality and diversity with minimal data. FoR formulates multi-step LLM reasoning as a Markovian flow on a DAG-structured reasoning graph. This formulation allows us to incorporate and adapt principled GFlowNet approaches, for finetuning LLMs to sample divergent paths with probabilities proportional to the (unnormalized) reward of target problems. Extensive experiments show that, with limited training examples (e.g., 15 examples), FoR enables the discovery of diverse, creative, high-quality solutions, greatly outperforming a wide range of existing inference and training methods across six challenging reasoning tasks, including BlocksWorld (embodied reasoning), Game24 (math puzzle solving), Rubik’s Cube (spatial reasoning), 1D-ARC (abstraction reasoning), GSM8k (math reasoning), and ProntoQA (logical reasoning). Code is available at https://github.com/Yu-Fangxu/FoR.

arxiv情報

著者 Fangxu Yu,Lai Jiang,Haoqiang Kang,Shibo Hao,Lianhui Qin
発行日 2025-02-21 16:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples はコメントを受け付けていません

PP-MARL: Efficient Privacy-Preserving Multi-Agent Reinforcement Learning for Cooperative Intelligence in Communications

要約

Cooperative Intelligence(CI)は、複数のデバイスの機能とインテリジェンスを集約できるため、次世代ネットワークの不可欠な要素になると予想されます。
マルチエージェント強化学習(MARL)は、エージェント間の効果的なコラボレーションが連続的な問題に対処できるようにすることにより、コミュニケーションの問題でCIを達成するための一般的なアプローチです。
ただし、MARLのプライバシー保護を確保することは、情報を共有することで依存して学習する不均一なエージェントが存在するため、困難な作業です。
データ暗号化やMARLの連合学習などのプライバシー保護手法を実装すると、顕著なオーバーヘッド(計算や帯域幅など)が導入されます。
これらの課題を克服するために、MARLの効率的なプライバシーを提供する学習スキームであるPP-MARLを提案します。
PP-MARLは、パモモルフィック暗号化(HE)および差別的なプライバシー(DP)を活用してプライバシーを保護し、共有メッセージの量を減らして効率を向上させることでオーバーヘッドを減らすために分割学習を導入します。
2つの通信関連のユースケースでPP-MARLを適用および評価します。
シミュレーション結果は、PP-MARLが最先端のアプローチよりも1.1〜6倍優れたプライバシー保護とより低いオーバーヘッド(帯域幅の84〜91%の減少)で効率的かつ信頼できるコラボレーションを達成できることを明らかにしています。

要約(オリジナル)

Cooperative intelligence (CI) is expected to become an integral element in next-generation networks because it can aggregate the capabilities and intelligence of multiple devices. Multi-agent reinforcement learning (MARL) is a popular approach for achieving CI in communication problems by enabling effective collaboration among agents to address sequential problems. However, ensuring privacy protection for MARL is a challenging task because of the presence of heterogeneous agents that learn interdependently via sharing information. Implementing privacy protection techniques such as data encryption and federated learning to MARL introduces the notable overheads (e.g., computation and bandwidth). To overcome these challenges, we propose PP-MARL, an efficient privacy-preserving learning scheme for MARL. PP-MARL leverages homomorphic encryption (HE) and differential privacy (DP) to protect privacy, while introducing split learning to decrease overheads via reducing the volume of shared messages, and then improve efficiency. We apply and evaluate PP-MARL in two communication-related use cases. Simulation results reveal that PP-MARL can achieve efficient and reliable collaboration with 1.1-6 times better privacy protection and lower overheads (e.g., 84-91% reduction in bandwidth) than state-of-the-art approaches.

arxiv情報

著者 Tingting Yuan,Hwei-Ming Chung,Xiaoming Fu
発行日 2025-02-21 16:23:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.MA, cs.NI | PP-MARL: Efficient Privacy-Preserving Multi-Agent Reinforcement Learning for Cooperative Intelligence in Communications はコメントを受け付けていません

DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents

要約

特にモバイルデバイスでのデバイス制御エージェントは、ユーザーの要求を満たすためにモバイルデバイスを操作し、シームレスで直感的なやり取りを可能にします。
これらのエージェントにマルチモーダル大手言語モデル(MLLMS)を統合すると、複雑なコマンドを理解および実行する能力が向上し、ユーザーエクスペリエンスが向上します。
ただし、デバイス上のコントロール用の微調整MLLMは、データの可用性と非効率的なオンライントレーニングプロセスにより、重要な課題を提示します。
このペーパーでは、モバイルデバイス制御エージェント向けのオンラインRL微調整の効率を高めるために設計された新しいフレームワークであるDistllを紹介します。
ディストリビューションは、一元化されたトレーニングと分散型のデータ収集を採用して、動的なオンラインインタラクションのコンテキストで効率的な微調整を確保しています。
さらに、このフレームワークは、テーラーメイドのRLアルゴリズムによって裏付けられており、収集されたデータの優先順位付けされた利用と、安定した堅牢なトレーニングを確保するために、探査と実質的にバランスを取ります。
私たちの実験は、平均して、ディストリビューションがトレーニング効率の3倍の改善を実現し、トレーニングデータ収集が主要な同期マルチマシンメソッドよりも2.4倍速くなることを示しています。
特に、トレーニング後、ディストリビューションは、オープンベンチマークからの一般的なAndroidタスクの最先端の方法と比較して、成功率の20%の相対的な改善を達成し、同じトレーニング時間を維持しながら既存のアプローチを大幅に上回ります。
これらの結果は、ディストリビューションをスケーラブルで効率的なソリューションとして検証し、現実世界の内部デバイス制御タスクのトレーニング効率とエージェントパフォーマンスの両方を大幅に改善します。

要約(オリジナル)

On-device control agents, especially on mobile devices, are responsible for operating mobile devices to fulfill users’ requests, enabling seamless and intuitive interactions. Integrating Multimodal Large Language Models (MLLMs) into these agents enhances their ability to understand and execute complex commands, thereby improving user experience. However, fine-tuning MLLMs for on-device control presents significant challenges due to limited data availability and inefficient online training processes. This paper introduces DistRL, a novel framework designed to enhance the efficiency of online RL fine-tuning for mobile device control agents. DistRL employs centralized training and decentralized data acquisition to ensure efficient fine-tuning in the context of dynamic online interactions. Additionally, the framework is backed by our tailor-made RL algorithm, which effectively balances exploration with the prioritized utilization of collected data to ensure stable and robust training. Our experiments show that, on average, DistRL delivers a 3X improvement in training efficiency and enables training data collection 2.4X faster than the leading synchronous multi-machine methods. Notably, after training, DistRL achieves a 20% relative improvement in success rate compared to state-of-the-art methods on general Android tasks from an open benchmark, significantly outperforming existing approaches while maintaining the same training time. These results validate DistRL as a scalable and efficient solution, offering substantial improvements in both training efficiency and agent performance for real-world, in-the-wild device control tasks.

arxiv情報

著者 Taiyi Wang,Zhihao Wu,Jianheng Liu,Jianye Hao,Jun Wang,Kun Shao
発行日 2025-02-21 16:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, cs.SY, eess.SY | DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents はコメントを受け付けていません