TRACE for Tracking the Emergence of Semantic Representations in Transformers

要約

最新の変圧器モデルは、トレーニング中に相転移を示し、記憶から抽象化への明確なシフトを示しますが、これらの遷移の根底にあるメカニズムはよく理解されていません。
以前の研究では、多くの場合、エンドポイント表現または曲率や相互情報など、通常は象徴的または算術ドメインで、言語構造の出現を見落としています。
幾何学、情報、および言語信号を組み合わせた診断フレームワークであるTrace(表現表現の抽象化と組成の出現を追跡する)を紹介し、変圧器ベースのLMSの位相遷移を検出します。
トレースは、フレームセマンチックなデータ生成法であるAbsynthを活用して、制御可能な複雑さ、語彙分布、および構造エントロピーを備えた注釈付きの合成コーパスを生成し、言語カテゴリで完全に注釈を付け、抽象化の出現の正確な分析を可能にします。
実験により、(i)位相遷移は、曲率崩壊と寸法安定化との間の明確な交差点と一致することが明らかになりました。
(ii)これらの幾何学的シフトは、新たな構文およびセマンティックの精度と一致します。
(iii)抽象化パターンはアーキテクチャのバリエーション全体にわたって持続します。フィードフォワードネットワークのようなコンポーネントは、軌跡を根本的に変更するのではなく、最適化の安定性に影響します。
この作業は、LMSで言語学的抽象化がどのように出現するかについての理解を促進し、LM開発へのより原則的なアプローチを通知できるモデルの解釈可能性、トレーニング効率、および構成一般化に関する洞察を提供します。

要約(オリジナル)

Modern transformer models exhibit phase transitions during training, distinct shifts from memorisation to abstraction, but the mechanisms underlying these transitions remain poorly understood. Prior work has often focused on endpoint representations or isolated signals like curvature or mutual information, typically in symbolic or arithmetic domains, overlooking the emergence of linguistic structure. We introduce TRACE (Tracking Representation Abstraction and Compositional Emergence), a diagnostic framework combining geometric, informational, and linguistic signals to detect phase transitions in Transformer-based LMs. TRACE leverages a frame-semantic data generation method, ABSynth, that produces annotated synthetic corpora with controllable complexity, lexical distributions, and structural entropy, while being fully annotated with linguistic categories, enabling precise analysis of abstraction emergence. Experiments reveal that (i) phase transitions align with clear intersections between curvature collapse and dimension stabilisation; (ii) these geometric shifts coincide with emerging syntactic and semantic accuracy; (iii) abstraction patterns persist across architectural variants, with components like feedforward networks affecting optimisation stability rather than fundamentally altering trajectories. This work advances our understanding of how linguistic abstractions emerge in LMs, offering insights into model interpretability, training efficiency, and compositional generalisation that could inform more principled approaches to LM development.

arxiv情報

著者 Nura Aljaafari,Danilo S. Carvalho,André Freitas
発行日 2025-05-23 15:03:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TRACE for Tracking the Emergence of Semantic Representations in Transformers はコメントを受け付けていません

TrendFact: A Benchmark for Explainable Hotspot Perception in Fact-Checking with Natural Language Explanation

要約

事実検証は依然として基本的なものですが、説明生成は、解釈可能な理論的根拠を作成し、包括的な検証プロセスを促進することにより、信頼できる事実確認システムの重要なイネーブラーとして機能します。
ただし、現在のベンチマークには、衝撃評価の欠如、高品質の説明的な注釈の不足、英語中心のバイアスなどの制限があります。
これらに対処するために、事実検証、証拠の検索、および説明生成タスクを包括的に評価する最初のホットスポット認識ファクトチェックベンチマークであるTrendFactを紹介します。
TrendFactは、トレンドプラットフォームと専門的なファクトチェックデータセットから供給された7,643の慎重にキュレーションされたサンプルと、公開日を伴う66,217エントリの証拠ライブラリで構成されています。
さらに、システムの説明の一貫性とホットスポットの知覚機能を評価することにより、既存のベンチマークを補完するために、ECSとHCPIの2つのメトリックをさらに提案します。
実験結果は、DeepSeek-R1などの高度なRLMを含む現在の事実確認システムは、TrendFactで評価されたときに大きな制限に直面し、それによってもたらされる現実世界の課題を強調していることを示しています。
大規模な言語モデル(RLM)の推論の事実確認能力を強化するために、動的な証拠の増強、証拠の三角測量、および反復的自己反射メカニズムを統合するFactisRを提案します。
したがって、FactISRはRLMのパフォーマンスを効果的に改善し、説明可能で複雑な事実確認のための新しい洞察を提供します。

要約(オリジナル)

Although fact verification remains fundamental, explanation generation serves as a critical enabler for trustworthy fact-checking systems by producing interpretable rationales and facilitating comprehensive verification processes. However, current benchmarks have limitations that include the lack of impact assessment, insufficient high-quality explanatory annotations, and an English-centric bias. To address these, we introduce TrendFact, the first hotspot perception fact-checking benchmark that comprehensively evaluates fact verification, evidence retrieval, and explanation generation tasks. TrendFact consists of 7,643 carefully curated samples sourced from trending platforms and professional fact-checking datasets, as well as an evidence library of 66,217 entries with publication dates. We further propose two metrics, ECS and HCPI, to complement existing benchmarks by evaluating the system’s explanation consistency and hotspot perception capability, respectively. Experimental results show that current fact-checking systems, including advanced RLMs such as DeepSeek-R1, face significant limitations when evaluated on TrendFact, highlighting the real-world challenges posed by it. To enhance the fact-checking capabilities of reasoning large language models (RLMs), we propose FactISR, which integrates dynamic evidence augmentation, evidence triangulation, and an iterative self-reflection mechanism. Accordingly, FactISR effectively improves RLM performance, offering new insights for explainable and complex fact-checking.

arxiv情報

著者 Xiaocheng Zhang,Xi Wang,Yifei Lu,Jianing Wang,Zhuangzhuang Ye,Mengjiao Bao,Peng Yan,Xiaohong Su
発行日 2025-05-23 15:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TrendFact: A Benchmark for Explainable Hotspot Perception in Fact-Checking with Natural Language Explanation はコメントを受け付けていません

Playpen: An Environment for Exploring Learning Through Conversational Interaction

要約

学習者とフィードバック提供者の間の相互作用は、モデルの応答の適切性を判断する報酬モデルの使用を通じて、大規模な言語モデル(LLM)のポストトレーニングに最近焦点を合わせました。
この論文では、口頭での行動によって主に駆動される目標指向および規則に革命された活動が、学習のためのフィードバックシグナルのソースとしても役立つかどうかを調査します。
対話ゲームの自己プレイを通じてオフオンライン学習およびオンライン学習の環境であるPlaypenを紹介し、トレーニング後の代表セットを調査します。
直接アライメント(DPO);
GRPOによる補強学習。
トレーニング後の小さなLLM(LLAMA-3.1-8B-Instruct)を実験し、目に見えないゲームのインスタンス、目に見えないゲーム、および標準的なベンチマークでのパフォーマンスを評価します。
SFTを介した模倣学習は目に見えないインスタンスでのパフォーマンスを改善しますが、他のスキルに悪影響を及ぼし、GRPOでのインタラクティブな学習は、スキルを失うことなくバランスの取れた改善を示しています。
フレームワークとベースライントレーニングのセットアップをリリースして、(合成)相互作用における有望な新しい学習方向の研究を促進します。

要約(オリジナル)

Interaction between learner and feedback-giver has come into focus recently for post-training of Large Language Models (LLMs), through the use of reward models that judge the appropriateness of a model’s response. In this paper, we investigate whether Dialogue Games — goal-directed and rule-governed activities driven predominantly by verbal actions — can also serve as a source of feedback signals for learning. We introduce Playpen, an environment for off- and online learning through Dialogue Game self-play, and investigate a representative set of post-training methods: supervised fine-tuning; direct alignment (DPO); and reinforcement learning with GRPO. We experiment with post-training a small LLM (Llama-3.1-8B-Instruct), evaluating performance on unseen instances of training games as well as unseen games, and on standard benchmarks. We find that imitation learning through SFT improves performance on unseen instances, but negatively impacts other skills, while interactive learning with GRPO shows balanced improvements without loss of skills. We release the framework and the baseline training setups to foster research in the promising new direction of learning in (synthetic) interaction.

arxiv情報

著者 Nicola Horst,Davide Mazzaccara,Antonia Schmidt,Michael Sullivan,Filippo Momentè,Luca Franceschetti,Philipp Sadler,Sherzod Hakimov,Alberto Testoni,Raffaella Bernardi,Raquel Fernández,Alexander Koller,Oliver Lemon,David Schlangen,Mario Giulianelli,Alessandro Suglia
発行日 2025-05-23 15:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Playpen: An Environment for Exploring Learning Through Conversational Interaction はコメントを受け付けていません

Contrastive Distillation of Emotion Knowledge from LLMs for Zero-Shot Emotion Recognition

要約

専用のトレーニングなしでさまざまな感情ラベルを処理する機能は、適応可能な感情認識(ER)システムを構築するために重要です。
従来のERモデルは、固定されたラベルセットを使用してトレーニングに依存し、それらを超えて一般化するのに苦労しています。
一方、大規模な言語モデル(LLM)は、多様なラベルスペース全体で強力なゼロショットERパフォーマンスを示していますが、スケールはエッジデバイスでの使用を制限しています。
この作業では、人間の注釈を使用せずにLLMSから豊富な感情的知識をコンパクトモデルに転送する対照的な蒸留フレームワークを提案します。
GPT-4を使用して、記述的な感情注釈を生成し、固定ラベルセットを超えて豊富な監督を提供します。
共有された埋め込みスペースに感情記述子を持つテキストサンプルを調整することにより、この方法により、さまざまな感情クラス、粒度、ラベルスキーマのゼロショット予測が可能になります。
蒸留モデルは、複数のデータセットとラベルスペースにわたって有効であり、同様のサイズの強力なベースラインを上回り、GPT-4のゼロショットパフォーマンスに近づき、10,000倍を超えています。

要約(オリジナル)

The ability to handle various emotion labels without dedicated training is crucial for building adaptable Emotion Recognition (ER) systems. Conventional ER models rely on training using fixed label sets and struggle to generalize beyond them. On the other hand, Large Language Models (LLMs) have shown strong zero-shot ER performance across diverse label spaces, but their scale limits their use on edge devices. In this work, we propose a contrastive distillation framework that transfers rich emotional knowledge from LLMs into a compact model without the use of human annotations. We use GPT-4 to generate descriptive emotion annotations, offering rich supervision beyond fixed label sets. By aligning text samples with emotion descriptors in a shared embedding space, our method enables zero-shot prediction on different emotion classes, granularity, and label schema. The distilled model is effective across multiple datasets and label spaces, outperforming strong baselines of similar size and approaching GPT-4’s zero-shot performance, while being over 10,000 times smaller.

arxiv情報

著者 Minxue Niu,Emily Mower Provost
発行日 2025-05-23 15:44:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Contrastive Distillation of Emotion Knowledge from LLMs for Zero-Shot Emotion Recognition はコメントを受け付けていません

MathEDU: Towards Adaptive Feedback for Student Mathematical Problem-Solving

要約

オンライン学習は教育的アクセシビリティを向上させ、学生にいつでもどこでも学習する柔軟性を提供します。
ただし、重要な制限は、特に学生が数学の問題解決のエラーを修正するのを支援する際に、即時のパーソナライズされたフィードバックの欠如です。
いくつかの研究では、教育の文脈における大規模な言語モデル(LLM)の応用を調査しています。
この論文では、LLMSの機能を調査して、学生の数学の問題解決プロセスを評価し、適応的なフィードバックを提供します。
Matheduデータセットが導入され、教師のフィードバックが注釈が付けられた本物の学生ソリューションが含まれています。
モデルが2つのシナリオでパーソナライズされた学習をサポートするモデルの能力を評価します。1つは、モデルが学生の事前の回答履歴にアクセスできる場合、もう1つはコールドスタートコンテキストをシミュレートするものです。
実験結果は、微調整されたモデルが正確性を識別する上でうまく機能することを示しています。
ただし、このモデルは、教育的目的で詳細なフィードバックを生成する際の課題に依然として課題に直面しています。

要約(オリジナル)

Online learning enhances educational accessibility, offering students the flexibility to learn anytime, anywhere. However, a key limitation is the lack of immediate, personalized feedback, particularly in helping students correct errors in math problem-solving. Several studies have investigated the applications of large language models (LLMs) in educational contexts. In this paper, we explore the capabilities of LLMs to assess students’ math problem-solving processes and provide adaptive feedback. The MathEDU dataset is introduced, comprising authentic student solutions annotated with teacher feedback. We evaluate the model’s ability to support personalized learning in two scenarios: one where the model has access to students’ prior answer histories, and another simulating a cold-start context. Experimental results show that the fine-tuned model performs well in identifying correctness. However, the model still faces challenges in generating detailed feedback for pedagogical purposes.

arxiv情報

著者 Wei-Ling Hsu,Yu-Chien Tang,An-Zi Yen
発行日 2025-05-23 15:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MathEDU: Towards Adaptive Feedback for Student Mathematical Problem-Solving はコメントを受け付けていません

KCIF: Knowledge-Conditioned Instruction Following

要約

LLM評価ベンチマークは、従来、知識/推論機能のテストを次のように分離してきました。
この作業では、知識と指導のフォローとの相互作用を研究し、LLMSが単純な回答の修正命令に従うのに苦労していることを観察し、元の知識タスクの回答に関係しないでください。
既存の複数選択回答ベースのナレッジベンチマークを活用し、テキスト(例:変更)、数値(例:値の増加、変化のフォーマット)、リスト(例:回答候補者の並べ替え)およびディストラクタの指示(例:数値回答のケースの変更)を操作する一連の簡単な指示を適用します。
さまざまなモデルファミリからさまざまなパラメーターサイズ(1B-405B)でモデルを評価し、驚くべきことに、すべてのモデルがこのような単純なタスク構成のパフォーマンスの大幅な低下を報告していることがわかります。
大規模およびフロンティアモデルは、パフォーマンスの40〜50%の低下を報告していますが、中小サイズのモデルでは低下は重度です(80%を超えることもあります)。
私たちの結果は、従来の知識/推論と指導の次の分離の制限を強調し、これらの能力の共同研究が重要であることを示唆しています。
ベンチマークデータセット、評価フレームワークコード、および将来の作業の結果をリリースします。

要約(オリジナル)

LLM evaluation benchmarks have traditionally separated the testing of knowledge/reasoning capabilities from instruction following. In this work, we study the interaction between knowledge and instruction following, and observe that LLMs struggle to follow simple answer modifying instructions, and are also distracted by instructions that should have no bearing on the original knowledge task answer. We leverage existing multiple-choice answer based knowledge benchmarks and apply a set of simple instructions which include manipulating text (eg.: change case), numeric quantities (eg.: increase value, change formatting), operate on lists (eg.: sort answer candidates) and distractor instructions (eg.: change case of numeric answers). We evaluate models at varying parameter sizes (1B-405B) from different model families and find that, surprisingly, all models report a significant drop in performance on such simple task compositions. While large-sized and frontier models report performance drops of 40-50%, in small and medium sized models the drop is severe (sometimes exceeding 80%). Our results highlight a limitation in the traditional separation of knowledge/reasoning and instruction following, and suggest that joint-study of these capabilities are important. We release our benchmark dataset, evaluation framework code, and results for future work.

arxiv情報

著者 Rudra Murthy,Praveen Venkateswaran,Prince Kumar,Danish Contractor
発行日 2025-05-23 16:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | KCIF: Knowledge-Conditioned Instruction Following はコメントを受け付けていません

Prototypical Human-AI Collaboration Behaviors from LLM-Assisted Writing in the Wild

要約

大規模な言語モデル(LLM)が複雑なライティングワークフローで使用されるため、ユーザーは多ターンインタラクションに従事し、ニーズに合わせて世代を操縦します。
出力を受動的に受け入れるのではなく、ユーザーはテキストを積極的に改良、探索、共同構築します。
私たちは、2人の人気AIアシスタント、Bing CopilotとWildChatとの野生でのタスクを書くことに従事するユーザーのために、この共同行動の大規模な分析を実施しています。
私たちの分析は、以前の作業で一般的な単純なタスク分類または満足度の推定を超えており、代わりにユーザーがセッションの過程でLLMと対話する方法を特徴付けます。
元のリクエストに従って、ユーザーがプロンプトでLLMと対話する方法について、プロトタイプの動作を特定します。
これらをプロトタイプのヒューマンアイコラボレーション行動(パス)と呼び、小さなパスグループがユーザーLLM相互作用に見られるバリエーションの大部分を説明していることがわかります。
これらのパスは、ユーザーが意図を改訂し、テキストを探索し、質問を提起し、スタイルを調整する、または新しいコンテンツの挿入に及びます。
次に、特定のライティングの意図とパスの間に統計的に有意な相関関係が見つかり、ユーザーの意図がコラボレーション行動をどのように形成するかを明らかにします。
LLMアライメントに関する調査結果の意味を議論することで最後に説明します。

要約(オリジナル)

As large language models (LLMs) are used in complex writing workflows, users engage in multi-turn interactions to steer generations to better fit their needs. Rather than passively accepting output, users actively refine, explore, and co-construct text. We conduct a large-scale analysis of this collaborative behavior for users engaged in writing tasks in the wild with two popular AI assistants, Bing Copilot and WildChat. Our analysis goes beyond simple task classification or satisfaction estimation common in prior work and instead characterizes how users interact with LLMs through the course of a session. We identify prototypical behaviors in how users interact with LLMs in prompts following their original request. We refer to these as Prototypical Human-AI Collaboration Behaviors (PATHs) and find that a small group of PATHs explain a majority of the variation seen in user-LLM interaction. These PATHs span users revising intents, exploring texts, posing questions, adjusting style or injecting new content. Next, we find statistically significant correlations between specific writing intents and PATHs, revealing how users’ intents shape their collaboration behaviors. We conclude by discussing the implications of our findings on LLM alignment.

arxiv情報

著者 Sheshera Mysore,Debarati Das,Hancheng Cao,Bahareh Sarrafzadeh
発行日 2025-05-23 16:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Prototypical Human-AI Collaboration Behaviors from LLM-Assisted Writing in the Wild はコメントを受け付けていません

WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

要約

DPOから蒸留まで、訓練後の言語モデル(LLM)は、行動を改良し、新しいスキルのロックを解除できますが、これらのトレーニング後の技術をサポートするオープンサイエンスはまだ初期段階にあります。
1つの制限要因は、合成データ生成モデルとLLMジャッジの大規模な比較分析を実施することの難しさです。
このギャップを埋めるために、これまでで最大のパブリックチャットデータセットであるWildChat-50Mを紹介します。
既存のWildChatデータセットを拡張して、GPTからだけでなく、0.5Bから104Bのパラメーターのサイズの50を超えるオープンウェイトモデルからの応答を含めます。
広範な比較分析を実施し、このデータセットの可能性を実証します。これは、アレンAIからの最近のTulu-3 SFT混合物を40%のサンプルでしかよりも優れたRewildであるPublic SFT Mixを作成します。
データセット、サンプル、コードは、https://github.com/penfever/wildchat-50mで入手できます。

要約(オリジナル)

Language model (LLM) post-training, from DPO to distillation, can refine behaviors and unlock new skills, but the open science supporting these post-training techniques is still in its infancy. One limiting factor has been the difficulty of conducting large-scale comparative analyses of synthetic data generating models and LLM judges. To close this gap, we introduce WILDCHAT-50M, the largest public chat dataset to date. We extend the existing WildChat dataset to include responses not only from GPT, but from over 50 different open-weight models, ranging in size from 0.5B to 104B parameters. We conduct an extensive comparative analysis and demonstrate the potential of this dataset by creating RE-WILD, our own public SFT mix, which outperforms the recent Tulu-3 SFT mixture from Allen AI with only 40% as many samples. Our dataset, samples and code are available at https://github.com/penfever/wildchat-50m.

arxiv情報

著者 Benjamin Feuer,Chinmay Hegde
発行日 2025-05-23 16:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training はコメントを受け付けていません

From Lists to Emojis: How Format Bias Affects Model Alignment

要約

この論文では、人間のフィードバック(RLHF)からの強化学習における形式バイアスを研究します。
人間の評価者、GPT-4、およびトップランクモデルを含む多くの広く使用されている好みモデルが、報酬ベンチベンチマークで、リスト、リンク、太字、絵文字、絵文字などの特定の形式パターンに強いバイアスを示すことを観察します。
さらに、大規模な言語モデル(LLMS)は、これらのバイアスを活用して、AlpacaevalやLMSYS Chatbot Arenaなどの一般的なベンチマークでより高いランキングを達成できます。
これの注目すべき例の1つは、冗長性のバイアスです。現在の選好モデルは、品質が短く競合する応答と等しい場合でも、より包括的なと思われるより長い応答を支持します。
ただし、冗長性を超えた形式のバイアスは、文献ではほとんど露出度が低いままです。
この作業では、一般的に認識されている長さのバイアスを超えて、好み学習におけるバイアスの研究を拡張し、より広い範囲の形式バイアスの包括的な分析を提供します。
さらに、少量のバイアスデータ(1%未満)で、報酬モデルに重要なバイアスを注入できることを示しています。
さらに、これらの形式バイアスは、応答の品質を改善するよりも形式を操作する方が簡単であるため、Best-of-nサンプリングやオンライン反復DPOなどの下流のアライメントアルゴリズムによって簡単に悪用することもできます。
私たちの調査結果は、アライメントアルゴリズムを設計し、モデルを評価するために、形式とコンテンツを解く必要性を強調しています。

要約(オリジナル)

In this paper, we study format biases in reinforcement learning from human feedback (RLHF). We observe that many widely-used preference models, including human evaluators, GPT-4, and top-ranking models on the RewardBench benchmark, exhibit strong biases towards specific format patterns, such as lists, links, bold text, and emojis. Furthermore, large language models (LLMs) can exploit these biases to achieve higher rankings on popular benchmarks like AlpacaEval and LMSYS Chatbot Arena. One notable example of this is verbosity bias, where current preference models favor longer responses that appear more comprehensive, even when their quality is equal to or lower than shorter, competing responses. However, format biases beyond verbosity remain largely underexplored in the literature. In this work, we extend the study of biases in preference learning beyond the commonly recognized length bias, offering a comprehensive analysis of a wider range of format biases. Additionally, we show that with a small amount of biased data (less than 1%), we can inject significant bias into the reward model. Moreover, these format biases can also be easily exploited by downstream alignment algorithms, such as best-of-n sampling and online iterative DPO, as it is usually easier to manipulate the format than to improve the quality of responses. Our findings emphasize the need to disentangle format and content both for designing alignment algorithms and evaluating models.

arxiv情報

著者 Xuanchang Zhang,Wei Xiong,Lichang Chen,Tianyi Zhou,Heng Huang,Tong Zhang
発行日 2025-05-23 16:32:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | From Lists to Emojis: How Format Bias Affects Model Alignment はコメントを受け付けていません

Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

要約

大規模な言語モデル(LLMS)は、高度な推論、長型のコンテンツ生成、およびツールの使用を通じて、ますます複雑なタスクに取り組む能力を実証しています。
これらのタスクを解決するには、多くの場合、長い推論時間計算が含まれます。
人間の問題解決では、作業を促進する一般的な戦略はコラボレーションです。問題をサブタスクに分割する、同時にさまざまな戦略を探求するなど。最近の研究では、LLMが投票メカニズムや並行して実行できる独立したサブタスクの明示的な作成など、明示的な協力フレームワークを実装することで並行して動作できることが示されています。
ただし、これらの各フレームワークは、すべてのタイプのタスクに適していない場合があり、適用性を妨げる可能性があります。
この作業では、別の設計アプローチを提案します。LLM「ワーカー」を並行して実行し、同時にアップデートされた注意キャッシュを介して同期することができ、これらのワーカーに協力の最善の方法を決定するように促します。
私たちのアプローチにより、LLMインスタンスは、同時KVキャッシュでお互いの記憶を「見る」ために、手元の問題のための独自のコラボレーション戦略を考え出すことができます。
HogWildを介してこのアプローチを実装します!
推論:同じLLMの複数のインスタンスが同じ注意キャッシュと並行して実行され、互いのメモリに「即座に」アクセスできる並列LLM推論エンジン。
ホグリド!
推論では、回転位置の埋め込み(ロープ)を利用して、並列ハードウェアの使用率を改善しながら再計算を避けます。
現代の推論対応LLMは、追加の微調整なしで、共有キー価値キャッシュを箱から出して推測を実行できることがわかります。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated the ability to tackle increasingly complex tasks through advanced reasoning, long-form content generation, and tool use. Solving these tasks often involves long inference-time computations. In human problem solving, a common strategy to expedite work is collaboration: by dividing the problem into sub-tasks, exploring different strategies concurrently, etc. Recent research has shown that LLMs can also operate in parallel by implementing explicit cooperation frameworks, such as voting mechanisms or the explicit creation of independent sub-tasks that can be executed in parallel. However, each of these frameworks may not be suitable for all types of tasks, which can hinder their applicability. In this work, we propose a different design approach: we run LLM ‘workers’ in parallel , allowing them to synchronize via a concurrently-updated attention cache and prompt these workers to decide how best to collaborate. Our approach allows the LLM instances to come up with their own collaboration strategy for the problem at hand, all the while ‘seeing’ each other’s memory in the concurrent KV cache. We implement this approach via Hogwild! Inference: a parallel LLM inference engine where multiple instances of the same LLM run in parallel with the same attention cache, with ‘instant’ access to each other’s memory. Hogwild! Inference takes advantage of Rotary Position Embeddings (RoPE) to avoid recomputation while improving parallel hardware utilization. We find that modern reasoning-capable LLMs can perform inference with shared Key-Value cache out of the box, without additional fine-tuning.

arxiv情報

著者 Gleb Rodionov,Roman Garipov,Alina Shutova,George Yakushev,Erik Schultheis,Vage Egiazarian,Anton Sinitsin,Denis Kuznedelev,Dan Alistarh
発行日 2025-05-23 16:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Hogwild! Inference: Parallel LLM Generation via Concurrent Attention はコメントを受け付けていません