Culture is Not Trivia: Sociocultural Theory for Cultural NLP

要約

文化的なNLPの分野は最近、言語技術が多元的なユーザーベース全体で効果的かつ安全であることを保証するための差し迫ったニーズに駆り立てられた急速な成長を経験しています。
この作品は、文化の共通の概念なしで大部分が進歩しており、代わりに幅広い文化的プロキシに頼ることを選択しています。
ただし、これは多くの繰り返し制限につながります。粗い国境の境界は、その中にある微妙な違いを捉えることができません。
文化が進化するにつれて変わらないでください。
このポジションペーパーでは、これらの方法論的な制限は理論的なギャップの症状であると主張します。
私たちは、社会文化的言語学からよく発達した文化理論を利用して、このギャップを1)ケーススタディで、方法論的制約とアフォーダンスをどのように明確にすることができるかを示します。
ローカライズは、文化的なNLPでの多くの現在の仕事の目標にとってより有用なフレーミングであると主張しています。

要約(オリジナル)

The field of cultural NLP has recently experienced rapid growth, driven by a pressing need to ensure that language technologies are effective and safe across a pluralistic user base. This work has largely progressed without a shared conception of culture, instead choosing to rely on a wide array of cultural proxies. However, this leads to a number of recurring limitations: coarse national boundaries fail to capture nuanced differences that lay within them, limited coverage restricts datasets to only a subset of usually highly-represented cultures, and a lack of dynamicity results in static cultural benchmarks that do not change as culture evolves. In this position paper, we argue that these methodological limitations are symptomatic of a theoretical gap. We draw on a well-developed theory of culture from sociocultural linguistics to fill this gap by 1) demonstrating in a case study how it can clarify methodological constraints and affordances, 2) offering theoretically-motivated paths forward to achieving cultural competence, and 3) arguing that localization is a more useful framing for the goals of much current work in cultural NLP.

arxiv情報

著者 Naitian Zhou,David Bamman,Isaac L. Bleaman
発行日 2025-02-17 17:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Culture is Not Trivia: Sociocultural Theory for Cultural NLP はコメントを受け付けていません

Formalizing Complex Mathematical Statements with LLMs: A Study on Mathematical Definitions

要約

彼らの言語能力のおかげで、LLMSは、オートフォーマル化を通じて、非公式の数学と正式な言語のギャップを埋める機会を提供します。
ただし、LLMSが洗練された自然に発生する数学的なステートメントにどれだけよく一般化するかはまだ不明です。
このギャップに対処するために、現実世界の数学的定義を自動占領するタスク、つまり数学的談話の重要な要素を調査します。
具体的には、オートフォーマル化のための2つの新しいリソースを導入し、ウィキペディア(def_wiki)とarxivペーパー(def_arxiv)から定義を収集します。
次に、LLMSの範囲を体系的に評価し、定義をイザベル/ホルに形式化する能力を分析します。
さらに、プルーフアシスタントからの外部フィードバックを介した改良を含むLLMSのパフォーマンスを強化する戦略を調査し、正式な数学ライブラリから関連するコンテキスト要素を介してLLMを導く正式な定義の基礎を調査します。
私たちの調査結果は、MINIF2Fなどの既存のベンチマークと比較して、定義がより大きな課題を提示することを明らかにしています。
特に、LLMは依然として自己修正に苦労しており、関連する数学ライブラリと協力することがわかりました。
同時に、構造化された改良方法と定義の接地戦略により、自己修正能力が最大16%、未定義のエラーの減少が43%の顕著な改善が得られ、実際のシナリオでのLLMベースの自己体系化を強化するための有望な方向性が強調されています。

要約(オリジナル)

Thanks to their linguistic capabilities, LLMs offer an opportunity to bridge the gap between informal mathematics and formal languages through autoformalization. However, it is still unclear how well LLMs generalize to sophisticated and naturally occurring mathematical statements. To address this gap, we investigate the task of autoformalizing real-world mathematical definitions — a critical component of mathematical discourse. Specifically, we introduce two novel resources for autoformalisation, collecting definitions from Wikipedia (Def_Wiki) and arXiv papers (Def_ArXiv). We then systematically evaluate a range of LLMs, analyzing their ability to formalize definitions into Isabelle/HOL. Furthermore, we investigate strategies to enhance LLMs’ performance including refinement through external feedback from Proof Assistants, and formal definition grounding, where we guide LLMs through relevant contextual elements from formal mathematical libraries. Our findings reveal that definitions present a greater challenge compared to existing benchmarks, such as miniF2F. In particular, we found that LLMs still struggle with self-correction, and aligning with relevant mathematical libraries. At the same time, structured refinement methods and definition grounding strategies yield notable improvements of up to 16% on self-correction capabilities and 43% on the reduction of undefined errors, highlighting promising directions for enhancing LLM-based autoformalization in real-world scenarios.

arxiv情報

著者 Lan Zhang,Marco Valentino,Andre Freitas
発行日 2025-02-17 17:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL | Formalizing Complex Mathematical Statements with LLMs: A Study on Mathematical Definitions はコメントを受け付けていません

Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation

要約

ソーシャルメディアは、トレンドのトピックとの動的なユーザーエンゲージメントを可能にし、最近の研究では、応答生成のための大規模な言語モデル(LLM)の可能性を調査しました。
一部の研究では、ソーシャルメディアでユーザーの行動をシミュレートするためのエージェントとしてLLMSを調査していますが、LLMが人間の行動とどの程度うまく調整されるかをより深く理解するのではなく、実用的な実行可能性とスケーラビリティに焦点を当てています。
このペーパーでは、アクションガイド付き応答生成を通じてソーシャルメディアのエンゲージメントをシミュレートするLLMSの能力を分析します。モデルは、予測アクションに条件付けられたパーソナライズされた応答を生成する前に、ユーザーのエンゲージメントアクションリトウィート、引用、または書き換えのトレンド投稿を最初に予測します。

ソーシャルメディアエンゲージメントシミュレーションでXで議論されている主要な社会的イベントに関するGPT-4O-MINI、O1-MINI、およびDEEPSEEK-R1をベンチマークします。
限られた例でLLMSの予測精度を分解します。
ただし、応答生成では、少数のショットLLMがグラウンドトゥルースポストとの強いセマンティックアライメントを実現します。

要約(オリジナル)

Social media enables dynamic user engagement with trending topics, and recent research has explored the potential of large language models (LLMs) for response generation. While some studies investigate LLMs as agents for simulating user behavior on social media, their focus remains on practical viability and scalability rather than a deeper understanding of how well LLM aligns with human behavior. This paper analyzes LLMs’ ability to simulate social media engagement through action guided response generation, where a model first predicts a user’s most likely engagement action-retweet, quote, or rewrite-towards a trending post before generating a personalized response conditioned on the predicted action. We benchmark GPT-4o-mini, O1-mini, and DeepSeek-R1 in social media engagement simulation regarding a major societal event discussed on X. Our findings reveal that zero-shot LLMs underperform BERT in action prediction, while few-shot prompting initially degrades the prediction accuracy of LLMs with limited examples. However, in response generation, few-shot LLMs achieve stronger semantic alignment with ground truth posts.

arxiv情報

著者 Zhongyi Qiu,Hanjia Lyu,Wei Xiong,Jiebo Luo
発行日 2025-02-17 17:43:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation はコメントを受け付けていません

AdaSplash: Adaptive Sparse Flash Attention

要約

トランスのソフトマックスベースの注意の計算コストは​​、長期コンテストタスクへの適用性を制限します。
$ \ alpha $ -Entmaxの注意は例ですが、柔軟なデータ依存の代替品を提供しますが、既存の実装は非効率的であり、スパースを活用してランタイムとメモリのゲインを得ることはありません。
この作業では、GPU最適化されたアルゴリズムの効率と$ \ alpha $ -Entmaxのスパースの利点を組み合わせたAdasplashを提案します。
最初にハイブリッドハレー二等分アルゴリズムを導入し、$ \ alpha $ -Entmax変換を計算するために必要な反復回数が7倍減少しました。
次に、カスタムトリトンカーネルを実装して、適応性のあるスパースを効率的に処理します。
テキスト分類および単一ベクトル検索のためのRobertaおよびModernBertとの実験と、言語モデリングのGPT-2とともに、既存の$ \ Alpha $ -EntMaxの実装と比較して、ランタイムとメモリ効率の大幅な改善が達成されることを示しています。
Flashattention-2などの高度に最適化されたSoftMax実装の効率に近づき、場合によっては上回り、タスクのパフォーマンスを強化しながら長いコンテキストトレーニングを可能にします。

要約(オリジナル)

The computational cost of softmax-based attention in transformers limits their applicability to long-context tasks. Adaptive sparsity, of which $\alpha$-entmax attention is an example, offers a flexible data-dependent alternative, but existing implementations are inefficient and do not leverage the sparsity to obtain runtime and memory gains. In this work, we propose AdaSplash, which combines the efficiency of GPU-optimized algorithms with the sparsity benefits of $\alpha$-entmax. We first introduce a hybrid Halley-bisection algorithm, resulting in a 7-fold reduction in the number of iterations needed to compute the $\alpha$-entmax transformation. Then, we implement custom Triton kernels to efficiently handle adaptive sparsity. Experiments with RoBERTa and ModernBERT for text classification and single-vector retrieval, along with GPT-2 for language modeling, show that our method achieves substantial improvements in runtime and memory efficiency compared to existing $\alpha$-entmax implementations. It approaches — and in some cases surpasses — the efficiency of highly optimized softmax implementations like FlashAttention-2, enabling long-context training while maintaining strong task performance.

arxiv情報

著者 Nuno Gonçalves,Marcos Treviso,André F. T. Martins
発行日 2025-02-17 17:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | AdaSplash: Adaptive Sparse Flash Attention はコメントを受け付けていません

VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues

要約

一致する手がかりを視覚的にリンクすることは、自分の手がかりに基づいて複数の写真で同じ人を識別するなど、日常生活において重要な能力です。
ビジョン言語モデル(VLM)が持っている広範な知識にもかかわらず、この基本的なタスクを実行できるかどうかは、ほとんど説明されていません。
これに対処するために、VLMが一致するキューを視覚的にリンクできるかどうかを評価できるベンチマークであるVLM $^2 $ -Benchを導入します。
8つのオープンソースVLMSとGPT-4Oにわたる包括的な評価、およびさまざまな言語側およびビジョン側のプロンプトメソッドのさらなる分析により、合計8つの重要な調査結果が発生します。
視覚的な手がかりをリンクするモデルの能力における重要な課題を特定し、GPT-4Oでさえ人間に34.80%遅れている重要なパフォーマンスギャップを強調しています。
これらの洞察に基づいて、(i)適応性を向上させ、事前知識への依存を減らすためのコア視覚能力の向上、(ii)不必要なバイアスを防ぐために視覚中心のタスクに言語ベースの推論を統合するためのより明確な原則を確立することを提唱します。
)視覚的な手がかりの間の関係を独立して構築し、推測するモデルの能力を促進するためのビジョンテキストトレーニングパラダイムをシフトするパラダイム。

要約(オリジナル)

Visually linking matching cues is a crucial ability in daily life, such as identifying the same person in multiple photos based on their cues, even without knowing who they are. Despite the extensive knowledge that vision-language models (VLMs) possess, it remains largely unexplored whether they are capable of performing this fundamental task. To address this, we introduce VLM$^2$-Bench, a benchmark designed to assess whether VLMs can Visually Link Matching cues, with 9 subtasks and over 3,000 test cases. Comprehensive evaluation across eight open-source VLMs and GPT-4o, along with further analysis of various language-side and vision-side prompting methods, leads to a total of eight key findings. We identify critical challenges in models’ ability to link visual cues, highlighting a significant performance gap where even GPT-4o lags 34.80% behind humans. Based on these insights, we advocate for (i) enhancing core visual capabilities to improve adaptability and reduce reliance on prior knowledge, (ii) establishing clearer principles for integrating language-based reasoning in vision-centric tasks to prevent unnecessary biases, and (iii) shifting vision-text training paradigms toward fostering models’ ability to independently structure and infer relationships among visual cues.

arxiv情報

著者 Jianshu Zhang,Dongyu Yao,Renjie Pi,Paul Pu Liang,Yi R.,Fung
発行日 2025-02-17 17:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues はコメントを受け付けていません

APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs

要約

大規模な言語モデル(LLM)アプリケーションを進めるためには、長いコンテキストの推論が重要ですが、そのPrefill速度は依然として重要なボトルネックのままです。
シーケンス並列性戦略や近似の注意メカニズムを介した計算削減などの現在のアプローチは、最適な推論効率を提供することに依然として不足しています。
これにより、入力をより長いシーケンスにスケーリングし、タイムリーに長いコンテキストクエリを処理できます。
これに対処するために、マルチホストのおおよその注意をレバレバルする効率的な長いコンテキスト推論フレームワークであるAPBを紹介します。
APBは、シーケンス並列性フレームワーク内で重要なキー価値ペアの通信メカニズムを導入し、タスクのパフォーマンスを維持しながらより速い推論速度を可能にします。
最適化された分布戦略とともにテーラードFlashAttNカーネルを組み込んでAPBを実装し、多様なモデルと並列性構成をサポートします。
APBは、観察可能なタスクパフォ​​ーマンスの低下なしに、それぞれFlashattn、Ringattn、およびStarattnと比較して、最大9.2x、4.2x、および1.6xのスピードアップを達成します。
https://github.com/thunlp/apbでAPBの実装および実験コードを提供します。

要約(オリジナル)

While long-context inference is crucial for advancing large language model (LLM) applications, its prefill speed remains a significant bottleneck. Current approaches, including sequence parallelism strategies and compute reduction through approximate attention mechanisms, still fall short of delivering optimal inference efficiency. This hinders scaling the inputs to longer sequences and processing long-context queries in a timely manner. To address this, we introduce APB, an efficient long-context inference framework that leverages multi-host approximate attention to enhance prefill speed by reducing compute and enhancing parallelism simultaneously. APB introduces a communication mechanism for essential key-value pairs within a sequence parallelism framework, enabling a faster inference speed while maintaining task performance. We implement APB by incorporating a tailored FlashAttn kernel alongside optimized distribution strategies, supporting diverse models and parallelism configurations. APB achieves speedups of up to 9.2x, 4.2x, and 1.6x compared with FlashAttn, RingAttn, and StarAttn, respectively, without any observable task performance degradation. We provide the implementation and experiment code of APB in https://github.com/thunlp/APB.

arxiv情報

著者 Yuxiang Huang,Mingye Li,Xu Han,Chaojun Xiao,Weilin Zhao,Sun Ao,Hao Zhou,Jie Zhou,Zhiyuan Liu,Maosong Sun
発行日 2025-02-17 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs はコメントを受け付けていません

BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data

要約

この作業では、現実的な人格特性をLLMに埋め込むという課題に取り組みます。
以前のアプローチは、主に、リアリズムと妥当性の問題に苦しんでいる、望ましい人格特性に関連する行動を説明する迅速な方法に焦点を当ててきました。
これらの制限に対処するために、人間が言語で性格を表現する方法のモデルを接地するために設計された100,000の対話を含む大規模なデータセットであるBig5-chatを紹介します。
このデータセットを活用して、トレーニングベースの方法として、監督された微調整と直接優先嗜好の最適化を、LLMSをより自然に人間の性格パターンとより自然に整列させることを探ります。
私たちの方法は、BFIやIPIP-Neoなどの人格評価を促すよりも優れており、特性相関は人間のデータに密接に一致しています。
さらに、我々の実験は、より高い良心性、より高い同意性、より低い外向性、および低い神経症を示すように訓練されたモデルが推論タスクのパフォーマンスを改善し、これらの特性が人間の認知パフォーマンスにどのように影響するかについての心理的な発見と協力することを明らかにしています。
私たちの知る限り、この作品は、トレーニングベースの方法が実際の人間の行動から学ぶことでLLMの人格をどのように形成できるかを示す最初の包括的な研究です。

要約(オリジナル)

In this work, we tackle the challenge of embedding realistic human personality traits into LLMs. Previous approaches have primarily focused on prompt-based methods that describe the behavior associated with the desired personality traits, suffering from realism and validity issues. To address these limitations, we introduce BIG5-CHAT, a large-scale dataset containing 100,000 dialogues designed to ground models in how humans express their personality in language. Leveraging this dataset, we explore Supervised Fine-Tuning and Direct Preference Optimization as training-based methods to align LLMs more naturally with human personality patterns. Our methods outperform prompting on personality assessments such as BFI and IPIP-NEO, with trait correlations more closely matching human data. Furthermore, our experiments reveal that models trained to exhibit higher conscientiousness, higher agreeableness, lower extraversion, and lower neuroticism display better performance on reasoning tasks, aligning with psychological findings on how these traits impact human cognitive performance. To our knowledge, this work is the first comprehensive study to demonstrate how training-based methods can shape LLM personalities through learning from real human behaviors.

arxiv情報

著者 Wenkai Li,Jiarui Liu,Andy Liu,Xuhui Zhou,Mona Diab,Maarten Sap
発行日 2025-02-17 18:05:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data はコメントを受け付けていません

Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST)

要約

機械翻訳の分野は大きな進歩を達成していますが、特にAIでのドメイン固有の用語翻訳は依然として困難です。
2000年から2023年にわたるトップAIカンファレンスペーパーから抽出された5K用語を含む大規模な多言語AI用語データセットであるGISTを紹介します。この用語は、抽出用のLLMSを組み合わせたハイブリッドフレームワークを使用して、アラビア語、中国語、フランス語、日本、およびロシア語に翻訳されます。
翻訳のための人間の専門知識があります。
データセットの品質は既存のリソースに対してベンチマークされており、クラウドソーシング評価を通じて優れた翻訳の精度を示しています。
GISTは、再翻訳後の改良方法を使用して翻訳ワークフローに統合されます。
ACLアンソロジープラットフォームでのWebデモンストレーションは、その実用的なアプリケーションを強調し、英語以外のスピーカーのアクセシビリティの改善を紹介します。
この作業は、AI用語リソースの重要なギャップに対処し、AI研究におけるグローバルな包括性と協力を促進することを目的としています。

要約(オリジナル)

The field of machine translation has achieved significant advancements, yet domain-specific terminology translation, particularly in AI, remains challenging. We introduce GIST, a large-scale multilingual AI terminology dataset containing 5K terms extracted from top AI conference papers spanning 2000 to 2023. The terms are translated into Arabic, Chinese, French, Japanese, and Russian using a hybrid framework that combines LLMs for extraction with human expertise for translation. The dataset’s quality is benchmarked against existing resources, demonstrating superior translation accuracy through crowdsourced evaluation. GIST is integrated into translation workflows using post-translation refinement methods that require no retraining, where LLM prompting consistently improves BLEU and COMET scores. A web demonstration on the ACL Anthology platform highlights its practical application, showcasing improved accessibility for non-English speakers. This work aims to address critical gaps in AI terminology resources and fosters global inclusivity and collaboration in AI research.

arxiv情報

著者 Jiarui Liu,Iman Ouzzani,Wenkai Li,Lechen Zhang,Tianyue Ou,Houda Bouamor,Zhijing Jin,Mona Diab
発行日 2025-02-17 18:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST) はコメントを受け付けていません

A-MEM: Agentic Memory for LLM Agents

要約

大規模な言語モデル(LLM)エージェントは、複雑な実世界のタスクに外部ツールを効果的に使用できますが、歴史的な経験を活用するためにメモリシステムが必要です。
現在のメモリシステムは、基本的なストレージと検索を可能にしますが、グラフデータベースを組み込もうとする最近の試みにもかかわらず、洗練されたメモリ組織を欠いています。
さらに、これらのシステムの固定操作と構造は、多様なタスク全体で適応性を制限しています。
この制限に対処するために、このペーパーでは、エージェントの方法で記憶を動的に整理できるLLMエージェント向けの新しいエージェントメモリシステムを提案します。
Zettelkastenメソッドの基本原則に従って、動的なインデックス作成とリンクを通じて相互接続された知識ネットワークを作成するようにメモリシステムを設計しました。
新しいメモリが追加されると、コンテキストの説明、キーワード、タグなど、複数の構造化された属性を含む包括的なメモを生成します。
次に、システムは歴史的な記憶を分析して、関連する接続を特定し、意味のある類似性が存在するリンクを確立します。
さらに、このプロセスにより、メモリの進化が可能になります。新しいメモリが統合されると、既存の歴史的記憶のコンテキスト表現と属性の更新をトリガーでき、メモリネットワークがその理解を継続的に改良することができます。
私たちのアプローチは、Zettelkastenの構造化された組織原則を、エージェント主導の意思決定の柔軟性と組み合わせて、より適応的でコンテキスト認識したメモリ管理を可能にします。
6つの基礎モデルでの経験的実験は、既存のSOTAベースラインに対する優れた改善を示しています。
ソースコードは、https://github.com/wujiangxu/agenticmemoryで入手できます。

要約(オリジナル)

While large language model (LLM) agents can effectively use external tools for complex real-world tasks, they require memory systems to leverage historical experiences. Current memory systems enable basic storage and retrieval but lack sophisticated memory organization, despite recent attempts to incorporate graph databases. Moreover, these systems’ fixed operations and structures limit their adaptability across diverse tasks. To address this limitation, this paper proposes a novel agentic memory system for LLM agents that can dynamically organize memories in an agentic way. Following the basic principles of the Zettelkasten method, we designed our memory system to create interconnected knowledge networks through dynamic indexing and linking. When a new memory is added, we generate a comprehensive note containing multiple structured attributes, including contextual descriptions, keywords, and tags. The system then analyzes historical memories to identify relevant connections, establishing links where meaningful similarities exist. Additionally, this process enables memory evolution – as new memories are integrated, they can trigger updates to the contextual representations and attributes of existing historical memories, allowing the memory network to continuously refine its understanding. Our approach combines the structured organization principles of Zettelkasten with the flexibility of agent-driven decision making, allowing for more adaptive and context-aware memory management. Empirical experiments on six foundation models show superior improvement against existing SOTA baselines. The source code is available at https://github.com/WujiangXu/AgenticMemory.

arxiv情報

著者 Wujiang Xu,Zujie Liang,Kai Mei,Hang Gao,Juntao Tan,Yongfeng Zhang
発行日 2025-02-17 18:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | A-MEM: Agentic Memory for LLM Agents はコメントを受け付けていません

Scaling Test-Time Compute Without Verification or RL is Suboptimal

要約

テスト時間計算のスケーリングに大きな進歩にもかかわらず、コミュニティで継続的な議論は、スケーリングにより継続的かつ効率的な改善を可能にするために拡大する方法です。
主に2つのアプローチがあります。まず、成功した検索または思考の痕跡を蒸留することです。
第二に、強化学習(RL)と検索アルゴリズムを導くために、検証(0/1結果の報酬、報酬モデル、または検証剤)を使用します。
この論文では、RLまたは検索に基づいた検証剤ベースの(VB)メソッドを使用したFinetuning LLMSが、固定額のコンピューティング/データ予算を考慮して、検索トレースの蒸留またはクローニングに基づいた検証剤フリー(VF)アプローチよりもはるかに優れていることを証明します。

さらに、テスト時間計算(出力トークンの長さとして測定)とトレーニングデータをスケーリングする際に、ベースの事前訓練を受けたLLMが正しい溶液トレースよりも不均一な分布を提示する場合、VFメソッドのサブオプティマリティはVBと比較して不十分であることを示します(例えば
、異なる長さ、スタイルなど)、およびそれからサンプリングされたトレースの報酬よりも非鋭い分布を認めます。
抗濃縮[erd \ h {o} s、1945]を使用してこの状態を正式にします。
これは、VBメソッドがより漸近的にスケールし、VBとVFメソッドのパフォーマンスギャップがテスト時間の予算が増加するにつれて拡大するという強い結果を意味します。
3/8/32Bサイズの事前訓練を受けたLLMの教訓的および数学推論の両方の問題について、理論を実証的に裏付けています。テスト時間計算のスケーリングには検証が重要であることがわかります。

要約(オリジナル)

Despite substantial advances in scaling test-time compute, an ongoing debate in the community is how it should be scaled up to enable continued and efficient improvements with scaling. There are largely two approaches: first, distilling successful search or thinking traces; and second, using verification (e.g., 0/1 outcome rewards, reward models, or verifiers) to guide reinforcement learning (RL) and search algorithms. In this paper, we prove that finetuning LLMs with verifier-based (VB) methods based on RL or search is far superior to verifier-free (VF) approaches based on distilling or cloning search traces, given a fixed amount of compute/data budget. Further, we show that as we scale test-time compute (measured as the output token length) and training data, suboptimality of VF methods scales poorly compared to VB when the base pre-trained LLM presents a heterogeneous distribution over correct solution traces (e.g., different lengths, styles, etc.) and admits a non-sharp distribution over rewards on traces sampled from it. We formalize this condition using anti-concentration [Erd\H{o}s, 1945]. This implies a stronger result that VB methods scale better asymptotically, with the performance gap between VB and VF methods widening as test-time budget grows. We corroborate our theory empirically on both didactic and math reasoning problems with 3/8/32B-sized pre-trained LLMs, where we find verification is crucial for scaling test-time compute.

arxiv情報

著者 Amrith Setlur,Nived Rajaraman,Sergey Levine,Aviral Kumar
発行日 2025-02-17 18:43:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Scaling Test-Time Compute Without Verification or RL is Suboptimal はコメントを受け付けていません