Mitigating Bias in RAG: Controlling the Embedder

要約

検索拡張生成(RAG)システムでは、各個々のコンポーネント(LLM、エンバダー、コーパス)が、特定の視点やアイデンティティの出力に向けてスキューの形でバイアスを導入することができます。
この作業では、各コンポーネントのバイアスと、バイアス競合と呼ばれるRAGシステムの全体的なバイアスとの関係との間の競合を研究します。
ケーススタディとしての性別と政治のバイアスの両方を調べると、6つの異なるLLMでの複雑さにもかかわらず、コンポーネント間の線形関係を通じてバイアスの対立が特徴付けられることを示します。
包括的な微調整実験を通じて、120の異なるバイアス埋め込み剤を作成することで、ユーティリティを維持しながらバイアスを制御する方法を示し、システム全体のバイアスを緩和するために埋め込み剤を逆バイアシングすることの重要性を明らかにします。
さらに、LLMSとタスクは、浸透するために考慮すべき重要な要因である包含バイアスに対してさまざまな感度を示すことがわかります。
私たちの結果は、公正なぼろきれシステムを、その公平性を高めるのではなく、胚のバイアスを慎重に制御することでよりよく達成できることを強調しています。

要約(オリジナル)

In retrieval augmented generation (RAG) systems, each individual component — the LLM, embedder, and corpus — could introduce biases in the form of skews towards outputting certain perspectives or identities. In this work, we study the conflict between biases of each component and their relationship to the overall bias of the RAG system, which we call bias conflict. Examining both gender and political biases as case studies, we show that bias conflict can be characterized through a linear relationship among components despite its complexity in 6 different LLMs. Through comprehensive fine-tuning experiments creating 120 differently biased embedders, we demonstrate how to control bias while maintaining utility and reveal the importance of reverse-biasing the embedder to mitigate bias in the overall system. Additionally, we find that LLMs and tasks exhibit varying sensitivities to the embedder bias, a crucial factor to consider for debiasing. Our results underscore that a fair RAG system can be better achieved by carefully controlling the bias of the embedder rather than increasing its fairness.

arxiv情報

著者 Taeyoun Kim,Jacob Springer,Aditi Raghunathan,Maarten Sap
発行日 2025-02-24 18:16:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Mitigating Bias in RAG: Controlling the Embedder はコメントを受け付けていません

HYBRIDMIND: Meta Selection of Natural Language and Symbolic Language for Enhanced LLM Reasoning

要約

LLMSは、自然または象徴的な言語を通じて論理的および数学的推論にアプローチします。
自然言語は人間のアクセス可能な柔軟性を提供しますが、あいまいさに苦しんでいますが、象徴的な推論は、厳格なドメイン制約を犠牲にして、正確で機械で実行可能な推論を提供します。
Hybridmindを紹介します。これは、各推論問題の最適な推論アプローチを選択する適応戦略です。
広範な実験を通じて、最先端のLLMSと微調整されたオープンソースモデルを使用したプロンプトベースのアプローチの両方を評価します。
メタセレクターとしての微調整されたllama-3.1-8b-instructは、gpt-4oの自然言語の推論を、フォリオで4.4 \%、数学で1.3 \%よりも優れていることがわかります。
さらに顕著なのは、GPT-3.5-ターボをプロンプトのメタセレクターとして使用すると、GPT-4Oと比較してFolioの挑戦的なサブセットが10 \%改善されます。
将来の研究をサポートするために、コードとデータをリリースします。

要約(オリジナル)

LLMs approach logical and mathematical reasoning through natural or symbolic languages. While natural language offers human-accessible flexibility but suffers from ambiguity, symbolic reasoning provides precise, machine-executable inferences at the cost of strict domain constraints. We introduce HYBRIDMIND, an adaptive strategy that selects the optimal reasoning approach for each reasoning problem. Through extensive experiments, we evaluate both prompting-based approaches with state-of-the-art LLMs and fine-tuned open-source models. We find that fine-tuning LLaMA-3.1-8B-Instruct as a meta-selector outperforms GPT-4o’s natural language reasoning by 4.4\% on FOLIO and 1.3\% on MATH. More notably, using GPT-3.5-turbo as a prompted meta-selector yields a 10\% improvement on FOLIO’s challenging subset compared to GPT-4o. We will release our code and data to support future research.

arxiv情報

著者 Simeng Han,Tianyu Liu,Chuhan Li,Xuyuan Xiong,Arman Cohan
発行日 2025-02-24 18:28:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HYBRIDMIND: Meta Selection of Natural Language and Symbolic Language for Enhanced LLM Reasoning はコメントを受け付けていません

Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

要約

トレーニング前の計算のスケーリングは、ムリトゥーリング性を達成するのに効果的であることが証明されていますが、テスト時間スケーリングにも同じことがわかりますか?
この作業では、55の言語での競争レベルの問題を特徴とする多言語数学ベンチマークであるMCLMを紹介します。
3つのテスト時間スケーリングメソッドアウト結果報酬モデリング(ORM)、プロセス報酬モデリング(ORM)、および予算の強制(BF) – QWEN2.5-1.5B MATHとMR1-1.5Bの両方でトレーニングしたMR1-1.5B
拡張された推論のため。
私たちの実験は、ORMでQWEN2.5-1.5B MATHを使用するとMCLMで35.8のスコアを達成し、MR1-1.5BのBFが35.2を達成することを示しています。
「Thinking LLMS」は最近大きな注目を集めていますが、そのパフォーマンスは、同様のレベルの推論フロップに制約されていたBest-of-Nのような従来のスケーリング方法に匹敵することがわかります。
さらに、BFは英語のAIMEで20ポイントの改善をもたらしますが、他の言語で1.94ポイントの平均ゲインしか提供しません。テスト時間スケーリングが一般化できないことを調査した他のテスト時間スケーリング方法で一貫して一貫しているパターンです。
多言語のタスクに効果的に。
さらなる研究を促進するために、MCLM、MR1-1.5B、および評価結果をリリースします。

要約(オリジナル)

Scaling pre-training compute has proven effective for achieving mulitlinguality, but does the same hold for test-time scaling? In this work, we introduce MCLM, a multilingual math benchmark featuring competition-level problems in 55 languages. We test three test-time scaling methods-Outcome Reward Modeling (ORM), Process Reward Modeling (ORM), and Budget Forcing (BF)-on both Qwen2.5-1.5B Math and MR1-1.5B, a multilingual LLM we trained for extended reasoning. Our experiments show that using Qwen2.5-1.5B Math with ORM achieves a score of 35.8 on MCLM, while BF on MR1-1.5B attains 35.2. Although ‘thinking LLMs’ have recently garnered significant attention, we find that their performance is comparable to traditional scaling methods like best-of-N once constrained to similar levels of inference FLOPs. Moreover, while BF yields a 20-point improvement on English AIME, it provides only a 1.94-point average gain across other languages-a pattern consistent across the other test-time scaling methods we studied-higlighting that test-time scaling may not generalize as effectively to multilingual tasks. To foster further research, we release MCLM, MR1-1.5B, and evaluation results.

arxiv情報

著者 Guijin Son,Jiwoo Hong,Hyunwoo Ko,James Thorne
発行日 2025-02-24 18:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning はコメントを受け付けていません

Comparing Large Language Model AI and Human-Generated Coaching Messages for Behavioral Weight Loss

要約

ウェイトコントロールのための自動コーチングメッセージは時間とコストを節約できますが、それらの繰り返しの一般的な性質は、人間のコーチングと比較して有効性を制限する可能性があります。
CHATGPTのような大手言語モデル(LLM)ベースの人工知能(AI)チャットボットは、データ処理能力で繰り返し対処するために、よりパーソナライズされた斬新なメッセージを提供できます。
LLM AIはより健康的なライフスタイルを奨励することを約束していますが、研究はLLMベースのBWLコーチングの実現可能性と受容性をまだ検討していません。
5ポイントのリッカートスケールを使用して、ウェイトロストライアルの87人の大人が10個のコーチングメッセージの有用性(5人の人間が書かれた、5人のChatGPTを生成した)を使用して評価し、評価を正当化するための追加のオープンエンドフィードバックを提供しました。
参加者はまた、どのメッセージがAIに生成されているかを特定しました。
評価は2つのフェーズで発生しました。フェーズ1のメッセージは非人格的および否定的であると認識され、フェーズ2メッセージの改訂を促します。
フェーズ1では、AIに生成されたメッセージは、人間が作成したメッセージよりも役立たないと評価され、66%が3以上の有用な評価を受けています。
ただし、フェーズ2では、AIメッセージは有用性に関して人間が書いたメッセージと一致し、82%は3以上のスコアを付けました。
さらに、50%が人間が書かれたものと誤認され、人間が生成したコンテンツを模倣する際のAIの洗練度を示唆しています。
自由回答形式のフィードバックのテーマ別分析により、参加者はAIの共感とパーソナライズされた提案を高く評価しているが、より定型的で、本物ではなく、データに焦点を当てていることがわかったことが明らかになりました。
この研究は、潜在的に効果的な体重制御コーチングメッセージの作成におけるChatGptのようなLLM AIの予備的な実現可能性と許容性を明らかにしています。
私たちの調査結果は、将来の強化の領域も強調しています。

要約(オリジナル)

Automated coaching messages for weight control can save time and costs, but their repetitive, generic nature may limit their effectiveness compared to human coaching. Large language model (LLM) based artificial intelligence (AI) chatbots, like ChatGPT, could offer more personalized and novel messages to address repetition with their data-processing abilities. While LLM AI demonstrates promise to encourage healthier lifestyles, studies have yet to examine the feasibility and acceptability of LLM-based BWL coaching. 87 adults in a weight-loss trial rated ten coaching messages’ helpfulness (five human-written, five ChatGPT-generated) using a 5-point Likert scale, providing additional open-ended feedback to justify their ratings. Participants also identified which messages they believed were AI-generated. The evaluation occurred in two phases: messages in Phase 1 were perceived as impersonal and negative, prompting revisions for Phase 2 messages. In Phase 1, AI-generated messages were rated less helpful than human-written ones, with 66 percent receiving a helpfulness rating of 3 or higher. However, in Phase 2, the AI messages matched the human-written ones regarding helpfulness, with 82% scoring three or above. Additionally, 50% were misidentified as human-written, suggesting AI’s sophistication in mimicking human-generated content. A thematic analysis of open-ended feedback revealed that participants appreciated AI’s empathy and personalized suggestions but found them more formulaic, less authentic, and too data-focused. This study reveals the preliminary feasibility and acceptability of LLM AIs, like ChatGPT, in crafting potentially effective weight control coaching messages. Our findings also underscore areas for future enhancement.

arxiv情報

著者 Zhuoran Huang,Michael P. Berry,Christina Chwyl,Gary Hsieh,Jing Wei,Evan M. Forman
発行日 2025-02-24 18:38:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Comparing Large Language Model AI and Human-Generated Coaching Messages for Behavioral Weight Loss はコメントを受け付けていません

TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning

要約

階層組織は生物学的システムと人間社会の基本ですが、人工知能システムは、適応性とスケーラビリティを制限するモノリシックな建築に依存することがよくあります。
現在の階層補強学習(HRL)アプローチは、通常、階層を2つのレベルに制限するか、実用的な適用性を制限する集中トレーニングを必要とします。
完全に分散型の階層的マルチエージェントシステムを構築するためのフレームワークであるTAMEエージェントフレームワーク(TAG)を紹介します。TAGは、その上のエージェントの環境として各階層レベルを抽象化する新しいlevelENV概念を通じて、任意の深さの階層を有効にします。
このアプローチは、レベル間の情報フローを標準化しながら、ゆるいカップリングを維持し、多様なエージェントタイプのシームレスな統合を可能にします。
複数のレベルで異なるRLエージェントを組み合わせた階層アーキテクチャを実装し、標準ベンチマーク上の古典的なマルチエージェントRLベースラインのパフォーマンスの向上を実現することにより、TAGの有効性を実証します。
我々の結果は、分散型の階層組織が学習速度と最終パフォーマンスの両方を強化し、スケーラブルなマルチエージェントシステムの有望な方向としてタグを配置することを示しています。

要約(オリジナル)

Hierarchical organization is fundamental to biological systems and human societies, yet artificial intelligence systems often rely on monolithic architectures that limit adaptability and scalability. Current hierarchical reinforcement learning (HRL) approaches typically restrict hierarchies to two levels or require centralized training, which limits their practical applicability. We introduce TAME Agent Framework (TAG), a framework for constructing fully decentralized hierarchical multi-agent systems.TAG enables hierarchies of arbitrary depth through a novel LevelEnv concept, which abstracts each hierarchy level as the environment for the agents above it. This approach standardizes information flow between levels while preserving loose coupling, allowing for seamless integration of diverse agent types. We demonstrate the effectiveness of TAG by implementing hierarchical architectures that combine different RL agents across multiple levels, achieving improved performance over classical multi-agent RL baselines on standard benchmarks. Our results show that decentralized hierarchical organization enhances both learning speed and final performance, positioning TAG as a promising direction for scalable multi-agent systems.

arxiv情報

著者 Giuseppe Paolo,Abdelhakim Benechehab,Hamza Cherkaoui,Albert Thomas,Balázs Kégl
発行日 2025-02-24 15:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY | TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning はコメントを受け付けていません

FABind+: Enhancing Molecular Docking through Improved Pocket Prediction and Pose Generation

要約

分子ドッキングは、創薬における極めて重要なプロセスです。
従来の手法は、物理的原則に準拠した広範なサンプリングとシミュレーションに依存していますが、これらの方法はしばしば遅くてコストがかかります。
深い学習ベースのアプローチの出現は大きな約束を示しており、精度と効率の両方が増加しています。
速度と精度に焦点を当てたモデルであるファビンドの基礎作品に基づいて、Fabind+を提示します。これは、前任者のパフォーマンスを大きく強化する反復を強化します。
ポケット予測を分子ドッキングの重要なボトルネックとして特定し、ポケット予測を大幅に改良する新しい方法論を提案し、それによってドッキングプロセスを合理化します。
さらに、ドッキングモジュールの変更を導入して、ポーズ生成機能を強化します。
従来のサンプリング/生成方法でギャップを埋めるために、信頼モデルと組み合わせたシンプルで効果的なサンプリング手法を組み込み、Fabindの回帰フレームワークにわずかな調整のみを必要とします。
実験結果と分析により、Fabind+は元のFabindを非常に上回り、競争力のある最先端のパフォーマンスを達成し、洞察に満ちたモデリング戦略を提供することが明らかになりました。
これは、Fabind+が分子ドッキングと創薬の大幅な前進を表していることを示しています。
私たちのコードはhttps://github.com/qizhipei/fabindにあります。

要約(オリジナル)

Molecular docking is a pivotal process in drug discovery. While traditional techniques rely on extensive sampling and simulation governed by physical principles, these methods are often slow and costly. The advent of deep learning-based approaches has shown significant promise, offering increases in both accuracy and efficiency. Building upon the foundational work of FABind, a model designed with a focus on speed and accuracy, we present FABind+, an enhanced iteration that largely boosts the performance of its predecessor. We identify pocket prediction as a critical bottleneck in molecular docking and propose a novel methodology that significantly refines pocket prediction, thereby streamlining the docking process. Furthermore, we introduce modifications to the docking module to enhance its pose generation capabilities. In an effort to bridge the gap with conventional sampling/generative methods, we incorporate a simple yet effective sampling technique coupled with a confidence model, requiring only minor adjustments to the regression framework of FABind. Experimental results and analysis reveal that FABind+ remarkably outperforms the original FABind, achieves competitive state-of-the-art performance, and delivers insightful modeling strategies. This demonstrates FABind+ represents a substantial step forward in molecular docking and drug discovery. Our code is in https://github.com/QizhiPei/FABind.

arxiv情報

著者 Kaiyuan Gao,Qizhi Pei,Gongbo Zhang,Jinhua Zhu,Kun He,Lijun Wu
発行日 2025-02-24 15:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM | FABind+: Enhancing Molecular Docking through Improved Pocket Prediction and Pose Generation はコメントを受け付けていません

Detecting Benchmark Contamination Through Watermarking

要約

ベンチマークの汚染は、テストセットでモデルがトレーニングされているかどうかを主張することは困難であるため、大規模な言語モデル(LLMS)評価の信頼性に大きな課題をもたらします。
リリース前にベンチマークを透かしてこの問題の解決策を紹介します。
埋め込みには、ベンチマークユーティリティを変更しない方法で、透かし式LLMで元の質問を再定式化することが含まれます。
評価中に、理論的に接地された統計テストを使用して、トレーニング中にテキスト透かしがモデルに残ることを「放射能」で検出できます。
制御されたベンチマーク汚染を備えた10Bトークンで1Bモデルをゼロからトレーニング前にテストし、アークイシー、アークチャレンジ、およびMMLUに対する汚染の検出におけるその有効性を検証します。
結果は、モデルがパフォーマンスを向上させるのに十分なほど汚染されている場合、ウォーターマーク後の同様のベンチマークユーティリティと汚染検出の成功を示しています。
$ p $ -val $ = 10^{-3} $ for +5 $ \%$ arc-easy。

要約(オリジナル)

Benchmark contamination poses a significant challenge to the reliability of Large Language Models (LLMs) evaluations, as it is difficult to assert whether a model has been trained on a test set. We introduce a solution to this problem by watermarking benchmarks before their release. The embedding involves reformulating the original questions with a watermarked LLM, in a way that does not alter the benchmark utility. During evaluation, we can detect “radioactivity”, \ie traces that the text watermarks leave in the model during training, using a theoretically grounded statistical test. We test our method by pre-training 1B models from scratch on 10B tokens with controlled benchmark contamination, and validate its effectiveness in detecting contamination on ARC-Easy, ARC-Challenge, and MMLU. Results show similar benchmark utility post-watermarking and successful contamination detection when models are contaminated enough to enhance performance, e.g. $p$-val $=10^{-3}$ for +5$\%$ on ARC-Easy.

arxiv情報

著者 Tom Sander,Pierre Fernandez,Saeed Mahloujifar,Alain Durmus,Chuan Guo
発行日 2025-02-24 15:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Detecting Benchmark Contamination Through Watermarking はコメントを受け付けていません

SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

要約

大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクにわたって並外れたパフォーマンスを示しています。
しかし、それらのかなりのサイズは、特に計算上の要求と推論の速度において、彼らの二次の複雑さのためにかなりの課題をもたらします。
この作業では、重要なパターンを特定しました。特定の一見意味のないセパレータートークン(すなわち、句読点)は、意味的に意味のあるトークンと比較して注意スコアに不釣り合いに貢献します。
この観察結果は、これらのセパレータートークン間のセグメントの情報を、重大な情報損失なしにセパレータートークン自体に効果的に凝縮できることを示唆しています。
この洞察に導かれて、これらのセグメントを圧縮して冗長トークンを排除することにより推論を加速するプラグアンドプレイフレームワークであるSepllmを紹介します。
さらに、トレーニングの加速に効率的なカーネルを実装します。
トレーニングなし、クレイチからのトレーニング、およびトレーニング後の設定にわたる実験結果は、SEPLLMの有効性を示しています。
特に、LLAMA-3-8Bバックボーンを使用して、SEPLLMは、同等のパフォーマンスを維持しながら、GSM8K-COTベンチマークでKVキャッシュを50%以上削減します。
さらに、ストリーミング設定では、SEPLLMは、一貫した言語モデリング機能を維持しながら、最大400万トークン以上のシーケンスを効果的に処理します。

要約(オリジナル)

Large Language Models (LLMs) have exhibited exceptional performance across a spectrum of natural language processing tasks. However, their substantial sizes pose considerable challenges, particularly in computational demands and inference speed, due to their quadratic complexity. In this work, we have identified a key pattern: certain seemingly meaningless separator tokens (i.e., punctuations) contribute disproportionately to attention scores compared to semantically meaningful tokens. This observation suggests that information of the segments between these separator tokens can be effectively condensed into the separator tokens themselves without significant information loss. Guided by this insight, we introduce SepLLM, a plug-and-play framework that accelerates inference by compressing these segments and eliminating redundant tokens. Additionally, we implement efficient kernels for training acceleration. Experimental results across training-free, training-from-scratch, and post-training settings demonstrate SepLLM’s effectiveness. Notably, using the Llama-3-8B backbone, SepLLM achieves over 50% reduction in KV cache on the GSM8K-CoT benchmark while maintaining comparable performance. Furthermore, in streaming settings, SepLLM effectively processes sequences of up to 4 million tokens or more while maintaining consistent language modeling capabilities.

arxiv情報

著者 Guoxuan Chen,Han Shi,Jiawei Li,Yihang Gao,Xiaozhe Ren,Yimeng Chen,Xin Jiang,Zhenguo Li,Weiyang Liu,Chao Huang
発行日 2025-02-24 15:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator はコメントを受け付けていません

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

要約

コンピューティングの急速な進歩により、大規模な言語モデル(LLM)のトレーニングの規模とコストが劇的に増加します。
モデルトレーニングの前に下流のタスクパフォ​​ーマンスを正確に予測することは、効率的なリソース割り当てには重要ですが、2つの主要な制約のために困難なままです。(1)「出現現象」。
予測には小さなモデルを使用します。
(2)不均一なタスクの難易度分布と一貫したスケーリング法則がないため、実質的なメトリックの変動性が生じます。
既存のパフォーマンス予測方法は、限られた精度と信頼性に悩まされているため、潜在的なLLM機能の評価が妨げられます。
これらの課題に対処するために、我々は、不均等にクラスタリングする(COD)ダウンストリームパフォーマンス予測フレームワークを提案します。
CODは、難易度の機能に基づいてタスクをクラスタリングすることにより、予測可能なサポートサブセットを最初に構築し、非緊急および非スケーラブルなクラスターを戦略的に除外します。
選択したサブセットのスコアは、完全な評価セットでの下流パフォーマンスの効果的な中間予測因子として機能します。
理論的サポートにより、パフォーマンスメトリックを予測可能なサブセットから完全な評価セットに変換するマッピング関数を導き出し、それによりLLMダウンストリームパフォーマンスの正確な外挿を確保します。
提案された方法は、70B LLMのパフォーマンススケーリングを予測するために適用されており、リソースの割り当てをトレーニングし、トレーニングプロセスの監視を支援するための実用的な洞察を提供します。
特に、CODは、小さなモデルのアンサンブルを活用することにより、70B LLMで顕著な予測精度を達成し、8つの重要なLLM評価ベンチマークにわたって1.36%の絶対平均偏差を示しています。

要約(オリジナル)

The rapid advancements in computing dramatically increase the scale and cost of training Large Language Models (LLMs). Accurately predicting downstream task performance prior to model training is crucial for efficient resource allocation, yet remains challenging due to two primary constraints: (1) the ‘emergence phenomenon’, wherein downstream performance metrics become meaningful only after extensive training, which limits the ability to use smaller models for prediction; (2) Uneven task difficulty distributions and the absence of consistent scaling laws, resulting in substantial metric variability. Existing performance prediction methods suffer from limited accuracy and reliability, thereby impeding the assessment of potential LLM capabilities. To address these challenges, we propose a Clustering-On-Difficulty (COD) downstream performance prediction framework. COD first constructs a predictable support subset by clustering tasks based on difficulty features, strategically excluding non-emergent and non-scalable clusters. The scores on the selected subset serve as effective intermediate predictors of downstream performance on the full evaluation set. With theoretical support, we derive a mapping function that transforms performance metrics from the predictable subset to the full evaluation set, thereby ensuring accurate extrapolation of LLM downstream performance. The proposed method has been applied to predict performance scaling for a 70B LLM, providing actionable insights for training resource allocation and assisting in monitoring the training process. Notably, COD achieves remarkable predictive accuracy on the 70B LLM by leveraging an ensemble of small models, demonstrating an absolute mean deviation of 1.36% across eight important LLM evaluation benchmarks.

arxiv情報

著者 Chengyin Xu,Kaiyuan Chen,Xiao Li,Ke Shen,Chenggang Li
発行日 2025-02-24 15:44:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective はコメントを受け付けていません

Text2World: Benchmarking Large Language Models for Symbolic World Model Generation

要約

最近、テキストの説明から象徴的な世界モデルを生成するために、大規模な言語モデル(LLMS)を活用することに関心が高まっています。
LLMは世界モデリングのコンテキストで広範囲に調査されていますが、以前の研究では、評価のランダム性、間接メトリックへの依存、限られたドメインスコープなど、いくつかの課題に遭遇しました。
これらの制限に対処するために、計画ドメイン定義言語(PDDL)に基づいて、数百の多様なドメインを特徴とし、より堅牢な評価のためにマルチ基準、実行ベースのメトリックを採用した新しいベンチマークText2Worldを導入します。
Text2Worldを使用して現在のLLMをベンチマークし、大規模な強化学習で訓練された推論モデルが他の人よりも優れていることがわかります。
ただし、最高のパフォーマンスモデルでさえ、世界モデリングの能力が限られていることを示しています。
これらの洞察に基づいて、テスト時間スケーリング、エージェントトレーニングなど、LLMの世界モデリング能力を強化するためのいくつかの有望な戦略を検討します。
Text2Worldが重要なリソースとして機能し、LLMを世界モデルとして活用する将来の研究の基礎を築くことができることを願っています。
プロジェクトページは、https://text-to-world.github.io/で入手できます。

要約(オリジナル)

Recently, there has been growing interest in leveraging large language models (LLMs) to generate symbolic world models from textual descriptions. Although LLMs have been extensively explored in the context of world modeling, prior studies encountered several challenges, including evaluation randomness, dependence on indirect metrics, and a limited domain scope. To address these limitations, we introduce a novel benchmark, Text2World, based on planning domain definition language (PDDL), featuring hundreds of diverse domains and employing multi-criteria, execution-based metrics for a more robust evaluation. We benchmark current LLMs using Text2World and find that reasoning models trained with large-scale reinforcement learning outperform others. However, even the best-performing model still demonstrates limited capabilities in world modeling. Building on these insights, we examine several promising strategies to enhance the world modeling capabilities of LLMs, including test-time scaling, agent training, and more. We hope that Text2World can serve as a crucial resource, laying the groundwork for future research in leveraging LLMs as world models. The project page is available at https://text-to-world.github.io/.

arxiv情報

著者 Mengkang Hu,Tianxing Chen,Yude Zou,Yuheng Lei,Qiguang Chen,Ming Li,Yao Mu,Hongyuan Zhang,Wenqi Shao,Ping Luo
発行日 2025-02-24 15:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Text2World: Benchmarking Large Language Models for Symbolic World Model Generation はコメントを受け付けていません