Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?

要約

AI制御プロトコルとは、AIが意図的に許容できない結果を引き起こさないようにすることを目的とした、AIシステムを有用に展開するための計画である。本論文では、AIシステムがステートレス(コンテキスト間の共有メモリなし)で動作しながら、制御プロトコルを破壊するための独自の戦略を生成し、それに基づいて行動することができるかを調査する。そのためには、AIシステムは、各コンテキストにおいて最適な計画を確実に生成し、十分に較正された確率で行動を取り、他のインスタンスと通信することなく計画を調整する必要がある。我々は、様々なプロトコルと戦略的能力をカバーする8つの環境と、個々の能力を分離するための6つのアフォーダンスから構成されるSubversion Strategy Evalを開発した。この評価をInspect-AIに実装し、オープンソースとして公開する。OpenAI推論モデルと同様に、役に立つだけのバージョンを含むクロード3.5モデルを評価する。どのモデルも、制御プロトコルを無状態で破壊する戦略において、実質的な能力を示していない。しかし、コンテキスト間で計画を共有する能力のような付加的なアフォーダンスをモデルに提供することで、性能を大幅に向上させることができる。我々は、我々の評価が、モデルが制御プロトコルを破壊できるようになる時期の先行指標として機能し、また、AI制御評価における完全な戦略的能力という最悪のケースの仮定を緩和することを期待している。

要約(オリジナル)

An AI control protocol is a plan for usefully deploying AI systems that aims to prevent an AI from intentionally causing some unacceptable outcome. This paper investigates how well AI systems can generate and act on their own strategies for subverting control protocols whilst operating statelessly (without shared memory between contexts). To do this, an AI system may need to reliably generate optimal plans in each context, take actions with well-calibrated probabilities, and coordinate plans with other instances of itself without communicating. We develop Subversion Strategy Eval, a suite of eight environments, covering a range of protocols and strategic capabilities, and six sets of affordances that help isolate individual capabilities. We implement the evaluation in Inspect-AI and release it open-source. We evaluate Claude 3.5 models, including helpful-only versions, as well as OpenAI reasoning models. None of the models demonstrate substantial capability in strategizing to subvert control protocols statelessly. However, providing models with additional affordances, such as the ability to share a plan between contexts, can substantially improve performance. We hope our evaluations can act as a leading indicator for when models are capable of subverting control protocols and also relax the worst-case assumption of perfect strategic ability in AI control evaluations.

arxiv情報

著者 Alex Mallen,Charlie Griffin,Misha Wagner,Alessandro Abate,Buck Shlegeris
発行日 2025-04-04 16:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols? はコメントを受け付けていません

Real-is-Sim: Bridging the Sim-to-Real Gap with a Dynamic Digital Twin for Real-World Robot Policy Evaluation

要約

近年の行動クローニングの進歩により、ロボットは複雑な操作タスクを実行できるようになった。しかし、特に実世界での応用においては、行動クローニングの損失と実際のタスクの成功との相関が低いことが多いため、トレーニングのパフォーマンスを正確に評価することは依然として困難である。そのため、研究者は、コストと時間のかかる実世界評価から得られる成功率メトリクスに頼っており、最適なポリシーの同定やオーバーフィッティングやアンダーフィッティングの検出を非現実的なものにしている。これらの問題に対処するために、我々は、データ収集、トレーニング、およびデプロイメントというポリシー開発パイプライン全体を通して、動的デジタルツイン(Embodied Gaussiansに基づく)を組み込んだ新しい行動クローンフレームワークであるreal-is-simを提案する。シミュレートされた世界と物理的な世界を継続的に整合させることで、シミュレータから抽出された状態を用いて実世界で実証実験を収集することができる。シミュレータは、任意の視点からの画像入力をレンダリングしたり、シーン内で具現化されたオブジェクトから低レベルの状態情報を抽出することで、柔軟な状態表現を可能にします。トレーニング中、ポリシーはシミュレータ内でオフラインかつ並列性の高い方法で直接評価することができる。最後に、デプロイ時には、実際のロボットがシミュレートされたロボットの関節を直接追跡するシミュレータ内でポリシーを実行し、ポリシーの実行を実際のハードウェアから効果的に切り離し、従来のドメイン転送の課題を軽減する。PushT操作タスクでreal-is-simを検証し、シミュレータで得られた成功率と実世界の評価との間に強い相関があることを実証した。本システムの動画は、https://realissim.rai-inst.com。

要約(オリジナル)

Recent advancements in behavior cloning have enabled robots to perform complex manipulation tasks. However, accurately assessing training performance remains challenging, particularly for real-world applications, as behavior cloning losses often correlate poorly with actual task success. Consequently, researchers resort to success rate metrics derived from costly and time-consuming real-world evaluations, making the identification of optimal policies and detection of overfitting or underfitting impractical. To address these issues, we propose real-is-sim, a novel behavior cloning framework that incorporates a dynamic digital twin (based on Embodied Gaussians) throughout the entire policy development pipeline: data collection, training, and deployment. By continuously aligning the simulated world with the physical world, demonstrations can be collected in the real world with states extracted from the simulator. The simulator enables flexible state representations by rendering image inputs from any viewpoint or extracting low-level state information from objects embodied within the scene. During training, policies can be directly evaluated within the simulator in an offline and highly parallelizable manner. Finally, during deployment, policies are run within the simulator where the real robot directly tracks the simulated robot’s joints, effectively decoupling policy execution from real hardware and mitigating traditional domain-transfer challenges. We validate real-is-sim on the PushT manipulation task, demonstrating strong correlation between success rates obtained in the simulator and real-world evaluations. Videos of our system can be found at https://realissim.rai-inst.com.

arxiv情報

著者 Jad Abou-Chakra,Lingfeng Sun,Krishan Rana,Brandon May,Karl Schmeckpeper,Maria Vittoria Minniti,Laura Herlant
発行日 2025-04-04 17:05:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO | Real-is-Sim: Bridging the Sim-to-Real Gap with a Dynamic Digital Twin for Real-World Robot Policy Evaluation はコメントを受け付けていません

EnrichIndex: Using LLMs to Enrich Retrieval Indices Offline

要約

既存の情報検索システムは、対象文書の言語がユーザーのクエリの言語と密接に一致する場合に優れている。しかし、現実の検索システムでは、文書が関連性があるかどうかを暗黙のうちに推論することが求められることが多い。例えば、技術的な文章や表を検索する場合、ユーザー・クエリとの関連性は、その内容で明示的に表現されるのではなく、特定の専門用語や構造によって暗示されることがある。大規模言語モデル(LLM)は、推論能力を活用することで、このような暗黙の関連性を識別する大きな可能性を秘めている。とはいえ、現在のLLMによる拡張検索は、一般的にLLMがクエリごとにクエリとドキュメントの関連性をオンラインで新たに計算するため、高い待ち時間と計算コストが障害となっている。この問題に対処するために、我々はEnrichIndexを導入する。EnrichIndexは、LLMをオフラインで利用し、インジェスト時に検索コーパスの全文書に対して一度だけ実行することで、意味的にエンリッチされた検索インデックスを構築する検索アプローチである。さらに、意味的にエンリッチされたインデックスは、既存のオンライン検索アプローチを補完し、LLMリランカーの性能を高めることができる。EnrichIndexを、文章と表を含む5つの検索タスクで評価した結果、強力なオンラインLLMベースの検索システムを凌駕し、強力なベースラインと比較して、リコール@10で平均11.7ポイント、NDCG@10で平均10.6ポイントの改善が見られた。LLMへのオンライン呼び出しに関しては、293.3倍少ないトークンを処理し、オンラインレイテンシーとコストを大幅に削減している。全体として、EnrichIndexはLLMの強力な推論スキルを活用することで、より優れた検索インデックスをオフラインで構築する効果的な方法である。

要約(オリジナル)

Existing information retrieval systems excel in cases where the language of target documents closely matches that of the user query. However, real-world retrieval systems are often required to implicitly reason whether a document is relevant. For example, when retrieving technical texts or tables, their relevance to the user query may be implied through a particular jargon or structure, rather than explicitly expressed in their content. Large language models (LLMs) hold great potential in identifying such implied relevance by leveraging their reasoning skills. Nevertheless, current LLM-augmented retrieval is hindered by high latency and computation cost, as the LLM typically computes the query-document relevance online, for every query anew. To tackle this issue we introduce EnrichIndex, a retrieval approach which instead uses the LLM offline to build semantically-enriched retrieval indices, by performing a single pass over all documents in the retrieval corpus once during ingestion time. Furthermore, the semantically-enriched indices can complement existing online retrieval approaches, boosting the performance of LLM re-rankers. We evaluated EnrichIndex on five retrieval tasks, involving passages and tables, and found that it outperforms strong online LLM-based retrieval systems, with an average improvement of 11.7 points in recall @ 10 and 10.6 points in NDCG @ 10 compared to strong baselines. In terms of online calls to the LLM, it processes 293.3 times fewer tokens which greatly reduces the online latency and cost. Overall, EnrichIndex is an effective way to build better retrieval indices offline by leveraging the strong reasoning skills of LLMs.

arxiv情報

著者 Peter Baile Chen,Tomer Wolfson,Michael Cafarella,Dan Roth
発行日 2025-04-04 17:08:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR | EnrichIndex: Using LLMs to Enrich Retrieval Indices Offline はコメントを受け付けていません

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

要約

マルチターン対話のための効果的なAIエージェントのトレーニングには、現実的な人間とエージェントのダイナミクスを捉えた高品質なデータが必要であるが、そのようなデータは少なく、手作業で収集するにはコストがかかる。我々は、検証可能で多様なマルチターンエージェントデータを生成する2段階のフレームワークであるAPIGen-MTを紹介する。第一段階では、我々のエージェントパイプラインは、LLMレビュアーの委員会と反復的なフィードバックループを活用し、グラウンドトゥルースのアクションを持つ詳細なタスクの青写真を生成する。次に、これらの青写真は、シミュレートされた人間とエージェントの相互作用を通して、完全な相互作用の軌跡に変換される。xLAM-2-fc-rシリーズは1Bから70Bのパラメータを持つ。我々のモデルは、$tau$-benchやBFCLベンチマークにおいて、GPT-4oやClaude 3.5のようなフロンティアモデルを凌駕し、特にマルチターン設定において、複数の試行にわたって優れた一貫性を維持しながら、小さいモデルが大きいモデルを凌駕する。包括的な実験により、我々の検証されたblueprint-to-detailsアプローチが、より信頼性が高く、効率的で、有能なエージェントの開発を可能にする、高品質のトレーニングデータをもたらすことが実証された。我々はAIエージェントの研究を促進するために、収集した合成データと学習させたxLAM-2-fc-rモデルの両方をオープンソースとして公開している。モデルはHuggingFaceのhttps://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4、プロジェクトのウェブサイトはhttps://apigen-mt.github.io。

要約(オリジナル)

Training effective AI agents for multi-turn interactions requires high-quality data that captures realistic human-agent dynamics, yet such data is scarce and expensive to collect manually. We introduce APIGen-MT, a two-phase framework that generates verifiable and diverse multi-turn agent data. In the first phase, our agentic pipeline produces detailed task blueprints with ground-truth actions, leveraging a committee of LLM reviewers and iterative feedback loops. These blueprints are then transformed into complete interaction trajectories through simulated human-agent interplay. We train a family of models — the xLAM-2-fc-r series with sizes ranging from 1B to 70B parameters. Our models outperform frontier models such as GPT-4o and Claude 3.5 on $\tau$-bench and BFCL benchmarks, with the smaller models surpassing their larger counterparts, particularly in multi-turn settings, while maintaining superior consistency across multiple trials. Comprehensive experiments demonstrate that our verified blueprint-to-details approach yields high-quality training data, enabling the development of more reliable, efficient, and capable agents. We open-source both the synthetic data collected and the trained xLAM-2-fc-r models to advance research in AI agents. Models are available on HuggingFace at https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 and project website is https://apigen-mt.github.io

arxiv情報

著者 Akshara Prabhakar,Zuxin Liu,Weiran Yao,Jianguo Zhang,Ming Zhu,Shiyu Wang,Zhiwei Liu,Tulika Awalgaonkar,Haolin Chen,Thai Hoang,Juan Carlos Niebles,Shelby Heinecke,Huan Wang,Silvio Savarese,Caiming Xiong
発行日 2025-04-04 17:13:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay はコメントを受け付けていません

Towards deployment-centric multimodal AI beyond vision and language

要約

マルチモーダル人工知能(AI)は、ヘルスケア、科学、工学などの分野にわたって理解、予測、意思決定を改善するために、機械学習を介して多様なタイプのデータを統合する。しかし、マルチモーダルAIの進歩のほとんどは、視覚と言語データのモデルに焦点を当てており、その一方で、その展開可能性は重要な課題のままである。我々は、データ中心およびモデル中心のアプローチを補完し、展開不可能なソリューションの可能性を低減するために、展開制約を早期に組み込む展開中心のワークフローを提唱する。また、視覚や言語を超えた研究範囲を大幅に拡大するために、マルチモダリティと学際的コラボレーションの複数のレベルを横断してより深く統合することを強調する。このアプローチを促進するために、学問分野を超えて共有される共通のマルチモーダルAI特有の課題を特定し、ヘルスケア、社会科学、工学、科学、持続可能性、金融の専門知識を活用して、パンデミック対応、自動運転車の設計、気候変動への適応という3つの実世界のユースケースを検証する。学際的な対話とオープンな研究実践を促進することで、私たちのコミュニティは、社会に広く影響を与えるための展開中心の開発を加速させることができます。

要約(オリジナル)

Multimodal artificial intelligence (AI) integrates diverse types of data via machine learning to improve understanding, prediction, and decision-making across disciplines such as healthcare, science, and engineering. However, most multimodal AI advances focus on models for vision and language data, while their deployability remains a key challenge. We advocate a deployment-centric workflow that incorporates deployment constraints early to reduce the likelihood of undeployable solutions, complementing data-centric and model-centric approaches. We also emphasise deeper integration across multiple levels of multimodality and multidisciplinary collaboration to significantly broaden the research scope beyond vision and language. To facilitate this approach, we identify common multimodal-AI-specific challenges shared across disciplines and examine three real-world use cases: pandemic response, self-driving car design, and climate change adaptation, drawing expertise from healthcare, social science, engineering, science, sustainability, and finance. By fostering multidisciplinary dialogue and open research practices, our community can accelerate deployment-centric development for broad societal impact.

arxiv情報

著者 Xianyuan Liu,Jiayang Zhang,Shuo Zhou,Thijs L. van der Plas,Avish Vijayaraghavan,Anastasiia Grishina,Mengdie Zhuang,Daniel Schofield,Christopher Tomlinson,Yuhan Wang,Ruizhe Li,Louisa van Zeeland,Sina Tabakhi,Cyndie Demeocq,Xiang Li,Arunav Das,Orlando Timmerman,Thomas Baldwin-McDonald,Jinge Wu,Peizhen Bai,Zahraa Al Sahili,Omnia Alwazzan,Thao N. Do,Mohammod N. I. Suvon,Angeline Wang,Lucia Cipolina-Kun,Luigi A. Moretti,Lucas Farndale,Nitisha Jain,Natalia Efremova,Yan Ge,Marta Varela,Hak-Keung Lam,Oya Celiktutan,Ben R. Evans,Alejandro Coca-Castro,Honghan Wu,Zahraa S. Abdallah,Chen Chen,Valentin Danchev,Nataliya Tkachenko,Lei Lu,Tingting Zhu,Gregory G. Slabaugh,Roger K. Moore,William K. Cheung,Peter H. Charlton,Haiping Lu
発行日 2025-04-04 17:20:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Towards deployment-centric multimodal AI beyond vision and language はコメントを受け付けていません

PAFFA: Premeditated Actions For Fast Agents

要約

最新のAIアシスタントは、自然言語理解とツールの使用において大きな進歩を遂げ、ウェブインターフェースとの対話にも新たな取り組みが始まっている。しかし、LLMによるHTML解析の繰り返しに大きく依存する現在のアプローチは、特に動的なウェブインターフェースや複数ステップのタスクを扱う場合、計算コストが高く、エラーが発生しやすい。我々はPAFFA(Premeditated Actions For Fast Agents)を紹介する。PAFFAは、タスクに特化した学習を必要としない新しい推論時間技術を用いて、LLMをより高速かつ正確にインターネット上のタスクを完了させる手法である。PAFFAは「アクション・ライブラリ」を構築し、ベースとなるLLMのパラメトリック知識を活用して、タスク間で一般化するブラウザとのインタラクション・パターンを事前に計算します。LLMの推論をタスク間で戦略的に再利用することにより(タスクにとらわれない主要なインタラクティブなウェブ要素の識別のための「Dist-Map」、または新規タスク/サイトのファーストエンカウンターステートフル探索のための「Unravel」)、PAFFAは堅牢な性能を維持しながら推論時間を87%大幅に削減します(ベースラインと比較して0.57対0.50のステップ精度を達成)。さらに、探索に基づいてアクションライブラリを更新するUnravelの能力により、未知のウェブサイトへの汎化と適応が可能になる。まとめると、この研究は、LLM推論シーケンスがプロンプト間で汎化できることを示し、トークン数がリニアでないインターネット規模のデータに対して推論時間技術を拡張する方法を提供する。

要約(オリジナル)

Modern AI assistants have made significant progress in natural language understanding and tool-use, with emerging efforts to interact with Web interfaces. However, current approaches that heavily rely on repeated LLM-driven HTML parsing are computationally expensive and error-prone, particularly when handling dynamic web interfaces and multi-step tasks. We introduce PAFFA (Premeditated Actions For Fast Agents), a method that makes LLMs faster and more accurate in completing tasks on the internet using a novel inference-time technique that requires no task-specific training. PAFFA constructs an ‘Action Library’, leveraging the parametric knowledge of the base LLM to pre-compute browser interaction patterns that generalize across tasks. By strategically re-using LLM inference across tasks – either via ‘Dist-Map’ for task-agnostic identification of key interactive web elements, or ‘Unravel’ for first-encounter, stateful exploration of novel tasks/sites) – PAFFA drastically reduces inference time tokens by 87% while maintaining robust performance (achieving 0.57 vs. 0.50 step accuracy compared to baseline). Further, Unravel’s ability to update its action library based on explorations allows generalization and adaptation to unseen websites. In sum, this work exhibits that LLM reasoning sequences can generalize across prompts, offering a way to scale inference-time techniques for internet-scale data with sublinear token count.

arxiv情報

著者 Shambhavi Krishna,Zheng Chen,Yuan Ling,Xiaojiang Huang,Yingjie Li,Fan Yang,Xiang Li
発行日 2025-04-04 17:33:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | PAFFA: Premeditated Actions For Fast Agents はコメントを受け付けていません

Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task

要約

検索補強型生成(RAG)は、文脈内検索を通じてより豊かな事実文脈にアクセスできるようにすることで、大規模言語モデル(LLM)を強化し、現代の自然言語処理(NLP)の基礎となっている。単言語環境、特に英語では効果的であるが、多言語タスクでの使用は未解明である。本稿では、多言語オープンドメイン質問応答のための新しいアプローチを提案することにより、多言語にわたるRAGの有効性を調査する。我々は、検索前に質問を英語に翻訳する質問翻訳(tRAG)や、複数言語間で直接検索を行う多言語RAG(MultiRAG)など、様々な多言語RAG戦略の性能を評価する。その結果、tRAGは有用ではあるが、カバー範囲が限定されることが明らかになった。対照的に、MultiRAGは多言語検索を可能にすることで効率を向上させるが、検索されたコンテンツに言語間の差異による矛盾が生じる。これらの問題に対処するために、我々は、応答を生成する前に、検索された文書を共通言語(例えば英語)に翻訳する手法であるCrosslingual RAG(CrossRAG)を提案する。我々の実験によれば、CrossRAGは知識集約型タスクのパフォーマンスを大幅に向上させ、高リソース言語と低リソース言語の両方に恩恵をもたらす。

要約(オリジナル)

Retrieval-augmented generation (RAG) has become a cornerstone of contemporary NLP, enhancing large language models (LLMs) by allowing them to access richer factual contexts through in-context retrieval. While effective in monolingual settings, especially in English, its use in multilingual tasks remains unexplored. This paper investigates the effectiveness of RAG across multiple languages by proposing novel approaches for multilingual open-domain question-answering. We evaluate the performance of various multilingual RAG strategies, including question-translation (tRAG), which translates questions into English before retrieval, and Multilingual RAG (MultiRAG), where retrieval occurs directly across multiple languages. Our findings reveal that tRAG, while useful, suffers from limited coverage. In contrast, MultiRAG improves efficiency by enabling multilingual retrieval but introduces inconsistencies due to cross-lingual variations in the retrieved content. To address these issues, we propose Crosslingual RAG (CrossRAG), a method that translates retrieved documents into a common language (e.g., English) before generating the response. Our experiments show that CrossRAG significantly enhances performance on knowledge-intensive tasks, benefiting both high-resource and low-resource languages.

arxiv情報

著者 Leonardo Ranaldi,Barry Haddow,Alexandra Birch
発行日 2025-04-04 17:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task はコメントを受け付けていません

Align to Structure: Aligning Large Language Models with Structural Information

要約

大規模言語モデル(LLM)は、談話生成において階層的な計画や構造化された構成を持たないため、首尾一貫した長文を生成することは依然として課題である。我々は、LLMを人間のような談話構造と整合させ、長文テキスト生成を強化する新しい手法である構造整合(Structural Alignment)を紹介する。言語学的な根拠に基づく談話フレームワークを強化学習に統合することで、我々のアプローチはモデルが首尾一貫した、よく組織化された出力を生成するように導く。近接政策最適化フレームワークの中で密な報酬スキームを採用し、人間の文章と比較した談話の特徴に基づいて、きめ細かなトークンレベルの報酬を割り当てる。1つ目は、表面レベルのテキスト特徴をスコアリングすることで読みやすさを向上させ、明示的な構造化を提供し、2つ目は、階層的な談話モチーフを通してグローバルな談話パターンを分析することで、より深い一貫性と修辞的洗練性を強化し、エッセイ生成や長文要約などのタスクにおいて、標準モデルとRLHF強化モデルの両方を凌駕する。すべてのトレーニングデータとコードは、https://github.com/minnesotanlp/struct_align で公開される。

要約(オリジナル)

Generating long, coherent text remains a challenge for large language models (LLMs), as they lack hierarchical planning and structured organization in discourse generation. We introduce Structural Alignment, a novel method that aligns LLMs with human-like discourse structures to enhance long-form text generation. By integrating linguistically grounded discourse frameworks into reinforcement learning, our approach guides models to produce coherent and well-organized outputs. We employ a dense reward scheme within a Proximal Policy Optimization framework, assigning fine-grained, token-level rewards based on the discourse distinctiveness relative to human writing. Two complementary reward models are evaluated: the first improves readability by scoring surface-level textual features to provide explicit structuring, while the second reinforces deeper coherence and rhetorical sophistication by analyzing global discourse patterns through hierarchical discourse motifs, outperforming both standard and RLHF-enhanced models in tasks such as essay generation and long-document summarization. All training data and code will be publicly shared at https://github.com/minnesotanlp/struct_align.

arxiv情報

著者 Zae Myung Kim,Anand Ramachandran,Farideh Tavazoee,Joo-Kyung Kim,Oleg Rokhlenko,Dongyeop Kang
発行日 2025-04-04 17:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Align to Structure: Aligning Large Language Models with Structural Information はコメントを受け付けていません

Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models

要約

推論能力の強化のために推論時間のスケーリングが重要になるにつれ、推論効率の良いモデルを構築することがますます重要になってきている。我々はNemotron-Hを紹介する。Nemotron-Hは8Bと56B/47BのハイブリッドMamba-Transformerモデルであり、与えられた精度レベルに対して推論コストを削減するように設計されている。この目標を達成するために、一般的なTransformerモデルアーキテクチャの自己アテンション層の大部分を、一定の計算を行い、生成トークン毎に一定のメモリを必要とするMamba層に置き換える。我々は、Nemotron-Hモデルが、他の同程度の大きさのオープンソースTransformerモデル(例えば、Qwen-2.5-7B/72BやLlama-3.1-8B/70B)と比較して、より良い、もしくは同程度の精度を提供し、同時に推論において最大3$times$高速であることを示す。推論速度をさらに向上させ、推論時に必要なメモリを削減するために、MiniPuzzleと呼ばれる刈り込みと蒸留による新しい圧縮技術を用いて、56BモデルからNemotron-H-47B-Baseを作成した。Nemotron-H-47B-Baseは56Bモデルと同程度の精度を達成したが、推論時間は20%高速化した。さらに、FP8ベースの学習レシピを紹介し、BF16ベースの学習と同等の結果が得られることを示す。このレシピは56Bモデルの学習に使用される。すべてのNemotron-Hモデルがリリースされ、Hugging Face、NeMo、Megatron-LMがサポートされます。

要約(オリジナル)

As inference-time scaling becomes critical for enhanced reasoning capabilities, it is increasingly becoming important to build models that are efficient to infer. We introduce Nemotron-H, a family of 8B and 56B/47B hybrid Mamba-Transformer models designed to reduce inference cost for a given accuracy level. To achieve this goal, we replace the majority of self-attention layers in the common Transformer model architecture with Mamba layers that perform constant computation and require constant memory per generated token. We show that Nemotron-H models offer either better or on-par accuracy compared to other similarly-sized state-of-the-art open-sourced Transformer models (e.g., Qwen-2.5-7B/72B and Llama-3.1-8B/70B), while being up to 3$\times$ faster at inference. To further increase inference speed and reduce the memory required at inference time, we created Nemotron-H-47B-Base from the 56B model using a new compression via pruning and distillation technique called MiniPuzzle. Nemotron-H-47B-Base achieves similar accuracy to the 56B model, but is 20% faster to infer. In addition, we introduce an FP8-based training recipe and show that it can achieve on par results with BF16-based training. This recipe is used to train the 56B model. All Nemotron-H models will be released, with support in Hugging Face, NeMo, and Megatron-LM.

arxiv情報

著者 NVIDIA,:,Aaron Blakeman,Aarti Basant,Abhinav Khattar,Adithya Renduchintala,Akhiad Bercovich,Aleksander Ficek,Alexis Bjorlin,Ali Taghibakhshi,Amala Sanjay Deshmukh,Ameya Sunil Mahabaleshwarkar,Andrew Tao,Anna Shors,Ashwath Aithal,Ashwin Poojary,Ayush Dattagupta,Balaram Buddharaju,Bobby Chen,Boris Ginsburg,Boxin Wang,Brandon Norick,Brian Butterfield,Bryan Catanzaro,Carlo del Mundo,Chengyu Dong,Christine Harvey,Christopher Parisien,Dan Su,Daniel Korzekwa,Danny Yin,Daria Gitman,David Mosallanezhad,Deepak Narayanan,Denys Fridman,Dima Rekesh,Ding Ma,Dmytro Pykhtar,Dong Ahn,Duncan Riach,Dusan Stosic,Eileen Long,Elad Segal,Ellie Evans,Eric Chung,Erick Galinkin,Evelina Bakhturina,Ewa Dobrowolska,Fei Jia,Fuxiao Liu,Gargi Prasad,Gerald Shen,Guilin Liu,Guo Chen,Haifeng Qian,Helen Ngo,Hongbin Liu,Hui Li,Igor Gitman,Ilia Karmanov,Ivan Moshkov,Izik Golan,Jan Kautz,Jane Polak Scowcroft,Jared Casper,Jarno Seppanen,Jason Lu,Jason Sewall,Jiaqi Zeng,Jiaxuan You,Jimmy Zhang,Jing Zhang,Jining Huang,Jinze Xue,Jocelyn Huang,Joey Conway,John Kamalu,Jon Barker,Jonathan Cohen,Joseph Jennings,Jupinder Parmar,Karan Sapra,Kari Briski,Kateryna Chumachenko,Katherine Luna,Keshav Santhanam,Kezhi Kong,Kirthi Sivamani,Krzysztof Pawelec,Kumar Anik,Kunlun Li,Lawrence McAfee,Leon Derczynski,Lindsey Pavao,Luis Vega,Lukas Voegtle,Maciej Bala,Maer Rodrigues de Melo,Makesh Narsimhan Sreedhar,Marcin Chochowski,Markus Kliegl,Marta Stepniewska-Dziubinska,Matthieu Le,Matvei Novikov,Mehrzad Samadi,Michael Andersch,Michael Evans,Miguel Martinez,Mike Chrzanowski,Mike Ranzinger,Mikolaj Blaz,Misha Smelyanskiy,Mohamed Fawzy,Mohammad Shoeybi,Mostofa Patwary,Nayeon Lee,Nima Tajbakhsh,Ning Xu,Oleg Rybakov,Oleksii Kuchaiev,Olivier Delalleau,Osvald Nitski,Parth Chadha,Pasha Shamis,Paulius Micikevicius,Pavlo Molchanov,Peter Dykas,Philipp Fischer,Pierre-Yves Aquilanti,Piotr Bialecki,Prasoon Varshney,Pritam Gundecha,Przemek Tredak,Rabeeh Karimi,Rahul Kandu,Ran El-Yaniv,Raviraj Joshi,Roger Waleffe,Ruoxi Zhang,Sabrina Kavanaugh,Sahil Jain,Samuel Kriman,Sangkug Lym,Sanjeev Satheesh,Saurav Muralidharan,Sean Narenthiran,Selvaraj Anandaraj,Seonmyeong Bak,Sergey Kashirsky,Seungju Han,Shantanu Acharya,Shaona Ghosh,Sharath Turuvekere Sreenivas,Sharon Clay,Shelby Thomas,Shrimai Prabhumoye,Shubham Pachori,Shubham Toshniwal,Shyamala Prayaga,Siddhartha Jain,Sirshak Das,Slawek Kierat,Somshubra Majumdar,Song Han,Soumye Singhal,Sriharsha Niverty,Stefania Alborghetti,Suseella Panguluri,Swetha Bhendigeri,Syeda Nahida Akter,Szymon Migacz,Tal Shiri,Terry Kong,Timo Roman,Tomer Ronen,Trisha Saar,Tugrul Konuk,Tuomas Rintamaki,Tyler Poon,Ushnish De,Vahid Noroozi,Varun Singh,Vijay Korthikanti,Vitaly Kurin,Wasi Uddin Ahmad,Wei Du,Wei Ping,Wenliang Dai,Wonmin Byeon,Xiaowei Ren,Yao Xu,Yejin Choi,Yian Zhang,Ying Lin,Yoshi Suhara,Zhiding Yu,Zhiqi Li,Zhiyu Li,Zhongbo Zhu,Zhuolin Yang,Zijia Chen
発行日 2025-04-04 17:41:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models はコメントを受け付けていません

Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning

要約

大規模言語モデル(LLM)は、複雑な推論を必要とする幅広いタスクにおいて、驚くべき能力を発揮してきた。しかし、その推論能力に対するスケーリングの効果はまだ十分に理解されていない。本論文では、実世界の大規模知識グラフの構造と分布を忠実に再現するように設計された合成マルチホップ推論環境を紹介する。我々の推論タスクは、グラフの欠落したエッジを補完するものであり、高度なマルチホップ推論を必要とし、実世界の推論シナリオを模倣している。これを評価するために、不完全グラフのトリプルのみを用いてゼロから言語モデル(LM)を事前学習し、欠落したエッジを推論する能力を評価する。興味深いことに、過度のパラメータ化は、過度の記憶により推論性能を低下させる可能性がある。グラフ構造、モデルサイズ、学習ステップなど、このU字型の損失曲線に影響を与える様々な要因を調査する。特定の知識グラフに対する最適なモデルサイズを予測するために、知識グラフの探索エントロピーを最適なモデルサイズに線形に対応付ける経験的なスケーリングを発見する。本研究は、LLMにおけるスケーリングと推論の関係について新たな知見を提供し、推論タスクに対してLLMの性能を最適化するための可能な方法に光を当てる。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks requiring complex reasoning. However, the effects of scaling on their reasoning abilities remain insufficiently understood. In this paper, we introduce a synthetic multihop reasoning environment designed to closely replicate the structure and distribution of real-world large-scale knowledge graphs. Our reasoning task involves completing missing edges in the graph, which requires advanced multi-hop reasoning and mimics real-world reasoning scenarios. To evaluate this, we pretrain language models (LMs) from scratch solely on triples from the incomplete graph and assess their ability to infer the missing edges. Interestingly, we observe that overparameterization can impair reasoning performance due to excessive memorization. We investigate different factors that affect this U-shaped loss curve, including graph structure, model size, and training steps. To predict the optimal model size for a specific knowledge graph, we find an empirical scaling that linearly maps the knowledge graph search entropy to the optimal model size. This work provides new insights into the relationship between scaling and reasoning in LLMs, shedding light on possible ways to optimize their performance for reasoning tasks.

arxiv情報

著者 Xinyi Wang,Shawn Tan,Mingyu Jin,William Yang Wang,Rameswar Panda,Yikang Shen
発行日 2025-04-04 17:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning はコメントを受け付けていません