QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization

要約

このテクニカルレポートは、明示的な長いコンテキスト最適化のために設計されたコンテキスト圧縮フレームワークであるQwenlong-CPRSを提示し、プレフィル段階での法外な計算オーバーヘッドと、長いシーケンス処理中の大規模な言語モデル(LLMS)のパフォーマンス分解(LLMS)に対処します。
新しい動的コンテキスト最適化メカニズムを通じて実装されたQwenlong-CPRSにより、自然言語の指示に導かれた多粒度コンテキスト圧縮が可能になり、効率の向上とパフォーマンスの改善が実現されます。
Qwen Architectureシリーズから進化したQwenlong-CPRSは、4つの重要なイノベーションを導入します。(1)自然言語誘導動的最適化、(2)境界認識の向上のための双方向推論層、(3)言語モデリングヘッドを備えたトークン批評家メカニズム、および(4)窓と平行の推論。
5つのベンチマーク(4K-2M Wordコンテキスト)にわたる包括的な評価は、Qwenlong-CPRSの3つの効果を示しています。(1)ラグやまばらな注意などの他のコンテキスト管理方法よりも、精度と効率の両方で一貫した優位性。
(2)GPT-4O、GEMINI2.0-PRO、CLAUDE3.7-SONNET、DEEPSEEK-V3、およびQWEN2.5-MAXを含むすべてのフラッグシップLLMとのアーキテクチャと存在統合は、19.15ポイント平均パフォーマンスに沿って21.59 $ \ Times $コンテキストコンプレッションを達成します。
(3)QWEN2.5-32B-INSTRUCTで展開されたQWENLONG-CPRSは、Ruler-128KおよびInfiniteBenchで4.85および10.88ポイント上の独自のLLMSを上回り、新しいSOTAパフォーマンスを確立します。

要約(オリジナル)

This technical report presents QwenLong-CPRS, a context compression framework designed for explicit long-context optimization, addressing prohibitive computation overhead during the prefill stage and the ‘lost in the middle’ performance degradation of large language models (LLMs) during long sequence processing. Implemented through a novel dynamic context optimization mechanism, QwenLong-CPRS enables multi-granularity context compression guided by natural language instructions, achieving both efficiency gains and improved performance. Evolved from the Qwen architecture series, QwenLong-CPRS introduces four key innovations: (1) Natural language-guided dynamic optimization, (2) Bidirectional reasoning layers for enhanced boundary awareness, (3) Token critic mechanisms with language modeling heads, and (4) Window-parallel inference. Comprehensive evaluations across five benchmarks (4K-2M word contexts) demonstrate QwenLong-CPRS’s threefold effectiveness: (1) Consistent superiority over other context management methods like RAG and sparse attention in both accuracy and efficiency. (2) Architecture-agnostic integration with all flagship LLMs, including GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3, and Qwen2.5-max, achieves 21.59$\times$ context compression alongside 19.15-point average performance gains; (3) Deployed with Qwen2.5-32B-Instruct, QwenLong-CPRS surpasses leading proprietary LLMs by 4.85 and 10.88 points on Ruler-128K and InfiniteBench, establishing new SOTA performance.

arxiv情報

著者 Weizhou Shen,Chenliang Li,Fanqi Wan,Shengyi Liao,Shaopeng Lai,Bo Zhang,Yingcheng Shi,Yuning Wu,Gang Fu,Zhansheng Li,Bin Yang,Ji Zhang,Fei Huang,Jingren Zhou,Ming Yan
発行日 2025-05-23 16:47:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization はコメントを受け付けていません

ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework

要約

Web熟成された大規模な言語モデル(LLM)の最近の進歩は、複雑な推論タスクで強力なパフォーマンスを示していますが、これらの機能はほとんどが不透明なアーキテクチャを備えた独自のシステムにロックされています。
この作業では、LLMの深い検索を民主化するために設計された透明でモジュラーのマルチエージェントフレームワークである\ textBf {manusearch}を提案します。
Manusearchは、検索と推論のプロセスを3つの共同エージェントに分解します。(1)サブQueriesを繰り返し策定するソリューション計画エージェント、(2)リアルタイムWeb検索を介して関連するドキュメントを取得するインターネット検索エージェント、および(3)生のWebコンテンツから重要な証拠を抽出する構造化されたWebページ読み取りエージェント。
深い推論能力を厳密に評価するために、英語と中国語の両方をカバーするロングテールエンティティのオープンウェブ推論に焦点を当てた挑戦的なベンチマークである\ textbf {orion}を紹介します。
実験結果は、Manusearchが以前のオープンソースベースラインを大幅に上回り、先頭の閉鎖源システムを上回ることさえあることを示しています。
私たちの仕事は、オープンな深い検索システムで再現可能で拡張可能な研究への道を開きます。
https://github.com/rucaibox/manusearchでデータとコードをリリースします

要約(オリジナル)

Recent advances in web-augmented large language models (LLMs) have exhibited strong performance in complex reasoning tasks, yet these capabilities are mostly locked in proprietary systems with opaque architectures. In this work, we propose \textbf{ManuSearch}, a transparent and modular multi-agent framework designed to democratize deep search for LLMs. ManuSearch decomposes the search and reasoning process into three collaborative agents: (1) a solution planning agent that iteratively formulates sub-queries, (2) an Internet search agent that retrieves relevant documents via real-time web search, and (3) a structured webpage reading agent that extracts key evidence from raw web content. To rigorously evaluate deep reasoning abilities, we introduce \textbf{ORION}, a challenging benchmark focused on open-web reasoning over long-tail entities, covering both English and Chinese. Experimental results show that ManuSearch substantially outperforms prior open-source baselines and even surpasses leading closed-source systems. Our work paves the way for reproducible, extensible research in open deep search systems. We release the data and code in https://github.com/RUCAIBox/ManuSearch

arxiv情報

著者 Lisheng Huang,Yichen Liu,Jinhao Jiang,Rongxiang Zhang,Jiahao Yan,Junyi Li,Wayne Xin Zhao
発行日 2025-05-23 17:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework はコメントを受け付けていません

Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM

要約

人間は、視覚的および聴覚的な手がかりを統合することにより、ビデオの瞬間を自然に理解しています。
たとえば、「科学者は劇的なオーケストラ音楽が再生するように野生生物の保全について情熱的に話し、視聴者がうなずき、称賛する」などのビデオのシーンをローカライズするには、視覚、音声、音声信号の同時処理が必要です。
ただし、既存のモデルは、オーディオ情報を効果的に融合および解釈するのに苦労しており、包括的なビデオの時間的理解の能力を制限しています。
これに対処するために、視覚、音声、音声モダリティの統合を通じて、全体的なビデオの時間的理解のために設計されたトリプルモダリティの大規模な言語モデルであるTrisenseを提示します。
Trisenseの中心は、入力クエリに基づいてモダリティの貢献を適応的に再重視し、モダリティドロップアウトでの堅牢なパフォーマンスを可能にし、利用可能な入力の柔軟な組み合わせを可能にするクエリベースのコネクタです。
Trisenseのマルチモーダル機能をサポートするために、Trisense-2Mを導入します。Trisense-2Mは、微調整されたLLMSを搭載した自動パイプラインを介して生成された200万を超えるキュレーションされたサンプルの高品質のデータセットです。
Trisense-2Mには、長い形式のビデオと多様なモダリティの組み合わせが含まれており、幅広い一般化が促進されます。
複数のベンチマークにわたる広範な実験は、Trisenseの有効性と、マルチモーダルビデオ分析を進める可能性を示しています。
コードとデータセットは公開されます。

要約(オリジナル)

Humans naturally understand moments in a video by integrating visual and auditory cues. For example, localizing a scene in the video like ‘A scientist passionately speaks on wildlife conservation as dramatic orchestral music plays, with the audience nodding and applauding’ requires simultaneous processing of visual, audio, and speech signals. However, existing models often struggle to effectively fuse and interpret audio information, limiting their capacity for comprehensive video temporal understanding. To address this, we present TriSense, a triple-modality large language model designed for holistic video temporal understanding through the integration of visual, audio, and speech modalities. Central to TriSense is a Query-Based Connector that adaptively reweights modality contributions based on the input query, enabling robust performance under modality dropout and allowing flexible combinations of available inputs. To support TriSense’s multimodal capabilities, we introduce TriSense-2M, a high-quality dataset of over 2 million curated samples generated via an automated pipeline powered by fine-tuned LLMs. TriSense-2M includes long-form videos and diverse modality combinations, facilitating broad generalization. Extensive experiments across multiple benchmarks demonstrate the effectiveness of TriSense and its potential to advance multimodal video analysis. Code and dataset will be publicly released.

arxiv情報

著者 Zinuo Li,Xian Zhang,Yongxin Guo,Mohammed Bennamoun,Farid Boussaid,Girish Dwivedi,Luqi Gong,Qiuhong Ke
発行日 2025-05-23 17:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM はコメントを受け付けていません

HausaNLP: Current Status, Challenges and Future Directions for Hausa Natural Language Processing

要約

Hausa Natural Language Processing(NLP)は近年、注目を集めていますが、世界中の1億2,000万人以上の第1言語(L1)と8,000万の第2言語(L2)スピーカーを抱えているにもかかわらず、低リソースの言語としては理解されていません。
高リソース言語では大きな進歩がありますが、Hausa NLPは、限られたオープンソースデータセットや不十分なモデル表現など、持続的な課題に直面しています。
このホワイトペーパーでは、Hausa NLPの現状の概要を示し、基本的なNLPタスクの既存のリソース、研究貢献、ギャップを体系的に調査します。テキスト分類、機械翻訳、名前付きエンティティ認識、音声認識、質問の回答。
データセット、ツール、および研究を集約するキュレーションされたカタログであるHausanlp(https://catalog.hausanlp.org)を紹介します。
さらに、Hausaを大規模な言語モデル(LLM)に統合し、最適ではないトークン化と方言の変動の問題に対処する際の課題について説明します。
最後に、データセットの拡張、言語モデリングのアプローチを改善し、Hausa NLPを前進させるためのコミュニティコラボレーションを強化する戦略的研究の方向性を提案します。
私たちの仕事は、Hausa NLPの進歩を加速するための基盤と、より広範な多言語NLP研究のための貴重な洞察の両方を提供します。

要約(オリジナル)

Hausa Natural Language Processing (NLP) has gained increasing attention in recent years, yet remains understudied as a low-resource language despite having over 120 million first-language (L1) and 80 million second-language (L2) speakers worldwide. While significant advances have been made in high-resource languages, Hausa NLP faces persistent challenges, including limited open-source datasets and inadequate model representation. This paper presents an overview of the current state of Hausa NLP, systematically examining existing resources, research contributions, and gaps across fundamental NLP tasks: text classification, machine translation, named entity recognition, speech recognition, and question answering. We introduce HausaNLP (https://catalog.hausanlp.org), a curated catalog that aggregates datasets, tools, and research works to enhance accessibility and drive further development. Furthermore, we discuss challenges in integrating Hausa into large language models (LLMs), addressing issues of suboptimal tokenization and dialectal variation. Finally, we propose strategic research directions emphasizing dataset expansion, improved language modeling approaches, and strengthened community collaboration to advance Hausa NLP. Our work provides both a foundation for accelerating Hausa NLP progress and valuable insights for broader multilingual NLP research.

arxiv情報

著者 Shamsuddeen Hassan Muhammad,Ibrahim Said Ahmad,Idris Abdulmumin,Falalu Ibrahim Lawan,Babangida Sani,Sukairaj Hafiz Imam,Yusuf Aliyu,Sani Abdullahi Sani,Ali Usman Umar,Tajuddeen Gwadabe,Kenneth Church,Vukosi Marivate
発行日 2025-05-23 17:13:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HausaNLP: Current Status, Challenges and Future Directions for Hausa Natural Language Processing はコメントを受け付けていません

Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

要約

強化学習(RL)は、バイナリ検証信号を通じて自己改善を可能にすることにより、LLMSの数学能力の最近の急増において中心的な役割を果たしてきました。
対照的に、監督された学習(SL)は、主に参照の回答に大きく依存し、間違いを反映できないため、そのような検証主導型のトレーニングではめったに考慮されません。
この作業では、自己改善はRLに限定され、否定的な微調整(NFT)を提案するという一般的な概念に挑戦します。これは、LLMが障害を反映し、外部教師なしで自律的に改善できるようにする監視されたアプローチです。
オンライントレーニングでは、自己生成された否定的な答えを捨てる代わりに、NFTはそれらをモデル化するための暗黙のネガティブポリシーを構築します。
この暗黙のポリシーは、ポジティブデータを最適化するためにターゲットにした同じ正のLLMでパラメーター化され、すべてのLLMSの世代の直接的なポリシーの最適化を可能にします。
数学の推論タスクで7Bおよび32Bモデルで実験を実施します。
結果は、否定的なフィードバックの追加レバレッジを通じて、NFTがGRPOやDAPOなどの主要なRLアルゴリズムを微調整したり、一致させたり、それを上回ったりする拒絶反応などのSLベースラインで大幅に改善することを一貫して示しています。
さらに、NFTとGRPOは、まったく異なる理論的基礎に由来しているにもかかわらず、実際には厳格なポリシートレーニングで同等であることを実証します。
私たちの実験と理論的発見は、バイナリフィードバック学習システムのSLメソッドとRLメソッドのギャップを埋めます。

要約(オリジナル)

Reinforcement Learning (RL) has played a central role in the recent surge of LLMs’ math abilities by enabling self-improvement through binary verifier signals. In contrast, Supervised Learning (SL) is rarely considered for such verification-driven training, largely due to its heavy reliance on reference answers and inability to reflect on mistakes. In this work, we challenge the prevailing notion that self-improvement is exclusive to RL and propose Negative-aware Fine-Tuning (NFT) — a supervised approach that enables LLMs to reflect on their failures and improve autonomously with no external teachers. In online training, instead of throwing away self-generated negative answers, NFT constructs an implicit negative policy to model them. This implicit policy is parameterized with the same positive LLM we target to optimize on positive data, enabling direct policy optimization on all LLMs’ generations. We conduct experiments on 7B and 32B models in math reasoning tasks. Results consistently show that through the additional leverage of negative feedback, NFT significantly improves over SL baselines like Rejection sampling Fine-Tuning, matching or even surpassing leading RL algorithms like GRPO and DAPO. Furthermore, we demonstrate that NFT and GRPO are actually equivalent in strict-on-policy training, even though they originate from entirely different theoretical foundations. Our experiments and theoretical findings bridge the gap between SL and RL methods in binary-feedback learning systems.

arxiv情報

著者 Huayu Chen,Kaiwen Zheng,Qinsheng Zhang,Ganqu Cui,Yin Cui,Haotian Ye,Tsung-Yi Lin,Ming-Yu Liu,Jun Zhu,Haoxiang Wang
発行日 2025-05-23 17:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Bridging Supervised Learning and Reinforcement Learning in Math Reasoning はコメントを受け付けていません

UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification

要約

大規模な言語モデル(LLMS)の最近の進歩により、単一テーブルクエリのテキストからSQLへのパフォーマンスが大幅に改善されました。
しかし、複雑なスキーマとリレーショナル操作により、マルチテーブルデータベースでは困難なままです。
既存の方法は、適切なテーブルと柱の取得、正確な結合と組合の生成、多様なスキーマ全体に一般化することに苦労しています。
これらの問題に対処するために、SQLロジック生成からスキーマ要素の検索を切り離す2段階のフレームワークであるUnjoinを紹介します。
最初の段階では、データベース内のすべてのテーブルの列名を、各列にテーブル名をプレフィックスすることにより、単一テーブル表現にマージします。
これにより、複雑なSQLロジックを記述する必要性に気を取られることなく、モデルが正確な検索に純粋に焦点を合わせることができます。
第2段階では、この単純化されたスキーマでSQLクエリが生成され、結合、組合、およびリレーショナルロジックを再構築することにより、元のスキーマにマッピングされます。
クモと鳥のデータセットの評価は、結合していないベースラインが一致するか、それを超えることを示しています。
Unjoinはスキーマ情報のみを使用します。これは、データアクセスや微調整を必要としないため、データベース全体でスケーラブルで適応可能になります。

要約(オリジナル)

Recent advances in large language models (LLMs) have greatly improved Text-to-SQL performance for single-table queries. But, it remains challenging in multi-table databases due to complex schema and relational operations. Existing methods often struggle with retrieving the right tables and columns, generating accurate JOINs and UNIONs, and generalizing across diverse schemas. To address these issues, we introduce UNJOIN, a two-stage framework that decouples the retrieval of schema elements from SQL logic generation. In the first stage, we merge the column names of all tables in the database into a single-table representation by prefixing each column with its table name. This allows the model to focus purely on accurate retrieval without being distracted by the need to write complex SQL logic. In the second stage, the SQL query is generated on this simplified schema and mapped back to the original schema by reconstructing JOINs, UNIONs, and relational logic. Evaluations on SPIDER and BIRD datasets show that UNJOIN matches or exceeds the state-of-the-art baselines. UNJOIN uses only schema information, which does not require data access or fine-tuning, making it scalable and adaptable across databases.

arxiv情報

著者 Poojah Ganesan,Rajat Aayush Jha,Dan Roth,Vivek Gupta
発行日 2025-05-23 17:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | UNJOIN: Enhancing Multi-Table Text-to-SQL Generation via Schema Simplification はコメントを受け付けていません

TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations

要約

ディープラーニングは多くのドメインで顕著な成功を収めていますが、歴史的に表形式の学習タスクではパフォーマンスが低く、勾配ブーストツリー(GBDT)によって支配されています。
ただし、最近の進歩は、特にデータにフリーテキストが含まれている場合、実際の知識を活用し、多様なデータセット全体で一般化することができる表形式の基礎モデルの道を開いています。
言語モデルの能力を表形式のタスクに組み込むことが調査されていますが、ほとんどの既存の方法は静的なターゲットに依存しないテキスト表現を利用して、有効性を制限します。
Tabstar:Semanticaltage-Aware表現を持つ基礎表形式モデルを紹介します。
TabStarは、テキスト機能を備えた表形式データの転送学習を可能にするように設計されており、データセット固有のパラメーターがないアーキテクチャがあります。
事前に防止されたテキストエンコーダーを解除し、入力ターゲットトークンとして使用します。これにより、モデルはタスク固有の埋め込みを学習するために必要なコンテキストを提供します。
Tabstarは、テキスト機能を備えた分類タスクの既知のベンチマーク全体で中型および大規模データセットの両方で最先端のパフォーマンスを実現し、その事前削除段階はデータセットの数にスケーリング法則を示し、さらなるパフォーマンスの改善のための経路を提供します。

要約(オリジナル)

While deep learning has achieved remarkable success across many domains, it has historically underperformed on tabular learning tasks, which remain dominated by gradient boosting decision trees (GBDTs). However, recent advancements are paving the way for Tabular Foundation Models, which can leverage real-world knowledge and generalize across diverse datasets, particularly when the data contains free-text. Although incorporating language model capabilities into tabular tasks has been explored, most existing methods utilize static, target-agnostic textual representations, limiting their effectiveness. We introduce TabSTAR: a Foundation Tabular Model with Semantically Target-Aware Representations. TabSTAR is designed to enable transfer learning on tabular data with textual features, with an architecture free of dataset-specific parameters. It unfreezes a pretrained text encoder and takes as input target tokens, which provide the model with the context needed to learn task-specific embeddings. TabSTAR achieves state-of-the-art performance for both medium- and large-sized datasets across known benchmarks of classification tasks with text features, and its pretraining phase exhibits scaling laws in the number of datasets, offering a pathway for further performance improvements.

arxiv情報

著者 Alan Arazi,Eilam Shapira,Roi Reichart
発行日 2025-05-23 17:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | TabSTAR: A Foundation Tabular Model With Semantically Target-Aware Representations はコメントを受け付けていません

Frankentext: Stitching random text fragments into long-form narratives

要約

Frankentextsを紹介します。これは、ほとんどのトークン(90%など)を人間の著作から逐語的にコピーする必要があるという極端な制約の下で、LLMが作成した新しいタイプの長い形式の物語です。
このタスクは、制御可能な生成の挑戦的なテストを提示し、モデルがライティングプロンプトを満たし、異なるテキストフラグメントを統合し、依然として一貫した物語を生成する必要があります。
Frankentextsを生成するために、人間が作成したパッセージを選択して組み合わせてドラフトを作成するようにモデルに指示し、ユーザー指定のコピー比を維持しながらドラフトを繰り返し修正します。
3つの軸に沿った結果として生じるフランケンテキストを評価します。品質、命令の順守、検出可能性です。
Gemini-2.5-Proは、このタスクで驚くほどうまく機能します。フランケンテキストの81%は一貫性があり、プロンプトに100%関連しています。
特に、これらの出力の最大59%は、Pangramのような検出器によって人間が書かれたものとして誤分類され、AIテキスト検出器の制限が明らかになります。
人間のアノテーターは、特に長い世代で、セグメント間の突然のトーンシフトと一貫性のない文法を通じて、フランケンテキストを識別することができます。
挑戦的な世代のタスクを提示するだけでなく、Frankentextsは、この新しいグレーの著者の効果的な検出器の構築に関する議論を招待し、混合著者の検出のためのトレーニングデータを提供し、人間の共同執筆プロセスを研究するためのサンドボックスとして機能します。

要約(オリジナル)

We introduce Frankentexts, a new type of long-form narratives produced by LLMs under the extreme constraint that most tokens (e.g., 90%) must be copied verbatim from human writings. This task presents a challenging test of controllable generation, requiring models to satisfy a writing prompt, integrate disparate text fragments, and still produce a coherent narrative. To generate Frankentexts, we instruct the model to produce a draft by selecting and combining human-written passages, then iteratively revise the draft while maintaining a user-specified copy ratio. We evaluate the resulting Frankentexts along three axes: writing quality, instruction adherence, and detectability. Gemini-2.5-Pro performs surprisingly well on this task: 81% of its Frankentexts are coherent and 100% relevant to the prompt. Notably, up to 59% of these outputs are misclassified as human-written by detectors like Pangram, revealing limitations in AI text detectors. Human annotators can sometimes identify Frankentexts through their abrupt tone shifts and inconsistent grammar between segments, especially in longer generations. Beyond presenting a challenging generation task, Frankentexts invite discussion on building effective detectors for this new grey zone of authorship, provide training data for mixed authorship detection, and serve as a sandbox for studying human-AI co-writing processes.

arxiv情報

著者 Chau Minh Pham,Jenna Russell,Dzung Pham,Mohit Iyyer
発行日 2025-05-23 17:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Frankentext: Stitching random text fragments into long-form narratives はコメントを受け付けていません

First Finish Search: Efficient Test-Time Scaling in Large Language Models

要約

テスト時間スケーリング(TTS)は、推論中の計算の動的割り当てを含む、大規模な言語モデルの推論を改善する有望な方法を提供します。
既存のTTSメソッドはうまく機能しますが、多くの場合、長いデコードパスに依存しているか、多数のサンプルを生成する必要があり、トークンの使用と推論の遅延が増加します。
推論のために、より短い痕跡が長い痕跡よりもはるかに正しい可能性がはるかに高いという驚くべき事実を観察します。
これに動機付けられているため、$ n $の独立したサンプルを起動し、誰かが完了するとすぐに戻るトレーニングフリーの並列デコード戦略であるFirst Finish Search(FFS)を導入します。
FFSは、単純なデコード、ビーム検索、多数票、および予算を4つの推論モデル(DeepSeek-R1、R1-Distill-QWEN-32B、QWQ-32B、およびPHI-4-Raining-Plus)と4つのデータセット(AIME24、AIME25-I、AIME25-IIおよびGPQA Diamond)に並んで評価します。
DeepSeek-R1を使用すると、FFSはAIMEデータセットで82.23 \%$の精度を達成し、DeepSeek-R1のスタンドアロンの精度よりも15ドルの改善があり、OpenaiのO4-Miniパフォーマンスにほぼ一致します。
私たちの理論分析では、最短のトレースで停止することが正しい答えをもたらす可能性が高い理由を説明し、早期停止が最適ではない条件を特定します。
FFSの優雅さとシンプルさは、単純なTTS戦略が非常にうまく機能し、推論時に単純なアプローチの未開発の可能性を明らかにすることを示しています。

要約(オリジナル)

Test-time scaling (TTS), which involves dynamic allocation of compute during inference, offers a promising way to improve reasoning in large language models. While existing TTS methods work well, they often rely on long decoding paths or require a large number of samples to be generated, increasing the token usage and inference latency. We observe the surprising fact that for reasoning tasks, shorter traces are much more likely to be correct than longer ones. Motivated by this, we introduce First Finish Search (FFS), a training-free parallel decoding strategy that launches $n$ independent samples and returns as soon as any one completes. We evaluate FFS alongside simple decoding, beam search, majority voting, and budget forcing on four reasoning models (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B and Phi-4-Reasoning-Plus) and across four datasets (AIME24, AIME25-I, AIME25-II and GPQA Diamond). With DeepSeek-R1, FFS achieves $82.23\%$ accuracy on the AIME datasets, a $15\%$ improvement over DeepSeek-R1’s standalone accuracy, nearly matching OpenAI’s o4-mini performance. Our theoretical analysis explains why stopping at the shortest trace is likely to yield a correct answer and identifies the conditions under which early stopping may be suboptimal. The elegance and simplicity of FFS demonstrate that straightforward TTS strategies can perform remarkably well, revealing the untapped potential of simple approaches at inference time.

arxiv情報

著者 Aradhye Agarwal,Ayan Sengupta,Tanmoy Chakraborty
発行日 2025-05-23 17:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | First Finish Search: Efficient Test-Time Scaling in Large Language Models はコメントを受け付けていません

Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding in LLMs

要約

アラビア語の詩は、アラビア語で最も洗練された文化的に埋め込まれた表現形式の表現の1つであり、その階層化された意味、文体的な多様性、深い歴史的連続性で知られています。
大規模な言語モデル(LLM)は、言語とタスク全体で強力なパフォーマンスを実証していますが、アラビア語の詩を理解する能力はほとんど未踏のままです。
この作業では、12の歴史的時代のLLMによるアラビア語の詩の理解を評価するために設計された最初のベンチマークである「ファンまたはフロップ」を紹介します。
ベンチマークは、意味の理解、比phorの解釈、韻律の認識、文化的文脈を評価する説明を含む詩のキュレーションされたコーパスで構成されています。
詩的な理解は、LLMがアラビア語の詩を通して古典的なアラビア語を理解する上でどれほど優れているかをテストするための強力な指標を提供すると主張します。
表面レベルのタスクとは異なり、このドメインには、より深い解釈的推論と文化的感受性が必要です。
最先端のLLMSの評価は、標準的なアラビア語のベンチマークに関する強力な結果にもかかわらず、ほとんどのモデルが詩的な理解に苦労していることを示しています。
アラビア語モデルの厳密な評価と進歩を可能にするオープンソースリソースとして、評価スイートとともに「FannまたはFlop」をリリースします。
コードは、https://github.com/mbzuai-oryx/fannorflopで入手できます。

要約(オリジナル)

Arabic poetry stands as one of the most sophisticated and culturally embedded forms of expression in the Arabic language, known for its layered meanings, stylistic diversity, and deep historical continuity. Although large language models (LLMs) have demonstrated strong performance across languages and tasks, their ability to understand Arabic poetry remains largely unexplored. In this work, we introduce `Fann or Flop`, the first benchmark designed to assess the comprehension of Arabic poetry by LLMs in twelve historical eras, covering 21 core poetic genres and a variety of metrical forms, from classical structures to contemporary free verse. The benchmark comprises a curated corpus of poems with explanations that assess semantic understanding, metaphor interpretation, prosodic awareness, and cultural context. We argue that poetic comprehension offers a strong indicator for testing how good the LLM is in understanding classical Arabic through the Arabic poetry. Unlike surface-level tasks, this domain demands deeper interpretive reasoning and cultural sensitivity. Our evaluation of state-of-the-art LLMs shows that most models struggle with poetic understanding despite strong results on standard Arabic benchmarks. We release `Fann or Flop` along with the evaluation suite as an open-source resource to enable rigorous evaluation and advancement for Arabic language models. Code is available at: https://github.com/mbzuai-oryx/FannOrFlop.

arxiv情報

著者 Wafa Alghallabi,Ritesh Thawkar,Sara Ghaboura,Ketan More,Omkar Thawakar,Hisham Cholakkal,Salman Khan,Rao Muhammad Anwer
発行日 2025-05-23 17:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding in LLMs はコメントを受け付けていません