On Learning Parallel Pancakes with Mostly Uniform Weights

要約

$ \ mathbb {r}^d $でガウスの$ k $ -mixtures($ k $ -gmms)の複雑さを研究します。
このタスクは、完全な一般性に複雑な$ d^{\ omega(k)} $を持つことが知られています。
コンポーネントの数のこの指数関数的下限を回避するために、研究は、追加の構造特性を満たすGMMの家族を学習することに焦点を当てています。
自然な仮定は、コンポーネントの重みが指数関数的に小さくなく、コンポーネントが同じ未知の共分散を持っていると仮定しています。
最近の研究では、$ d^{o(\ log(1/w _ {\ min}))} $ – このクラスのgmmsの時間アルゴリズムが与えられました。ここで、$ w _ {\ min} $は最小重量です。
私たちの最初の主な結果は、統一ウェイトの特殊なケースであっても、この準正式上限が本質的に可能であることを示す統計クエリ(SQ)下限です。
具体的には、このような混合物と標準のガウスを区別することはSQハードであることを示します。
さらに、重みの分布がこのタスクの複雑さにどのように影響するかを探ります。
私たちの2番目の主な結果は、体重のほとんどが均一であり、重量のわずかな部分が潜在的に任意である場合、前述のテストタスクの準正式上限です。

要約(オリジナル)

We study the complexity of learning $k$-mixtures of Gaussians ($k$-GMMs) on $\mathbb{R}^d$. This task is known to have complexity $d^{\Omega(k)}$ in full generality. To circumvent this exponential lower bound on the number of components, research has focused on learning families of GMMs satisfying additional structural properties. A natural assumption posits that the component weights are not exponentially small and that the components have the same unknown covariance. Recent work gave a $d^{O(\log(1/w_{\min}))}$-time algorithm for this class of GMMs, where $w_{\min}$ is the minimum weight. Our first main result is a Statistical Query (SQ) lower bound showing that this quasi-polynomial upper bound is essentially best possible, even for the special case of uniform weights. Specifically, we show that it is SQ-hard to distinguish between such a mixture and the standard Gaussian. We further explore how the distribution of weights affects the complexity of this task. Our second main result is a quasi-polynomial upper bound for the aforementioned testing task when most of the weights are uniform while a small fraction of the weights are potentially arbitrary.

arxiv情報

著者 Ilias Diakonikolas,Daniel M. Kane,Sushrut Karmalkar,Jasper C. H. Lee,Thanasis Pittas
発行日 2025-04-21 17:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH | On Learning Parallel Pancakes with Mostly Uniform Weights はコメントを受け付けていません

ASIDE: Architectural Separation of Instructions and Data in Language Models

要約

彼らの驚くべきパフォーマンスにもかかわらず、大規模な言語モデルには基本的な安全性の機能があり、これにより多くの悪意のある攻撃の影響を受けやすくなります。
特に、以前の研究では、迅速な注射攻撃の成功の根本原因として、指示とデータの間に本質的な分離がないことが特定されています。
この作業では、モデルが埋め込みのレベルに関する命令とデータを明確に区別できるようにする方法を除いて提案します。
さておき、データトークンの埋め込みに固定直交回転を適用するため、追加のパラメーターを導入することなく、命令とデータトークンの明確な表現を作成します。
LLMSを脇に置き、(1)モデル機能の損失と(2)専用の安全トレーニングがなくても、迅速な噴射ベンチマークの競争結果を示すことで、LLMSを指示することにより、方法の有効性を実証します。
さらに、モデル表現の分析を通じて、方法の背後にある作業メカニズムを研究します。

要約(オリジナル)

Despite their remarkable performance, large language models lack elementary safety features, and this makes them susceptible to numerous malicious attacks. In particular, previous work has identified the absence of an intrinsic separation between instructions and data as a root cause for the success of prompt injection attacks. In this work, we propose a method, ASIDE, that allows the model to clearly separate between instructions and data on the level of embeddings. ASIDE applies a fixed orthogonal rotation to the embeddings of data tokens, thus creating distinct representations of instructions and data tokens without introducing any additional parameters. We demonstrate the effectiveness of our method by instruct-tuning LLMs with ASIDE and showing (1) highly increased instruction-data separation scores without a loss in model capabilities and (2) competitive results on prompt injection benchmarks, even without dedicated safety training. Additionally, we study the working mechanism behind our method through an analysis of model representations.

arxiv情報

著者 Egor Zverev,Evgenii Kortukov,Alexander Panfilov,Alexandra Volkova,Soroush Tabesh,Sebastian Lapuschkin,Wojciech Samek,Christoph H. Lampert
発行日 2025-04-21 17:45:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ASIDE: Architectural Separation of Instructions and Data in Language Models はコメントを受け付けていません

SCORE: Story Coherence and Retrieval Enhancement for AI Narratives

要約

大規模な言語モデル(LLM)は、ユーザー指定の入力から創造的で魅力的な物語を生成できますが、これらのAIに生成されたストーリー全体で一貫性と感情的な深さを維持することは依然として課題です。
この作業では、物語の矛盾を検出および解決するために設計されたストーリーの一貫性と検索の強化のフレームワークであるスコアを提案します。
主要なアイテムのステータスを追跡し、エピソードの要約を生成することにより、Scoreは検索された高級生成(RAG)アプローチを使用し、TF-IDFとCOSINEの類似性を組み込み、関連するエピソードを特定し、ストーリー構造全体を強化します。
複数のLLM生成されたストーリーをテストした結果は、スコアがベースラインGPTモデルと比較して物語の一貫性の一貫性と安定性を大幅に改善し、AIに生成された物語を評価および改良するためのより堅牢な方法を提供することを示しています。

要約(オリジナル)

Large Language Models (LLMs) can generate creative and engaging narratives from user-specified input, but maintaining coherence and emotional depth throughout these AI-generated stories remains a challenge. In this work, we propose SCORE, a framework for Story Coherence and Retrieval Enhancement, designed to detect and resolve narrative inconsistencies. By tracking key item statuses and generating episode summaries, SCORE uses a Retrieval-Augmented Generation (RAG) approach, incorporating TF-IDF and cosine similarity to identify related episodes and enhance the overall story structure. Results from testing multiple LLM-generated stories demonstrate that SCORE significantly improves the consistency and stability of narrative coherence compared to baseline GPT models, providing a more robust method for evaluating and refining AI-generated narratives.

arxiv情報

著者 Qiang Yi,Yangfan He,Jianhui Wang,Xinyuan Song,Shiyao Qian,Xinhang Yuan,Miao Zhang,Li Sun,Keqin Li,Kuan Lu,Menghao Huo,Jiaqi Chen,Tianyu Shi
発行日 2025-04-21 05:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SCORE: Story Coherence and Retrieval Enhancement for AI Narratives はコメントを受け付けていません

OTC: Optimal Tool Calls via Reinforcement Learning

要約

ツール統合推論(TIR)は、言語のみの推論の機能を超えたタスクを解決するために、検索エンジンやコード通訳などの外部ツールを呼び出す機能を備えた大規模な言語モデル(LLM)を増強します。
Rehnecortion Learning(RL)は、最終的な回答の正確性を最適化することによりTIRを改善することに有望を示していますが、既存のアプローチはツールの使用に関連する効率とコストを見落としていることがよくあります。
これにより、計算および財務のオーバーヘッドを増加させる過剰なツール呼び出しや、回答の質を損なうツールの使用が不十分であるなど、最適ではない動作につながる可能性があります。
この作業では、モデルが最小限のツール呼び出しで正確な回答を生成することを奨励するシンプルで効果的なRLベースのフレームワークである、最適なツールコールコール制御ポリシー最適化(OTC-PO)を提案します。
私たちの方法は、正確性とツール効率を共同で考慮し、高いツールの生産性を促進するツール統合された報酬を導入します。
このフレームワークは、近位ポリシー最適化(PPO)とグループ相対嗜好最適化(GRPO)の両方でインスタンス化され、OTC-PPOとOTC-GRPOをもたらします。
複数のQAベンチマークにわたるQWEN-2.5およびQWEN-MATHを使用した実験は、このアプローチがツール呼び出しを最大73.1 \%削減し、同等の回答精度を維持しながらツールの生産性を最大229.4 \%に改善することを示しています。
私たちの知る限り、これはTIRのツール使用効率を明示的に最適化する最初のRLベースのフレームワークです。

要約(オリジナル)

Tool-integrated reasoning (TIR) augments large language models (LLMs) with the ability to invoke external tools, such as search engines and code interpreters, to solve tasks beyond the capabilities of language-only reasoning. While reinforcement learning (RL) has shown promise in improving TIR by optimizing final answer correctness, existing approaches often overlook the efficiency and cost associated with tool usage. This can lead to suboptimal behavior, including excessive tool calls that increase computational and financial overhead, or insufficient tool use that compromises answer quality. In this work, we propose Optimal Tool Call-controlled Policy Optimization (OTC-PO), a simple yet effective RL-based framework that encourages models to produce accurate answers with minimal tool calls. Our method introduces a tool-integrated reward that jointly considers correctness and tool efficiency, promoting high tool productivity. We instantiate this framework within both Proximal Policy Optimization (PPO) and Group Relative Preference Optimization (GRPO), resulting in OTC-PPO and OTC-GRPO. Experiments with Qwen-2.5 and Qwen-Math across multiple QA benchmarks show that our approach reduces tool calls by up to 73.1\% and improves tool productivity by up to 229.4\%, while maintaining comparable answer accuracy. To the best of our knowledge, this is the first RL-based framework that explicitly optimizes tool-use efficiency in TIR.

arxiv情報

著者 Hongru Wang,Cheng Qian,Wanjun Zhong,Xiusi Chen,Jiahao Qiu,Shijue Huang,Bowen Jin,Mengdi Wang,Kam-Fai Wong,Heng Ji
発行日 2025-04-21 05:40:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | OTC: Optimal Tool Calls via Reinforcement Learning はコメントを受け付けていません

Natural Fingerprints of Large Language Models

要約

大規模な言語モデル(LLM)は、多くの場合、出力にバイアス(予想される規範からの体系的な逸脱)を示します。
これらは、不公平な応答などの明白な問題から、どのモデルがそれらを生成したかを明らかにできる微妙なパターンにまで及びます。
LLMSの識別可能な特性を生じさせる要因を調査します。
LLMSモデルのトレーニングデータの分布以来、トレーニングデータの違いが自然に特性につながることは合理的です。
ただし、我々の調査結果は、LLMがまったく同じデータでトレーニングされている場合でも、生成されたテキストに基づいてソースモデルを区別することが依然として可能であることを明らかにしています。
これらの意図しない独特の特性を自然な指紋と呼びます。
トレーニング条件を体系的に制御することにより、パラメーターサイズ、最適化設定、ランダムシードなど、トレーニングプロセスの微妙な違いから自然な指紋が出現する可能性があることを示します。
自然な指紋を理解することで、意図しないバイアスの起源とLLMの行動を制御する方法に関する新しい洞察が得られると考えています。

要約(オリジナル)

Large language models (LLMs) often exhibit biases — systematic deviations from expected norms — in their outputs. These range from overt issues, such as unfair responses, to subtler patterns that can reveal which model produced them. We investigate the factors that give rise to identifiable characteristics in LLMs. Since LLMs model training data distribution, it is reasonable that differences in training data naturally lead to the characteristics. However, our findings reveal that even when LLMs are trained on the exact same data, it is still possible to distinguish the source model based on its generated text. We refer to these unintended, distinctive characteristics as natural fingerprints. By systematically controlling training conditions, we show that the natural fingerprints can emerge from subtle differences in the training process, such as parameter sizes, optimization settings, and even random seeds. We believe that understanding natural fingerprints offers new insights into the origins of unintended bias and ways for improving control over LLM behavior.

arxiv情報

著者 Teppei Suzuki,Ryokan Ri,Sho Takase
発行日 2025-04-21 05:48:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Natural Fingerprints of Large Language Models はコメントを受け付けていません

Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey

要約

検索された世代(RAG)の最近の進歩は、大規模な言語モデル(LLM)を外部情報検索と統合し、多様なアプリケーション全体で正確で最新の、検証可能なテキスト生成を可能にすることにより、自然言語処理に革命をもたらしました。
ただし、RAGシステムを評価することは、検索コンポーネントと生成コンポーネントを組み合わせたハイブリッドアーキテクチャ、およびLLM時代の動的知識ソースへの依存により、独自の課題を提示します。
これに応じて、このペーパーでは、LLM時代のシステムパフォーマンス、事実上の正確性、安全性、および計算効率について、従来および新興の評価アプローチを体系的にレビューするRAG評価方法とフレームワークに関する包括的な調査を提供します。
また、RAG固有のデータセットと評価フレームワークをコンパイルして分類し、影響力の高いRAG研究で評価慣行のメタ分析を実施します。
私たちの知る限り、この研究は、ぼろきれの評価、従来のLLM駆動型の方法とLLM駆動型の方法を埋めるための最も包括的な調査を表し、ぼろきれ開発を進めるための重要なリソースとして機能します。

要約(オリジナル)

Recent advancements in Retrieval-Augmented Generation (RAG) have revolutionized natural language processing by integrating Large Language Models (LLMs) with external information retrieval, enabling accurate, up-to-date, and verifiable text generation across diverse applications. However, evaluating RAG systems presents unique challenges due to their hybrid architecture that combines retrieval and generation components, as well as their dependence on dynamic knowledge sources in the LLM era. In response, this paper provides a comprehensive survey of RAG evaluation methods and frameworks, systematically reviewing traditional and emerging evaluation approaches, for system performance, factual accuracy, safety, and computational efficiency in the LLM era. We also compile and categorize the RAG-specific datasets and evaluation frameworks, conducting a meta-analysis of evaluation practices in high-impact RAG research. To the best of our knowledge, this work represents the most comprehensive survey for RAG evaluation, bridging traditional and LLM-driven methods, and serves as a critical resource for advancing RAG development.

arxiv情報

著者 Aoran Gan,Hao Yu,Kai Zhang,Qi Liu,Wenyu Yan,Zhenya Huang,Shiwei Tong,Guoping Hu
発行日 2025-04-21 06:39:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey はコメントを受け付けていません

Fine-tuning a Large Language Model for Automating Computational Fluid Dynamics Simulations

要約

計算液ダイナミクス(CFD)シミュレーションの構成には、通常、広範なドメインの専門知識が必要であり、より広範なアクセスが制限されます。
大規模な言語モデル(LLM)には高度な科学的コンピューティングがありますが、CFDワークフローの自動化における使用は未発達です。
ドメイン固有のLLM適応を中心とした新しいアプローチを紹介します。
NL2FOAMのQWEN2.5-7B-Instructを微調整することにより、28716の自然言語からオープンフォームの構成ペアのカスタムデータセット(COT)の注釈を備えたカスタムデータセットは、自然言語の説明から実行可能なCFDセットアップへの直接翻訳を可能にします。
マルチエージェントフレームワークは、プロセスを調整し、入力を自律的に検証し、構成を生成し、シミュレーションを実行し、エラーを修正します。
21の多様なフローケースのベンチマークでの評価は、最先端のパフォーマンスを示しており、88.7%のソリューション精度と82.6%の第1概用成功率を達成しています。
これは、QWEN2.5-72B-Instruct、DeepSeek-R1、LlAMA3.3-70B-Instructなどのより大きな汎用モデルを大幅に上回り、補正の反復が少なく、高い計算効率を維持する必要があります。
結果は、複雑なエンジニアリングワークフローのためにLLMアシスタントを展開する際のドメイン固有の適応の重要な役割を強調しています。
私たちのコードと微調整されたモデルは、https://github.com/yygroup/autocfdに預けられています。

要約(オリジナル)

Configuring computational fluid dynamics (CFD) simulations typically demands extensive domain expertise, limiting broader access. Although large language models (LLMs) have advanced scientific computing, their use in automating CFD workflows is underdeveloped. We introduce a novel approach centered on domain-specific LLM adaptation. By fine-tuning Qwen2.5-7B-Instruct on NL2FOAM, our custom dataset of 28716 natural language-to-OpenFOAM configuration pairs with chain-of-thought (CoT) annotations, we enable direct translation from natural language descriptions to executable CFD setups. A multi-agent framework orchestrates the process, autonomously verifying inputs, generating configurations, running simulations, and correcting errors. Evaluation on a benchmark of 21 diverse flow cases demonstrates state-of-the-art performance, achieving 88.7% solution accuracy and 82.6% first-attempt success rate. This significantly outperforms larger general-purpose models like Qwen2.5-72B-Instruct, DeepSeek-R1, and Llama3.3-70B-Instruct, while also requiring fewer correction iterations and maintaining high computational efficiency. The results highlight the critical role of domain-specific adaptation in deploying LLM assistants for complex engineering workflows. Our code and fine-tuned model have been deposited at https://github.com/YYgroup/AutoCFD.

arxiv情報

著者 Zhehao Dong,Zhen Lu,Yue Yang
発行日 2025-04-21 07:04:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, physics.flu-dyn | Fine-tuning a Large Language Model for Automating Computational Fluid Dynamics Simulations はコメントを受け付けていません

VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform

要約

指数関数的に成長する短いビデオプラットフォーム(SVP)は、特に未成年者にとって、ユーザーのメンタルヘルスにとって有害なコンテンツの緩和に大きな課題に直面しています。
SVPに対するそのようなコンテンツの普及は、壊滅的な社会的結果につながる可能性があります。
このようなコンテンツの緩和には多大な努力が払われていますが、既存の方法は重大な制限に苦しんでいます。(1)手動のレビューは人間のバイアスに陥りやすく、高い運用コストが発生します。
(2)自動化された方法は、効率的ですが、微妙なコンテンツの理解を欠いているため、精度が低下します。
(3)産業節度の規制は、長い更新サイクルのために急速に進化する傾向に適応するのに苦労しています。
このホワイトペーパーでは、最初のSVPコンテンツモデレートベンチマークに本物のユーザー/レビュー担当者のフィードバックを注ぎ、このフィールドにベンチマークがないことを埋めます。
次に、前述の制限の存在を検証するために、ベンチマーク上のさまざまな方法を評価します。
さらに、これらの課題に対処するために、Kuaimodという名前のコモンローコンテンツモデレーションフレームワークを提案します。
Kuaimodは、トレーニングデータ構築、オフライン適応、およびオンライン展開と改良の3つのコンポーネントで構成されています。
大規模なビジョン言語モデル(VLM)と考え方(COT)の推論を活用して、Kuaimodはスパースユーザーフィードバックに基づいてビデオ毒性を適切にモデル化し、迅速な更新速度と高精度で動的モデレーションポリシーを促進します。
オフライン実験と大規模なオンラインA/Bテストは、Kuaimodの優位性を示しています。Kuaimodは、ベンチマークで最高のモデレートパフォーマンスを達成します。
Kuaimodの展開により、ユーザーのレポートレートが20%削減され、ビデオ推奨でのアプリケーションは、いくつかのKuaishouシナリオで毎日のアクティブユーザー(DAU)とアプリの使用時間(AUT)の両方を増加させます。
https://kuaimod.github.ioでベンチマークをオープンソースしました。

要約(オリジナル)

Exponentially growing short video platforms (SVPs) face significant challenges in moderating content detrimental to users’ mental health, particularly for minors. The dissemination of such content on SVPs can lead to catastrophic societal consequences. Although substantial efforts have been dedicated to moderating such content, existing methods suffer from critical limitations: (1) Manual review is prone to human bias and incurs high operational costs. (2) Automated methods, though efficient, lack nuanced content understanding, resulting in lower accuracy. (3) Industrial moderation regulations struggle to adapt to rapidly evolving trends due to long update cycles. In this paper, we annotate the first SVP content moderation benchmark with authentic user/reviewer feedback to fill the absence of benchmark in this field. Then we evaluate various methods on the benchmark to verify the existence of the aforementioned limitations. We further propose our common-law content moderation framework named KuaiMod to address these challenges. KuaiMod consists of three components: training data construction, offline adaptation, and online deployment & refinement. Leveraging large vision language model (VLM) and Chain-of-Thought (CoT) reasoning, KuaiMod adequately models video toxicity based on sparse user feedback and fosters dynamic moderation policy with rapid update speed and high accuracy. Offline experiments and large-scale online A/B test demonstrates the superiority of KuaiMod: KuaiMod achieves the best moderation performance on our benchmark. The deployment of KuaiMod reduces the user reporting rate by 20% and its application in video recommendation increases both Daily Active User (DAU) and APP Usage Time (AUT) on several Kuaishou scenarios. We have open-sourced our benchmark at https://kuaimod.github.io.

arxiv情報

著者 Xingyu Lu,Tianke Zhang,Chang Meng,Xiaobei Wang,Jinpeng Wang,YiFan Zhang,Shisong Tang,Changyi Liu,Haojie Ding,Kaiyu Jiang,Kaiyu Tang,Bin Wen,Hai-Tao Zheng,Fan Yang,Tingting Gao,Di Zhang,Kun Gai
発行日 2025-04-21 07:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SI | VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform はコメントを受け付けていません

CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs

要約

デジタルメディアとAIに生成されたコンテンツによって駆動される誤った情報の急速な広がりにより、自動請求検証が不可欠になりました。
専門家が解決した証拠に依存する従来の方法は、労働集約的であり、スケーラブルではありません。
最近の自動化されたシステムは改善されていますが、微妙な推論を必要とする複雑な主張と依然として闘っています。
これに対処するために、私たちは、大規模な言語モデル(LLM)によって推論される矛盾する合理的根拠に基づいて複雑な主張を検証する、説明可能な主張の検証のための対立する推論アプローチであるCraveを提案します。
具体的には、Craveは3モジュールフレームワークを導入します。
Amviguity Elimination Enchanced Evediment Moduleは、Wikipediaのような外部ソースからのクレーム検証に関連する関連する証拠を収集するために、あいまいさの排除とエンティティベースの検索を実行します。
矛盾する視点の推論とLLMSを備えた予備判断モジュールは、4つの次元にわたる検索された証拠からの主張の検証、すなわち直接的な証拠、意味関係、言語パターン、および論理的推論と予備的な判断を下すために、矛盾した姿勢を持つ推論の合理的根拠を持つLLMを採用します。
最後に、小言語モデル(SLM)ベースの裁判官モジュールは、LLMSからの予備的な判断を利用して、矛盾する理論的根拠の信頼を評価し、最終的な信頼性の判断を下すために微調整されています。
この方法論により、Craveは複雑な主張で微妙な矛盾を捉えることができ、請求検証の精度と透明性の両方を改善することができます。
2つの公開請求検証データセットでの広範な実験は、Craveモデルが最先端の方法よりもはるかに優れたパフォーマンスを達成し、関連する証拠を見つけてモデルの予測を説明するための優れた能力を示すことを示しています。
コードはhttps://github.com/8zym/craveで提供されています。

要約(オリジナル)

The rapid spread of misinformation, driven by digital media and AI-generated content, has made automatic claim verification essential. Traditional methods, which depend on expert-annotated evidence, are labor-intensive and not scalable. Although recent automated systems have improved, they still struggle with complex claims that require nuanced reasoning. To address this, we propose CRAVE, a Conflicting Reasoning Approach for explainable claim VErification, that verify the complex claims based on the conflicting rationales reasoned by large language models (LLMs). Specifically, CRAVE introduces a three-module framework. Ambiguity Elimination enchanced Evidence Retrieval module performs ambiguity elimination and entity-based search to gather relevant evidence related to claim verification from external sources like Wikipedia. Conflicting Perspective Reasoning and Preliminary Judgment module with LLMs adopts LLMs to reason rationales with conflicting stances about claim verification from retrieved evidence across four dimensions, i.e., direct evidence, semantic relationships, linguistic patterns, and logical reasoning and make a preliminary judgment. Finally, Small Language Model (SLM) based Judge module is fine-tuned to make use of preliminary judgment from LLMs to assess the confidence of the conflicting rationales and make a final authenticity judgment. This methodology allows CRAVE to capture subtle inconsistencies in complex claims, improving both the accuracy and transparency of claim verification. Extensive experiments on two public claim verification datasets demonstrate that our CRAVE model achieves much better performance than state-of-the-art methods and exhibits a superior capacity for finding relevant evidence and explaining the model predictions. The code is provided at https://github.com/8zym/CRAVE.

arxiv情報

著者 Yingming Zheng,Xiaoliang Liu,Peng Wu,Li Pan
発行日 2025-04-21 07:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs はコメントを受け付けていません

A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis

要約

データの統合と蒸留は、小言語モデルを強化するための有望な戦略ですが、現在のアプローチは、高い計算コスト、環境非効率性、およびモノリシックアーキテクチャから継承された潜在的なバイアスに苦しむ大きな言語モデル(LLM)に大きく依存しています。
対照的に、より小さなLLMはよりアクセスしやすく持続可能ですが、それらの個々の機能は、高品質で多様で信頼性の高いデータを生成するのに不足していることがよくあります。
共同の人間のプロセス(ピアレビューなど)に触発されて、私たちは、単一のLLMによって通常達成される小さなLLM全体にわたって特殊な役割を反復的な洗練と品質管理に集約する複数の小さなLLMSフレームワーク、GRAを提案します。
この共同フレームワークでは、複数の小さなLLMSが、異なるロールズジェネレーター、レビュアー、および裁定者を想定しており、ピアレビューにインスパイアされたデータシンセシスパイプラインをシミュレートします。
ジェネレーターは初期のデータサンプルを提案し、レビュアーは品質と多様性を批判し、裁定者は競合を解決して出力を完成させます。
合成プロセスを特殊なサブタスクに分解することにより、共同の小型LLMは、LLMベースの大規模な蒸留とデータレベルのパリティを達成できます。
複数のベンチマークにわたる実験を通じて、GRAが制作したデータが、QWEN-2.5-72B-Instructなどの単一の大LLM出力の品質に一致するか、それを超えることを示します。
私たちの結果は、高品質のデータ統合のためのモノリシック大規模モデルの必要性に挑戦し、代わりに小規模なエージェントの戦略的調整を提唱しています。
データセット、モデル、およびコードは、https://github.com/gx-xingao/graで公開されています。

要約(オリジナル)

While data synthesis and distillation are promising strategies to enhance small language models, current approaches heavily rely on Large Language Models (LLMs), which suffer from high computational costs, environmental inefficiency, and potential biases inherited from monolithic architectures. In contrast, smaller LLMs are more accessible and sustainable, but their individual capabilities often fall short in generating high-quality, diverse, and reliable data. Inspired by collaborative human processes (e.g., peer review), we propose a multiple small LLMs involved framework, GRA, that aggregates specialized roles across small LLMs to iterative refinement and quality control typically achieved by a single large LLM. In this collaborative framework, multiple small LLMs assume distinct roles-Generator, Reviewer, and Adjudicator-to simulate a peer-review-inspired data synthesis pipeline. The Generator proposes initial data samples, the Reviewer critiques their quality and diversity, and the Adjudicator resolves conflicts to finalize the output. By decomposing the synthesis process into specialized sub-tasks, collaborative small LLMs can achieve data-level parity with large LLM-based distillation. Through experiments across multiple benchmarks, we demonstrate that GRA-produced data matches or exceeds the quality of single large LLM outputs, e.g., Qwen-2.5-72B-Instruct. Our results challenge the necessity of monolithic large models for high-quality data synthesis, advocating instead for strategic coordination of smaller agents. Our datasets, models, and code are publicly available at https://github.com/GX-XinGao/GRA.

arxiv情報

著者 Xin Gao,Qizhi Pei,Zinan Tang,Yu Li,Honglin Lin,Jiang Wu,Lijun Wu,Conghui He
発行日 2025-04-21 07:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis はコメントを受け付けていません