Char-mander Use mBackdoor! A Study of Cross-lingual Backdoor Attacks in Multilingual LLMs

要約

\ textbf {c} ross-llingual \ textbf {b} ackdoor \ textbf {at}タック(x-bat)を多言語の大手言語モデル(MLLM)で探索し、1つの言語で挿入された背景が共有された埋め込みスペースを介して自動的に他の人に移行する方法を明らかにします。
毒性分類をケーススタディとして使用して、攻撃者が単一の言語でデータを中毒することにより多言語システムを損なうことができることを実証します。
私たちの調査結果は、モデルのアーキテクチャに影響を与える重要な脆弱性を明らかにし、情報の流れ中に隠されたバックドア効果をもたらします。
私たちのコードとデータは、公開されているhttps://github.com/himanshubeniwal/x-batです。

要約(オリジナル)

We explore \textbf{C}ross-lingual \textbf{B}ackdoor \textbf{AT}tacks (X-BAT) in multilingual Large Language Models (mLLMs), revealing how backdoors inserted in one language can automatically transfer to others through shared embedding spaces. Using toxicity classification as a case study, we demonstrate that attackers can compromise multilingual systems by poisoning data in a single language, with rare and high-occurring tokens serving as specific, effective triggers. Our findings expose a critical vulnerability that influences the model’s architecture, resulting in a concealed backdoor effect during the information flow. Our code and data are publicly available https://github.com/himanshubeniwal/X-BAT.

arxiv情報

著者 Himanshu Beniwal,Sailesh Panda,Birudugadda Srivibhav,Mayank Singh
発行日 2025-05-20 16:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Char-mander Use mBackdoor! A Study of Cross-lingual Backdoor Attacks in Multilingual LLMs はコメントを受け付けていません

Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

要約

大規模な言語モデル(LLM)は、バイオメディシンなどの科学分野、特に仮説生成において重要な可能性を示しており、そこでは膨大な文献を分析し、パターンを特定し、研究の方向性を示唆しています。
ただし、重要な課題は、生成された仮説の真実性を評価することにあります。その精度を検証するには、多くの場合、かなりの時間とリソースが必要です。
さらに、LLMSの幻覚の問題は、もっともらしいと思われるが最終的には間違っている仮説の生成につながる可能性があり、信頼性を損ないます。
これらの課題の体系的な研究を促進するために、真実の生物医学的仮説を生成する際のLLMの能力を評価するためのベンチマークと、既存の知識にどの程度の仮説が根拠があるかを評価するための知識ベースの幻覚検出器であるTruthHypoを紹介します。
私たちの結果は、LLMSが真実の仮説を生み出すのに苦労していることを示しています。
推論ステップで幻覚を分析することにより、KnowHDが提供する接地スコアが、LLMの多様な出力から真実の仮説をフィルタリングするための効果的なメトリックとして機能することを実証します。
人間の評価は、真実の仮説を特定し、科学的発見を加速する際に、KnowHDの有用性をさらに検証します。
データとソースコードは、https://github.com/teddy-xionggz/truthhypoで入手できます。

要約(オリジナル)

Large language models (LLMs) have shown significant potential in scientific disciplines such as biomedicine, particularly in hypothesis generation, where they can analyze vast literature, identify patterns, and suggest research directions. However, a key challenge lies in evaluating the truthfulness of generated hypotheses, as verifying their accuracy often requires substantial time and resources. Additionally, the hallucination problem in LLMs can lead to the generation of hypotheses that appear plausible but are ultimately incorrect, undermining their reliability. To facilitate the systematic study of these challenges, we introduce TruthHypo, a benchmark for assessing the capabilities of LLMs in generating truthful biomedical hypotheses, and KnowHD, a knowledge-based hallucination detector to evaluate how well hypotheses are grounded in existing knowledge. Our results show that LLMs struggle to generate truthful hypotheses. By analyzing hallucinations in reasoning steps, we demonstrate that the groundedness scores provided by KnowHD serve as an effective metric for filtering truthful hypotheses from the diverse outputs of LLMs. Human evaluations further validate the utility of KnowHD in identifying truthful hypotheses and accelerating scientific discovery. Our data and source code are available at https://github.com/Teddy-XiongGZ/TruthHypo.

arxiv情報

著者 Guangzhi Xiong,Eric Xie,Corey Williams,Myles Kim,Amir Hassan Shariatmadari,Sikun Guo,Stefan Bekiranov,Aidong Zhang
発行日 2025-05-20 16:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models はコメントを受け付けていません

Towards a Foundation Model for Communication Systems

要約

人工知能(AI)は、さまざまなドメインで前例のないパフォーマンスを実証しており、通信システムへの適用は研究の積極的な分野です。
現在の方法はタスク固有のソリューションに焦点を当てていますが、AIのより広範な傾向は、複数のアプリケーションをサポートできる大規模な一般モデルにシフトしています。
この作業では、通信データの基礎モデルに向けて一歩踏み出しました。これは、通信データを直接動作するように設計された変圧器ベースのマルチモーダルモデルです。
トークン化、位置埋め込み、マルチモダリティ、可変特徴サイズ、正規化など、重要な課題に対処する方法論を提案します。
さらに、このようなモデルは、伝送ランク、選択されたプレコダー、ドップラースプレッド、遅延プロファイルなど、複数の機能を正常に推定できることを経験的に実証します。

要約(オリジナル)

Artificial Intelligence (AI) has demonstrated unprecedented performance across various domains, and its application to communication systems is an active area of research. While current methods focus on task-specific solutions, the broader trend in AI is shifting toward large general models capable of supporting multiple applications. In this work, we take a step toward a foundation model for communication data–a transformer-based, multi-modal model designed to operate directly on communication data. We propose methodologies to address key challenges, including tokenization, positional embedding, multimodality, variable feature sizes, and normalization. Furthermore, we empirically demonstrate that such a model can successfully estimate multiple features, including transmission rank, selected precoder, Doppler spread, and delay profile.

arxiv情報

著者 Davide Buffelli,Sowmen Das,Yu-Wei Lin,Sattar Vakili,Chien-Yi Wang,Masoud Attarifar,Pritthijit Nath,Da-shan Shiu
発行日 2025-05-20 16:52:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP | Towards a Foundation Model for Communication Systems はコメントを受け付けていません

S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

要約

S1-Benchを紹介します。S1-Benchは、審議システム2の推論ではなく、直感的なシステム1思考を優先する単純なタスクで、大きな推論モデル(LRMS)のパフォーマンスを評価するために設計された新しいベンチマークです。
LRMSは、明示的な思考チェーンを通じて複雑な推論タスクで大きなブレークスルーを達成しましたが、システム2の思考への依存度は、システム1の思考機能を制限する可能性があります。
ただし、LRMのシステム1思考機能を評価するための適切なベンチマークが不足しています。
このギャップを埋めるために、S1-Benchは、システム1に適した質問でLRMSのパフォーマンスを評価するように特別に設計された複数のドメインと言語にわたって、シンプルで多様な、自然な質問のスイートを紹介します。
28のLRMにわたって広範な評価を実施し、簡単な質問を処理する際に、それらの非効率性、不十分な精度、限られた堅牢性を明らかにします。
さらに、困難の知覚と生成の長さの間のギャップが観察されます。
全体として、この作業は、LRMSの開発におけるデュアルシステムの互換性への道を開きます。

要約(オリジナル)

We introduce S1-Bench, a novel benchmark designed to evaluate the performance of Large Reasoning Models (LRMs) on simple tasks that favor intuitive system 1 thinking rather than deliberative system 2 reasoning. While LRMs have achieved significant breakthroughs in complex reasoning tasks through explicit chains of thought, their heavy reliance on system 2 thinking may limit their system 1 thinking capabilities. However, there is a lack of an appropriate benchmark for evaluating LRM’s system 1 thinking capabilities. To fill this gap, S1-Bench introduces a suite of simple, diverse, and natural questions across multiple domains and languages, specifically designed to assess LRMs’ performance on questions more suitable for system 1 . We conduct extensive evaluations across 28 LRMs, revealing their inefficiency, inadequate accuracy, and limited robustness when handling simple questions. Additionally, we observe a gap between their difficulty perception and generation length. Overall, this work paves the way toward dual-system compatibility in the development of LRMs.

arxiv情報

著者 Wenyuan Zhang,Shuaiyi Nie,Xinghua Zhang,Zefeng Zhang,Tingwen Liu
発行日 2025-05-20 16:52:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models はコメントを受け付けていません

Let LLMs Break Free from Overthinking via Self-Braking Tuning

要約

Openai O1やDeepseek-R1などの大きな推論モデル(LRMS)は、長い思考チェーンを生成することにより、推論能力を大幅に強化し、さまざまなタスクにわたって優れたパフォーマンスを示しています。
ただし、このパフォーマンスの増加は、生成プロセス中の冗長推論の大幅な増加を犠牲にして、高い計算オーバーヘッドにつながり、考え過ぎの問題を悪化させます。
多数の既存のアプローチは、考え過ぎの問題に対処することを目指していますが、多くの場合、外部の介入に依存しています。
この論文では、モデルが独自の推論プロセスを調節できるようにするという観点から考え直し、外部制御メカニズムへの依存を排除​​するという観点から考え直すことに取り組む新しいフレームワークである自己繁栄のチューニング(SBT)を提案します。
標準の回答に基づいて一連の考え直し識別指標を構築し、冗長な推論を検出するための体系的な方法を設計します。
この方法は、推論軌道内の不必要な手順を正確に識別し、自己調節行動を学ぶためのトレーニング信号を生成します。
この基盤に基づいて、適応的な推論長でデータを構築するための完全な戦略を開発し、モデルが適切なポイントで推論を終了する時期を自然に学ぶことができる革新的なブレーキプロンプトメカニズムを導入します。
数学ベンチマーク(AIME、AMC、Math500、GSM8K)の実験は、制約のないモデルに同等の精度を維持しながら、この方法がトークン消費を最大60%減らすことを示しています。

要約(オリジナル)

Large reasoning models (LRMs), such as OpenAI o1 and DeepSeek-R1, have significantly enhanced their reasoning capabilities by generating longer chains of thought, demonstrating outstanding performance across a variety of tasks. However, this performance gain comes at the cost of a substantial increase in redundant reasoning during the generation process, leading to high computational overhead and exacerbating the issue of overthinking. Although numerous existing approaches aim to address the problem of overthinking, they often rely on external interventions. In this paper, we propose a novel framework, Self-Braking Tuning (SBT), which tackles overthinking from the perspective of allowing the model to regulate its own reasoning process, thus eliminating the reliance on external control mechanisms. We construct a set of overthinking identification metrics based on standard answers and design a systematic method to detect redundant reasoning. This method accurately identifies unnecessary steps within the reasoning trajectory and generates training signals for learning self-regulation behaviors. Building on this foundation, we develop a complete strategy for constructing data with adaptive reasoning lengths and introduce an innovative braking prompt mechanism that enables the model to naturally learn when to terminate reasoning at an appropriate point. Experiments across mathematical benchmarks (AIME, AMC, MATH500, GSM8K) demonstrate that our method reduces token consumption by up to 60% while maintaining comparable accuracy to unconstrained models.

arxiv情報

著者 Haoran Zhao,Yuchen Yan,Yongliang Shen,Haolei Xu,Wenqi Zhang,Kaitao Song,Jian Shao,Weiming Lu,Jun Xiao,Yueting Zhuang
発行日 2025-05-20 16:53:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Let LLMs Break Free from Overthinking via Self-Braking Tuning はコメントを受け付けていません

Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)

要約

マシンテキスト検出器の開発においてかなりの進歩にもかかわらず、問題は本質的に困難であることが示唆されており、したがって、利害関係者は、機械で生成されたテキストをそのように確実に検出できないという仮定の下で進めるべきです。
Nicksらによる最近のそのような主張を調べます。
(2024)言語モデルを最適化して、特異的に最適化されていない検出器を含むマシンテキスト検出器のパフォーマンスを低下させることができることについて。
特徴スペース$ \ Unicode {x2013} $スタイルの特徴スペース$ \ unicode {x2013} $は、このような最適化に堅牢であることを示し、検出を防ぐために最適化された言語モデルからサンプルを確実に検出するために使用できることを示します。
さらに、モデルがスタイルの検出器に対して明示的に最適化されている場合でも、検出性能は驚くほど影響を受けないことを示しています。
次に、スタイルの検出器が本質的に堅牢であるかどうかを理解しようとします。
この質問を研究するために、従来の特徴を使用した検出を避けながら、人間の執筆と機械の執筆の間のギャップを閉じることを同時に目的とする新しい言い換えアプローチを探ります。
単一のサンプルのみが検出に利用できる場合、この攻撃は、ライティングスタイルを使用するものを含む、考慮されるすべての検出器で普遍的に効果的であることを示します。
ただし、検出に利用できるサンプルの数が増加すると、人間と機械の分布が区別可能になります。
この観察により、オーラを導入することが促進されます。これは、より多くのサンプルが利用可能になるにつれて検出器のパフォーマンスがどのように改善するかを分析することにより、人間と機械で生成された分布の重複を推定するメトリックです。
全体として、私たちの調査結果は、マシンテキスト検出への依存を避けるために、以前の推奨事項を強調しています。

要約(オリジナル)

Despite considerable progress in the development of machine-text detectors, it has been suggested that the problem is inherently hard, and therefore, that stakeholders should proceed under the assumption that machine-generated text cannot be reliably detected as such. We examine a recent such claim by Nicks et al. (2024) regarding the ease with which language models can be optimized to degrade the performance of machine-text detectors, including detectors not specifically optimized against. We identify a feature space$\unicode{x2013}$the stylistic feature space$\unicode{x2013}$that is robust to such optimization, and show that it may be used to reliably detect samples from language models optimized to prevent detection. Furthermore, we show that even when models are explicitly optimized against stylistic detectors, detection performance remains surprisingly unaffected. We then seek to understand if stylistic detectors are inherently more robust. To study this question, we explore a new paraphrasing approach that simultaneously aims to close the gap between human writing and machine writing in stylistic feature space while avoiding detection using traditional features. We show that when only a single sample is available for detection, this attack is universally effective across all detectors considered, including those that use writing style. However, as the number of samples available for detection grows, the human and machine distributions become distinguishable. This observation encourages us to introduce AURA, a metric that estimates the overlap between human and machine-generated distributions by analyzing how detector performance improves as more samples become available. Overall, our findings underscore previous recommendations to avoid reliance on machine-text detection.

arxiv情報

著者 Rafael Rivera Soto,Barry Chen,Nicholas Andrews
発行日 2025-05-20 16:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It) はコメントを受け付けていません

SATBench: Benchmarking LLMs’ Logical Reasoning via Automated Puzzle Generation from SAT Formulas

要約

Satbenchを紹介します。これは、ブールの満足度(SAT)の問題から派生した論理パズルを使用して、大規模な言語モデル(LLMS)の論理的推論機能を評価するためのベンチマークです。
多くの場合、一連の施設から結論を推論することを伴う推論ルールベースの推論に焦点を当てた以前の研究とは異なり、私たちのアプローチは、指定された一連の論理的制約を満たすソリューションを見つけることを目的とするSAT問題の検索ベースの性質を活用します。
Satbenchの各インスタンスは、SAT式から生成され、LLMSを使用してストーリーコンテキストと条件に変換されます。
生成プロセスは完全に自動化されており、条項の数を変えることにより、調整可能な難易度が可能になります。
すべての2100パズルは、サブセットでの人間の検証により、LLMアシストとソルバーベースの一貫性チェックの両方を通じて検証されます。
実験結果は、最も強力なモデルであるO4-MINIでさえ、ランダムなベースラインの50%に近い、ハードUNSATの問題で65.0%の精度しか得られないことを示しています。
Satbenchは、現在のLLMの検索ベースの論理推論能力の基本的な制限を公開し、論理推論における将来の研究のためのスケーラブルなテストベッドを提供します。

要約(オリジナル)

We introduce SATBench, a benchmark for evaluating the logical reasoning capabilities of large language models (LLMs) through logical puzzles derived from Boolean satisfiability (SAT) problems. Unlike prior work that focuses on inference rule-based reasoning, which often involves deducing conclusions from a set of premises, our approach leverages the search-based nature of SAT problems, where the objective is to find a solution that fulfills a specified set of logical constraints. Each instance in SATBench is generated from a SAT formula, then translated into a story context and conditions using LLMs. The generation process is fully automated and allows for adjustable difficulty by varying the number of clauses. All 2100 puzzles are validated through both LLM-assisted and solver-based consistency checks, with human validation on a subset. Experimental results show that even the strongest model, o4-mini, achieves only 65.0% accuracy on hard UNSAT problems, close to the random baseline of 50%. SATBench exposes fundamental limitations in the search-based logical reasoning abilities of current LLMs and provides a scalable testbed for future research in logical reasoning.

arxiv情報

著者 Anjiang Wei,Yuheng Wu,Yingjia Wan,Tarun Suresh,Huanmi Tan,Zhanke Zhou,Sanmi Koyejo,Ke Wang,Alex Aiken
発行日 2025-05-20 17:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.LO | SATBench: Benchmarking LLMs’ Logical Reasoning via Automated Puzzle Generation from SAT Formulas はコメントを受け付けていません

TiEBe: Tracking Language Model Recall of Notable Worldwide Events Through Time

要約

知識の状況が進化し、大規模な言語モデル(LLM)がますます広くなるにつれて、現在のイベントでこれらのモデルを更新する必要が高まっています。
既存のベンチマークは一般的な事実のリコールを評価していますが、LLMSがどのように時間の経過とともに知識を保持しているかを調査する研究はほとんどありません。
これらのギャップに対処するために、タイムリーなイベントベンチマーク(Tiebe)を紹介します。これは、10年以上のイベント、23の地域、13の言語にまたがる、顕著なグローバルおよび地域のイベントを中心とした23,000を超える質問回答ペアのデータセットです。
Tiebeは、Wikipediaから構造化された遡及データを活用して、時間をかけて顕著なイベントを特定します。
これらのイベントは、ウィキペディア自体を超えた実際の証拠に基づいて、グローバルおよび地域の開発に対するLLMSの理解を評価するためにベンチマークを構築するために使用されます。
私たちの結果は、実際には重要な地理的格差を明らかにし、LLMトレーニングにおけるよりバランスのとれたグローバル代表の必要性を強調しています。
また、TiebeでのモデルのパフォーマンスとHDIなどのさまざまな国の社会経済的指標との間に、0.7以上のピアソン相関が観察されています。
さらに、各イベントが発生した地域の母国語で質問を提起し、低資源言語の実質的なパフォーマンスギャップを発見することにより、言語の言語の影響を調べます。

要約(オリジナル)

As the knowledge landscape evolves and large language models (LLMs) become increasingly widespread, there is a growing need to keep these models updated with current events. While existing benchmarks assess general factual recall, few studies explore how LLMs retain knowledge over time or across different regions. To address these gaps, we present the Timely Events Benchmark (TiEBe), a dataset of over 23,000 question-answer pairs centered on notable global and regional events, spanning more than 10 years of events, 23 regions, and 13 languages. TiEBe leverages structured retrospective data from Wikipedia to identify notable events through time. These events are then used to construct a benchmark to evaluate LLMs’ understanding of global and regional developments, grounded in factual evidence beyond Wikipedia itself. Our results reveal significant geographic disparities in factual recall, emphasizing the need for more balanced global representation in LLM training. We also observe a Pearson correlation of more than 0.7 between models’ performance in TiEBe and various countries’ socioeconomic indicators, such as HDI. In addition, we examine the impact of language on factual recall by posing questions in the native language of the region where each event occurred, uncovering substantial performance gaps for low-resource languages.

arxiv情報

著者 Thales Sales Almeida,Giovana Kerche Bonás,João Guilherme Alves Santos,Hugo Abonizio,Rodrigo Nogueira
発行日 2025-05-20 17:09:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TiEBe: Tracking Language Model Recall of Notable Worldwide Events Through Time はコメントを受け付けていません

TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning

要約

Rehnection Learning(RL)は、報酬信号でポリシーを最適化することにより、大規模な言語モデル(LLMS)の推論能力を高めるための強力なツールとなっています。
しかし、RLの成功は、Verifiersによって提供される報酬の信頼性に依存しています。
このホワイトペーパーでは、広範囲の問題(False Negatives)を公開および分析し、検証者が正しいモデルの出力を誤って拒否します。
Big-Math-RL Verified Datasetの詳細な研究では、モデル生成された応答の38%以上が誤検知に苦しんでおり、検証剤が正解を認識できないことが明らかになりました。
経験的にも理論的にも、これらの偽陰性は、有益な勾配シグナルのモデルを奪い、収束を遅らせることにより、RLトレーニングを深刻に損なうことを示しています。
これを緩和するために、既存のルールベースの方法を強化する軽量LLMベースの検証剤であるTinyVを提案します。これは、潜在的な偽陰性を動的に識別し、より正確な報酬推定値を生成するために有効な応答を回復します。
複数の数学の季節のベンチマークにわたって、TinyVブーストを統合すると、パスレートが最大10%統合され、ベースラインと比較して収束が加速します。
私たちの調査結果は、検証剤の偽陰性に対処することの重要な重要性を強調し、RLベースのLLMSの微調整を改善するための実用的なアプローチを提供します。
私たちのコードは、https://github.com/uw-nsl/tinyvで入手できます。

要約(オリジナル)

Reinforcement Learning (RL) has become a powerful tool for enhancing the reasoning abilities of large language models (LLMs) by optimizing their policies with reward signals. Yet, RL’s success relies on the reliability of rewards, which are provided by verifiers. In this paper, we expose and analyze a widespread problem–false negatives–where verifiers wrongly reject correct model outputs. Our in-depth study of the Big-Math-RL-Verified dataset reveals that over 38% of model-generated responses suffer from false negatives, where the verifier fails to recognize correct answers. We show, both empirically and theoretically, that these false negatives severely impair RL training by depriving the model of informative gradient signals and slowing convergence. To mitigate this, we propose tinyV, a lightweight LLM-based verifier that augments existing rule-based methods, which dynamically identifies potential false negatives and recovers valid responses to produce more accurate reward estimates. Across multiple math-reasoning benchmarks, integrating TinyV boosts pass rates by up to 10% and accelerates convergence relative to the baseline. Our findings highlight the critical importance of addressing verifier false negatives and offer a practical approach to improve RL-based fine-tuning of LLMs. Our code is available at https://github.com/uw-nsl/TinyV.

arxiv情報

著者 Zhangchen Xu,Yuetai Li,Fengqing Jiang,Bhaskar Ramasubramanian,Luyao Niu,Bill Yuchen Lin,Radha Poovendran
発行日 2025-05-20 17:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning はコメントを受け付けていません

Debating for Better Reasoning: An Unsupervised Multimodal Approach

要約

大規模な言語モデル(LLM)が多様なドメインとモダリティにわたって専門知識を獲得するにつれて、特にその能力が人間の評価者を上回る場合、スケーラブルな監視がますます困難になります。
議論は、そのような監視を可能にするための有望なメカニズムとして浮上しています。
この作業では、議論のパラダイムをマルチモーダル設定に拡張し、より強力なモデルのパフォーマンスを監督および強化するためのより弱いモデルの可能性を調査します。
視覚的な質問応答(VQA)に焦点を当てています。そこでは、2人の「目撃された」専門家のビジョン言語モデルが答えを議論し、「盲目」(テキストのみの)裁判官は、議論の品質のみに基づいて判断します。
私たちの枠組みでは、専門家は自分の信念に沿った回答のみを擁護し、それにより、専門家の意見の不一致の事例に関する明示的なロールプレイングと議論を集中させる必要性を明らかにします。
いくつかのマルチモーダルタスクでの実験は、議論のフレームワークが個々の専門家モデルを常に上回ることを示しています。
さらに、より弱いLLMからの判断は、視覚モデルに視覚モデルに推論能力を浸透させるのに役立ちます。

要約(オリジナル)

As Large Language Models (LLMs) gain expertise across diverse domains and modalities, scalable oversight becomes increasingly challenging, particularly when their capabilities may surpass human evaluators. Debate has emerged as a promising mechanism for enabling such oversight. In this work, we extend the debate paradigm to a multimodal setting, exploring its potential for weaker models to supervise and enhance the performance of stronger models. We focus on visual question answering (VQA), where two ‘sighted’ expert vision-language models debate an answer, while a ‘blind’ (text-only) judge adjudicates based solely on the quality of the arguments. In our framework, the experts defend only answers aligned with their beliefs, thereby obviating the need for explicit role-playing and concentrating the debate on instances of expert disagreement. Experiments on several multimodal tasks demonstrate that the debate framework consistently outperforms individual expert models. Moreover, judgments from weaker LLMs can help instill reasoning capabilities in vision-language models through finetuning.

arxiv情報

著者 Ashutosh Adhikari,Mirella Lapata
発行日 2025-05-20 17:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Debating for Better Reasoning: An Unsupervised Multimodal Approach はコメントを受け付けていません