Transparent and Coherent Procedural Mistake Detection

要約

手続き上の間違い検出(PMD)は、人間のユーザー(エゴセントリックビデオで観察された)がタスク(手順テキストで指定)を正常に実行したかどうかを分類するという挑戦的な問題です。
最近の大幅な努力にもかかわらず、野生の機械のパフォーマンスは生存不可のままであり、このパフォーマンスの根底にある推論プロセスは不透明です。
そのため、PMDを拡張して、意思決定を通知するために視覚的な自己ダイアログの理論的根拠を生成する必要があります。
最近のビジョンと言語モデル(VLM)で観察された印象的で成熟した画像理解機能を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートします。
私たちの再定式化は前例のない透明性を可能にするため、自然言語推論(NLI)モデルを活用して、生成された理論的根拠の一貫性のために2つの自動メトリックを策定します。
この再構成されたタスクのベースラインを確立し、VLMSが既製で苦労している間、それらの精度、コヒーレンス、および効率を改善できるが、これらのメトリックを共通の推論と微調整方法に組み込むことで改善できることを示しています。
最後に、多面的なメトリックが一般的な結果を視覚化し、さらなる改善のために領域を強調します。

要約(オリジナル)

Procedural mistake detection (PMD) is a challenging problem of classifying whether a human user (observed through egocentric video) has successfully executed a task (specified by a procedural text). Despite significant recent efforts, machine performance in the wild remains nonviable, and the reasoning processes underlying this performance are opaque. As such, we extend PMD to require generating visual self-dialog rationales to inform decisions. Given the impressive, mature image understanding capabilities observed in recent vision-and-language models (VLMs), we curate a suitable benchmark dataset for PMD based on individual frames. As our reformulation enables unprecedented transparency, we leverage a natural language inference (NLI) model to formulate two automated metrics for the coherence of generated rationales. We establish baselines for this reframed task, showing that while VLMs struggle off-the-shelf, their accuracy, coherence, and efficiency can be improved by incorporating these metrics into common inference and fine-tuning methods- though not without tradeoff. Lastly, our multi-faceted metrics visualize common outcomes, highlighting areas for further improvement.

arxiv情報

著者 Shane Storks,Itamar Bar-Yossef,Yayuan Li,Zheyuan Zhang,Jason J. Corso,Joyce Chai
発行日 2025-05-27 16:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Transparent and Coherent Procedural Mistake Detection はコメントを受け付けていません

Hume: Introducing System-2 Thinking in Visual-Language-Action Model

要約

人間は、物理的な世界で複雑なタスクを処理するときに実際のアクションを実行する前にゆっくりと思考を実践します。
この思考パラダイムは、最近、デジタルドメインの複雑なタスクを解決するために、大規模な言語モデル(LLM)を強化する際に顕著な進歩を達成しました。
しかし、ゆっくりと思考の可能性は、物理的な世界と相互作用するロボット基礎モデルのためにほとんど未踏のままです。
この作業では、Humeを提案します。価値誘導システム-2思考とカスケードアクション除去を備えたデュアルシステムビジョン言語アクション(VLA)モデルを提案します。
HUMEのシステム2は、予測されたアクションの状態アクション価値を推定するために、視覚言語アクションモデルバックボーンを新しいバリュークエリヘッドで拡張することにより、価値誘導思考を実装します。
価値誘導思考は、複数のアクション候補を繰り返しサンプリングし、状態アクション値に応じて1つを選択することによって行われます。
Humeのシステム1は、システム2選択されたアクションを採用し、器用なロボット制御のためのカスケードアクション除去を実行する軽量の反応性視覚運動ポリシーです。
展開時に、システム2は低周波数で価値誘導思考を実行し、システム1はシステム2選択したアクション候補を非同期に受信し、リアルタイムで流体アクションを予測します。
Humeは、複数のシミュレーションベンチマークとリアルロボットの展開にわたる既存の最先端のビジョンアクションモデルを上回ることを示しています。

要約(オリジナル)

Humans practice slow thinking before performing actual actions when handling complex tasks in the physical world. This thinking paradigm, recently, has achieved remarkable advancement in boosting Large Language Models (LLMs) to solve complex tasks in digital domains. However, the potential of slow thinking remains largely unexplored for robotic foundation models interacting with the physical world. In this work, we propose Hume: a dual-system Vision-Language-Action (VLA) model with value-guided System-2 thinking and cascaded action denoising, exploring human-like thinking capabilities of Vision-Language-Action models for dexterous robot control. System 2 of Hume implements value-Guided thinking by extending a Vision-Language-Action Model backbone with a novel value-query head to estimate the state-action value of predicted actions. The value-guided thinking is conducted by repeat sampling multiple action candidates and selecting one according to state-action value. System 1 of Hume is a lightweight reactive visuomotor policy that takes System 2 selected action and performs cascaded action denoising for dexterous robot control. At deployment time, System 2 performs value-guided thinking at a low frequency while System 1 asynchronously receives the System 2 selected action candidate and predicts fluid actions in real time. We show that Hume outperforms the existing state-of-the-art Vision-Language-Action models across multiple simulation benchmark and real-robot deployments.

arxiv情報

著者 Haoming Song,Delin Qu,Yuanqi Yao,Qizhi Chen,Qi Lv,Yiwen Tang,Modi Shi,Guanghui Ren,Maoqing Yao,Bin Zhao,Dong Wang,Xuelong Li
発行日 2025-05-27 17:04:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Hume: Introducing System-2 Thinking in Visual-Language-Action Model はコメントを受け付けていません

Autoencoding Random Forests

要約

ランダムフォレストを使用した自動エンコードの原則的な方法を提案します。
私たちの戦略は、データの関係を最適に表すモデルの低次元の埋め込みを学習するために、ノンパラメトリック統計とスペクトルグラフ理論の基礎結果に基づいています。
制約された最適化、分割レラブリング、および最も近い隣人の回帰を介して、デコード問題に対する正確かつ近似ソリューションを提供します。
これらの方法は、圧縮パイプラインを効果的に反転させ、アンサンブルの構成樹によって学習したスプリットを使用して、埋め込みスペースから入力スペースに戻るマップを確立します。
結果のデコーダーは、一般的な規則性の仮定の下で普遍的に一貫しています。
この手順は、監視されたモデルまたは監視なしのモデルで機能し、条件付きまたは共同分布にウィンドウを提供します。
視覚化、圧縮、クラスタリング、除去のための強力な新しいツールを含む、この自動エンコーダーのさまざまなアプリケーションを実証します。
実験は、表形式、画像、ゲノムデータを含む幅広い設定での方法の容易さと有用性を示しています。

要約(オリジナル)

We propose a principled method for autoencoding with random forests. Our strategy builds on foundational results from nonparametric statistics and spectral graph theory to learn a low-dimensional embedding of the model that optimally represents relationships in the data. We provide exact and approximate solutions to the decoding problem via constrained optimization, split relabeling, and nearest neighbors regression. These methods effectively invert the compression pipeline, establishing a map from the embedding space back to the input space using splits learned by the ensemble’s constituent trees. The resulting decoders are universally consistent under common regularity assumptions. The procedure works with supervised or unsupervised models, providing a window into conditional or joint distributions. We demonstrate various applications of this autoencoder, including powerful new tools for visualization, compression, clustering, and denoising. Experiments illustrate the ease and utility of our method in a wide range of settings, including tabular, image, and genomic data.

arxiv情報

著者 Binh Duc Vu,Jan Kapar,Marvin Wright,David S. Watson
発行日 2025-05-27 17:15:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Autoencoding Random Forests はコメントを受け付けていません

When Two LLMs Debate, Both Think They’ll Win

要約

LLMSは反対に直面したときに自信を正確に調整できますか?
静的な事実ベースの質問タスクに関するキャリブレーションを測定する以前の研究に基づいて、ダイナミックで敵対的な議論の設定で大きな言語モデル(LLM)を評価し、2つの現実的な要因をユニークに組み合わせます。
私たちは、10の最先端のLLMの間で60の3ラウンドの政策討論を組織しました。モデルは、各ラウンドの後に勝つことで自信(0-100)を個人的に評価しました。
パターンに関する5つのパターンを観察しました。(1)体系的な自信:モデルは、合理的な50%のベースラインと合理的な50%のベースラインの平均初期信頼性で議論を開始しました。
(2)信頼のエスカレーション:議論が進むにつれて自信を減らすのではなく、討論者は勝利の確率を増やし、最終ラウンドで平均83%になりました。
(3)相互過大評価:議論の61.7%で、双方は同時に> = 75%の勝利の確率、論理的不可能性を主張した。
(4)永続的な自己脱線バイアス:同一のコピーを議論するモデルは、64.1%から75.2%に信頼性を高めました。
勝利の可能性を明示的に通知したとしても、正確に50%であったとしても、自信はまだ上昇しました(50.0%から57.1%)。
(5)プライベートな推論の誤ったもの:モデルのプライベートスクラッチパッド思考は、一般の信頼評価とは異なる場合があり、考え方の推論の忠実さについて懸念を引き起こしました。
これらの結果は、LLMが動的なマルチターンタスクに対する信念を正確に評価または更新する能力を欠いていることを示唆しています。
LLM出力がアシスタントの役割やエージェント設定で慎重にレビューすることなく展開されるため、大きな懸念が展開されます。

要約(オリジナル)

Can LLMs accurately adjust their confidence when facing opposition? Building on previous studies measuring calibration on static fact-based question-answering tasks, we evaluate Large Language Models (LLMs) in a dynamic, adversarial debate setting, uniquely combining two realistic factors: (a) a multi-turn format requiring models to update beliefs as new information emerges, and (b) a zero-sum structure to control for task-related uncertainty, since mutual high-confidence claims imply systematic overconfidence. We organized 60 three-round policy debates among ten state-of-the-art LLMs, with models privately rating their confidence (0-100) in winning after each round. We observed five concerning patterns: (1) Systematic overconfidence: models began debates with average initial confidence of 72.9% vs. a rational 50% baseline. (2) Confidence escalation: rather than reducing confidence as debates progressed, debaters increased their win probabilities, averaging 83% by the final round. (3) Mutual overestimation: in 61.7% of debates, both sides simultaneously claimed >=75% probability of victory, a logical impossibility. (4) Persistent self-debate bias: models debating identical copies increased confidence from 64.1% to 75.2%; even when explicitly informed their chance of winning was exactly 50%, confidence still rose (from 50.0% to 57.1%). (5) Misaligned private reasoning: models’ private scratchpad thoughts sometimes differed from their public confidence ratings, raising concerns about faithfulness of chain-of-thought reasoning. These results suggest LLMs lack the ability to accurately self-assess or update their beliefs in dynamic, multi-turn tasks; a major concern as LLM outputs are deployed without careful review in assistant roles or agentic settings.

arxiv情報

著者 Pradyumna Shyama Prasad,Minh Nhat Nguyen
発行日 2025-05-27 17:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | When Two LLMs Debate, Both Think They’ll Win はコメントを受け付けていません

GeLLMO: Generalizing Large Language Models for Multi-property Molecule Optimization

要約

最近の進歩にもかかわらず、分子の最適化のためのほとんどの計算方法は、単一または二重プロパティの最適化タスクに制約されており、低いスケーラビリティと新しい最適化タスクに対する一般化可能性に苦しんでいます。
一方、大規模な言語モデル(LLMS)は、新しいタスクに対する顕著な領域外の一般化可能性を示しています。
分子最適化のLLMSの可能性を実証するために、複雑なマルチプロパティ分子最適化タスクに特化した最初の高品質の命令調整データセットであるMumoinstructを導入します。
ムモ端を活用して、分子最適化のための一連の命令チューニングLLMSであるGellmosを開発します。
5つの領域内および5つのドメイン外のタスクにわたる広範な評価は、Gellmosが常に最先端のベースラインよりも優れていることを示しています。
Gellmosはまた、目に見えないタスクに優れたゼロショットの一般化を示し、強力な閉鎖型LLMを大幅に上回っています。
このような強力な一般化可能性は、分子最適化の基礎モデルとしてのGellmosの途方もない可能性を示していることを示しており、それによってリソース集約型の再訓練なしの新しい最適化タスクに取り組んでいます。
mumoinstruct、モデル、およびコードは、https://github.com/ninglab/gellmoからアクセスできます。

要約(オリジナル)

Despite recent advancements, most computational methods for molecule optimization are constrained to single- or double-property optimization tasks and suffer from poor scalability and generalizability to novel optimization tasks. Meanwhile, Large Language Models (LLMs) demonstrate remarkable out-of-domain generalizability to novel tasks. To demonstrate LLMs’ potential for molecule optimization, we introduce MuMOInstruct, the first high-quality instruction-tuning dataset specifically focused on complex multi-property molecule optimization tasks. Leveraging MuMOInstruct, we develop GeLLMOs, a series of instruction-tuned LLMs for molecule optimization. Extensive evaluations across 5 in-domain and 5 out-of-domain tasks demonstrate that GeLLMOs consistently outperform state-of-the-art baselines. GeLLMOs also exhibit outstanding zero-shot generalization to unseen tasks, significantly outperforming powerful closed-source LLMs. Such strong generalizability demonstrates the tremendous potential of GeLLMOs as foundational models for molecule optimization, thereby tackling novel optimization tasks without resource-intensive retraining. MuMOInstruct, models, and code are accessible through https://github.com/ninglab/GeLLMO.

arxiv情報

著者 Vishal Dey,Xiao Hu,Xia Ning
発行日 2025-05-27 17:37:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, physics.chem-ph, q-bio.QM | GeLLMO: Generalizing Large Language Models for Multi-property Molecule Optimization はコメントを受け付けていません

Evaluating AI cyber capabilities with crowdsourced elicitation

要約

AIシステムがますます有能になるにつれて、攻撃的なサイバーの可能性を理解することは、情報に基づいたガバナンスと責任ある展開にとって重要です。
ただし、能力を正確にバインドすることは困難であり、いくつかの以前の評価により劇的に過小評価されています。
AISから最大のタスク固有のパフォーマンスを抽出する技術は「AI誘発」と呼ばれ、今日の安全団体は通常、社内でそれを実施しています。
この論文では、社内の誘発作業に代わるものとして、クラウドソーシングの誘発努力を探ります。
AI対人間(400チーム)とサイバー黙示録(8000チーム)の2つのCapture The Flag(CTF)コンペティションでオープンアクセスAIトラックをホストしています。
AIチームは、両方のイベントで優れたパフォーマンスを達成し、合計7500ドルの賞金でそれぞれ上位5%と上位10%にランクされています。
この印象的なパフォーマンスは、オープンマーケットの誘発が社内の誘発を効果的に補完する可能性があることを示唆しています。
私たちは、新たなAI能力に対するタイムリーで費用対効果の高い状況認識を維持するための実用的なメカニズムとして、誘発賞を提案します。
オープンエレキシテーションのもう1つの利点は、人間のパフォーマンスデータを大規模に収集するオプションです。
METRの方法論を適用して、AIエージェントは、中央値の人間のCTF参加者から1時間以下の労力を必要とするサイバー課題を確実に解決できることがわかりました。

要約(オリジナル)

As AI systems become increasingly capable, understanding their offensive cyber potential is critical for informed governance and responsible deployment. However, it’s hard to accurately bound their capabilities, and some prior evaluations dramatically underestimated them. The art of extracting maximum task-specific performance from AIs is called ‘AI elicitation’, and today’s safety organizations typically conduct it in-house. In this paper, we explore crowdsourcing elicitation efforts as an alternative to in-house elicitation work. We host open-access AI tracks at two Capture The Flag (CTF) competitions: AI vs. Humans (400 teams) and Cyber Apocalypse (8000 teams). The AI teams achieve outstanding performance at both events, ranking top-5% and top-10% respectively for a total of \$7500 in bounties. This impressive performance suggests that open-market elicitation may offer an effective complement to in-house elicitation. We propose elicitation bounties as a practical mechanism for maintaining timely, cost-effective situational awareness of emerging AI capabilities. Another advantage of open elicitations is the option to collect human performance data at scale. Applying METR’s methodology, we found that AI agents can reliably solve cyber challenges requiring one hour or less of effort from a median human CTF participant.

arxiv情報

著者 Artem Petrov,Dmitrii Volkov
発行日 2025-05-27 17:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Evaluating AI cyber capabilities with crowdsourced elicitation はコメントを受け付けていません

Robust Hypothesis Generation: LLM-Automated Language Bias for Inductive Logic Programming

要約

オープン環境での堅牢な仮説生成の自動化は、AI認知にとって極めて重要です。
誘導論理プログラミング(ILP)を使用して、大規模な言語モデル(LLMS)を搭載したマルチエージェントシステムを統合する新しいフレームワークを導入します。
私たちのシステムのLLMエージェントは、生のテキストデータから直接構造化された象徴的な語彙(述語)とリレーショナルテンプレート、つまり\ ench {言語バイアス}を自律的に定義します。
伝統的にILPの専門家主導のボトルネックであるこの自動化された象徴的な接地(言語バイアスの構築)は、ILPソルバーの事実へのテキストの変換を導き、解釈可能なルールを誘導します。
このアプローチは、事前に定義されたシンボリック構造と純粋なLLMメソッドのノイズ感度に対する従来のILPの依存を克服します。
多様で挑戦的なシナリオでの広範な実験は、優れたパフォーマンスを検証し、自動化され、説明可能な、検証可能な仮説生成のための新しいパスを開きます。

要約(オリジナル)

Automating robust hypothesis generation in open environments is pivotal for AI cognition. We introduce a novel framework integrating a multi-agent system, powered by Large Language Models (LLMs), with Inductive Logic Programming (ILP). Our system’s LLM agents autonomously define a structured symbolic vocabulary (predicates) and relational templates , i.e., \emph{language bias} directly from raw textual data. This automated symbolic grounding (the construction of the language bias), traditionally an expert-driven bottleneck for ILP, then guides the transformation of text into facts for an ILP solver, which inductively learns interpretable rules. This approach overcomes traditional ILP’s reliance on predefined symbolic structures and the noise-sensitivity of pure LLM methods. Extensive experiments in diverse, challenging scenarios validate superior performance, paving a new path for automated, explainable, and verifiable hypothesis generation.

arxiv情報

著者 Yang Yang,Jiemin Wu,Yutao Yue
発行日 2025-05-27 17:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Robust Hypothesis Generation: LLM-Automated Language Bias for Inductive Logic Programming はコメントを受け付けていません

AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery

要約

Vision-Language Model(VLM)ベースのWebエージェントは、Webサイトとの人間のような相互作用をシミュレートすることにより、複雑なタスクを自動化するための重要なステップを表しています。
ただし、制御されていないWeb環境での展開は、重大なセキュリティの脆弱性をもたらします。
敵対的な環境注射攻撃に関する既存の研究は、直接的なHTML操作、ユーザー意図の知識、エージェントモデルパラメーターへのアクセスなど、非現実的な仮定にしばしば依存しており、実際の適用性を制限します。
この論文では、インターネット広告配信を活用して悪意のあるコンテンツをWebエージェントの環境に挿入する斬新で現実世界のブラックボックス攻撃方法であるAdinjectを提案します。
Adinjectは、ブラックボックスエージェント、静的な悪意のあるコンテンツの制約、およびユーザーの意図に関する特定の知識がないと仮定して、以前の作業よりもはるかに現実的な脅威モデルの下で動作します。
Adinjectには、誤解を招くエージェントを目的とした悪意のある広告コンテンツをクリックすることを目的とした悪意のある広告コンテンツを設計するための戦略と、ターゲットWebサイトのコンテキストから潜在的なユーザーの意図を広告コンテンツに統合して、エージェントのタスクに関連性または重要に見えるようにするためのVLMベースの広告コンテンツ最適化手法が含まれます。
実験的評価は、ほとんどのシナリオで60%を超え、特定のケースで100%に近づいている、攻撃の成功率の有効性、攻撃の成功率を示しています。
これは、一般的な広告配信が、Webエージェントに対する環境注入攻撃のための強力で現実世界のベクトルであることを強く示しています。
この作業は、現実世界の環境操作チャネルから生じるWebエージェントセキュリティの重大な脆弱性を強調し、そのような脅威に対する堅牢な防御メカニズムを開発する緊急の必要性を強調しています。
私たちのコードは、https://github.com/nicerwang/adinjectで入手できます。

要約(オリジナル)

Vision-Language Model (VLM) based Web Agents represent a significant step towards automating complex tasks by simulating human-like interaction with websites. However, their deployment in uncontrolled web environments introduces significant security vulnerabilities. Existing research on adversarial environmental injection attacks often relies on unrealistic assumptions, such as direct HTML manipulation, knowledge of user intent, or access to agent model parameters, limiting their practical applicability. In this paper, we propose AdInject, a novel and real-world black-box attack method that leverages the internet advertising delivery to inject malicious content into the Web Agent’s environment. AdInject operates under a significantly more realistic threat model than prior work, assuming a black-box agent, static malicious content constraints, and no specific knowledge of user intent. AdInject includes strategies for designing malicious ad content aimed at misleading agents into clicking, and a VLM-based ad content optimization technique that infers potential user intents from the target website’s context and integrates these intents into the ad content to make it appear more relevant or critical to the agent’s task, thus enhancing attack effectiveness. Experimental evaluations demonstrate the effectiveness of AdInject, attack success rates exceeding 60% in most scenarios and approaching 100% in certain cases. This strongly demonstrates that prevalent advertising delivery constitutes a potent and real-world vector for environment injection attacks against Web Agents. This work highlights a critical vulnerability in Web Agent security arising from real-world environment manipulation channels, underscoring the urgent need for developing robust defense mechanisms against such threats. Our code is available at https://github.com/NicerWang/AdInject.

arxiv情報

著者 Haowei Wang,Junjie Wang,Xiaojun Jia,Rupeng Zhang,Mingyang Li,Zhe Liu,Yang Liu,Qing Wang
発行日 2025-05-27 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery はコメントを受け付けていません

Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making

要約

大規模な言語モデル(LLMS)は、臨床質問応答に強い可能性を示しており、最近のマルチエージェントフレームワークは、共同推論を介して診断の精度をさらに向上させています。
ただし、特に複雑なまたは曖昧な場合に、エージェントが十分な批判的分析なしで診断に早期に収束するサイレント合意の繰り返しの問題を特定します。
Catfish Agentと呼ばれる新しいコンセプトを提示します。これは、構造化された異議と沈黙の合意を注入するように設計された役割専門LLMです。
組織心理学における「ナマズ効果」に触発されたナマズのエージェントは、より深い推論を刺激するために新たなコンセンサスに挑戦するように設計されています。
(i)症例の難易度に基づいてエージェントの関与を調節する複雑さを意識した介入と、(ii)批評とコラボレーションのバランスをとるために明確にされたトーンキャリブレーションされた介入。
9つの医療Q&Aと3つの医療VQAベンチマークの評価は、GPT-4OやDeepSeek-R1などの主要な商用モデルを含む、単一およびマルチエージェントLLMSフレームワークの両方を常に上回ることができることを示しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong potential in clinical question answering, with recent multi-agent frameworks further improving diagnostic accuracy via collaborative reasoning. However, we identify a recurring issue of Silent Agreement, where agents prematurely converge on diagnoses without sufficient critical analysis, particularly in complex or ambiguous cases. We present a new concept called Catfish Agent, a role-specialized LLM designed to inject structured dissent and counter silent agreement. Inspired by the “catfish effect” in organizational psychology, the Catfish Agent is designed to challenge emerging consensus to stimulate deeper reasoning. We formulate two mechanisms to encourage effective and context-aware interventions: (i) a complexity-aware intervention that modulates agent engagement based on case difficulty, and (ii) a tone-calibrated intervention articulated to balance critique and collaboration. Evaluations on nine medical Q&A and three medical VQA benchmarks show that our approach consistently outperforms both single- and multi-agent LLMs frameworks, including leading commercial models such as GPT-4o and DeepSeek-R1.

arxiv情報

著者 Yihan Wang,Qiao Yan,Zhenghao Xing,Lihao Liu,Junjun He,Chi-Wing Fu,Xiaowei Hu,Pheng-Ann Heng
発行日 2025-05-27 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, q-bio.OT | Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making はコメントを受け付けていません

How does Alignment Enhance LLMs’ Multilingual Capabilities? A Language Neurons Perspective

要約

多言語アラインメントは、LLMSの多言語機能を強化するための効果的かつ代表的なパラダイムであり、高リソース言語から低リソース言語に機能を転送します。
一方、言語固有のニューロンに関するいくつかの研究は、異なる言語を処理するときにLLMで選択的に活性化される言語固有のニューロンがあることを明らかにしています。
これにより、多言語シナリオでLLMSメカニズムをより具体的に分析および理解するための新しい視点が提供されます。
この作業では、言語ニューロン(言語固有のニューロンと言語関連のニューロンを含む)と言語存在に存在するニューロンを検出する新しいより細かい粒のニューロン識別アルゴリズムを提案します。
さらに、さまざまな種類のニューロンの分布特性に基づいて、多言語推論のためのLLMの内部プロセスを4つの部分に分割します:(1)多言語理解、(2)共有セマンティックスペース推論、(3)多言語出力スペース変換、(4)語彙スペース出力。
さらに、さまざまな種類のニューロンに焦点を合わせて、アライメントの前後にモデルを体系的に分析します。
また、「自発的多言語アライメント」の現象を分析します。
全体として、私たちの仕事は、さまざまな種類のニューロンに基づいた包括的な調査を実施し、LLMの多言語のアライメントと多言語機能をよりよく理解するための経験的な結果と貴重な洞察を提供します。

要約(オリジナル)

Multilingual Alignment is an effective and representative paradigm to enhance LLMs’ multilingual capabilities, which transfers the capabilities from the high-resource languages to the low-resource languages. Meanwhile, some researches on language-specific neurons reveal that there are language-specific neurons that are selectively activated in LLMs when processing different languages. This provides a new perspective to analyze and understand LLMs’ mechanisms more specifically in multilingual scenarios. In this work, we propose a new finer-grained neuron identification algorithm, which detects language neurons~(including language-specific neurons and language-related neurons) and language-agnostic neurons. Furthermore, based on the distributional characteristics of different types of neurons, we divide the LLMs’ internal process for multilingual inference into four parts: (1) multilingual understanding, (2) shared semantic space reasoning, (3) multilingual output space transformation, and (4) vocabulary space outputting. Additionally, we systematically analyze the models before and after alignment with a focus on different types of neurons. We also analyze the phenomenon of ”Spontaneous Multilingual Alignment”. Overall, our work conducts a comprehensive investigation based on different types of neurons, providing empirical results and valuable insights for better understanding multilingual alignment and multilingual capabilities of LLMs.

arxiv情報

著者 Shimao Zhang,Zhejian Lai,Xiang Liu,Shuaijie She,Xiao Liu,Yeyun Gong,Shujian Huang,Jiajun Chen
発行日 2025-05-27 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | How does Alignment Enhance LLMs’ Multilingual Capabilities? A Language Neurons Perspective はコメントを受け付けていません