TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation

要約

既存のツール学習方法は通常、監視された微調整に依存しており、多くの場合、内部ツール呼び出しの詳細の微調整された最適化を見落とし、好みのアライメントとエラー差別の制限につながります。
これらの課題を克服するために、トークンレベルのツール使用優先アライメントトレーニングフレームワーク(TTPA)を提案します。これは、新しいエラー指向スコアリングメカニズムを使用してLLMSを微調整された好みに合わせたトークンレベルのツール使用優先データセットを構築するためのトレーニングパラダイムです。
TTPAは最初に、生成フローを逆にすることにより、高品質の多ターンツール使用データセットを作成する方法である逆のデータセット構築を導入します。
さらに、トークンレベルの優先サンプリング(TPS)を提案して、世代中にトークンレベルの違いをモデル化することにより、きめ細かい好みをキャプチャします。
スコアリングのバイアスに対処するために、ツールコールエラーを定量化し、トレーニング信号として使用できるエラー指向のスコアリングメカニズム(ESM)を導入します。
3つの多様なベンチマークデータセットでの広範な実験は、TTPAがモデルとデータセット間で強力な一般化能力を示しながら、ツール使用パフォーマンスを大幅に改善することを示しています。

要約(オリジナル)

Existing tool-learning methods usually rely on supervised fine-tuning, they often overlook fine-grained optimization of internal tool call details, leading to limitations in preference alignment and error discrimination. To overcome these challenges, we propose Token-level Tool-use Preference Alignment Training Framework (TTPA), a training paradigm for constructing token-level tool-use preference datasets that align LLMs with fine-grained preferences using a novel error-oriented scoring mechanism. TTPA first introduces reversed dataset construction, a method for creating high-quality, multi-turn tool-use datasets by reversing the generation flow. Additionally, we propose Token-level Preference Sampling (TPS) to capture fine-grained preferences by modeling token-level differences during generation. To address biases in scoring, we introduce the Error-oriented Scoring Mechanism (ESM), which quantifies tool-call errors and can be used as a training signal. Extensive experiments on three diverse benchmark datasets demonstrate that TTPA significantly improves tool-using performance while showing strong generalization ability across models and datasets.

arxiv情報

著者 Chengrui Huang,Shen Gao,Zhengliang Shi,Dongsheng Wang,Shuo Shang
発行日 2025-05-26 14:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation はコメントを受け付けていません

Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking

要約

環境を知覚し、目標を達成するための行動をとる自律エージェントは、大規模な言語モデル(LLM)の進歩でますます実行可能になりました。
ただし、現在の強力なエージェントは、GPT-4のようなクローズドソースLLMと組み合わせた洗練されたプロンプトエンジニアリングに依存することがよくあります。
教師モデルからの専門家の軌跡を使用してオープンソースLLMをトレーニングすると、エージェント機能がいくつかの改善がもたらされましたが、このアプローチは、パフォーマンスのプラトーおよびエラー伝播などの制限に依然として直面しています。
これらの課題を軽減するために、LLMベースのエージェントトレーニングを改善するための新しい方法であるStepを提案します。
エラーステップの反射と補正を含む自己反射軌道を合成し、教師モデルから学習するLLMエージェントの有効性を高め、自己反映と修正が可能なエージェントになることができます。
また、LLMが誤ったまたは最適ではないステップを内面化するのを防ぐ部分的なマスキング戦略を紹介します。
実験は、この方法が、Alfworld、Webshop、Sciworldの3つの代表的なタスクにわたってエージェントのパフォーマンスを改善することを示しています。
オープンソースモデルLlama2-7B-chatの場合、教師モデルとしてQWEN1.5-110B-chatで構築された自己反射軌道を使用して訓練された場合、専門家の軌跡のみでトレーニングされたエージェントと比較して、より少ないトレーニングデータで包括的な改善を達成します。

要約(オリジナル)

Autonomous agents, which perceive environments and take actions to achieve goals, have become increasingly feasible with the advancements in large language models (LLMs). However, current powerful agents often depend on sophisticated prompt engineering combined with closed-source LLMs like GPT-4. Although training open-source LLMs using expert trajectories from teacher models has yielded some improvements in agent capabilities, this approach still faces limitations such as performance plateauing and error propagation. To mitigate these challenges, we propose STeP, a novel method for improving LLM-based agent training. We synthesize self-reflected trajectories that include reflections and corrections of error steps, which enhance the effectiveness of LLM agents in learning from teacher models, enabling them to become agents capable of self-reflecting and correcting. We also introduce partial masking strategy that prevents the LLM from internalizing incorrect or suboptimal steps. Experiments demonstrate that our method improves agent performance across three representative tasks: ALFWorld, WebShop, and SciWorld. For the open-source model LLaMA2-7B-Chat, when trained using self-reflected trajectories constructed with Qwen1.5-110B-Chat as the teacher model, it achieves comprehensive improvements with less training data compared to agents trained exclusively on expert trajectories.

arxiv情報

著者 Yihan Chen,Benfeng Xu,Xiaorui Wang,Yongdong Zhang,Zhendong Mao
発行日 2025-05-26 14:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking はコメントを受け付けていません

Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs

要約

大規模な言語モデル(LLM)は印象的な流encyさを示しますが、多くの場合、「幻覚」として知られる重要なエラーを生成します。
不確実性定量化(UQ)メソッドは、この基本的な欠点に対処するための有望なツールです。
しかし、既存のUQメソッドは、高い計算オーバーヘッドや監視された学習への依存などの課題に直面しています。
ここでは、このギャップを埋めることを目指しています。
特に、RAUQ(再発性の注意ベースの不確実性の定量化)を提案します。これは、変圧器の固有の注意パターンを活用して幻覚を効率的に検出する監視されていないアプローチです。
注意の重みを分析することにより、独特のパターンを特定しました。特定の「不確実な」ヘッドについて、誤った世代の間に前のトークンに注意を向けることが体系的に観察されます。
RAUQは、このようなヘッドを自動的に選択し、注意力とトークンレベルの自信を再発し、単一のフォワードパスでシーケンスレベルの不確実性スコアを計算します。
4 LLMと12の質問応答、要約、および翻訳タスクにわたる実験は、RAUQが優れた結果をもたらし、最小限の計算オーバーヘッド(<1%レイテンシ)を使用して最先端のUQメソッドを上回ることを示しています。 さらに、タスク固有のラベルも慎重なハイパーパラメーターチューニングも必要ありません。ホワイトボックスLLMでのプラグアンドプレイリアルタイムの幻覚検出を提供します。

要約(オリジナル)

Large language models (LLMs) exhibit impressive fluency, but often produce critical errors known as ‘hallucinations’. Uncertainty quantification (UQ) methods are a promising tool for coping with this fundamental shortcoming. Yet, existing UQ methods face challenges such as high computational overhead or reliance on supervised learning. Here, we aim to bridge this gap. In particular, we propose RAUQ (Recurrent Attention-based Uncertainty Quantification), an unsupervised approach that leverages intrinsic attention patterns in transformers to detect hallucinations efficiently. By analyzing attention weights, we identified a peculiar pattern: drops in attention to preceding tokens are systematically observed during incorrect generations for certain ‘uncertainty-aware’ heads. RAUQ automatically selects such heads, recurrently aggregates their attention weights and token-level confidences, and computes sequence-level uncertainty scores in a single forward pass. Experiments across 4 LLMs and 12 question answering, summarization, and translation tasks demonstrate that RAUQ yields excellent results, outperforming state-of-the-art UQ methods using minimal computational overhead (<1% latency). Moreover, it requires no task-specific labels and no careful hyperparameter tuning, offering plug-and-play real-time hallucination detection in white-box LLMs.

arxiv情報

著者 Artem Vazhentsev,Lyudmila Rvanova,Gleb Kuzmin,Ekaterina Fadeeva,Ivan Lazichny,Alexander Panchenko,Maxim Panov,Timothy Baldwin,Mrinmaya Sachan,Preslav Nakov,Artem Shelmanov
発行日 2025-05-26 14:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs はコメントを受け付けていません

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

要約

大規模な言語モデル(LLM)ベースのListWise Reasoning Reranking AgentであるRearankを提示します。
Rearankは、再ランキングの前に明示的に推論し、パフォーマンスと解釈可能性の両方を大幅に改善します。
補強学習とデータ増強を活用して、Rearankは一般的な情報検索ベンチマーク全体でベースラインモデルよりも大幅な改善を達成し、特に179の注釈付きサンプルのみを必要とします。
QWEN2.5-7Bの上に構築されたLearank-7Bは、ドメイン内およびドメイン外のベンチマークの両方でGPT-4に匹敵するパフォーマンスを示し、推論集約型の明るいベンチマークでGPT-4を上回ります。
これらの結果は、私たちのアプローチの有効性を強調し、強化学習が再ランキングのLLM推論能力を高める方法を強調しています。

要約(オリジナル)

We present REARANK, a large language model (LLM)-based listwise reasoning reranking agent. REARANK explicitly reasons before reranking, significantly improving both performance and interpretability. Leveraging reinforcement learning and data augmentation, REARANK achieves substantial improvements over baseline models across popular information retrieval benchmarks, notably requiring only 179 annotated samples. Built on top of Qwen2.5-7B, our REARANK-7B demonstrates performance comparable to GPT-4 on both in-domain and out-of-domain benchmarks and even surpasses GPT-4 on reasoning-intensive BRIGHT benchmarks. These results underscore the effectiveness of our approach and highlight how reinforcement learning can enhance LLM reasoning capabilities in reranking.

arxiv情報

著者 Le Zhang,Bo Wang,Xipeng Qiu,Siva Reddy,Aishwarya Agrawal
発行日 2025-05-26 14:31:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | REARANK: Reasoning Re-ranking Agent via Reinforcement Learning はコメントを受け付けていません

The Many Challenges of Human-Like Agents in Virtual Game Environments

要約

人間のようなエージェントは、ゲームやそれ以降のますます重要なトピックです。
信じられないほどの非プレイヤーキャラクターは、没入感を改善し、エンターテイメントを提供することにより、ゲームエクスペリエンスを向上させます。
また、プレイヤーに、対戦相手、教師、または協力パートナーとして機能できるAIエンティティと関わる機会を提供します。
さらに、ボットが禁止されているゲーム、さらにはゲーム以外の環境では、ボットまたは人間とのデジタル相互作用が発生するかどうかを識別できる方法が必要です。
これは、2つの基本的な研究の質問につながります。(1)人間のようなAIをモデル化および実装する方法、および(2)人間の肖像の程度を測定する方法。
この記事では、2つの貢献を提供しています。
1つ目は、ゲームで人間のようなAIを実装する際の最も重要な課題の調査です(または、この記事はゲームに特に焦点を当てていますが、シミュレートされたエージェントを特徴とする仮想環境です)。
概念的および技術的な13のこのような課題については、詳細に説明します。
2つ目は、研究の質問に対処する戦術的なビデオゲームで実行された経験的研究です。「人間のプレイヤーを、経験的データに基づいてボット(AIエージェント)を区別することは可能ですか?」
カスタムディープリカレント畳み込みニューラルネットワークを使用した機械学習アプローチが提示されています。
特定のゲームのために人間のようなAIを作成することがより困難であればあるほど、人間をAI主導のプレイヤーと区別する方法を開発することが容易になると仮定します。

要約(オリジナル)

Human-like agents are an increasingly important topic in games and beyond. Believable non-player characters enhance the gaming experience by improving immersion and providing entertainment. They also offer players the opportunity to engage with AI entities that can function as opponents, teachers, or cooperating partners. Additionally, in games where bots are prohibited — and even more so in non-game environments — there is a need for methods capable of identifying whether digital interactions occur with bots or humans. This leads to two fundamental research questions: (1) how to model and implement human-like AI, and (2) how to measure its degree of human likeness. This article offers two contributions. The first one is a survey of the most significant challenges in implementing human-like AI in games (or any virtual environment featuring simulated agents, although this article specifically focuses on games). Thirteen such challenges, both conceptual and technical, are discussed in detail. The second is an empirical study performed in a tactical video game that addresses the research question: ‘Is it possible to distinguish human players from bots (AI agents) based on empirical data?’ A machine-learning approach using a custom deep recurrent convolutional neural network is presented. We hypothesize that the more challenging it is to create human-like AI for a given game, the easier it becomes to develop a method for distinguishing humans from AI-driven players.

arxiv情報

著者 Maciej Świechowski,Dominik Ślęzak
発行日 2025-05-26 14:00:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.AI, cs.HC, cs.MM, H.1.2 | The Many Challenges of Human-Like Agents in Virtual Game Environments はコメントを受け付けていません

ProcessBench: Identifying Process Errors in Mathematical Reasoning

要約

言語モデルは数学の問題を解決する際に定期的に間違いを犯すため、推論プロセスでのエラーの自動識別は、スケーラブルな監視のためにますます重要になります。
この論文では、数学的推論において誤ったステップを特定する能力を測定するためのProcessBenchを紹介します。
これは、主に競争とオリンピックレベルの数学の問題に焦点を当てた3,400のテストケースで構成されています。
各テストケースには、人間の専門家によって注釈されたエラー位置を備えた段階的なソリューションが含まれています。
モデルは、エラーを含む初期のステップを特定するか、すべてのステップが正しいと結論付ける必要があります。
プロセスベンチで広範な評価を実施します。プロセス報酬モデル(PRM)と批評家モデルの2種類のモデルを含みます。後者のために、一般的な言語モデルに各ソリューションを段階的に批評するように促します。
2つの主な観察結果を描きます。(1)既存のPRMSは通常、GSM8Kと数学を超えてより挑戦的な数学の問題に一般化することができません。
彼らは、批評家モデル(つまり、一般的な言語モデルを促した)と、PRM800Kデータセットで簡単に微調整された私たち自身の訓練されたPRMの両方のパフォーマンスを低下させます。
(2)最高のオープンソースモデルであるQWQ-32B-PREVIEWは、推論特有のO1-MINIの背後にまだ遅れているにもかかわらず、独自モデルGPT-4Oと競争力のある批評能力を実証しています。
ProcessBenchが推論プロセス評価の将来の研究を促進し、言語モデルのスケーラブルな監視への道を開くことができることを願っています。

要約(オリジナル)

As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.

arxiv情報

著者 Chujie Zheng,Zhenru Zhang,Beichen Zhang,Runji Lin,Keming Lu,Bowen Yu,Dayiheng Liu,Jingren Zhou,Junyang Lin
発行日 2025-05-26 14:03:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ProcessBench: Identifying Process Errors in Mathematical Reasoning はコメントを受け付けていません

Gradient Inversion Transcript: Leveraging Robust Generative Priors to Reconstruct Training Data from Gradient Leakage

要約

リークされた勾配からトレーニングデータを再構築するための新しい生成アプローチである勾配反転転写産物(GIT)を提案します。
GITは、理論分析に基づいて、リークされたモデルの構造に合わせてアーキテクチャが調整されている生成攻撃モデルを採用しています。
オフラインで訓練されたら、Gitは効率的に展開でき、入力データを再構築するためにリークされた勾配にのみ依存し、さまざまな分散学習環境で適用可能になります。
他の反復​​最適化ベースの方法の事前として使用すると、GITは収束を加速するだけでなく、全体的な再構成の品質を向上させます。
GITは、複数のデータセットで既存のメソッドを一貫して上回り、モデルパラメーターの不正確な勾配、データ分布シフト、矛盾など、困難な条件下で強い堅牢性を示します。

要約(オリジナル)

We propose Gradient Inversion Transcript (GIT), a novel generative approach for reconstructing training data from leaked gradients. GIT employs a generative attack model, whose architecture is tailored to align with the structure of the leaked model based on theoretical analysis. Once trained offline, GIT can be deployed efficiently and only relies on the leaked gradients to reconstruct the input data, rendering it applicable under various distributed learning environments. When used as a prior for other iterative optimization-based methods, GIT not only accelerates convergence but also enhances the overall reconstruction quality. GIT consistently outperforms existing methods across multiple datasets and demonstrates strong robustness under challenging conditions, including inaccurate gradients, data distribution shifts and discrepancies in model parameters.

arxiv情報

著者 Xinping Chen,Chen Liu
発行日 2025-05-26 14:17:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Gradient Inversion Transcript: Leveraging Robust Generative Priors to Reconstruct Training Data from Gradient Leakage はコメントを受け付けていません

Multi-modal brain encoding models for multi-modal stimuli

要約

画像やサイレントビデオを視聴するなどの単峰性刺激に従事している参加者にもかかわらず、最近の研究では、マルチモーダルトランスモデルが不一致のモダリティ表現であっても、視覚的な脳活動を印象的によく予測できることが実証されています。
これは、参加者がマルチモーダル刺激に従事しているときに、これらのマルチモーダルモデルが脳の活動をどれほど正確に予測できるかという問題を提起します。
これらのモデルがますます一般的になるにつれて、神経活動の研究における使用は、私たちの脳がそのようなマルチモーダルの自然主義的刺激にどのように反応するかについての洞察を提供します。
この質問は、複数のユニモーダルと2種類のマルチモーダルモデル – クロスモーダルを使用して、参加者が映画を視聴しているときにどのタイプのモデルがfMRI脳活動に関連しているかを決定するために、共同で事前に前提条件を調査します。
両方のタイプのマルチモーダルモデルが、いくつかの言語および視覚領域での調整が改善されていることを確認します。
この研究は、どの脳領域が単峰性とマルチモーダル情報を処理するかを特定するのにも役立ちます。
さらに、マルチモーダル表現から単峰性の特徴を慎重に削除することにより、マルチモーダルアライメントへの各モダリティの貢献をさらに調査し、視覚領域と言語領域で処理される単峰性の埋め込みを超えた追加情報があることがわかります。
この調査に基づいて、クロスモーダルモデルの場合、それらの脳の整合は部分的にビデオのモダリティに起因することがわかります。
共同前のモデルの場合、ビデオとオーディオモダリティの両方に部分的に起因します。
これは、神経科学コミュニティが、脳におけるマルチモーダル情報処理の理解を深めるためのこれらのモデルの解釈可能性を調査するための強い動機として機能します。

要約(オリジナル)

Despite participants engaging in unimodal stimuli, such as watching images or silent videos, recent work has demonstrated that multi-modal Transformer models can predict visual brain activity impressively well, even with incongruent modality representations. This raises the question of how accurately these multi-modal models can predict brain activity when participants are engaged in multi-modal stimuli. As these models grow increasingly popular, their use in studying neural activity provides insights into how our brains respond to such multi-modal naturalistic stimuli, i.e., where it separates and integrates information across modalities through a hierarchy of early sensory regions to higher cognition. We investigate this question by using multiple unimodal and two types of multi-modal models-cross-modal and jointly pretrained-to determine which type of model is more relevant to fMRI brain activity when participants are engaged in watching movies. We observe that both types of multi-modal models show improved alignment in several language and visual regions. This study also helps in identifying which brain regions process unimodal versus multi-modal information. We further investigate the contribution of each modality to multi-modal alignment by carefully removing unimodal features one by one from multi-modal representations, and find that there is additional information beyond the unimodal embeddings that is processed in the visual and language regions. Based on this investigation, we find that while for cross-modal models, their brain alignment is partially attributed to the video modality; for jointly pretrained models, it is partially attributed to both the video and audio modalities. This serves as a strong motivation for the neuroscience community to investigate the interpretability of these models for deepening our understanding of multi-modal information processing in brain.

arxiv情報

著者 Subba Reddy Oota,Khushbu Pahwa,Mounika Marreddy,Maneesh Singh,Manish Gupta,Bapi S. Raju
発行日 2025-05-26 14:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS, eess.IV, q-bio.NC | Multi-modal brain encoding models for multi-modal stimuli はコメントを受け付けていません

Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)

要約

トランスベースの言語モデルは、脳の記録を模倣するために明示的に訓練されていませんが、脳の活動と驚くべき整合性を示しています。
これらのモデルの進捗状況 – スルーサイズの増加、命令調整、およびマルチモダリティHASは、神経データとのより良い表現の整合性をもたらしました。
最近、命令チューニングされたマルチモーダルLLMS(MLLMS)の新しいクラスが登場し、オープンエンドのマルチモーダルビジョンタスクで顕著なゼロショット機能を示しています。
ただし、MLLMが自然な指示で促されたときに、より良い脳の整列につながり、命令固有の表現を効果的にキャプチャするかどうかは不明です。
これに対処するために、最初に脳のアライメントを調査します。つまり、参加者が自然なシーンを視聴する際にMLLMSからのテキスト出力応答の埋め込みを使用して、神経視覚活動の予測の程度を測定します。
10の異なる指示を用いた実験では、MLLMが視力のみのモデルよりも脳の整列が大幅に優れていることを示しており、クリップなどの非インストラクションチューニングされたマルチモーダルモデルと同等に実行されます。
また、これらのMLLMは、タスク固有の命令に適した高品質の応答を生成するのに効果的であるが、すべての命令が脳の整合に関連するわけではないことがわかります。
さらに、さまざまな命令により、入力画像に関連する命令固有の視覚概念をエンコードするMLLMSを作成します。
この分析は、MLLMがカウント関連の認識関連の概念を効果的にキャプチャし、脳の活動との強い整合性を示していることを示しています。
特に、脳エンコードモデルの説明された分散の大部分は、画像キャプションのMLLM埋め込みとその他の命令の間で共有されます。
これらの結果は、タスク固有の情報をキャプチャするMLLMの能力を高めると、さまざまなタイプの命令をよりよく区別し、それにより脳の反応を予測する際の精度を改善する可能性があることを示唆しています。

要約(オリジナル)

Transformer-based language models, though not explicitly trained to mimic brain recordings, have demonstrated surprising alignment with brain activity. Progress in these models-through increased size, instruction-tuning, and multimodality-has led to better representational alignment with neural data. Recently, a new class of instruction-tuned multimodal LLMs (MLLMs) have emerged, showing remarkable zero-shot capabilities in open-ended multimodal vision tasks. However, it is unknown whether MLLMs, when prompted with natural instructions, lead to better brain alignment and effectively capture instruction-specific representations. To address this, we first investigate brain alignment, i.e., measuring the degree of predictivity of neural visual activity using text output response embeddings from MLLMs as participants engage in watching natural scenes. Experiments with 10 different instructions show that MLLMs exhibit significantly better brain alignment than vision-only models and perform comparably to non-instruction-tuned multimodal models like CLIP. We also find that while these MLLMs are effective at generating high-quality responses suitable to the task-specific instructions, not all instructions are relevant for brain alignment. Further, by varying instructions, we make the MLLMs encode instruction-specific visual concepts related to the input image. This analysis shows that MLLMs effectively capture count-related and recognition-related concepts, demonstrating strong alignment with brain activity. Notably, the majority of the explained variance of the brain encoding models is shared between MLLM embeddings of image captioning and other instructions. These results suggest that enhancing MLLMs’ ability to capture task-specific information could lead to better differentiation between various types of instructions, and thereby improving their precision in predicting brain responses.

arxiv情報

著者 Subba Reddy Oota,Akshett Jindal,Ishani Mondal,Khushbu Pahwa,Satya Sai Srinath Namburi,Manish Shrivastava,Maneesh Singh,Bapi S. Raju,Manish Gupta
発行日 2025-05-26 14:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.NC | Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain) はコメントを受け付けていません

Multiple Descents in Deep Learning as a Sequence of Order-Chaos Transitions

要約

LSTMのトレーニングプロセス中に、テスト損失がモデルの過剰訓練後に複数回上下トレンドの長いサイクルを通過する間に、新しい「多発性」現象を観察します。
モデルの漸近安定性分析を実行することにより、テスト損失のサイクルは、順序とカオスの間の位相遷移プロセスと密接に関連していることがわかりました。局所的な最適なエポックは、2つのフェーズ間の重要な遷移点に一貫していることがわかりました。
さらに重要なことは、グローバルな最適なエポックは、秩序からカオスへの最初の遷移で発生します。ここでは、「カオスのエッジ」の「幅」が最も広く、学習のためのより良い体重構成の最良の探求を可能にします。

要約(オリジナル)

We observe a novel ‘multiple-descent’ phenomenon during the training process of LSTM, in which the test loss goes through long cycles of up and down trend multiple times after the model is overtrained. By carrying out asymptotic stability analysis of the models, we found that the cycles in test loss are closely associated with the phase transition process between order and chaos, and the local optimal epochs are consistently at the critical transition point between the two phases. More importantly, the global optimal epoch occurs at the first transition from order to chaos, where the ‘width’ of the ‘edge of chaos’ is the widest, allowing the best exploration of better weight configurations for learning.

arxiv情報

著者 Wenbo Wei,Nicholas Chong Jia Le,Choy Heng Lai,Ling Feng
発行日 2025-05-26 14:18:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, nlin.CD, physics.comp-ph | Multiple Descents in Deep Learning as a Sequence of Order-Chaos Transitions はコメントを受け付けていません