VLDBench Evaluating Multimodal Disinformation with Regulatory Alignment

要約

AIツールが合成コンテンツを簡単に生成し、広めることができるため、操作されたテキストと画像をブレンドする偽情報の検出はますます困難になっています。
ほとんどの既存のAI安全ベンチマークは、単一のモダリティの誤った情報(つまり、欺くことを意図せずに共有された誤ったコンテンツ)に焦点を当てていますが、信頼できるニュースを模倣する圧力や陰謀理論などの意図的なマルチモーダルの偽情報は、ほとんど許されていません。
Unimodal(テキストのみ)とマルチモーダル(テキスト +画像)の両方のディスフォーメーション検出の両方をサポートする最初の大規模リソースであるビジョン言語ディスフォーム検出ベンチマーク(Vldbench)を紹介します。
Vldbenchは、58のニュースアウトレットからキュレーションされた13のカテゴリにわたって、約62,000のラベル付きテキストイメージペアで構成されています。
半自動パイプラインに続いて専門家のレビューを使用して、22人のドメインの専門家が500時間以上投資して、大幅なアノテーター間契約で高品質の注釈を作成しました。
Vldbenchでの最先端の大型言語モデル(LLMS)およびビジョン言語モデル(VLM)の評価は、視覚的なキューを組み込むことで、テキストのみのモデルで検出の精度が5〜35パーセントポイント改善することを示しています。
Vldbenchは、評価、微調整、および堅牢性テストのためのデータとコードを提供し、偽情報分析をサポートします。
AIガバナンスフレームワーク(MIT AIリスクリポジトリなど)と整合性に開発されたVldbenchは、マルチモーダルメディアで信頼できる偽情報検出を進めるための原則的な基盤を提供します。
プロジェクト:https://vectorinstitute.github.io/vldbench/ dataset:https://huggingface.co/datasets/vector-institute/vldbenchコード:https://github.com/vectorinstitute/vldbench

要約(オリジナル)

Detecting disinformation that blends manipulated text and images has become increasingly challenging, as AI tools make synthetic content easy to generate and disseminate. While most existing AI safety benchmarks focus on single modality misinformation (i.e., false content shared without intent to deceive), intentional multimodal disinformation, such as propaganda or conspiracy theories that imitate credible news, remains largely unaddressed. We introduce the Vision-Language Disinformation Detection Benchmark (VLDBench), the first large-scale resource supporting both unimodal (text-only) and multimodal (text + image) disinformation detection. VLDBench comprises approximately 62,000 labeled text-image pairs across 13 categories, curated from 58 news outlets. Using a semi-automated pipeline followed by expert review, 22 domain experts invested over 500 hours to produce high-quality annotations with substantial inter-annotator agreement. Evaluations of state-of-the-art Large Language Models (LLMs) and Vision-Language Models (VLMs) on VLDBench show that incorporating visual cues improves detection accuracy by 5 to 35 percentage points over text-only models. VLDBench provides data and code for evaluation, fine-tuning, and robustness testing to support disinformation analysis. Developed in alignment with AI governance frameworks (e.g., the MIT AI Risk Repository), VLDBench offers a principled foundation for advancing trustworthy disinformation detection in multimodal media. Project: https://vectorinstitute.github.io/VLDBench/ Dataset: https://huggingface.co/datasets/vector-institute/VLDBench Code: https://github.com/VectorInstitute/VLDBench

arxiv情報

著者 Shaina Raza,Ashmal Vayani,Aditya Jain,Aravind Narayanan,Vahid Reza Khazaie,Syed Raza Bashir,Elham Dolatabadi,Gias Uddin,Christos Emmanouilidis,Rizwan Qureshi,Mubarak Shah
発行日 2025-05-30 17:17:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VLDBench Evaluating Multimodal Disinformation with Regulatory Alignment はコメントを受け付けていません

How much do language models memorize?

要約

データポイントについてモデルがどれだけ「知っている」かを推定するための新しい方法を提案し、それを使用して現代のモデルの能力を測定します。
言語モデルの暗記に関する以前の研究は、一般化から暗記を解くのに苦労してきました。
記憶を正式に2つのコンポーネントに分けます:\ textit {意図しない暗記}、モデルに特定のデータセットに関する情報、\ textit {generalization}、モデルが真のデータ生成プロセスに関する情報を含む情報。
一般化を完全に排除すると、モデル容量の推定値を提供する完全な暗記を計算できます。測定では、GPTスタイルモデルのパラメーターあたり約3.6ビットの容量があると推定します。
サイズの増加のデータセットで言語モデルを訓練し、容量が満たされるまでモデルが記憶されることを観察します。
50万ドルから15億ドルのパラメーターから15億ドルのパラメーターまでの数百のトランス語モデルをトレーニングし、モデルの容量とデータサイズをメンバーシップ推論に関連付ける一連のスケーリング法則を作成します。

要約(オリジナル)

We propose a new method for estimating how much a model “knows” about a datapoint and use it to measure the capacity of modern language models. Prior studies of language model memorization have struggled to disentangle memorization from generalization. We formally separate memorization into two components: \textit{unintended memorization}, the information a model contains about a specific dataset, and \textit{generalization}, the information a model contains about the true data-generation process. When we completely eliminate generalization, we can compute the total memorization, which provides an estimate of model capacity: our measurements estimate that GPT-style models have a capacity of approximately 3.6 bits per parameter. We train language models on datasets of increasing size and observe that models memorize until their capacity fills, at which point “grokking” begins, and unintended memorization decreases as models begin to generalize. We train hundreds of transformer language models ranging from $500K$ to $1.5B$ parameters and produce a series of scaling laws relating model capacity and data size to membership inference.

arxiv情報

著者 John X. Morris,Chawin Sitawarin,Chuan Guo,Narine Kokhlikyan,G. Edward Suh,Alexander M. Rush,Kamalika Chaudhuri,Saeed Mahloujifar
発行日 2025-05-30 17:34:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How much do language models memorize? はコメントを受け付けていません

Multilinguality Does not Make Sense: Investigating Factors Behind Zero-Shot Transfer in Sense-Aware Tasks

要約

クロスリンガル転送により、モデルはトレーニング中に見えない言語のタスクを実行することができ、多言語性の増加から利益を得ると想定されることがよくあります。
この作業では、この仮定に挑戦し、2つの未掘りの感覚に合ったタスクのコンテキストで、多義性の曖昧性と語彙セマンティックの変化です。
28の言語にわたる大規模な分析を通じて、多言語トレーニングは効果的な転送に必要でも、本質的に有益でもないことを示しています。
代わりに、微調整データ構成や評価アーティファクトなどの交絡要因が、多言語性の知覚される利点をよりよく説明することがわかります。
私たちの調査結果は、多言語NLPでより厳格な評価を求めています。
微調整されたモデルとベンチマークをリリースして、さらなる研究をサポートします。これは、低リソースと類型的に多様な言語に及ぶ影響を及ぼします。

要約(オリジナル)

Cross-lingual transfer allows models to perform tasks in languages unseen during training and is often assumed to benefit from increased multilinguality. In this work, we challenge this assumption in the context of two underexplored, sense-aware tasks: polysemy disambiguation and lexical semantic change. Through a large-scale analysis across 28 languages, we show that multilingual training is neither necessary nor inherently beneficial for effective transfer. Instead, we find that confounding factors – such as fine-tuning data composition and evaluation artifacts – better account for the perceived advantages of multilinguality. Our findings call for more rigorous evaluations in multilingual NLP. We release fine-tuned models and benchmarks to support further research, with implications extending to low-resource and typologically diverse languages.

arxiv情報

著者 Roksana Goworek,Haim Dubossarsky
発行日 2025-05-30 17:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multilinguality Does not Make Sense: Investigating Factors Behind Zero-Shot Transfer in Sense-Aware Tasks はコメントを受け付けていません

Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning

要約

トレーニングデータの混合物は、大規模な言語モデルの一般化パフォーマンスに大きく影響します。
既存のドメインの再重み付け方法は、多くの場合、費用のかかる重量計算に依存しており、新しいデータが導入されたときに再訓練が必要です。
この目的のために、レバレッジスコアを使用して学習した埋め込みスペース内のドメインの重要性を定量化する柔軟で効率的なデータミキシングフレームワークであるChameleonを導入します。
最初にドメイン埋め込み上にドメインアフィニティマトリックスを構築します。
誘導されたレバレッジスコアは、埋め込み空間で共通の表現を共有する上向きのドメインが混合物を決定します。
この定式化により、新しいドメイン埋め込みを計算することにより、新しいデータに直接転送できます。
実験では、3つの重要なシナリオにわたる改善を示します。(i)既存の方法の一部の一部の場合、計算された重みが前登録ドメインのパフォーマンスを改善します。
(ii)カメレオンは、プロキシ再試行なしでデータの変更に適応でき、新しいデータに転送されたときに少数のショットの推論の正確さを高めることができます。
(iii)私たちの方法により、微調整における効率的なドメインの再雑誌が可能になり、均一な混合物上のすべての微調整ドメインのテスト困惑を一貫して改善します。
私たちのコードは、https://github.com/lions-epfl/chameleonで入手できます。

要約(オリジナル)

Training data mixtures greatly impact the generalization performance of large language models. Existing domain reweighting methods often rely on costly weight computations and require retraining when new data is introduced. To this end, we introduce a flexible and efficient data mixing framework, Chameleon, that employs leverage scores to quantify domain importance within a learned embedding space. We first construct a domain affinity matrix over domain embeddings. The induced leverage scores determine a mixture that upweights domains sharing common representations in embedding space. This formulation allows direct transfer to new data by computing the new domain embeddings. In experiments, we demonstrate improvements over three key scenarios: (i) our computed weights improve performance on pretraining domains with a fraction of the compute of existing methods; (ii) Chameleon can adapt to data changes without proxy retraining, boosting few-shot reasoning accuracies when transferred to new data; (iii) our method enables efficient domain reweighting in finetuning, consistently improving test perplexity on all finetuning domains over uniform mixture. Our code is available at https://github.com/LIONS-EPFL/Chameleon.

arxiv情報

著者 Wanyun Xie,Francesco Tonin,Volkan Cevher
発行日 2025-05-30 17:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning はコメントを受け付けていません

Boosting Multimodal Reasoning with Automated Structured Thinking

要約

マルチモーダルの大手言語モデルは、多様なドメイン全体に優れていますが、複雑な視覚的推論タスクに苦労しています。
現在のアプローチは、明示的な検索方法とトレーニング後のテクニックの2つの戦略を介して構造化された思考を組み込むことを目的としています。
ただし、どちらのアプローチも大きな制限に直面しています。検索ベースの方法は、広範なソリューションスペース探索により計算の非効率性に苦しんでいますが、トレーニング後の方法にはかなりのデータ、計算リソースが必要であり、トレーニングの不安定性が必要です。
これらの制限に対処するために、astar、\ textbf {a} utomated \ textbf {s} tructured \ textbf {t} hink for multimod \ textbf {a} l \ textbf {r}ヨーロンを提案します。
私たちの方法では、モンテカルロツリー検索を使用して500の以前のサンプルから抽象化された高レベルの推論パターンの軽量ライブラリである「思考カード」を紹介します。
各テストの問題について、Astarは最適な思考カードを適応的に取得し、これらの外部の明示的なガイドラインをモデルの内部暗黙の推論機能とシームレスに統合します。
広範な実験では、ASTARの有効性と効率性が示されています。これは、500個の以前のサンプルと7Bバックボーンのみを使用して、Training Free Frameworkは、Mathvision(GPT-4Oの30.4%と対戦)で53.9 $ \%$の精度(GPT-4Oの30.4%)で32.7%を達成します。
さらなる分析により、Astarはマルチモーダル推論を超えて視覚的認識と理解のドメインに一般化し、GRPOなどの主流のトレーニング後の手法と互換性のあるプラグアンドプレイテスト時間推論方法として機能します。

要約(オリジナル)

Multimodal large language models excel across diverse domains but struggle with complex visual reasoning tasks. Current approaches aim to incorporate structured thinking via two strategies: explicit search methods and post-training techniques. However, both approaches face significant limitations: Search-based methods suffer from computational inefficiency due to extensive solution space exploration, while post-training methods require substantial data, computational resources, and often encounter training instability. To address these limitations, we propose AStar, an \textbf{A}utomated \textbf{S}tructured \textbf{t}hinking paradigm for multimod\textbf{a}l \textbf{r}easoning. Our method introduces ‘thought cards’, a lightweight library of high-level reasoning patterns abstracted from 500 prior samples using Monte Carlo Tree Search. For each test problem, AStar adaptively retrieves the optimal thought cards and seamlessly integrates these external explicit guidelines with the model’s internal implicit reasoning capabilities. Extensive experiments demonstrate AStar’s effectiveness and efficiency: using only 500 prior samples and a 7B backbone, our training-free framework achieves 53.9$\%$ accuracy on MathVerse (surpassing GPT-4o’s 50.2%) and 32.7% on MathVision (versus GPT-4o’s 30.4%). Further analysis reveals that AStar generalizes beyond multimodal reasoning to visual perception and understanding domains, and serves as a plug-and-play test-time inference method compatible with mainstream post-training techniques like GRPO.

arxiv情報

著者 Jinyang Wu,Mingkuan Feng,Shuai Zhang,Fangrui Lv,Ruihan Jin,Feihu Che,Zengqi Wen,Jianhua Tao
発行日 2025-05-30 17:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Boosting Multimodal Reasoning with Automated Structured Thinking はコメントを受け付けていません

MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

要約

LLMSの信頼性における重要な要素は信頼性の高い不確実性コミュニケーションですが、LLMは虚偽の主張を伝えるときに断定言語を使用することが多く、過度の依存と侵食された信頼につながります。
LLMSの$ \ textIT {忠実な信頼キャリブレーション} $の最初の体系的な研究を提示します。$ \ textIT {忠実に反映} $の不確実性の言語表現を使用するモデルのベンチマークモデルの能力、包括的なモデル、データセット、および促進戦略を介して。
私たちの結果は、LLMSがこのタスクで大部分が失敗し、既存の介入が不十分であることを示しています。標準的な促進アプローチはわずかな利益のみを提供し、既存の事実ベースのキャリブレーション手法は忠実なキャリブレーションを害することさえあります。
このクリティカルギャップに対処するために、人間のメタ認知に触発された新しい迅速ベースのキャリブレーションアプローチであるMetafaithを紹介します。
Metafaithは、多様なモデルとタスクドメイン全体で忠実に忠実なキャリブレーションを改善し、忠実さを最大61%改善し、人間によって判断された元の世代にわたって83%の勝利率を達成できることを示しています。

要約(オリジナル)

A critical component in the trustworthiness of LLMs is reliable uncertainty communication, yet LLMs often use assertive language when conveying false claims, leading to over-reliance and eroded trust. We present the first systematic study of $\textit{faithful confidence calibration}$ of LLMs, benchmarking models’ ability to use linguistic expressions of uncertainty that $\textit{faithfully reflect}$ their intrinsic uncertainty, across a comprehensive array of models, datasets, and prompting strategies. Our results demonstrate that LLMs largely fail at this task, and that existing interventions are insufficient: standard prompt approaches provide only marginal gains, and existing, factuality-based calibration techniques can even harm faithful calibration. To address this critical gap, we introduce MetaFaith, a novel prompt-based calibration approach inspired by human metacognition. We show that MetaFaith robustly improves faithful calibration across diverse models and task domains, enabling up to 61% improvement in faithfulness and achieving an 83% win rate over original generations as judged by humans.

arxiv情報

著者 Gabrielle Kaili-May Liu,Gal Yona,Avi Caciularu,Idan Szpektor,Tim G. J. Rudner,Arman Cohan
発行日 2025-05-30 17:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs はコメントを受け付けていません

Beyond Multiple Choice: Evaluating Steering Vectors for Adaptive Free-Form Summarization

要約

ステアリングベクターは、推論時間に言語モデルのアクティベーションに学習バイアスを追加することにより、テキストプロパティを制御するための軽量な方法です。
これまでのところ、ステアリングベクトルは主に多肢選択設定で評価されていますが、フリーフォームの生成タスクでの有効性は依然として研究されていません。
「複数選択を超えて」移動すると、ニュートデータセットの抽象的な要約で、局所的な焦点、感情、毒性、読みやすさを適応的に制御する際のステアリングベクターの有効性を徹底的に評価します。
ステアリングはターゲットを絞った要約プロパティを効果的に制御しますが、高いステアリング強度は一貫して内因性テキストと外因性の両方のテキスト品質を低下させることがわかります。
ステアリングと比較して、プロンプトはテキストの品質を維持しながら、より弱い制御を提供します。
ステアリングとプロンプトを組み合わせることで、テキストプロパティに対する最も強力な制御が得られ、中程度のステアリング強度で最も有利な有効性品質のトレードオフを提供します。
私たちの結果は、フリーフォーム生成タスクにステアリングベクターを適用する際の制御強度とテキスト品質の保存との実用的なトレードオフを強調しています。

要約(オリジナル)

Steering vectors are a lightweight method for controlling text properties by adding a learned bias to language model activations at inference time. So far, steering vectors have predominantly been evaluated in multiple-choice settings, while their effectiveness in free-form generation tasks remains understudied. Moving ‘Beyond Multiple Choice,’ we thoroughly evaluate the effectiveness of steering vectors in adaptively controlling topical focus, sentiment, toxicity, and readability in abstractive summaries of the NEWTS dataset. We find that steering effectively controls the targeted summary properties, but high steering strengths consistently degrade both intrinsic and extrinsic text quality. Compared to steering, prompting offers weaker control, while preserving text quality. Combining steering and prompting yields the strongest control over text properties and offers the most favorable efficacy-quality trade-off at moderate steering strengths. Our results underscore the practical trade-off between control strength and text quality preservation when applying steering vectors to free-form generation tasks.

arxiv情報

著者 Joschka Braun,Carsten Eickhoff,Seyed Ali Bahrainian
発行日 2025-05-30 17:57:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Beyond Multiple Choice: Evaluating Steering Vectors for Adaptive Free-Form Summarization はコメントを受け付けていません

AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

要約

このペーパーでは、テスト時に大きな推論モデル(LRMS)の推論の進捗状況を調節するための普遍的なフレームワークであるAlphaone($ \ alpha $ 1)を紹介します。
$ \ alpha $ 1は、最初に$ \ alpha $モーメントを導入します。これは、ユニバーサルパラメーター$ \ alpha $を使用したスケーリングされた思考フェーズを表します。
このスケーリングされたpre-$ \ alpha $モーメントフェーズ内で、Bernoulliの確率プロセスとして推移的なトークンの挿入をモデル化することにより、ゆっくりと思考遷移を動的にスケジュールします。
$ \ alpha $モーメントの後、$ \ alpha $ 1は、思考の終わりのトークンでゆっくりした思考を決定的に終了し、それによって速い推論と効率的な回答生成を促進します。
このアプローチは、柔軟で密度の高いゆっくりとした推論変調を可能にすることにより、既存の単調スケーリング方法を統一および一般化します。
数学、コーディング、および科学的領域全体のさまざまな挑戦的なベンチマークに関する広範な実証研究は、$ \ alpha $ 1の優れた推論能力と効率性を示しています。
プロジェクトページ:https://alphaone-project.github.io/

要約(オリジナル)

This paper presents AlphaOne ($\alpha$1), a universal framework for modulating reasoning progress in large reasoning models (LRMs) at test time. $\alpha$1 first introduces $\alpha$ moment, which represents the scaled thinking phase with a universal parameter $\alpha$. Within this scaled pre-$\alpha$ moment phase, it dynamically schedules slow thinking transitions by modeling the insertion of reasoning transition tokens as a Bernoulli stochastic process. After the $\alpha$ moment, $\alpha$1 deterministically terminates slow thinking with the end-of-thinking token, thereby fostering fast reasoning and efficient answer generation. This approach unifies and generalizes existing monotonic scaling methods by enabling flexible and dense slow-to-fast reasoning modulation. Extensive empirical studies on various challenging benchmarks across mathematical, coding, and scientific domains demonstrate $\alpha$1’s superior reasoning capability and efficiency. Project page: https://alphaone-project.github.io/

arxiv情報

著者 Junyu Zhang,Runpei Dong,Han Wang,Xuying Ning,Haoran Geng,Peihao Li,Xialin He,Yutong Bai,Jitendra Malik,Saurabh Gupta,Huan Zhang
発行日 2025-05-30 17:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time はコメントを受け付けていません

LEMMA: Learning from Errors for MatheMatical Advancement in LLMs

要約

大規模な言語モデル(LLM)は、数学的問題を解決する際に顕著な推論能力を示しています。
ただし、既存のアプローチは、主に正しいトレーニングデータの品質を改善することに焦点を当てています。たとえば、高品質の正しいソリューションを高度なモデルから蒸留し、エラーデータに含まれる値を無視し、モデルの反射能力を妨げる可能性があります。
一部の研究ではエラーデータを活用しようとしていますが、多くの場合、モンテカルロツリー検索(MCTS)などの複雑なメカニズムが含まれてエラーノードを調査します。
この作業では、数学的進歩(補題)のエラーから学習することにより、LLMSの推論能力を高めることを提案します。
Lemmaは、誤ったステップを備えた誤ったソリューションと微調整のための正しいソリューションへの反射接続で構成されるデータを構築します。
具体的には、モデル生成エラータイプを体系的に分析し、多様で代表的なエラーを収集するためにエラー型の根拠のあるミスの増強方法を導入します。
正しいソリューションは、エラーの修正または新たなスタートの生成によるものです。
モデル認識のスムーズな反射接続を通じて、誤ったソリューションが正しいソリューションに転送されます。
構築されたデータセットで微調整することにより、モデルは、外部の批評モデルに依存することなく、生成プロセス内で自律的にエラーを自己修正することができます。
実験結果は、補題が他の強力なベースラインよりも大幅なパフォーマンスの改善を達成することを示しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable reasoning capability in solving mathematical problems. However, existing approaches primarily focus on improving the quality of correct training data, e.g., distilling high-quality correct solutions from advanced models, neglecting the value contained in error data, potentially hindering the model’s reflective ability. Though some studies attempt to leverage error data, they often involve complex mechanisms, such as Monte Carlo Tree Search (MCTS) to explore error nodes. In this work, we propose to enhance LLMs’ reasoning ability by Learning from Errors for Mathematical Advancement (LEMMA). LEMMA constructs data consisting of an incorrect solution with an erroneous step and a reflection connection to a correct solution for fine-tuning. Specifically, we systematically analyze the model-generated error types and introduce an error-type grounded mistake augmentation method to collect diverse and representative errors. Correct solutions are either from fixing the errors or generating a fresh start. Through a model-aware smooth reflection connection, the erroneous solution is transferred to the correct one. By fine-tuning on the constructed dataset, the model is able to self-correct errors autonomously within the generation process without relying on external critique models. Experimental results demonstrate that LEMMA achieves significant performance improvements over other strong baselines.

arxiv情報

著者 Zhuoshi Pan,Yu Li,Honglin Lin,Qizhi Pei,Zinan Tang,Wei Wu,Chenlin Ming,H. Vicky Zhao,Conghui He,Lijun Wu
発行日 2025-05-30 15:19:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | LEMMA: Learning from Errors for MatheMatical Advancement in LLMs はコメントを受け付けていません

Controllable Context Sensitivity and the Knob Behind It

要約

予測を行うとき、言語モデルは、そのコンテキストと事前の知識にどれだけ依存しているかをトレードオフする必要があります。
モデルがコンテキストにどれほど敏感であるかを選択することは、モデルが検索された生成や質問を回答するなどのタスクに優れているため、基本的な機能です。
このホワイトペーパーでは、この感度を制御するノブを検索し、言語モデルがコンテキストまたはその事前知識から答えるかどうかを判断します。
この検索をガイドするために、制御可能なコンテキスト感度のタスクを設計します。
このタスクでは、最初にモデルAコンテキスト(パリはイギリスにあります)と質問(パリはどこにありますか?)を与えます。
次に、モデルに以前またはコンテキストの知識を使用するように指示し、両方の意図(フランスまたはイギリス)の正しい答えを生成するかどうかを評価します。
このタスクで微調整されると、Llama-3.1、Mistral-V0.3、およびGemma-2の命令チューニングバージョンが高精度(85-95%)でそれを解くことができます。
これらの高性能モデルを分析すると、新しい線形時間アルゴリズムを使用して、コンテキスト感度にとって重要なレイヤーを絞り込みます。
次に、各モデルで、モデルがコンテキストに従うか事前知識に従うかをコードする単一層の1Dサブスペースを識別します。
興味深いことに、このサブスペースを微調整されたモデルで識別しますが、まったく同じ部分空間が、そのモデルだけでなく、そのモデルファミリの非ファインチューニング命令およびベースモデルでも効果的なノブとして機能することがわかります。
最後に、モデルのパフォーマンスと、このサブスペースのコンテキストに無知な答えとコンテキストと同時にどの程度分離されるかとの強い相関関係が示されます。
これらの結果は、単一のサブスペースがモデルがコンテキストと事前知識の間でどのように選択するかを促進し、この動作を制御する単純な基本メカニズムを示唆していることを示唆しています。

要約(オリジナル)

When making predictions, a language model must trade off how much it relies on its context vs. its prior knowledge. Choosing how sensitive the model is to its context is a fundamental functionality, as it enables the model to excel at tasks like retrieval-augmented generation and question-answering. In this paper, we search for a knob which controls this sensitivity, determining whether language models answer from the context or their prior knowledge. To guide this search, we design a task for controllable context sensitivity. In this task, we first feed the model a context (Paris is in England) and a question (Where is Paris?); we then instruct the model to either use its prior or contextual knowledge and evaluate whether it generates the correct answer for both intents (either France or England). When fine-tuned on this task, instruction-tuned versions of Llama-3.1, Mistral-v0.3, and Gemma-2 can solve it with high accuracy (85-95%). Analyzing these high-performing models, we narrow down which layers may be important to context sensitivity using a novel linear time algorithm. Then, in each model, we identify a 1-D subspace in a single layer that encodes whether the model follows context or prior knowledge. Interestingly, while we identify this subspace in a fine-tuned model, we find that the exact same subspace serves as an effective knob in not only that model but also non-fine-tuned instruct and base models of that model family. Finally, we show a strong correlation between a model’s performance and how distinctly it separates context-agreeing from context-ignoring answers in this subspace. These results suggest a single subspace facilitates how the model chooses between context and prior knowledge, hinting at a simple fundamental mechanism that controls this behavior.

arxiv情報

著者 Julian Minder,Kevin Du,Niklas Stoehr,Giovanni Monea,Chris Wendler,Robert West,Ryan Cotterell
発行日 2025-05-30 15:21:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Controllable Context Sensitivity and the Knob Behind It はコメントを受け付けていません