Minding the Politeness Gap in Cross-cultural Communication

要約

異文化間のコミュニケーションの誤解はしばしば解釈の微妙な違いから生じますが、これらの違いが言葉に割り当てられた文字通りの意味、または礼儀正しさや簡潔さに関する規範などのより一般的な実用的な要因から生じるかどうかは不明です。
この論文では、イギリスとアメリカの英語のスピーカーが「かなり」や「非常に」のような強化剤をどのように解釈するかを調べる3つの実験を報告します。
これらの異文化間の違いをよりよく理解するために、私たちは、リスナーが情報性、礼儀正しさ、発話コストのバランスをとるスピーカーについて再帰的に推論する計算認知モデルを開発しました。
私たちのモデルの比較は、強化剤の解釈の異文化間の違いが(1)異なる文字通りの意味の組み合わせに起因することを示唆しています。
これらの調査結果は、純粋にセマンティックな変動や礼儀正しさの規範に基づいてアカウントに挑戦し、解釈の異文化間の違いが2つの間の複雑な相互作用から生じることを示しています。

要約(オリジナル)

Misunderstandings in cross-cultural communication often arise from subtle differences in interpretation, but it is unclear whether these differences arise from the literal meanings assigned to words or from more general pragmatic factors such as norms around politeness and brevity. In this paper, we report three experiments examining how speakers of British and American English interpret intensifiers like ‘quite’ and ‘very.’ To better understand these cross-cultural differences, we developed a computational cognitive model where listeners recursively reason about speakers who balance informativity, politeness, and utterance cost. Our model comparisons suggested that cross-cultural differences in intensifier interpretation stem from a combination of (1) different literal meanings, (2) different weights on utterance cost. These findings challenge accounts based purely on semantic variation or politeness norms, demonstrating that cross-cultural differences in interpretation emerge from an intricate interplay between the two.

arxiv情報

著者 Yuka Machino,Matthias Hofer,Max Siegel,Joshua B. Tenenbaum,Robert D. Hawkins
発行日 2025-06-18 16:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Minding the Politeness Gap in Cross-cultural Communication はコメントを受け付けていません

A Guide to Misinformation Detection Data and Evaluation

要約

誤った情報は複雑な社会的問題であり、データの欠陥のためにソリューションを緩和することは困難です。
これに対処するために、文献の(MIS)情報データセットの最大のコレクション、合計75をキュレーションしました。これらの場合、ステートメントまたはクレームで構成される36のデータセットの品質と、純粋に段落形式のデータで構成される9つのデータセットを評価しました。
これらのデータセットを評価して、経験的研究のための強固な基礎を持つものと、偽りの相関関係や、曖昧またはその他の理由で不可能なものを評価することなど、誤解を招くような非一般化できない結果をもたらす可能性のある欠陥を持つデータセットを特定します。
後者の問題は特に深刻であり、文献のほとんどのデータセットに影響を及ぼします。
さらに、これらすべてのデータセットで最先端のベースラインを提供しますが、ラベルの品質に関係なく、カテゴリーラベルが検出モデルのパフォーマンスの正確な評価を提供しなくなる可能性があることを示しています。
最後に、評価の問題を誤って伝播するのではなく、体系的なソリューションに向けて分野を導くツールとして、評価品質保証(EQA)を提案し、強調します。
全体として、このガイドは、高品質のデータとより良い根拠のある評価のためのロードマップを提供し、最終的に誤った情報検出の研究を改善することを目的としています。
すべてのデータセットおよびその他のアーティファクトは、misinfo-datasets.complexdatalab.comで入手できます。

要約(オリジナル)

Misinformation is a complex societal issue, and mitigating solutions are difficult to create due to data deficiencies. To address this, we have curated the largest collection of (mis)information datasets in the literature, totaling 75. From these, we evaluated the quality of 36 datasets that consist of statements or claims, as well as the 9 datasets that consist of data in purely paragraph form. We assess these datasets to identify those with solid foundations for empirical work and those with flaws that could result in misleading and non-generalizable results, such as spurious correlations, or examples that are ambiguous or otherwise impossible to assess for veracity. We find the latter issue is particularly severe and affects most datasets in the literature. We further provide state-of-the-art baselines on all these datasets, but show that regardless of label quality, categorical labels may no longer give an accurate evaluation of detection model performance. Finally, we propose and highlight Evaluation Quality Assurance (EQA) as a tool to guide the field toward systemic solutions rather than inadvertently propagating issues in evaluation. Overall, this guide aims to provide a roadmap for higher quality data and better grounded evaluations, ultimately improving research in misinformation detection. All datasets and other artifacts are available at misinfo-datasets.complexdatalab.com.

arxiv情報

著者 Camille Thibault,Jacob-Junqi Tian,Gabrielle Peloquin-Skulski,Taylor Lynn Curtis,James Zhou,Florence Laflamme,Yuxiang Guan,Reihaneh Rabbany,Jean-François Godbout,Kellin Pelrine
発行日 2025-06-18 16:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.SI | A Guide to Misinformation Detection Data and Evaluation はコメントを受け付けていません

Aug2Search: Enhancing Facebook Marketplace Search with LLM-Generated Synthetic Data Augmentation

要約

埋め込みベースの検索(EBR)は、最新の検索エンジンで重要な手法であり、検索クエリと関連する結果の間のセマンティックマッチを可能にします。
ただし、Facebook Marketplaceなどのプラットフォームでの検索ログデータには、効果的なEBRモデルトレーニングに必要な多様性と詳細が欠けており、微妙な検索パターンをキャプチャするモデルの能力が制限されています。
この課題に対処するために、クエリ製品の関連性を最適化するためのマルチモーダルおよびマルチタスクのアプローチで、生成AI(Genai)モデルによって生成された合成データを活用するEBRベースのフレームワークであるAug2Searchを提案します。
このペーパーでは、高品質の合成データを生成し、EBRモデルの強化への影響を分析する際に、Genai、特に大規模な言語モデル(LLM)の能力を調査します。
Facebook Marketplaceログから8つのLlamaモデルと1億個のデータポイントを使用して実験を行いました。
合成データ生成は、次の3つの戦略に従います。(1)クエリを生成し、(2)製品リストを強化し、(3)拡張リストからクエリを生成します。
EBRモデルは、サンプリングされたエンゲージメントデータまたは元のデータ(例:「クリック」および「リストインタラクション」」)、合成データ、およびさまざまなトレーニングセットでパフォーマンスを評価するためのエンゲージメントデータと合成データの両方の混合物の3つの異なるデータセットでトレーニングします。
私たちの調査結果は、低レベルの幻覚を維持しながら、高い一貫性、関連性、多様性を備えた合成クエリとリストを作成する際のラマモデルの堅牢性を強調しています。
Aug2Searchは、1億個の合成データサンプルを使用してROC_AUCで最大4%の改善を達成し、アプローチの有効性を実証しています。
さらに、我々の実験は、同じ量のトレーニングデータを使用して、合成データのみで訓練されたモデルが、元のデータのみでトレーニングされたものや元の合成データと合成データの混合物を上回ることが多いことを明らかにしています。

要約(オリジナル)

Embedding-Based Retrieval (EBR) is an important technique in modern search engines, enabling semantic match between search queries and relevant results. However, search logging data on platforms like Facebook Marketplace lacks the diversity and details needed for effective EBR model training, limiting the models’ ability to capture nuanced search patterns. To address this challenge, we propose Aug2Search, an EBR-based framework leveraging synthetic data generated by Generative AI (GenAI) models, in a multimodal and multitask approach to optimize query-product relevance. This paper investigates the capabilities of GenAI, particularly Large Language Models (LLMs), in generating high-quality synthetic data, and analyzing its impact on enhancing EBR models. We conducted experiments using eight Llama models and 100 million data points from Facebook Marketplace logs. Our synthetic data generation follows three strategies: (1) generate queries, (2) enhance product listings, and (3) generate queries from enhanced listings. We train EBR models on three different datasets: sampled engagement data or original data ((e.g., ‘Click’ and ‘Listing Interactions’)), synthetic data, and a mixture of both engagement and synthetic data to assess their performance across various training sets. Our findings underscore the robustness of Llama models in producing synthetic queries and listings with high coherence, relevance, and diversity, while maintaining low levels of hallucination. Aug2Search achieves an improvement of up to 4% in ROC_AUC with 100 million synthetic data samples, demonstrating the effectiveness of our approach. Moreover, our experiments reveal that with the same volume of training data, models trained exclusively on synthetic data often outperform those trained on original data only or a mixture of original and synthetic data.

arxiv情報

著者 Ruijie Xi,He Ba,Hao Yuan,Rishu Agrawal,Yuxin Tian,Ruoyan Long,Arul Prakash
発行日 2025-06-18 17:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Aug2Search: Enhancing Facebook Marketplace Search with LLM-Generated Synthetic Data Augmentation はコメントを受け付けていません

Oldies but Goldies: The Potential of Character N-grams for Romanian Texts

要約

この研究では、フィールドの標準的なベンチマークであるROSTコーパスを使用したルーマニアのテキストの著者の帰属の問題に対処しています。
サポートベクターマシン(SVM)、ロジスティック回帰(LR)、K-NEARest Neighbors(K-NN)、Decision Trees(DT)、ランダムフォレスト(RF)、および人工ニューラルネットワーク(ANN)の6つの機械学習手法を体系的に評価します。
これらの中で、ANNモデルは、5グラム機能を使用するときに15回のランのうち4回の完全な分類を含む、最高のパフォーマンスを達成しました。
これらの結果は、軽量で解釈可能なキャラクターN-GRAMアプローチが、より複雑な方法に匹敵するルーマニアの著者の帰属に最先端の精度を提供できることを示しています。
私たちの調査結果は、リソース、制約された言語設定または不足している言語設定における単純なスタイロメトリック機能の可能性を強調しています。

要約(オリジナル)

This study addresses the problem of authorship attribution for Romanian texts using the ROST corpus, a standard benchmark in the field. We systematically evaluate six machine learning techniques: Support Vector Machine (SVM), Logistic Regression (LR), k-Nearest Neighbors (k-NN), Decision Trees (DT), Random Forests (RF), and Artificial Neural Networks (ANN), employing character n-gram features for classification. Among these, the ANN model achieved the highest performance, including perfect classification in four out of fifteen runs when using 5-gram features. These results demonstrate that lightweight, interpretable character n-gram approaches can deliver state-of-the-art accuracy for Romanian authorship attribution, rivaling more complex methods. Our findings highlight the potential of simple stylometric features in resource, constrained or under-studied language settings.

arxiv情報

著者 Dana Lupsa,Sanda-Maria Avram
発行日 2025-06-18 17:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Oldies but Goldies: The Potential of Character N-grams for Romanian Texts はコメントを受け付けていません

CC-LEARN: Cohort-based Consistency Learning

要約

大規模な言語モデルは多くのタスクで優れていますが、それでも一貫した堅牢な推論に苦労しています。
共有されたプログラム抽象化から導き出された同様の質問のコホートに関するトレーニングによりLLM推論の信頼性を改善する強化学習フレームワークであるコホートベースの一貫性学習(CC-Learn)を紹介します。
コホートレベルの一貫性を実施するために、コホートの精度を組み合わせた複合客観的なボーナス、効果的な問題分解のための検索ボーナス、および補強学習が監視された微調整とは違って直接最適化できる些細なまたは無効な検索の拒絶ペナルティを定義します。
この報酬の最適化は、すべてのコホートメンバーに均一な推論パターンを採用するためにモデルをガイドします。
挑戦的な推論ベンチマーク(ARC-ChallengeおよびStrategyQAを含む)の実験は、CC-Learnが前提条件とSFTベースライン上の精度と推論の安定性の両方を高めることを示しています。
これらの結果は、コホートレベルのRLがLLMSの推論の一貫性を効果的に強化することを示しています。

要約(オリジナル)

Large language models excel at many tasks but still struggle with consistent, robust reasoning. We introduce Cohort-based Consistency Learning (CC-Learn), a reinforcement learning framework that improves the reliability of LLM reasoning by training on cohorts of similar questions derived from shared programmatic abstractions. To enforce cohort-level consistency, we define a composite objective combining cohort accuracy, a retrieval bonus for effective problem decomposition, and a rejection penalty for trivial or invalid lookups that reinforcement learning can directly optimize, unlike supervised fine-tuning. Optimizing this reward guides the model to adopt uniform reasoning patterns across all cohort members. Experiments on challenging reasoning benchmarks (including ARC-Challenge and StrategyQA) show that CC-Learn boosts both accuracy and reasoning stability over pretrained and SFT baselines. These results demonstrate that cohort-level RL effectively enhances reasoning consistency in LLMs.

arxiv情報

著者 Xiao Ye,Shaswat Shrivastava,Zhaonan Li,Jacob Dineen,Shijie Lu,Avneet Ahuja,Ming Shen,Zhikun Xu,Ben Zhou
発行日 2025-06-18 17:41:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CC-LEARN: Cohort-based Consistency Learning はコメントを受け付けていません

Gender-Neutral Machine Translation Strategies in Practice

要約

性別を含む機械翻訳(MT)は、失敗や表現の害を避けるために、ソースの性別の曖昧さを保持する必要があります。
性別の曖昧さは、英語などの想定的な性別言語で自然に発生することがよくありますが、文法的な性別言語の性別の中立性が課題であると維持します。
ここでは、さまざまな難易度の3つの翻訳方向における性別の曖昧さに応じて、性別中立性の必要性に対する21 MTシステムの感度を評価します。
実際に観察される特定の性別中立戦略について分類され、議論されています。
さらに、性別中立翻訳の使用に対するバイナリジェンダーステレオタイプの効果を調べます。
一般に、ジェンダーの曖昧さに応じて、性別中立翻訳の残念な不在を報告します。
ただし、ターゲット言語に応じて、特定の戦略を使用して性別中立翻訳に切り替える少数のMTシステムを観察します。

要約(オリジナル)

Gender-inclusive machine translation (MT) should preserve gender ambiguity in the source to avoid misgendering and representational harms. While gender ambiguity often occurs naturally in notional gender languages such as English, maintaining that gender neutrality in grammatical gender languages is a challenge. Here we assess the sensitivity of 21 MT systems to the need for gender neutrality in response to gender ambiguity in three translation directions of varying difficulty. The specific gender-neutral strategies that are observed in practice are categorized and discussed. Additionally, we examine the effect of binary gender stereotypes on the use of gender-neutral translation. In general, we report a disappointing absence of gender-neutral translations in response to gender ambiguity. However, we observe a small handful of MT systems that switch to gender neutral translation using specific strategies, depending on the target language.

arxiv情報

著者 Hillary Dawkins,Isar Nejadgholi,Chi-kiu Lo
発行日 2025-06-18 17:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Gender-Neutral Machine Translation Strategies in Practice はコメントを受け付けていません

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

要約

Vision言語モデル(VLM)の最近の進歩により、大規模な言語モデル(LLM)を活用して、GPT-4Vなどのクローズドソースシステムと同等のパフォーマンスを実現しています。
ただし、これらのモデルを実際のシナリオ、特にリソースに制約のあるデバイスに展開することは、実質的な計算需要のために依然として困難です。
これにより、知識を大規模でより効率的な対応物に蒸留することへの関心が高まりました。
ここでは、さまざまなLLM上に構築され、語彙サイズ、トークンスプリット、トークンインデックスの順序付けでさまざまなトークンタイプを使用するVLMアーキテクチャの多様性から、重要な課題が生じます。
特定のVLMタイプへの制限のこの課題に対処するために、VLMSの斬新な汎用蒸留フレームワークである再調整後の生成(Genrecal)を提示します。
GenRecalには、異種VLM間の特徴表現を整列および適応させる再キャリブレーターが組み込まれ、さまざまな種類のVLMにわたって効果的な知識移転が可能になります。
複数の挑戦的なベンチマークでの広範な実験を通じて、GenRecalがベースラインのパフォーマンスを大幅に改善し、最終的に大規模なオープンソースとクローズドソースVLMを上回ることを実証します。

要約(オリジナル)

Recent advancements in vision-language models (VLMs) have leveraged large language models (LLMs) to achieve performance on par with closed-source systems like GPT-4V. However, deploying these models in real-world scenarios, particularly on resource-constrained devices, remains challenging due to their substantial computational demands. This has spurred interest in distilling knowledge from large VLMs into smaller, more efficient counterparts. A key challenge arises here from the diversity of VLM architectures, which are built on different LLMs and employ varying token types-differing in vocabulary size, token splits, and token index ordering. To address this challenge of limitation to a specific VLM type, we present Generation after Recalibration (GenRecal), a novel, general-purpose distillation framework for VLMs. GenRecal incorporates a Recalibrator that aligns and adapts feature representations between heterogeneous VLMs, enabling effective knowledge transfer across different types of VLMs. Through extensive experiments on multiple challenging benchmarks, we demonstrate that GenRecal significantly improves baseline performances, eventually outperforming large-scale open- and closed-source VLMs.

arxiv情報

著者 Byung-Kwan Lee,Ryo Hachiuma,Yong Man Ro,Yu-Chiang Frank Wang,Yueh-Hua Wu
発行日 2025-06-18 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GenRecal: Generation after Recalibration from Large to Small Vision-Language Models はコメントを受け付けていません

PhantomHunter: Detecting Unseen Privately-Tuned LLM-Generated Text via Family-Aware Learning

要約

大規模な言語モデル(LLMS)の人気により、誤った情報生産や学問的不正行為などの望ましくない社会的問題はより深刻であり、LLM生成されたテキスト検出は今まで前例のない重要性を示しています。
既存の方法は驚くべき進歩を遂げていますが、個人的に調整されたLLMのテキストによって提起された新しい課題は、既知のままです。
ユーザーは、プライベートコーパスを使用してオープンソースを微調整することでプライベートLLMを簡単に所有でき、実際に既存の検出器が大幅に低下することがあります。
この問題に対処するために、目に見えない個人的に調整されたLLMからテキストを検出するために特化したLLM生成テキスト検出器であるPhantomhunterを提案します。
その家族を意識した学習フレームワークは、個々の特性を記憶するのではなく、ベースモデルとそのデリバティブ間で共有される家族レベルの特性を捉えています。
Llama、Gemma、およびMistralファミリーのデータに関する実験は、7つのベースラインと3つの産業サービスを超える優位性を示し、F1スコアは96%以上です。

要約(オリジナル)

With the popularity of large language models (LLMs), undesirable societal problems like misinformation production and academic misconduct have been more severe, making LLM-generated text detection now of unprecedented importance. Although existing methods have made remarkable progress, a new challenge posed by text from privately tuned LLMs remains underexplored. Users could easily possess private LLMs by fine-tuning an open-source one with private corpora, resulting in a significant performance drop of existing detectors in practice. To address this issue, we propose PhantomHunter, an LLM-generated text detector specialized for detecting text from unseen, privately-tuned LLMs. Its family-aware learning framework captures family-level traits shared across the base models and their derivatives, instead of memorizing individual characteristics. Experiments on data from LLaMA, Gemma, and Mistral families show its superiority over 7 baselines and 3 industrial services, with F1 scores of over 96%.

arxiv情報

著者 Yuhui Shi,Yehan Yang,Qiang Sheng,Hao Mi,Beizhe Hu,Chaoxi Xu,Juan Cao
発行日 2025-06-18 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | PhantomHunter: Detecting Unseen Privately-Tuned LLM-Generated Text via Family-Aware Learning はコメントを受け付けていません

Position Paper: Rethinking Privacy in RL for Sequential Decision-making in the Age of LLMs

要約

重要な現実世界のアプリケーションにおける強化学習(RL)の台頭は、AIシステムのプライバシーの基本的な再考を要求します。
孤立したデータポイントを保護するように設計された従来のプライバシーフレームワークは、機密情報が時間的パターン、行動戦略、および共同ダイナミクスから生じる順次の意思決定システムに不足しています。
大規模な言語モデル(LLM)のヒトフィードバック(RLHF)を備えたフェデレーションRL(FEDRL)やRLなどの最新のRLパラダイムは、従来の方法が対処しない複雑でインタラクティブな、およびコンテキスト依存性の学習環境を導入することにより、これらの課題を悪化させます。
このポジションペーパーでは、マルチスケール保護、行動パターン保護、共同プライバシー保存、コンテキスト認識の適応という4つのコア原則に基づいて構築された新しいプライバシーパラダイムを主張します。
これらの原則は、Healthcare、自律車両、LLMSを搭載した意思決定支援システムなどのハイステークドメインでRLシステムがより広範になるにつれてナビゲートする必要があるプライバシー、ユーティリティ、および解釈可能性の間に固有の緊張を暴露します。
これらの課題に取り組むために、シーケンシャル意思決定システムで効果的なプライバシー保護を集合的に可能にする新しい理論的フレームワーク、実用的なメカニズム、および厳密な評価方法論の開発を求めます。

要約(オリジナル)

The rise of reinforcement learning (RL) in critical real-world applications demands a fundamental rethinking of privacy in AI systems. Traditional privacy frameworks, designed to protect isolated data points, fall short for sequential decision-making systems where sensitive information emerges from temporal patterns, behavioral strategies, and collaborative dynamics. Modern RL paradigms, such as federated RL (FedRL) and RL with human feedback (RLHF) in large language models (LLMs), exacerbate these challenges by introducing complex, interactive, and context-dependent learning environments that traditional methods do not address. In this position paper, we argue for a new privacy paradigm built on four core principles: multi-scale protection, behavioral pattern protection, collaborative privacy preservation, and context-aware adaptation. These principles expose inherent tensions between privacy, utility, and interpretability that must be navigated as RL systems become more pervasive in high-stakes domains like healthcare, autonomous vehicles, and decision support systems powered by LLMs. To tackle these challenges, we call for the development of new theoretical frameworks, practical mechanisms, and rigorous evaluation methodologies that collectively enable effective privacy protection in sequential decision-making systems.

arxiv情報

著者 Flint Xiaofeng Fan,Cheston Tan,Roger Wattenhofer,Yew-Soon Ong
発行日 2025-06-18 14:10:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Position Paper: Rethinking Privacy in RL for Sequential Decision-making in the Age of LLMs はコメントを受け付けていません

Context-Informed Grounding Supervision

要約

大規模な言語モデル(LLM)には、多くの場合、パラメーターにエンコードされていない情報を提供したり、幻覚を軽減したりするために、外部の知識が補完されます。
そのような場合、提供された外部コンテキストで応答を接地することにより、モデルが応答を生成すると予想されます。
ただし、以前の作業では、推論時間に単純にアプローしても、根拠のある世代が保証されないことが示されています。
これに対処するために、コンテキストに情報に基づいた接地監督(Cings)を提案します。これは、応答トークンでのみ損失を計算し、コンテキストをマスキングすると同時に、モデルが関連するコンテキストでトレーニングされるトレーニング後の監督を提案します。
私たちの実験は、Cingsで訓練されたモデルが、標準的な命令チューニングモデルと比較して、テキストドメインと視覚ドメインの両方でより強い接地を示すことを示しています。
テキストドメインでは、Cingsは11の情報を求めるデータセットで他のトレーニング方法を上回り、推論時間の接地技術を補完します。
Vision-Language Domainでは、Vision-Language ModelのLLMバックボーンをCings-Trainedモデルに置き換えると、4つのベンチマーク全体で幻覚が減少し、生成された応答全体で事実上の一貫性を維持します。
この改善された接地は、一般的な下流のパフォーマンスで劣化することなく発生します。
最後に、Cingsの強化された接地の根底にあるメカニズムを分析し、モデルの事前の知識と行動の変化を誘発し、暗黙的に外部コンテキストへのより大きな依存を促進することがわかります。

要約(オリジナル)

Large language models (LLMs) are often supplemented with external knowledge to provide information not encoded in their parameters or to reduce hallucination. In such cases, we expect the model to generate responses by grounding its response in the provided external context. However, prior work has shown that simply appending context at inference time does not ensure grounded generation. To address this, we propose Context-INformed Grounding Supervision (CINGS), a post-training supervision in which the model is trained with relevant context prepended to the response, while computing the loss only over the response tokens and masking out the context. Our experiments demonstrate that models trained with CINGS exhibit stronger grounding in both textual and visual domains compared to standard instruction-tuned models. In the text domain, CINGS outperforms other training methods across 11 information-seeking datasets and is complementary to inference-time grounding techniques. In the vision-language domain, replacing a vision-language model’s LLM backbone with a CINGS-trained model reduces hallucinations across four benchmarks and maintains factual consistency throughout the generated response. This improved grounding comes without degradation in general downstream performance. Finally, we analyze the mechanism underlying the enhanced grounding in CINGS and find that it induces a shift in the model’s prior knowledge and behavior, implicitly encouraging greater reliance on the external context.

arxiv情報

著者 Hyunji Lee,Seunghyun Yoon,Yunjae Won,Hanseok Oh,Geewook Kim,Trung Bui,Franck Dernoncourt,Elias Stengel-Eskin,Mohit Bansal,Minjoon Seo
発行日 2025-06-18 14:13:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Context-Informed Grounding Supervision はコメントを受け付けていません