LLM-based NLG Evaluation: Current Status and Challenges

要約

自然言語生成(NLG)の評価は、自然言語処理において重要だが挑戦的な問題です。
主にコンテンツをキャプチャする従来の評価メトリック(n-gramなど)システム出力と参照の間のオーバーラップは満足のいくものとはほど遠いものであり、CHATGPTのような大規模な言語モデル(LLM)は、近年NLG評価に大きな可能性を示しています。
LLMSに由来するメトリック、LLMS、微調整LLM、およびHuman-LLM共同評価を含む、LLMSに基づくさまざまな自動評価方法が提案されています。
この調査では、まずLLMベースのNLG評価方法の分類法を示し、それぞれ長所と短所について議論します。
最後に、この分野でいくつかの未解決の問題について説明し、将来の研究の方向性を指摘します。

要約(オリジナル)

Evaluating natural language generation (NLG) is a vital but challenging problem in natural language processing. Traditional evaluation metrics mainly capturing content (e.g. n-gram) overlap between system outputs and references are far from satisfactory, and large language models (LLMs) such as ChatGPT have demonstrated great potential in NLG evaluation in recent years. Various automatic evaluation methods based on LLMs have been proposed, including metrics derived from LLMs, prompting LLMs, fine-tuning LLMs, and human-LLM collaborative evaluation. In this survey, we first give a taxonomy of LLM-based NLG evaluation methods, and discuss their pros and cons, respectively. Lastly, we discuss several open problems in this area and point out future research directions.

arxiv情報

著者 Mingqi Gao,Xinyu Hu,Jie Ruan,Xiao Pu,Xiaojun Wan
発行日 2025-05-14 06:05:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM-based NLG Evaluation: Current Status and Challenges はコメントを受け付けていません

PropNet: a White-Box and Human-Like Network for Sentence Representation

要約

トランスベースの埋め込み方法は、近年、文の表現の分野を支配しています。
セマンティックテキストの類似性(STS)タスクなど、NLPミッションで顕著なパフォーマンスを達成していますが、ブラックボックスの性質や大型ダタ駆動型のトレーニングスタイルは、バイアス、信頼、安全性に関連する問題を含む懸念を引き起こしました。
埋め込みモデルの解釈可能性を改善するために多くの努力がなされてきましたが、これらの問題は根本的に解決されていません。
固有の解釈可能性を実現するために、純粋に白い箱と人間のような文の表現ネットワークであるPropnetを提案します。
認知科学の調査結果に触発されたPropnetは、文に含まれる命題に基づいて階層ネットワークを構築します。
実験では、PropnetがSTSタスクに最先端の(SOTA)埋め込みモデルと比較して有意なギャップがあることが示されていますが、ケーススタディは改善の余地がかなりあることを明らかにしています。
さらに、Propnetを使用すると、STSベンチマークの根底にある人間の認知プロセスを分析および理解することができます。

要約(オリジナル)

Transformer-based embedding methods have dominated the field of sentence representation in recent years. Although they have achieved remarkable performance on NLP missions, such as semantic textual similarity (STS) tasks, their black-box nature and large-data-driven training style have raised concerns, including issues related to bias, trust, and safety. Many efforts have been made to improve the interpretability of embedding models, but these problems have not been fundamentally resolved. To achieve inherent interpretability, we propose a purely white-box and human-like sentence representation network, PropNet. Inspired by findings from cognitive science, PropNet constructs a hierarchical network based on the propositions contained in a sentence. While experiments indicate that PropNet has a significant gap compared to state-of-the-art (SOTA) embedding models in STS tasks, case studies reveal substantial room for improvement. Additionally, PropNet enables us to analyze and understand the human cognitive processes underlying STS benchmarks.

arxiv情報

著者 Fei Yang
発行日 2025-05-14 08:07:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PropNet: a White-Box and Human-Like Network for Sentence Representation はコメントを受け付けていません

Focus, Merge, Rank: Improved Question Answering Based on Semi-structured Knowledge Bases

要約

多くの現実世界の設定では、機械学習モデルとインタラクティブシステムは、構造化された知識、たとえば知識グラフやテーブル、および非構造化コンテンツ、例えば自然言語文書の両方にアクセスできます。
ただし、ほとんどはどちらにも依存しています。
半構造化された知識ベース(SKB)は、構造化されたデータ内のノードに非構造化コンテンツをリンクすることにより、このギャップを埋め、それにより知識へのアクセスと使用のための新しい戦略を可能にします。
この作業では、マルチホップの質問応答のためのモジュール式SKBベースのフレームワークであるFocuseDretrieverを提示します。
コンポーネント(VSSベースのエンティティ検索、LLMベースのCypherクエリの生成、およびペアワイズ再ランク)を統合し、3つのスタークベンチマークテストセットすべてで最新のメソッドを上回り、多様なドメインと複数のパフォーマンスメトリックをカバーします。
平均最初のヒット率は、2番目に良いメソッドの率を25.7%超えています。
FocusedRetrieverレバレッジ(1)大規模な言語モデル(LLMS)の容量を構造化されていないテキストからリレーショナルな事実とエンティティの属性を抽出します。
一般性のために、私たちは評価にFocusedRetrieverにベースLLMのみを組み込んでいます。
ただし、中間結果の分析は、Finetuningを含むさらにアップグレードのいくつかの機会を強調しています。
ソースコードは、https://github.com/kramerlab/focusedretrieverで公開されています。

要約(オリジナル)

In many real-world settings, machine learning models and interactive systems have access to both structured knowledge, e.g., knowledge graphs or tables, and unstructured content, e.g., natural language documents. However, most rely on either. Semi-Structured Knowledge Bases (SKBs) bridge this gap by linking unstructured content to nodes within structured data, thereby enabling new strategies for knowledge access and use. In this work, we present FocusedRetriever, a modular SKB-based framework for multi-hop question answering. It integrates components (VSS-based entity search, LLM-based generation of Cypher queries and pairwise re-ranking) in a way that enables it to outperform state-of-the-art methods across all three STaRK benchmark test sets, covering diverse domains and multiple performance metrics. The average first-hit rate exceeds that of the second-best method by 25.7%. FocusedRetriever leverages (1) the capacity of Large Language Models (LLMs) to extract relational facts and entity attributes from unstructured text, (2) node set joins to filter answer candidates based on these extracted triplets and constraints, (3) vector similarity search to retrieve and rank relevant unstructured content, and (4) the contextual capabilities of LLMs to finally rank the top-k answers. For generality, we only incorporate base LLMs in FocusedRetriever in our evaluation. However, our analysis of intermediate results highlights several opportunities for further upgrades including finetuning. The source code is publicly available at https://github.com/kramerlab/FocusedRetriever .

arxiv情報

著者 Derian Boer,Stephen Roth,Stefan Kramer
発行日 2025-05-14 09:35:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Focus, Merge, Rank: Improved Question Answering Based on Semi-structured Knowledge Bases はコメントを受け付けていません

FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering

要約

この論文では、\ underline {a} ncial \ underline {m} ultilingual \ underline {m} ultimodal question \ underline {a} nswering(qa)の\下線{f}のオープンソースベンチマークであるFammaを紹介します。
私たちのベンチマークは、高度な財務知識を必要とする複雑な推論質問に答える際に、大規模な言語モデル(LLM)の能力を評価することを目的としています。
ベンチマークには2つのバージョンがあります。FAMMA-Basicは、大学の教科書や試験から抽出された1,945の質問と、人間が注目した答えと理論的根拠で構成されています。
Famma-Liveproは、人間のドメインの専門家によって作成された103の斬新な質問で構成されており、汚染のない評価のために答えと理論的根拠が一般から保持されています。
これらの質問は、金融における8つの主要なサブフィールド(例:企業金融、デリバティブ、ポートフォリオ管理)の高度な知識をカバーしています。
一部は中国語またはフランス語で、その大部分は英語です。
各質問には、チャート、図、表など、テキスト以外のデータがいくつかあります。
私たちの実験は、GPT-O1やDeepSeek-R1などの推論モデルなど、FAMMAがLLMに大きな課題をもたらすことを明らかにしています。
さらに、Famma-Basicデータ上のDeepseek-R1の1,270の推論軌跡をキュレーションし、この推論データを使用して一連のオープンソースQwenモデルを微調整しました。
これらの推論軌跡に関するモデルをトレーニングすることで、Famma-Liveproでのパフォーマンスが大幅に向上することがわかりました。
https://famma-bench.github.io/famma/でリーダーボード、データ、コード、トレーニングモデルをリリースしました。

要約(オリジナル)

In this paper, we introduce FAMMA, an open-source benchmark for \underline{f}in\underline{a}ncial \underline{m}ultilingual \underline{m}ultimodal question \underline{a}nswering (QA). Our benchmark aims to evaluate the abilities of large language models (LLMs) in answering complex reasoning questions that require advanced financial knowledge. The benchmark has two versions: FAMMA-Basic consists of 1,945 questions extracted from university textbooks and exams, along with human-annotated answers and rationales; FAMMA-LivePro consists of 103 novel questions created by human domain experts, with answers and rationales held out from the public for a contamination-free evaluation. These questions cover advanced knowledge of 8 major subfields in finance (e.g., corporate finance, derivatives, and portfolio management). Some are in Chinese or French, while a majority of them are in English. Each question has some non-text data such as charts, diagrams, or tables. Our experiments reveal that FAMMA poses a significant challenge on LLMs, including reasoning models such as GPT-o1 and DeepSeek-R1. Additionally, we curated 1,270 reasoning trajectories of DeepSeek-R1 on the FAMMA-Basic data, and fine-tuned a series of open-source Qwen models using this reasoning data. We found that training a model on these reasoning trajectories can significantly improve its performance on FAMMA-LivePro. We released our leaderboard, data, code, and trained models at https://famma-bench.github.io/famma/.

arxiv情報

著者 Siqiao Xue,Xiaojing Li,Fan Zhou,Qingyang Dai,Zhixuan Chu,Hongyuan Mei
発行日 2025-05-14 10:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering はコメントを受け付けていません

Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark

要約

大規模な言語モデル(LLM)は、一般的な慣行においてかなりの可能性を示しています。
ただし、既存のベンチマークと評価フレームワークは、主に試験スタイルまたは単純化された質問回答形式に依存していますが、一般的な実践で遭遇する実際の臨床的責任と一致するコンピテンシーベースの構造が欠けています。
その結果、LLMSが一般開業医(GPS)の義務を確実に満たすことができる程度は不確実なままです。
この作業では、GPSとして機能するLLMの能力を評価するための新しい評価フレームワークを提案します。
このフレームワークに基づいて、一般的な実践ベンチマーク(GPBench)を紹介します。そのデータは、日常的な臨床診療基準に従ってドメインの専門家によって細心の注意を払って注釈が付けられています。
最先端のLLMを10個評価し、その能力を分析します。
私たちの調査結果は、現在のLLMがまだ人間の監視なしにそのような設定で展開する準備ができていないことを示しており、GPSの日々の責任に特化したさらなる最適化が不可欠です。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated considerable potential in general practice. However, existing benchmarks and evaluation frameworks primarily depend on exam-style or simplified question-answer formats, lacking a competency-based structure aligned with the real-world clinical responsibilities encountered in general practice. Consequently, the extent to which LLMs can reliably fulfill the duties of general practitioners (GPs) remains uncertain. In this work, we propose a novel evaluation framework to assess the capability of LLMs to function as GPs. Based on this framework, we introduce a general practice benchmark (GPBench), whose data are meticulously annotated by domain experts in accordance with routine clinical practice standards. We evaluate ten state-of-the-art LLMs and analyze their competencies. Our findings indicate that current LLMs are not yet ready for deployment in such settings without human oversight, and further optimization specifically tailored to the daily responsibilities of GPs is essential.

arxiv情報

著者 Zheqing Li,Yiying Yang,Jiping Lang,Wenhao Jiang,Yuhang Zhao,Shuang Li,Dingqian Wang,Zhu Lin,Xuanna Li,Yuze Tang,Jiexian Qiu,Xiaolin Lu,Hongji Yu,Shuang Chen,Yuhua Bi,Xiaofei Zeng,Yixian Chen,Junrong Chen,Lin Yao
発行日 2025-05-14 10:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark はコメントを受け付けていません

How an unintended Side Effect of a Research Project led to Boosting the Power of UML

要約

このペーパーでは、従来のツールよりも大きな進歩を表す新しいUMLモデリングツールの設計、実装、および使用について説明します。
とりわけ、クラス図とオブジェクト図の統合、およびオブジェクトの実行が可能になります。
これにより、ソフトウェアと対応するオブジェクトモデルを統合することを特徴とする新しいソフトウェアアーキテクチャが可能になるだけでなく、学生に特に刺激的な学習体験を提供するため、教育での使用にも最適です。
このプロジェクトの特別な特徴は、包括的なマルチレベルアーキテクチャを対象とした長年の国際研究プロジェクトから生まれたことです。
したがって、このプロジェクトは、研究が他の仕事の副作用として生じる貴重な結果につながる方法の例です。

要約(オリジナル)

This paper describes the design, implementation and use of a new UML modeling tool that represents a significant advance over conventional tools. Among other things, it allows the integration of class diagrams and object diagrams as well as the execution of objects. This not only enables new software architectures characterized by the integration of software with corresponding object models, but is also ideal for use in teaching, as it provides students with a particularly stimulating learning experience. A special feature of the project is that it has emerged from a long-standing international research project, which is aimed at a comprehensive multi-level architecture. The project is therefore an example of how research can lead to valuable results that arise as a side effect of other work.

arxiv情報

著者 Ulrich Frank,Pierre Maier
発行日 2025-05-14 10:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How an unintended Side Effect of a Research Project led to Boosting the Power of UML はコメントを受け付けていません

A Scalable Unsupervised Framework for multi-aspect labeling of Multilingual and Multi-Domain Review Data

要約

オンラインレビューデータを効果的に分析することは、業界全体で不可欠です。
ただし、多くの既存の研究は、特定のドメインと言語に限定されているか、大規模なラベル付きデータセットを必要とする監視された学習アプローチに依存しています。
これらの制限に対処するために、クロスドメインのアスペクト検出のための多言語、スケーラブル、および監視なしのフレームワークを提案します。
このフレームワークは、多言語およびマルチドメインレビューデータのマルチアスペクトラベル付けのために設計されています。
この研究では、さまざまなドメインにまたがる韓国および英語のレビューデータセットに自動ラベル付けを適用し、広範な実験を通じて生成されたラベルの品質を評価します。
アスペクトカテゴリ候補は、最初にクラスタリングを通じて抽出され、各レビューはネガティブサンプリングを使用してアスペクト認識埋め込みベクターとして表されます。
フレームワークを評価するために、マルチアスペクトのラベル付けを実施し、いくつかの前提条件の言語モデルを微調整して、自動生成されたラベルの有効性を測定します。
結果は、これらのモデルが高性能を達成し、ラベルがトレーニングに適していることを示していることを示しています。
さらに、公開されている大規模な言語モデルとの比較は、大規模なデータを処理する際のフレームワークの優れた一貫性とスケーラビリティを強調しています。
人間の評価は、自動ラベルの品質が手動で作成されたラベルに匹敵することも確認しています。
この研究は、監視された方法の制限を克服し、多言語の多干渉環境に適応できる堅牢なマルチアスペクトラベル付けアプローチの可能性を示しています。
将来の研究では、自動レビューの要約と人工知能エージェントの統合を調査して、レビュー分析の効率と深さをさらに改善します。

要約(オリジナル)

Effectively analyzing online review data is essential across industries. However, many existing studies are limited to specific domains and languages or depend on supervised learning approaches that require large-scale labeled datasets. To address these limitations, we propose a multilingual, scalable, and unsupervised framework for cross-domain aspect detection. This framework is designed for multi-aspect labeling of multilingual and multi-domain review data. In this study, we apply automatic labeling to Korean and English review datasets spanning various domains and assess the quality of the generated labels through extensive experiments. Aspect category candidates are first extracted through clustering, and each review is then represented as an aspect-aware embedding vector using negative sampling. To evaluate the framework, we conduct multi-aspect labeling and fine-tune several pretrained language models to measure the effectiveness of the automatically generated labels. Results show that these models achieve high performance, demonstrating that the labels are suitable for training. Furthermore, comparisons with publicly available large language models highlight the framework’s superior consistency and scalability when processing large-scale data. A human evaluation also confirms that the quality of the automatic labels is comparable to those created manually. This study demonstrates the potential of a robust multi-aspect labeling approach that overcomes limitations of supervised methods and is adaptable to multilingual, multi-domain environments. Future research will explore automatic review summarization and the integration of artificial intelligence agents to further improve the efficiency and depth of review analysis.

arxiv情報

著者 Jiin Park,Misuk Kim
発行日 2025-05-14 11:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Scalable Unsupervised Framework for multi-aspect labeling of Multilingual and Multi-Domain Review Data はコメントを受け付けていません

Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging

要約

外部検索で大規模な言語モデル(LLMS)を増強することは、固有の知識のカットオフの制限に対処するための標準的な方法になりました。
ただし、従来の検索された生成方法では、静的かつ事前推論の検索戦略を採用しているため、曖昧、マルチステップ、または進化する情報のニーズを含む複雑なタスクには不十分になります。
テスト時間スケーリング技術の最近の進歩により、LLMが外部ツールと動的に相互作用することを可能にする重要な可能性が示され、適応推論時間検索への移行が動機付けられています。
情報の採餌理論(IFT)に触発され、Inforageを提案します。これは、検索された推論を動的な情報探索プロセスとして形式化する強化学習フレームワークです。
既存のアプローチとは異なり、Inforageは中間検索の品質に明示的に報酬を与え、LLMが適応的な検索行動を通じて情報を繰り返し収集して統合するよう奨励します。
トレーニングを容易にするために、複雑で実世界のWebタスクの反復検索と推論軌跡をキャプチャする人間のガイド付きデータセットを構築します。
一般的な質問応答、マルチホップ推論タスク、および新しく開発されたリアルタイムのWeb QAデータセットにわたる広範な評価は、ベースラインメソッドよりもInforageの優れたパフォーマンスを示しています。
これらの結果は、堅牢で適応的で効率的な推論エージェントを構築する際のInforageの有効性を強調しています。

要約(オリジナル)

Augmenting large language models (LLMs) with external retrieval has become a standard method to address their inherent knowledge cutoff limitations. However, traditional retrieval-augmented generation methods employ static, pre-inference retrieval strategies, making them inadequate for complex tasks involving ambiguous, multi-step, or evolving information needs. Recent advances in test-time scaling techniques have demonstrated significant potential in enabling LLMs to dynamically interact with external tools, motivating the shift toward adaptive inference-time retrieval. Inspired by Information Foraging Theory (IFT), we propose InForage, a reinforcement learning framework that formalizes retrieval-augmented reasoning as a dynamic information-seeking process. Unlike existing approaches, InForage explicitly rewards intermediate retrieval quality, encouraging LLMs to iteratively gather and integrate information through adaptive search behaviors. To facilitate training, we construct a human-guided dataset capturing iterative search and reasoning trajectories for complex, real-world web tasks. Extensive evaluations across general question answering, multi-hop reasoning tasks, and a newly developed real-time web QA dataset demonstrate InForage’s superior performance over baseline methods. These results highlight InForage’s effectiveness in building robust, adaptive, and efficient reasoning agents.

arxiv情報

著者 Hongjin Qian,Zheng Liu
発行日 2025-05-14 12:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging はコメントを受け付けていません

What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks

要約

脱獄は、大規模な言語モデル(LLM)の安全性と信頼性に関する研究の中心的な焦点でしたが、これらの攻撃の根底にあるメカニズムはよく理解されていません。
以前の研究では、主に脱獄の試みとモデルの拒否を検出するための線形方法に依存していましたが、脱獄につながるプロンプトで線形と非線形の両方の特徴を調べることにより、異なるアプローチを採用しています。
まず、35の多様な攻撃方法にまたがる10,800の脱獄試みで構成される新しいデータセットを紹介します。
このデータセットを活用すると、プローブをトレーニングして、プロンプトトークンに対応する潜在的な表現を使用して、失敗した脱獄から成功を分類します。
特に、プローブが脱獄の成功を予測する際に高い精度を達成したとしても、そのパフォーマンスは目に見えない攻撃方法に一般化できないことが多いことがわかります。
これは、異なる脱獄戦略が異なる非線形の非統一的な機能を活用することを明らかにしています。
次に、非線形プローブがステアリングモデルの動作のための強力なツールを提供することを実証します。
具体的には、これらのプローブを使用して、ターゲットを絞った潜在スペースの摂動をガイドし、脱獄に対するモデルの堅牢性を効果的に調節することができます。
全体として、私たちの調査結果は、LLMの脆弱性の背後にあるメカニズムの微妙な理解の重要性を強調して、脱獄が線形または単純な普遍的な迅速な特徴だけで完全に理解できるという仮定に挑戦します。

要約(オリジナル)

Jailbreaks have been a central focus of research regarding the safety and reliability of large language models (LLMs), yet the mechanisms underlying these attacks remain poorly understood. While previous studies have predominantly relied on linear methods to detect jailbreak attempts and model refusals, we take a different approach by examining both linear and non-linear features in prompts that lead to successful jailbreaks. First, we introduce a novel dataset comprising 10,800 jailbreak attempts spanning 35 diverse attack methods. Leveraging this dataset, we train probes to classify successful from unsuccessful jailbreaks using the latent representations corresponding to prompt tokens. Notably, we find that even when probes achieve high accuracy in predicting the success of jailbreaks, their performance often fails to generalize to unseen attack methods. This reveals that different jailbreaking strategies exploit different non-linear, non-universal features. Next, we demonstrate that non-linear probes provide a powerful tool for steering model behavior. Specifically, we use these probes to guide targeted latent space perturbations, enabling us to effectively modulate the model’s robustness against jailbreaks. Overall, our findings challenge the assumption that jailbreaks can be fully understood through linear or simple universal prompt features alone, highlighting the importance of a nuanced understanding of the mechanisms behind LLM vulnerabilities.

arxiv情報

著者 Nathalie Kirch,Constantin Weisser,Severin Field,Helen Yannakoudakis,Stephen Casper
発行日 2025-05-14 12:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks はコメントを受け付けていません

Llama See, Llama Do: A Mechanistic Perspective on Contextual Entrainment and Distraction in LLMs

要約

幅広い言語モデル(LMS)とプロンプト設定にわたる新しい現象、コンテキストの同時メントを観察し、入力プロンプトの「無関係な」コンテキスト情報によってLMSがどのように気を散らすかについての新しい機構的視点を提供します。
具体的には、LMSは、ランダムトークンであっても、コンテキストプロンプトに以前に表示されていたトークンに、かなり高いロジット(または確率)を割り当てます。
これは、文脈的エントレインメントは、質問または文の残りの部分とのトークンの関連性または意味関係とは無関係に発生する機械的現象であることを示唆しています。
文脈的エントレインメントの大きさがセマンティック要因の影響を受けているという統計的に有意な証拠を見つけます。
反事実的なプロンプトは、事実のプロンプトと比較してより大きな効果があり、文脈的エントレインメントは機械的現象であるが、セマンティック要因によって変調されていることを示唆しています。
私たちは、文脈的エントレインメント現象に対応する注意ヘッドの回路(エントレインメントヘッド)があると仮定します。
微分可能なマスキングに基づいた新しいエントレインメントヘッドディスカバリー方法を使用して、さまざまな設定にわたってこれらのヘッドを特定します。
これらのヘッドを「オフ」、つまり出力をゼロに設定すると、コンテキストのエントレインメントの効果が大幅に減衰し、気晴らしコンテキストが提供された場合に生成されるものに降伏する出力を生成します。
コンテキストのエントレインメントの発見と、エントレインメントヘッドを介したLM気晴らしの調査は、気晴らしの問題の機構分析と緩和に向けた重要なステップを示しています。

要約(オリジナル)

We observe a novel phenomenon, contextual entrainment, across a wide range of language models (LMs) and prompt settings, providing a new mechanistic perspective on how LMs become distracted by “irrelevant” contextual information in the input prompt. Specifically, LMs assign significantly higher logits (or probabilities) to any tokens that have previously appeared in the context prompt, even for random tokens. This suggests that contextual entrainment is a mechanistic phenomenon, occurring independently of the relevance or semantic relation of the tokens to the question or the rest of the sentence. We find statistically significant evidence that the magnitude of contextual entrainment is influenced by semantic factors. Counterfactual prompts have a greater effect compared to factual ones, suggesting that while contextual entrainment is a mechanistic phenomenon, it is modulated by semantic factors. We hypothesise that there is a circuit of attention heads — the entrainment heads — that corresponds to the contextual entrainment phenomenon. Using a novel entrainment head discovery method based on differentiable masking, we identify these heads across various settings. When we “turn off” these heads, i.e., set their outputs to zero, the effect of contextual entrainment is significantly attenuated, causing the model to generate output that capitulates to what it would produce if no distracting context were provided. Our discovery of contextual entrainment, along with our investigation into LM distraction via the entrainment heads, marks a key step towards the mechanistic analysis and mitigation of the distraction problem.

arxiv情報

著者 Jingcheng Niu,Xingdi Yuan,Tong Wang,Hamidreza Saghir,Amir H. Abdi
発行日 2025-05-14 12:33:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Llama See, Llama Do: A Mechanistic Perspective on Contextual Entrainment and Distraction in LLMs はコメントを受け付けていません