Fair Summarization: Bridging Quality and Diversity in Extractive Summaries

要約

ユーザー生成コンテンツのマルチドキュメントの要約の公平性は、自然言語処理(NLP)における重要な課題のままです。
既存の要約方法は、多くの場合、異なる社会グループ間で公平な表現を確保できず、偏った出力につながります。
この論文では、公正な抽出要約のための2つの新しい方法を紹介します。FairExtract、クラスタリングベースのアプローチ、およびGPT-3.5ターボを公平性の制約で活用するFairGPTです。
これらの方法を、白色、ヒスパニック、アフリカ系アメリカ人の方言ツイートのdivsumm要約データセットを使用して、関連するベースラインと比較します。
Supert、Blanc、Summaqa、Bartscore、Unievalなどの包括的な要約品質メトリックを使用して得られた結果、および公平性メトリックFは、競争力のある要約の品質を維持しながら、フェアエクスプトラルとフェアグプが優れた公平性を達成することを示しています。
さらに、品質と公平性を単一の評価フレームワークに統合する複合メトリック(例:Supert+F、Blanc+F)を導入し、これらの目標間のトレードオフをより微妙な理解を提供します。
私たちのコードはオンラインで入手できます。

要約(オリジナル)

Fairness in multi-document summarization of user-generated content remains a critical challenge in natural language processing (NLP). Existing summarization methods often fail to ensure equitable representation across different social groups, leading to biased outputs. In this paper, we introduce two novel methods for fair extractive summarization: FairExtract, a clustering-based approach, and FairGPT, which leverages GPT-3.5-turbo with fairness constraints. We evaluate these methods using Divsumm summarization dataset of White-aligned, Hispanic, and African-American dialect tweets and compare them against relevant baselines. The results obtained using a comprehensive set of summarization quality metrics such as SUPERT, BLANC, SummaQA, BARTScore, and UniEval, as well as a fairness metric F, demonstrate that FairExtract and FairGPT achieve superior fairness while maintaining competitive summarization quality. Additionally, we introduce composite metrics (e.g., SUPERT+F, BLANC+F) that integrate quality and fairness into a single evaluation framework, offering a more nuanced understanding of the trade-offs between these objectives. Our code is available online.

arxiv情報

著者 Sina Bagheri Nezhad,Sayan Bandyapadhyay,Ameeta Agrawal
発行日 2025-03-11 16:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Fair Summarization: Bridging Quality and Diversity in Extractive Summaries はコメントを受け付けていません

IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models

要約

大規模な言語モデル(LLMS)の印象的な偉業について聞くことなく、一日が過ぎず、同様に、彼らの課題を聞かずに一日が過ぎません。
LLMは、データセットのバイアスに対して脆弱であることで有名であり、毒性などの問題につながります。
これらの問題を軽減するためにドメイン適応トレーニングが採用されていますが、これらの手法は、修復プロセス中にすべてのモデルパラメーターに無差別に対処することが多く、修復の質が低く、モデルの汎用性が低下します。
この論文では、新しい動的スライシングベースの意図を覚めるLLM修復戦略、Irepairを紹介します。
このアプローチは、修理のためにモデルの最もエラーが発生しやすいセクションを選択的にターゲットにしています。
具体的には、すぐに注意を払う必要があるモデルの最も敏感なレイヤーを動的にスライスすることを提案し、それらの分野に修理努力を集中させます。
この方法により、モデルのごく一部を変更することにより、モデルの全体的なパフォーマンスへの影響が潜在的に低下する可能性が低く、より効果的な修理が可能になります。
毒性緩和セットアップでは、800mから1.6bの範囲のパラメーターを使用して、GPT2およびGPT-NEOファミリーの3つのモデルで手法を評価しました。
我々の結果は、Irepairの修復エラーが43.6%効果的にエラーを修復し、最も近いベースラインである直接優先最適化と比較して、一般的なパフォーマンスの破壊が46%少ないことを示しています。
私たちの経験的分析では、モデルの小さなセクションでエラーがより集中していることが明らかになり、レイヤーの上位20%が残りの80 \%よりも773%のエラー密度を示しています。
これは、選択的修復の必要性を強調しています。
さらに、モデル全体に​​分散したエラーに対処し、堅牢で効率的な修復を確保するために、動的選択アプローチが不可欠であることを実証します。

要約(オリジナル)

Not a day goes by without hearing about the impressive feats of large language models (LLMs), and equally, not a day passes without hearing about their challenges. LLMs are notoriously vulnerable to biases in their dataset, leading to issues such as toxicity. While domain-adaptive training has been employed to mitigate these issues, these techniques often address all model parameters indiscriminately during the repair process, resulting in poor repair quality and reduced model versatility. In this paper, we introduce a novel dynamic slicing-based intent-aware LLM repair strategy, IRepair. This approach selectively targets the most error-prone sections of the model for repair. Specifically, we propose dynamically slicing the model’s most sensitive layers that require immediate attention, concentrating repair efforts on those areas. This method enables more effective repairs with potentially less impact on the model’s overall performance by altering a smaller portion of the model. We evaluated our technique on three models from the GPT2 and GPT-Neo families, with parameters ranging from 800M to 1.6B, in a toxicity mitigation setup. Our results show that IRepair repairs errors 43.6% more effectively while causing 46% less disruption to general performance compared to the closest baseline, direct preference optimization. Our empirical analysis also reveals that errors are more concentrated in a smaller section of the model, with the top 20% of layers exhibiting 773% more error density than the remaining 80\%. This highlights the need for selective repair. Additionally, we demonstrate that a dynamic selection approach is essential for addressing errors dispersed throughout the model, ensuring a robust and efficient repair.

arxiv情報

著者 Sayem Mohammad Imtiaz,Astha Singh,Fraol Batole,Hridesh Rajan
発行日 2025-03-11 17:08:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models はコメントを受け付けていません

Exponential Speedups by Rerooting Levin Tree Search

要約

Levin Tree Search(LTS)(Orseau et al。、2018)は、ユーザー指定のポリシーを使用して検索をガイドする決定論的環境の検索アルゴリズムです。
ポリシーの品質に依存するソリューションノードを見つけるための検索手順(ノードアクセス)の数に関する正式な保証が付いています。
この論文では、$ \ sqrt {\ text {lts}} $(発音ルートLTS)と呼ばれる新しいアルゴリズムを紹介します。
各LTS検索には、(ユーザー定義または学習した)再ルーターによって再注行重量が割り当てられ、検索の取り組みは、重量に比例してすべてのLTS検索間で共有されます。
再閉鎖メカニズムは、検索空間をサブタスクに暗黙的に分解し、かなりのスピードアップにつながります。
$ \ sqrt {\ text {lts}} $のテイクが、再ルーターの不確実性に関連する要因の価格で、サブタスクへの最良の分解と競合するノード訪問の数を証明します。
LTSが$ $ t $を取得した場合、$ q $ REROOTINGポイントの最良の場合、$ \ sqrt {\ text {lts}} $は$ o(q \ sqrt [q] {t})$のみです。
ポリシーと同様に、再ルーターはデータから学ぶことができ、$ \ sqrt {\ text {lts}} $が幅広いドメインに適用できると予想しています。

要約(オリジナル)

Levin Tree Search (LTS) (Orseau et al., 2018) is a search algorithm for deterministic environments that uses a user-specified policy to guide the search. It comes with a formal guarantee on the number of search steps (node visits) for finding a solution node that depends on the quality of the policy. In this paper, we introduce a new algorithm, called $\sqrt{\text{LTS}}$ (pronounce root-LTS), which implicitly starts an LTS search rooted at every node of the search tree. Each LTS search is assigned a rerooting weight by a (user-defined or learnt) rerooter, and the search effort is shared between all LTS searches proportionally to their weights. The rerooting mechanism implicitly decomposes the search space into subtasks, leading to significant speedups. We prove that the number of node visits that $\sqrt{\text{LTS}}$ takes is competitive with the best decomposition into subtasks, at the price of a factor that relates to the uncertainty of the rerooter. If LTS takes time $T$, in the best case with $q$ rerooting points, $\sqrt{\text{LTS}}$ only takes time $O(q\sqrt[q]{T})$. Like the policy, the rerooter can be learnt from data, and we expect $\sqrt{\text{LTS}}$ to be applicable to a wide range of domains.

arxiv情報

著者 Laurent Orseau,Marcus Hutter,Levi H. S. Lelis
発行日 2025-03-11 17:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Exponential Speedups by Rerooting Levin Tree Search はコメントを受け付けていません

YuE: Scaling Open Foundation Models for Long-Form Music Generation

要約

LLAMA2アーキテクチャに基づいたオープンファンデーションモデルのファミリーであるYueを紹介することにより、長い形式の音楽生成のタスクに取り組みます。
具体的には、数兆個のトークンをスケールし、叙情的なアライメント、コヒーレントな音楽構造、適切な伴奏でボーカルメロディーを魅了しながら、最大5分間の音楽を生成します。
これは、(1)密な混合シグナルを克服するためのトラックが分類された次のトークン予測、(2)長いコンテキストリリカルアライメントのための構造的進行状態、および(3)マルチタスク、マルチフェーズプレイングレシピを収束および一般化するための多相レシピを介して達成します。
さらに、音楽生成のコンテキスト内学習手法を再設計し、多目的なスタイルの転送(例えば、日本の都市ポップを元の伴奏を維持しながら英語のラップに変換する)と双方向の世代を再設計します。
広範な評価を通じて、Yueが音楽性と声の敏ility性において独自のシステムの一部を一致させるか、それを上回っていることを実証します。
さらに、微調整Yueにより、追加のコントロールと尾言語のサポートが強化されます。
さらに、世代を超えて、Yueの学んだ表現は、Yueの結果が大理石のベンチマークで一致するか、最先端の方法を超える音楽を理解するタスクでうまく機能できることを示しています。
キーワード:歌詞2Song、歌の生成、長型、基礎モデル、音楽生成

要約(オリジナル)

We tackle the task of long-form music generation–particularly the challenging \textbf{lyrics-to-song} problem–by introducing YuE, a family of open foundation models based on the LLaMA2 architecture. Specifically, YuE scales to trillions of tokens and generates up to five minutes of music while maintaining lyrical alignment, coherent musical structure, and engaging vocal melodies with appropriate accompaniment. It achieves this through (1) track-decoupled next-token prediction to overcome dense mixture signals, (2) structural progressive conditioning for long-context lyrical alignment, and (3) a multitask, multiphase pre-training recipe to converge and generalize. In addition, we redesign the in-context learning technique for music generation, enabling versatile style transfer (e.g., converting Japanese city pop into an English rap while preserving the original accompaniment) and bidirectional generation. Through extensive evaluation, we demonstrate that YuE matches or even surpasses some of the proprietary systems in musicality and vocal agility. In addition, fine-tuning YuE enables additional controls and enhanced support for tail languages. Furthermore, beyond generation, we show that YuE’s learned representations can perform well on music understanding tasks, where the results of YuE match or exceed state-of-the-art methods on the MARBLE benchmark. Keywords: lyrics2song, song generation, long-form, foundation model, music generation

arxiv情報

著者 Ruibin Yuan,Hanfeng Lin,Shuyue Guo,Ge Zhang,Jiahao Pan,Yongyi Zang,Haohe Liu,Yiming Liang,Wenye Ma,Xingjian Du,Xinrun Du,Zhen Ye,Tianyu Zheng,Yinghao Ma,Minghao Liu,Zeyue Tian,Ziya Zhou,Liumeng Xue,Xingwei Qu,Yizhi Li,Shangda Wu,Tianhao Shen,Ziyang Ma,Jun Zhan,Chunhui Wang,Yatian Wang,Xiaowei Chi,Xinyue Zhang,Zhenzhu Yang,Xiangzhou Wang,Shansong Liu,Lingrui Mei,Peng Li,Junjie Wang,Jianwei Yu,Guojian Pang,Xu Li,Zihao Wang,Xiaohuan Zhou,Lijun Yu,Emmanouil Benetos,Yong Chen,Chenghua Lin,Xie Chen,Gus Xia,Zhaoxiang Zhang,Chao Zhang,Wenhu Chen,Xinyu Zhou,Xipeng Qiu,Roger Dannenberg,Jiaheng Liu,Jian Yang,Wenhao Huang,Wei Xue,Xu Tan,Yike Guo
発行日 2025-03-11 17:26:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | YuE: Scaling Open Foundation Models for Long-Form Music Generation はコメントを受け付けていません

Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

要約

指導を提供するレトリバーは、実際のアプリケーションでLLMSとともに広く採用されていますが、検索機能の増加を取り巻く安全リスクを調査する作業はほとんどありません。
直接使用した場合と検索拡張生成ベースのセットアップで使用した場合の両方で、悪意のあるクエリを満たすレトリバーの能力を経験的に研究します。
具体的には、NV-embedおよびLLM2VECを含む6つの主要なレトリバーを調査し、悪意のあるリクエストが与えられた場合、ほとんどのレトリバーは(クエリの50%以上)関連する有害なパッセージを選択できることを発見しました。
たとえば、LLM2VECは、悪意のあるクエリの61.35%のパッセージを正しく選択します。
さらに、指導に応じた有害な情報を利用することで、命令に応じた有害な情報を浮上させることができる、指導に従うレトリバーで新たなリスクを明らかにします。
最後に、LLAMA3などの安全に配置されたLLMでさえ、文句内で有害な取得パッセージが提供された場合、悪意のあるリクエストを満たすことができることを示します。
要約すると、私たちの調査結果は、レトリーバー機能の増加に関連する悪意のある誤用のリスクを強調しています。

要約(オリジナル)

Instruction-following retrievers have been widely adopted alongside LLMs in real-world applications, but little work has investigated the safety risks surrounding their increasing search capabilities. We empirically study the ability of retrievers to satisfy malicious queries, both when used directly and when used in a retrieval augmented generation-based setup. Concretely, we investigate six leading retrievers, including NV-Embed and LLM2Vec, and find that given malicious requests, most retrievers can (for >50% of queries) select relevant harmful passages. For example, LLM2Vec correctly selects passages for 61.35% of our malicious queries. We further uncover an emerging risk with instruction-following retrievers, where highly relevant harmful information can be surfaced by exploiting their instruction-following capabilities. Finally, we show that even safety-aligned LLMs, such as Llama3, can satisfy malicious requests when provided with harmful retrieved passages in-context. In summary, our findings underscore the malicious misuse risks associated with increasing retriever capability.

arxiv情報

著者 Parishad BehnamGhader,Nicholas Meade,Siva Reddy
発行日 2025-03-11 17:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Exploiting Instruction-Following Retrievers for Malicious Information Retrieval はコメントを受け付けていません

Rationalization Models for Text-to-SQL

要約

テキストからSQLモデルの微調整を強化するために、考え方(COT)の理論的根拠を生成するためのフレームワークを紹介します。
これらの理論的根拠は、中間SQLステートメントと説明で構成され、最終的なSQLクエリの構築に向けた段階的なステップとして機能します。
このプロセスは、小さな一連の例を手動で注釈することから始まります。このセットは、教師モデルからの反復的で動的な少数の知識蒸留手順で大きな言語モデルを促すために使用されます。
その後、検証済みの分解されたクエリで合理化モデルがトレーニングされ、テキスト間データセットの広範な合成COTアノテーションが可能になります。
アプローチを評価するために、鳥のデータセットにこれらの理論的根拠を持つ場合となしで小さな言語モデルを微調整します。
結果は、特に中程度および非常に複雑なクエリの場合、ステップバイステップクエリの生成により、実行可能性が向上し、説明可能性が向上することを示しています。

要約(オリジナル)

We introduce a framework for generating Chain-of-Thought (CoT) rationales to enhance text-to-SQL model fine-tuning. These rationales consist of intermediate SQL statements and explanations, serving as incremental steps toward constructing the final SQL query. The process begins with manually annotating a small set of examples, which are then used to prompt a large language model in an iterative, dynamic few-shot knowledge distillation procedure from a teacher model. A rationalization model is subsequently trained on the validated decomposed queries, enabling extensive synthetic CoT annotations for text-to-SQL datasets. To evaluate the approach, we fine-tune small language models with and without these rationales on the BIRD dataset. Results indicate that step-by-step query generation improves execution accuracy, especially for moderately and highly complex queries, while also enhancing explainability.

arxiv情報

著者 Gaetano Rossiello,Nhan Pham,Michael Glass,Junkyu Lee,Dharmashankar Subramanian
発行日 2025-03-11 17:37:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | Rationalization Models for Text-to-SQL はコメントを受け付けていません

Proto Successor Measure: Representing the Behavior Space of an RL Agent

要約

環境を探求したので、インテリジェントエージェントは、追加の相互作用なしに、その環境内のほとんどのダウンストリームタスクに知識を転送できるはずです。
「ゼロショット学習」と呼ばれるこの能力は、汎用補強学習アルゴリズムにはとらえどころのないままです。
最近の作品はゼロショットRLエージェントを生産しようとしましたが、タスクの性質やMDPの構造について仮定しています。
Proto後継者の尺度:動的システムにおける強化学習エージェントのすべての可能な行動の基礎セットを提示します。
これらのポリシーに依存しない基底関数のアフィンの組み合わせを使用して、可能な行動(訪問分布を使用して表される)を表現できることを証明します。
テスト時に報酬機能を考えると、最適なポリシーに対応するこれらのベースを組み合わせるために、正しい線形重みのセットを見つける必要があります。
実用的なアルゴリズムを導き出して、環境からの報酬のない相互作用データを使用してこれらの基底関数を学習し、環境との追加のない報酬機能のテスト時に最適なポリシーを生成できることを示します。
プロジェクトページ:https://agarwalsiddhant10.github.io/projects/psm.html。

要約(オリジナル)

Having explored an environment, intelligent agents should be able to transfer their knowledge to most downstream tasks within that environment without additional interactions. Referred to as ‘zero-shot learning’, this ability remains elusive for general-purpose reinforcement learning algorithms. While recent works have attempted to produce zero-shot RL agents, they make assumptions about the nature of the tasks or the structure of the MDP. We present Proto Successor Measure: the basis set for all possible behaviors of a Reinforcement Learning Agent in a dynamical system. We prove that any possible behavior (represented using visitation distributions) can be represented using an affine combination of these policy-independent basis functions. Given a reward function at test time, we simply need to find the right set of linear weights to combine these bases corresponding to the optimal policy. We derive a practical algorithm to learn these basis functions using reward-free interaction data from the environment and show that our approach can produce the optimal policy at test time for any given reward function without additional environmental interactions. Project page: https://agarwalsiddhant10.github.io/projects/psm.html.

arxiv情報

著者 Siddhant Agarwal,Harshit Sikchi,Peter Stone,Amy Zhang
発行日 2025-03-11 17:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Proto Successor Measure: Representing the Behavior Space of an RL Agent はコメントを受け付けていません

Exploring the Word Sense Disambiguation Capabilities of Large Language Models

要約

Word Sense Dismbiguation(WSD)は、長年にわたって多くの注目を集めてきた計算言語学の歴史的タスクです。
ただし、大規模な言語モデル(LLMS)の出現により、このタスク(その古典的な定義で)への関心は減少しました。
この研究では、WSDタスク上のさまざまなLLMのパフォーマンスを評価します。
以前のベンチマーク(XL-WSD)を拡張して、LLMに適した2つのサブタスクを再設計します。1)文の単語を考えると、LLMは正しい定義を生成する必要があります。
2)文の単語と事前定義された意味のセットを与えられた場合、LLMは正しいものを選択する必要があります。
拡張ベンチマークは、XL-WSDとBabelNetを使用して構築されています。
結果は、LLMSがゼロショット学習でうまく機能するが、現在の最先端の方法を上回ることができないことを示しています。
ただし、中程度のパラメーターを備えた微調整されたモデルは、最先端を含む他のすべてのモデルよりも優れています。

要約(オリジナル)

Word Sense Disambiguation (WSD) is a historical task in computational linguistics that has received much attention over the years. However, with the advent of Large Language Models (LLMs), interest in this task (in its classical definition) has decreased. In this study, we evaluate the performance of various LLMs on the WSD task. We extend a previous benchmark (XL-WSD) to re-design two subtasks suitable for LLM: 1) given a word in a sentence, the LLM must generate the correct definition; 2) given a word in a sentence and a set of predefined meanings, the LLM must select the correct one. The extended benchmark is built using the XL-WSD and BabelNet. The results indicate that LLMs perform well in zero-shot learning but cannot surpass current state-of-the-art methods. However, a fine-tuned model with a medium number of parameters outperforms all other models, including the state-of-the-art.

arxiv情報

著者 Pierpaolo Basile,Lucia Siciliani,Elio Musacchio,Giovanni Semeraro
発行日 2025-03-11 17:50:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Exploring the Word Sense Disambiguation Capabilities of Large Language Models はコメントを受け付けていません

AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence

要約

言語エージェントがドメイン全体で重要なタスクを徐々に自動化するにつれて、運用上の制約と安全プロトコル内で動作する能力が不可欠になります。
広範な研究により、これらのエージェントのダウンストリームタスクの完了における有効性が実証されていますが、運用手順と制約に従うことでの信頼性は、ほとんど未開拓のままです。
この目的のために、言語エージェントの運用上の制約とルーチンへのコンプライアンスを評価するためのデュアルシステムフレームワークであるAgentorcaを提示します。
当社のフレームワークは、自然言語プロンプトの両方を介してアクションの制約とルーチンと、自動化された検証のための基本真理として機能する対応する実行可能可能性コードの両方をエンコードします。
5つの現実世界ドメインにわたるテストケースの生成と評価の自動パイプラインを通じて、現在の言語エージェントの運用上の制約への遵守を定量的に評価します。
私たちの調査結果は、最先端のモデル間の顕著なパフォーマンスギャップを明らかにしており、O1のような大きな推論モデルが優れたコンプライアンスを示し、特に複雑な制約やユーザー説得の試みに遭遇した場合、パフォーマンスが大幅に低いことを示しています。

要約(オリジナル)

As language agents progressively automate critical tasks across domains, their ability to operate within operational constraints and safety protocols becomes essential. While extensive research has demonstrated these agents’ effectiveness in downstream task completion, their reliability in following operational procedures and constraints remains largely unexplored. To this end, we present AgentOrca, a dual-system framework for evaluating language agents’ compliance with operational constraints and routines. Our framework encodes action constraints and routines through both natural language prompts for agents and corresponding executable code serving as ground truth for automated verification. Through an automated pipeline of test case generation and evaluation across five real-world domains, we quantitatively assess current language agents’ adherence to operational constraints. Our findings reveal notable performance gaps among state-of-the-art models, with large reasoning models like o1 demonstrating superior compliance while others show significantly lower performance, particularly when encountering complex constraints or user persuasion attempts.

arxiv情報

著者 Zekun Li,Shinda Huang,Jiangtian Wang,Nathan Zhang,Antonis Antoniades,Wenyue Hua,Kaijie Zhu,Sirui Zeng,William Yang Wang,Xifeng Yan
発行日 2025-03-11 17:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AgentOrca: A Dual-System Framework to Evaluate Language Agents on Operational Routine and Constraint Adherence はコメントを受け付けていません

Chain-of-Thought Reasoning In The Wild Is Not Always Faithful

要約

チェーンオブシャーチ(COT)の推論は、最先端のAI機能を大幅に進めています。
しかし、最近の研究では、COTの推論が必ずしも忠実ではないことが示されています。つまり、COTの推論は、モデルが結論に到達する方法を常に反映しているとは限りません。
これまでのところ、これらの研究のほとんどは、明示的なバイアスが導入された不自然な文脈の不誠実さに焦点を合わせてきました。
対照的に、人工的なバイアスのない現実的なプロンプトで不忠実なベッドが発生する可能性があることを示します。
我々の結果は、フロンティアモデルのいくつかの形態の不誠実な推論の割合に関する割合に関することを明らかにしました:Sonnet 3.7(30.6%)、Deepseek R1(15.8%)、ChatGPT-4o(12.6%)はすべて、質問のペアのペアの高い割合に答えます。
具体的には、モデルはバイナリ質問に対する回答(「暗黙の事後合理化」)で暗黙のバイアスを合理化することがわかります。
たとえば、質問を個別に提示した場合、「xはyよりも大きいですか?」
そして、「yはxよりも大きいですか?」、モデルは時々、このような回答が論理的に矛盾しているにもかかわらず、両方の質問に「はい」との回答を正当化するか、両方の質問にnoに答えることを正当化することがあります。
また、復元エラー(Dziri et al。、2023)を調査します。ここでは、モデルが推論で誤ったエラーを作成し、その後黙って修正します。また、モデルはパトナムの質問の解決を簡素化するために明らかに非論理的推論を使用します(ハードベンチマーク)。
私たちの調査結果は、COTの監視に依存して、望ましくない動作を検出することに依存しているAIの安全作業の課題を引き起こします。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning has significantly advanced state-of-the-art AI capabilities. However, recent studies have shown that CoT reasoning is not always faithful, i.e. CoT reasoning does not always reflect how models arrive at conclusions. So far, most of these studies have focused on unfaithfulness in unnatural contexts where an explicit bias has been introduced. In contrast, we show that unfaithful CoT can occur on realistic prompts with no artificial bias. Our results reveal concerning rates of several forms of unfaithful reasoning in frontier models: Sonnet 3.7 (30.6%), DeepSeek R1 (15.8%) and ChatGPT-4o (12.6%) all answer a high proportion of question pairs unfaithfully. Specifically, we find that models rationalize their implicit biases in answers to binary questions (‘implicit post-hoc rationalization’). For example, when separately presented with the questions ‘Is X bigger than Y?’ and ‘Is Y bigger than X?’, models sometimes produce superficially coherent arguments to justify answering Yes to both questions or No to both questions, despite such responses being logically contradictory. We also investigate restoration errors (Dziri et al., 2023), where models make and then silently correct errors in their reasoning, and unfaithful shortcuts, where models use clearly illogical reasoning to simplify solving problems in Putnam questions (a hard benchmark). Our findings raise challenges for AI safety work that relies on monitoring CoT to detect undesired behavior.

arxiv情報

著者 Iván Arcuschin,Jett Janiak,Robert Krzyzanowski,Senthooran Rajamanoharan,Neel Nanda,Arthur Conmy
発行日 2025-03-11 17:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Chain-of-Thought Reasoning In The Wild Is Not Always Faithful はコメントを受け付けていません