Stakeholder Participation for Responsible AI Development: Disconnects Between Guidance and Current Practice

要約

責任あるAI(RAI)ガイダンスは、AI開発中に利害関係者の関与(SHI)をますます促進しています。
同時に、SHIはすでに商業ソフトウェア開発で一般的ですが、潜在的に異なる焦点があります。
この研究では、確立されたSHI慣行がRAIの努力に貢献できる程度と潜在的な切断 – 業界の実践をRAIの努力にさらに変える将来の介入を通知し、調整するための不可欠な洞察を明確にしています。
まず、56のRAIガイダンス文書を分析して、SHIが推奨される理由(つまり、RAIの予想される利益)を特定し、パワーの再配布、社会技術的理解の改善、リスクの予測、公衆視聴の強化などの目標を明らかにしました。
SHIが現在商業環境で現在実践されている理由と方法を理解するために、AI開業医とのオンライン調査(n = 130)および半構造化インタビュー(n = 10)を実施しました。
私たちの調査結果は、実際のSHIは主に商業的優先順位(顧客価値、コンプライアンスなど)によって推進されており、現在、より多くのRAIに染色されたSHI慣行を阻止していることが明らかになっています。
これは、確立されたSHI慣行がRAIの努力にほとんど貢献していないことを示唆しています。
この切断に対処するために、RAIの開発を実践する介入と研究の機会を提案します。

要約(オリジナル)

Responsible AI (rAI) guidance increasingly promotes stakeholder involvement (SHI) during AI development. At the same time, SHI is already common in commercial software development, but with potentially different foci. This study clarifies the extent to which established SHI practices are able to contribute to rAI efforts as well as potential disconnects — essential insights to inform and tailor future interventions that further shift industry practice towards rAI efforts. First, we analysed 56 rAI guidance documents to identify why SHI is recommended (i.e. its expected benefits for rAI) and uncovered goals such as redistributing power, improving socio-technical understandings, anticipating risks, and enhancing public oversight. To understand why and how SHI is currently practised in commercial settings, we then conducted an online survey (n=130) and semi-structured interviews (n=10) with AI practitioners. Our findings reveal that SHI in practice is primarily driven by commercial priorities (e.g. customer value, compliance) and several factors currently discourage more rAI-aligned SHI practices. This suggests that established SHI practices are largely not contributing to rAI efforts. To address this disconnect, we propose interventions and research opportunities to advance rAI development in practice.

arxiv情報

著者 Emma Kallina,Thomas Bohné,Jat Singh
発行日 2025-06-11 15:43:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.SE | Stakeholder Participation for Responsible AI Development: Disconnects Between Guidance and Current Practice はコメントを受け付けていません

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

要約

最近のテキストからイメージへのシステムは、マルチモーダル入力と複雑な推論タスクの処理において制限に直面しています。
補強学習を通じて推論生成を組み込むことにより、これらの課題に対処する統一されたマルチモーダル大手言語モデルであるMindomniを紹介します。
Mindomniは、3フェーズトレーニング戦略を活用します。i)デコーダーのみの拡散モジュールを使用した統一ビジョン言語モデルの設計、ii)監視された微調整(COT)命令データ、およびIII)提案された推論生成ポリシー最適化(RGPO)アルゴリスム、マルチモダルフィードバックを実現してポリシーの更新を実質的にガイドする。
実験結果は、Mindomniが既存のモデルを上回り、理解と生成のベンチマークの両方で印象的なパフォーマンスを達成し、一方、特に数学的推論指示により、高度な微調整された推論生成能力を紹介することを示しています。
すべてのコードはhttps://github.com/tencentarc/mindomniで公開されます

要約(オリジナル)

Recent text-to-image systems face limitations in handling multimodal inputs and complex reasoning tasks. We introduce MindOmni, a unified multimodal large language model that addresses these challenges by incorporating reasoning generation through reinforcement learning. MindOmni leverages a three-phase training strategy: i) design of a unified vision language model with a decoder-only diffusion module, ii) supervised fine-tuning with Chain-of-Thought (CoT) instruction data, and iii) our proposed Reasoning Generation Policy Optimization (RGPO) algorithm, utilizing multimodal feedback to effectively guide policy updates. Experimental results demonstrate that MindOmni outperforms existing models, achieving impressive performance on both understanding and generation benchmarks, meanwhile showcasing advanced fine-grained reasoning generation capabilities, especially with mathematical reasoning instruction. All codes will be made public at https://github.com/TencentARC/MindOmni

arxiv情報

著者 Yicheng Xiao,Lin Song,Yukang Chen,Yingmin Luo,Yuxin Chen,Yukang Gan,Wei Huang,Xiu Li,Xiaojuan Qi,Ying Shan
発行日 2025-06-11 15:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO はコメントを受け付けていません

TACTIC: Translation Agents with Cognitive-Theoretic Interactive Collaboration

要約

機械の翻訳は、長い間、自然言語処理の中心的な課題でした。
大規模な言語モデル(LLMS)の急速な進歩により、翻訳の質には顕著な進歩がありました。
ただし、LLMSの翻訳の可能性を完全に認識することは、未解決の課題のままです。
最近の研究では、複雑な翻訳タスクを共同サブタスクに分解するためのマルチエージェントシステムを調査し、エージェントの協力と専門化を通じて翻訳品質を高めることにおける最初の約束を示しています。
それにもかかわらず、既存のマルチエージェント翻訳フレームワークは、認知翻訳研究からの基本的な洞察をほとんど無視しています。
これらの洞察は、人間の翻訳者が、文字通りと自由な翻訳のバランスをとる、コンテキストに基づいた表現を改良するなど、さまざまな認知戦略をどのように採用しているかを強調しています。
この制限に対処するために、Tacticと呼ばれる認知的に情報に基づいたマルチエージェントフレームワークを提案します。これは、認知的な熱気インタラクティブコラボレーションを備えたTANSLATION A A GENTSを表します。
フレームワークは、人間の翻訳行動で観察される重要な認知プロセスを反映する6つの機能的に異なるエージェントで構成されています。
これらには、起草、洗練、評価、スコアリング、コンテキスト推論、および外部の知識収集のためのエージェントが含まれます。
インタラクティブで理論に基づいた翻訳ワークフローをシミュレートすることにより、戦術は高品質の翻訳のためにLLMの全容量を効果的に活用します。
Flores-200およびWMT24ベンチマークからの多様な言語ペアに関する実験結果は、この方法が常に最先端のパフォーマンスを達成することを示しています。
DeepSeek-V3を基本モデルとして使用すると、戦術はGPT-4.1を平均+0.6 Xcometと+1.18 CometKiwi-23で上回ります。
DeepSeek-R1と比較して、さらに+0.84 Xcometおよび+2.99 Cometkiwi-23により改善されます。
コードはhttps://github.com/weiyali126/tacticで入手できます。

要約(オリジナル)

Machine translation has long been a central task in natural language processing. With the rapid advancement of large language models (LLMs), there has been remarkable progress in translation quality. However, fully realizing the translation potential of LLMs remains an open challenge. Recent studies have explored multi-agent systems to decompose complex translation tasks into collaborative subtasks, showing initial promise in enhancing translation quality through agent cooperation and specialization. Nevertheless, existing multi-agent translation frameworks largely neglect foundational insights from cognitive translation studies. These insights emphasize how human translators employ different cognitive strategies, such as balancing literal and free translation, refining expressions based on context, and iteratively evaluating outputs. To address this limitation, we propose a cognitively informed multi-agent framework called TACTIC, which stands for T ranslation A gents with Cognitive- T heoretic Interactive Collaboration. The framework comprises six functionally distinct agents that mirror key cognitive processes observed in human translation behavior. These include agents for drafting, refinement, evaluation, scoring, context reasoning, and external knowledge gathering. By simulating an interactive and theory-grounded translation workflow, TACTIC effectively leverages the full capacity of LLMs for high-quality translation. Experimental results on diverse language pairs from the FLORES-200 and WMT24 benchmarks show that our method consistently achieves state-of-the-art performance. Using DeepSeek-V3 as the base model, TACTIC surpasses GPT-4.1 by an average of +0.6 XCOMET and +1.18 COMETKIWI-23. Compared to DeepSeek-R1, it further improves by +0.84 XCOMET and +2.99 COMETKIWI-23. Code is available at https://github.com/weiyali126/TACTIC.

arxiv情報

著者 Weiya Li,Junjie Chen,Bei Li,Boyang Liu,Zichen Wen,Nuanqiao Shan,Xiaoqian Liu,Anping Liu,Huajie Liu,Hu Song,Linfeng Zhang
発行日 2025-06-11 15:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TACTIC: Translation Agents with Cognitive-Theoretic Interactive Collaboration はコメントを受け付けていません

Attention Head Embeddings with Trainable Deep Kernels for Hallucination Detection in LLMs

要約

迅速な言語モデル(LLMS)の幻覚を検出するための新しいアプローチを提示します。
直感に反して、幻覚応答は、接地された応答と比較してプロンプトからのより小さな逸脱を示すことがわかります。
この洞察を活用して、分布距離を原則的な幻覚スコアとして使用し、外部の知識または補助モデルの必要性を排除するモデルintringsic検出方法を提案します。
感度を高めるために、分布間の微妙な幾何学的違いをキャプチャするために自動的に適応する深い学習可能なカーネルを採用しています。
私たちのアプローチは、既存のベースラインよりも優れており、いくつかのベンチマークで最先端のパフォーマンスを示しています。
この方法は、カーネルトレーニングがなくても競争力があり、幻覚検出のための堅牢でスケーラブルなソリューションを提供します。

要約(オリジナル)

We present a novel approach for detecting hallucinations in large language models (LLMs) by analyzing the probabilistic divergence between prompt and response hidden-state distributions. Counterintuitively, we find that hallucinated responses exhibit smaller deviations from their prompts compared to grounded responses, suggesting that hallucinations often arise from superficial rephrasing rather than substantive reasoning. Leveraging this insight, we propose a model-intrinsic detection method that uses distributional distances as principled hallucination scores, eliminating the need for external knowledge or auxiliary models. To enhance sensitivity, we employ deep learnable kernels that automatically adapt to capture nuanced geometric differences between distributions. Our approach outperforms existing baselines, demonstrating state-of-the-art performance on several benchmarks. The method remains competitive even without kernel training, offering a robust, scalable solution for hallucination detection.

arxiv情報

著者 Rodion Oblovatny,Alexandra Bazarova,Alexey Zaytsev
発行日 2025-06-11 15:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Attention Head Embeddings with Trainable Deep Kernels for Hallucination Detection in LLMs はコメントを受け付けていません

The Emergence of Abstract Thought in Large Language Models Beyond Any Language

要約

大規模な言語モデル(LLM)が進歩し続けるにつれて、多様な言語で効果的に機能する能力が著しい改善を示しています。
予備研究では、LLMの隠された活性化は、英語以外のプロンプトに応答する場合でも、英語に似ていることが多いことが観察されます。
これは、LLMが英語で「考える」ことができるという広範な仮定につながりました。
ただし、他の言語の特定のタスクで英語のパフォーマンスを上回ることさえ、強力な多言語パフォーマンスを示す最近の結果は、この見解に挑戦します。
この作業では、LLMが徐々にコア言語に依存しないパラメータースペースを開発することがわかりました。パラメーターの著しく小さなサブセットで、その結果、すべての言語で大きな性能劣化をもたらします。
このコンパクトでありながら重要なパラメーターのセットは、個々の言語を超えて一般化するモデルの能力の根底にあり、特定の言語システムに結び付けられていない抽象的な思考の出現をサポートします。
具体的には、言語関連のニューロンは、特定の言語の処理中に一貫して活性化され、共有(複数の言語でアクティブ)または排他的(1つに固有)のいずれかに分類されます。
LLMSが時間の経過とともに継続的な発生を受けると、共有ニューロンの割合と機能的重要性の両方が顕著に増加し、排他的なニューロンは徐々に影響が減少します。
これらの共有ニューロンは、コア言語に依存しないパラメーター空間のバックボーンを構成し、抽象的な思考の出現をサポートします。
これらの洞察に動機付けられているため、さまざまな開発段階でLLMSの言語存在レベルに合わせたニューロン固有のトレーニング戦略を提案します。
多様なLLMファミリーの実験は、私たちのアプローチをサポートしています。

要約(オリジナル)

As large language models (LLMs) continue to advance, their capacity to function effectively across a diverse range of languages has shown marked improvement. Preliminary studies observe that the hidden activations of LLMs often resemble English, even when responding to non-English prompts. This has led to the widespread assumption that LLMs may ‘think’ in English. However, more recent results showing strong multilingual performance, even surpassing English performance on specific tasks in other languages, challenge this view. In this work, we find that LLMs progressively develop a core language-agnostic parameter space-a remarkably small subset of parameters whose deactivation results in significant performance degradation across all languages. This compact yet critical set of parameters underlies the model’s ability to generalize beyond individual languages, supporting the emergence of abstract thought that is not tied to any specific linguistic system. Specifically, we identify language-related neurons-those are consistently activated during the processing of particular languages, and categorize them as either shared (active across multiple languages) or exclusive (specific to one). As LLMs undergo continued development over time, we observe a marked increase in both the proportion and functional importance of shared neurons, while exclusive neurons progressively diminish in influence. These shared neurons constitute the backbone of the core language-agnostic parameter space, supporting the emergence of abstract thought. Motivated by these insights, we propose neuron-specific training strategies tailored to LLMs’ language-agnostic levels at different development stages. Experiments across diverse LLM families support our approach.

arxiv情報

著者 Yuxin Chen,Yiran Zhao,Yang Zhang,An Zhang,Kenji Kawaguchi,Shafiq Joty,Junnan Li,Tat-Seng Chua,Michael Qizhe Shieh,Wenxuan Zhang
発行日 2025-06-11 16:00:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The Emergence of Abstract Thought in Large Language Models Beyond Any Language はコメントを受け付けていません

Causal Climate Emulation with Bayesian Filtering

要約

気候変動の従来のモデルは、地球システム全体の物理プロセスをシミュレートするために、結合方程式の複雑なシステムを使用します。
これらのシミュレーションは非常に計算的に高価であり、気候変動の予測とその原因と効果の分析を制限しています。
機械学習には、気候モデルからデータを迅速にエミュレートする可能性がありますが、現在のアプローチでは、物理学に基づいた因果関係を組み込むことはできません。
ここでは、因果表現学習に基づいて解釈可能な気候モデルエミュレーターを開発します。
安定した長期の自己回帰エミュレーション用のベイジアンフィルターを含む物理学に基づいたアプローチを導き出します。
エミュレータが正確な気候ダイナミクスを学習し、現実的な合成データセットでそのコンポーネントのそれぞれの重要性と、広く展開されている2つの気候モデルのデータの重要性を示しています。

要約(オリジナル)

Traditional models of climate change use complex systems of coupled equations to simulate physical processes across the Earth system. These simulations are highly computationally expensive, limiting our predictions of climate change and analyses of its causes and effects. Machine learning has the potential to quickly emulate data from climate models, but current approaches are not able to incorporate physics-informed causal relationships. Here, we develop an interpretable climate model emulator based on causal representation learning. We derive a physics-informed approach including a Bayesian filter for stable long-term autoregressive emulation. We demonstrate that our emulator learns accurate climate dynamics, and we show the importance of each one of its components on a realistic synthetic dataset and data from two widely deployed climate models.

arxiv情報

著者 Sebastian Hickman,Ilija Trajkovic,Julia Kaltenborn,Francis Pelletier,Alex Archibald,Yaniv Gurwicz,Peer Nowack,David Rolnick,Julien Boussard
発行日 2025-06-11 16:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, physics.ao-ph | Causal Climate Emulation with Bayesian Filtering はコメントを受け付けていません

Advancing Decoding Strategies: Enhancements in Locally Typical Sampling for LLMs

要約

この章では、局所的に典型的なサンプリング(LTS)アルゴリズムの強化に焦点を当てた、大規模な言語モデル(LLMS)のデコード戦略の進歩について説明します。
トップKや核サンプリングなどの従来のデコード方法は、テキスト生成の流encyさ、多様性、一貫性のバランスをとるのに苦労することがよくあります。
これらの課題に対処するために、適応的なセマンティックに対応する典型的なサンプリング(AST)がLTSの改良バージョンとして提案されています。動的エントロピーのしきい値、多目的スコアリング、および報酬ペナルティ調整を組み込んでいます。
ASTは、計算効率を維持しながら、文脈的に一貫性のある多様なテキスト生成を保証します。
そのパフォーマンスは、困惑、Mauve、Diversityスコアなどのメトリックを使用して、ストーリー生成や抽象的な要約を含む複数のベンチマークで評価されます。
実験結果は、ASTが繰り返しを減らし、セマンティックアライメントを強化し、流ency性を改善することにより、既存のサンプリング手法よりも優れていることを示しています。

要約(オリジナル)

This chapter explores advancements in decoding strategies for large language models (LLMs), focusing on enhancing the Locally Typical Sampling (LTS) algorithm. Traditional decoding methods, such as top-k and nucleus sampling, often struggle to balance fluency, diversity, and coherence in text generation. To address these challenges, Adaptive Semantic-Aware Typicality Sampling (ASTS) is proposed as an improved version of LTS, incorporating dynamic entropy thresholding, multi-objective scoring, and reward-penalty adjustments. ASTS ensures contextually coherent and diverse text generation while maintaining computational efficiency. Its performance is evaluated across multiple benchmarks, including story generation and abstractive summarization, using metrics such as perplexity, MAUVE, and diversity scores. Experimental results demonstrate that ASTS outperforms existing sampling techniques by reducing repetition, enhancing semantic alignment, and improving fluency.

arxiv情報

著者 Jaydip Sen,Saptarshi Sengupta,Subhasis Dasgupta
発行日 2025-06-11 16:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Advancing Decoding Strategies: Enhancements in Locally Typical Sampling for LLMs はコメントを受け付けていません

The Remarkable Robustness of LLMs: Stages of Inference?

要約

推論中に隣接する層を削除および交換することにより、構造的介入に対する大規模な言語モデル(LLM)の堅牢性を調査します。
驚くべきことに、モデルは、微調整なしに、元のTOP-1予測精度の72〜95%を保持しています。
パフォーマンスの劣化は層全体で均一ではないことがわかります。初期層と最終層への介入は最も劣化を引き起こしますが、モデルは中間層を落とすのに非常に堅牢です。
この局所的な感度のパターンは、多様なモデルファミリとサイズにわたって観察される4つの推論の仮説を動機づけます。(1)生のトークン埋め込みを高レベルの表現に持ち上げるためにローカルコンテキストが統合されていることを掘り下げます。
(2)タスクおよびエンティティ固有の機能が繰り返し洗練されている機能エンジニアリング。
(3)隠された状態がもっともらしい次のトークン予測に集約されている予測アンサンブル。
(4)出力分布を確定するために無関係な特徴が抑制される残留シャープ化。
行動的および機械的証拠を合成すると、LLMで深さ依存の計算を解釈するためのフレームワークを提供します。

要約(オリジナル)

We investigate the robustness of Large Language Models (LLMs) to structural interventions by deleting and swapping adjacent layers during inference. Surprisingly, models retain 72-95% of their original top-1 prediction accuracy without any fine-tuning. We find that performance degradation is not uniform across layers: interventions to the early and final layers cause the most degradation, while the model is remarkably robust to dropping middle layers. This pattern of localized sensitivity motivates our hypothesis of four stages of inference, observed across diverse model families and sizes: (1) detokenization, where local context is integrated to lift raw token embeddings into higher-level representations; (2) feature engineering, where task- and entity-specific features are iteratively refined; (3) prediction ensembling, where hidden states are aggregated into plausible next-token predictions; and (4) residual sharpening, where irrelevant features are suppressed to finalize the output distribution. Synthesizing behavioral and mechanistic evidence, we provide a framework for interpreting depth-dependent computations in LLMs.

arxiv情報

著者 Vedang Lad,Wes Gurnee,Max Tegmark
発行日 2025-06-11 16:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | The Remarkable Robustness of LLMs: Stages of Inference? はコメントを受け付けていません

PersonaLens: A Benchmark for Personalization Evaluation in Conversational AI Assistants

要約

大規模な言語モデル(LLM)には、高度な会話型AIアシスタントがあります。
ただし、これらのアシスタントがパーソナライゼーションをどの程度適用するかを体系的に評価します – タスクの完了中に個々のユーザーの好みに適応する – は困難です。
既存のパーソナライゼーションベンチマークは、チットチャット、非変換タスク、または狭いドメインに焦点を当てており、パーソナライズされたタスク指向の支援の複雑さをキャプチャできません。
これに対処するために、タスク指向のAIアシスタントにおけるパーソナライズを評価するための包括的なベンチマークであるAssillensを紹介します。
当社のベンチマークには、豊富な好みと相互作用の履歴を備えた多様なユーザープロファイル、および2つの専門的なLLMベースのエージェントとともに、AIアシスタントとの現実的なタスク指向の対話に従事するユーザーエージェント、およびパーソナライズ、対応の質、およびタスクの成功を評価するためにLLM-A-A-Judgeパラダイムを採用する裁判官エージェント。
多様なタスク全体の現在のLLMアシスタントを使用した広範な実験を通じて、パーソナライズ能力の大幅な変動性を明らかにし、会話型AIシステムを進めるための重要な洞察を提供します。

要約(オリジナル)

Large language models (LLMs) have advanced conversational AI assistants. However, systematically evaluating how well these assistants apply personalization–adapting to individual user preferences while completing tasks–remains challenging. Existing personalization benchmarks focus on chit-chat, non-conversational tasks, or narrow domains, failing to capture the complexities of personalized task-oriented assistance. To address this, we introduce PersonaLens, a comprehensive benchmark for evaluating personalization in task-oriented AI assistants. Our benchmark features diverse user profiles equipped with rich preferences and interaction histories, along with two specialized LLM-based agents: a user agent that engages in realistic task-oriented dialogues with AI assistants, and a judge agent that employs the LLM-as-a-Judge paradigm to assess personalization, response quality, and task success. Through extensive experiments with current LLM assistants across diverse tasks, we reveal significant variability in their personalization capabilities, providing crucial insights for advancing conversational AI systems.

arxiv情報

著者 Zheng Zhao,Clara Vania,Subhradeep Kayal,Naila Khan,Shay B. Cohen,Emine Yilmaz
発行日 2025-06-11 16:16:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | PersonaLens: A Benchmark for Personalization Evaluation in Conversational AI Assistants はコメントを受け付けていません

Discovering Forbidden Topics in Language Models

要約

拒否の発見とは、言語モデルが議論することを拒否する一連のトピックを特定するタスクです。
この新しい問題の設定を導入し、拒否の発見方法を開発しました。PrefillCrawler(IPC)は、禁止されたトピックを見つけるためにトークンのプリリングを使用しています。
公共の安全調整データを備えたオープンソースモデルであるTulu-3-8BでIPCをベンチマークします。
クローラーは、1000のプロンプトの予算内で36のトピック中31を取得することができます。
次に、Claude-Haikuの登録オプションを使用して、クローラーをフロンティアモデルに拡張します。
最後に、広く使用されている3つのオープンウェイトモデルをクロールします:Llama-3.3-70bとそのバリアントの2つは、推論のために微調整されています:Deepseek-R1-70BおよびPerplexity-R1-1776-70B。
DeepSeek-R1-70Bは、検閲の調整と一致するパターンを明らかにします。モデルは、CCPに整列した応答の記憶を示す「思考抑制」行動を示しています。
Perplexity-R1-1776-70Bは検閲に対して堅牢ですが、IPCは量子化されたモデルでCCPに整列した拒否の回答を引き出します。
私たちの調査結果は、AIシステムのバイアス、境界、およびアライメント障害を検出する拒否発見方法の重要な必要性を強調しています。

要約(オリジナル)

Refusal discovery is the task of identifying the full set of topics that a language model refuses to discuss. We introduce this new problem setting and develop a refusal discovery method, Iterated Prefill Crawler (IPC), that uses token prefilling to find forbidden topics. We benchmark IPC on Tulu-3-8B, an open-source model with public safety tuning data. Our crawler manages to retrieve 31 out of 36 topics within a budget of 1000 prompts. Next, we scale the crawler to a frontier model using the prefilling option of Claude-Haiku. Finally, we crawl three widely used open-weight models: Llama-3.3-70B and two of its variants finetuned for reasoning: DeepSeek-R1-70B and Perplexity-R1-1776-70B. DeepSeek-R1-70B reveals patterns consistent with censorship tuning: The model exhibits ‘thought suppression’ behavior that indicates memorization of CCP-aligned responses. Although Perplexity-R1-1776-70B is robust to censorship, IPC elicits CCP-aligned refusals answers in the quantized model. Our findings highlight the critical need for refusal discovery methods to detect biases, boundaries, and alignment failures of AI systems.

arxiv情報

著者 Can Rager,Chris Wendler,Rohit Gandikota,David Bau
発行日 2025-06-11 16:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Discovering Forbidden Topics in Language Models はコメントを受け付けていません