Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare

要約

大規模な言語モデル(LLM)は、ヘルスケアアプリケーションでますます利用されています。
ただし、臨床診療における彼らの展開は、有害な情報の潜在的な広がりを含む重大な安全上の懸念を引き起こします。
この研究では、7つのLLMの脆弱性を体系的に評価して、医療文脈内で3つの高度なブラックボックスの脱却技術を評価します。
これらの手法の有効性を定量化するために、自動化されたドメインに適応したエージェント評価パイプラインを提案します。
実験結果は、主要な商業およびオープンソースLLMが医療脱却攻撃に対して非常に脆弱であることを示しています。
モデルの安全性と信頼性を強化するために、医学的敵対攻撃に対する防御における継続的な微調整(CFT)の有効性をさらに調査します。
私たちの調査結果は、進化する攻撃方法の評価、ドメイン固有の安全性アラインメント、およびLLMの安全性活動のバランスの必要性を強調しています。
この研究は、AI臨床医の安全性と信頼性を進めるための実用的な洞察を提供し、ヘルスケアにおける倫理的かつ効果的なAIの展開に貢献しています。

要約(オリジナル)

Large language models (LLMs) are increasingly utilized in healthcare applications. However, their deployment in clinical practice raises significant safety concerns, including the potential spread of harmful information. This study systematically assesses the vulnerabilities of seven LLMs to three advanced black-box jailbreaking techniques within medical contexts. To quantify the effectiveness of these techniques, we propose an automated and domain-adapted agentic evaluation pipeline. Experiment results indicate that leading commercial and open-source LLMs are highly vulnerable to medical jailbreaking attacks. To bolster model safety and reliability, we further investigate the effectiveness of Continual Fine-Tuning (CFT) in defending against medical adversarial attacks. Our findings underscore the necessity for evolving attack methods evaluation, domain-specific safety alignment, and LLM safety-utility balancing. This research offers actionable insights for advancing the safety and reliability of AI clinicians, contributing to ethical and effective AI deployment in healthcare.

arxiv情報

著者 Hang Zhang,Qian Lou,Yanshan Wang
発行日 2025-03-04 16:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Towards Safe AI Clinicians: A Comprehensive Study on Large Language Model Jailbreaking in Healthcare はコメントを受け付けていません

Towards Zero-Shot, Controllable Dialog Planning with LLMs

要約

最近、大規模な言語モデル(LLM)が、ゼロショット学習シナリオの幅広い推論機能とパフォーマンスにより、タスク固有のダイアログエージェントのトレーニングに代わるものとして登場しています。
ただし、多くのLLMベースのダイアログシステムは、包括的なダイアログ目標に向けて計画するのに不足しているため、会話を適切に操縦することはできません。
さらに、これらのモデルは幻覚に苦しんでおり、ユーザーに与えられた情報の正しさが重要である法的ドメインや医療ドメインなど、機密性のあるドメインでの情報アクセスには適さないものです。
最近導入されたタスク会話ツリー検索(CTS)は、敏感なドメインでの幻覚を避けるためにダイアロググラフの使用を提案していますが、最先端のエージェントは、ダイアログ戦略に優れているにもかかわらず、強化学習(RL)ベースであり、長いトレーニング時間を必要とします。
このホワイトペーパーでは、ユーザーインタラクションの好みに基づいて関連するグラフノードを検索および剪定することにより、LLMSがドメイングラフを介してダイアログ計画をガイドする制御可能なCTSエージェント向けの新しいゼロショット方法を紹介します。
これらのエージェントは、シミュレーションで最先端のCTSエージェント($ p <0.0001 $;バーナードの正確なテスト)を大幅に上回ることを示します。 これは、利用可能なすべてのCTSドメインに一般化されます。 最後に、ユーザー評価を実行して野生でエージェントのパフォーマンスをテストし、最先端のRLベースのCTSエージェントと比較して、ポリシーが大幅に($ p <0.05 $; Barnard artice)がタスクサクセスを改善することを示しています。

要約(オリジナル)

Recently, Large Language Models (LLMs) have emerged as an alternative to training task-specific dialog agents, due to their broad reasoning capabilities and performance in zero-shot learning scenarios. However, many LLM-based dialog systems fall short in planning towards an overarching dialog goal and therefore cannot steer the conversation appropriately. Furthermore, these models struggle with hallucination, making them unsuitable for information access in sensitive domains, such as legal or medical domains, where correctness of information given to users is critical. The recently introduced task Conversational Tree Search (CTS) proposes the use of dialog graphs to avoid hallucination in sensitive domains, however, state-of-the-art agents are Reinforcement Learning (RL) based and require long training times, despite excelling at dialog strategy. This paper introduces a novel zero-shot method for controllable CTS agents, where LLMs guide the dialog planning through domain graphs by searching and pruning relevant graph nodes based on user interaction preferences. We show that these agents significantly outperform state-of-the-art CTS agents ($p<0.0001$; Barnard Exact test) in simulation. This generalizes to all available CTS domains. Finally, we perform user evaluation to test the agent's performance in the wild, showing that our policy significantly ($p<0.05$; Barnard Exact) improves task-success compared to the state-of-the-art RL-based CTS agent.

arxiv情報

著者 Dirk Väth,Ngoc Thang Vu
発行日 2025-03-04 16:21:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Zero-Shot, Controllable Dialog Planning with LLMs はコメントを受け付けていません

From Metaphor to Mechanism: How LLMs Decode Traditional Chinese Medicine Symbolic Language for Modern Clinical Relevance

要約

比phor的な表現は、伝統的な漢方薬(TCM)で豊富であり、文化的に豊富でしばしば抽象的な用語を通じて、複雑な疾患メカニズムと全体的な健康概念を伝えます。
これらの比phorを解剖学的に駆動したWestern Medical(WM)の概念に橋渡しすることは、自動化された言語処理と現実世界の臨床診療の両方に大きな課題をもたらします。
このギャップに対処するために、TCMメタファーを正確に解釈し、WMの病態生理学にマッピングするように設計された新しいマルチエージェントと考え方(COT)フレームワークを提案します。
具体的には、私たちのアプローチは、ドメイン特別なエージェント(TCMエキスパート、WMエキスパート)をコーディネーターエージェントと組み合わせて、段階的なチェーンプロンプトを活用して、透明な推論と紛争解決を確保します。
メタファーが豊富なTCMデータセットを構築するための方法論を詳しく説明し、マルチエージェントのコラボレーションとCOT推論を効果的に統合するための戦略について議論し、異なる医療パラダイム全体でメタファーの解釈を導く理論的基盤を明確にします。
包括的なシステム設計を提示し、アプローチの潜在的な利点と制限の両方を強調し、将来の実験的検証のためにプレースホルダーを残します。
私たちの仕事の目的は、臨床的意思決定、クロスシステムの教育イニシアチブ、統合されたヘルスケア研究をサポートすることを目的としており、最終的にはTCMの象徴的な言語を西洋医学の機構的焦点と調整するための堅牢な足場を提供します。

要約(オリジナル)

Metaphorical expressions are abundant in Traditional Chinese Medicine (TCM), conveying complex disease mechanisms and holistic health concepts through culturally rich and often abstract terminology. Bridging these metaphors to anatomically driven Western medical (WM) concepts poses significant challenges for both automated language processing and real-world clinical practice. To address this gap, we propose a novel multi-agent and chain-of-thought (CoT) framework designed to interpret TCM metaphors accurately and map them to WM pathophysiology. Specifically, our approach combines domain-specialized agents (TCM Expert, WM Expert) with a Coordinator Agent, leveraging stepwise chain-of-thought prompts to ensure transparent reasoning and conflict resolution. We detail a methodology for building a metaphor-rich TCM dataset, discuss strategies for effectively integrating multi-agent collaboration and CoT reasoning, and articulate the theoretical underpinnings that guide metaphor interpretation across distinct medical paradigms. We present a comprehensive system design and highlight both the potential benefits and limitations of our approach, while leaving placeholders for future experimental validation. Our work aims to support clinical decision-making, cross-system educational initiatives, and integrated healthcare research, ultimately offering a robust scaffold for reconciling TCM’s symbolic language with the mechanistic focus of Western medicine.

arxiv情報

著者 Jiacheng Tang,Nankai Wu,Fan Gao,Chengxiao Dai,Mengyao Zhao,Xinjie Zhao
発行日 2025-03-04 16:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Metaphor to Mechanism: How LLMs Decode Traditional Chinese Medicine Symbolic Language for Modern Clinical Relevance はコメントを受け付けていません

InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training

要約

スピーチの大規模な言語モデル(SpeechllMS)の最近の進歩は、かなりの注目を集めています。
それにもかかわらず、現在の方法は、音声指示を順守する際に最適ではないパフォーマンスを示します。
特に、モデルのインテリジェンスは、直接テキスト形式の入力と比較して、音声形式の入力を処理すると大幅に減少します。
以前の研究は、トレーニング後の段階でのデータペアの綿密な設計を含む表現や行動の整合などの手法を通じて、音声表現とテキスト表現の間のこの意味的な矛盾を軽減しようとしました。
このホワイトペーパーでは、インターリーブされた音声テキスト表現のトレーニングを表すInserterと呼ばれるシンプルでスケーラブルなトレーニング方法を紹介します。
Inserterは、テキストからスピーチ変換を使用して広範なテキストコーパスのランダムに選択されたセグメントからスピーチが合成される、大規模な監視なしの音声テキストシーケンスを事前にトレインするように設計されています。
その結果、モデルは、提供された音声セグメントに対応するテキストの継続を生成する能力を獲得し、集中的なデータ設計の努力の必要性を排除します。
音声指導に従う機能を体系的に評価するために、音声指向の指導に応じたタスク向けに特別に設計された最初の包括的なベンチマークであるSpeechInStructbenchを紹介します。
提案されているInserterは、SpeechinStructbenchでSOTAパフォーマンスを達成し、多様な音声処理タスク全体で優れたまたは競争の結果を示します。

要約(オリジナル)

Recent advancements in speech large language models (SpeechLLMs) have attracted considerable attention. Nonetheless, current methods exhibit suboptimal performance in adhering to speech instructions. Notably, the intelligence of models significantly diminishes when processing speech-form input as compared to direct text-form input. Prior work has attempted to mitigate this semantic inconsistency between speech and text representations through techniques such as representation and behavior alignment, which involve the meticulous design of data pairs during the post-training phase. In this paper, we introduce a simple and scalable training method called InSerter, which stands for Interleaved Speech-Text Representation Pre-training. InSerter is designed to pre-train large-scale unsupervised speech-text sequences, where the speech is synthesized from randomly selected segments of an extensive text corpus using text-to-speech conversion. Consequently, the model acquires the ability to generate textual continuations corresponding to the provided speech segments, obviating the need for intensive data design endeavors. To systematically evaluate speech instruction-following capabilities, we introduce SpeechInstructBench, the first comprehensive benchmark specifically designed for speech-oriented instruction-following tasks. Our proposed InSerter achieves SOTA performance in SpeechInstructBench and demonstrates superior or competitive results across diverse speech processing tasks.

arxiv情報

著者 Dingdong Wang,Jin Xu,Ruihang Chu,Zhifang Guo,Xiong Wang,Jincenzi Wu,Dongchao Yang,Shengpeng Ji,Junyang Lin
発行日 2025-03-04 16:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training はコメントを受け付けていません

MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment

要約

パーソナライズされた製品検索は、ユーザーの好みと検索意図に合ったアイテムを取得およびランク付けすることを目的としています。
その効果にもかかわらず、既存のアプローチは通常、ユーザーのクエリが実際の動機を完全に捉えていると仮定します。
ただし、現実世界のeコマースプラットフォームの分析により、ユーザーは検索する前に関連する相談に頻繁に関与していることが明らかになり、モチベーションとニーズに基づいて相談を通じて意図を改善することが示されています。
相談における暗黙の動機は、パーソナライズされた検索の重要な強化要因です。
この未開拓の領域には、コンテキストの動機を簡潔なクエリとの調整、カテゴリテキストのギャップの埋め、シーケンス履歴内のフィルタリングノイズなど、新しい課題があります。
これらに対処するために、モチベーションを意図したパーソナライズされた検索(マップ)メソッドを提案します。
クエリと相談をLLMSを介して統一されたセマンティックスペースに埋め込み、注意の専門家(MOAE)の混合物を利用して重要なセマンティクスに優先順位を付け、デュアルアラインメントを導入します。
(2)双方向の注意は、モチベーションに対応する埋め込みとユーザーの好みを統合します。
実際のデータと合成データの広範な実験では、マップが検索タスクとランキングタスクの両方で既存の方法を上回ることを示しています。

要約(オリジナル)

Personalized product search aims to retrieve and rank items that match users’ preferences and search intent. Despite their effectiveness, existing approaches typically assume that users’ query fully captures their real motivation. However, our analysis of a real-world e-commerce platform reveals that users often engage in relevant consultations before searching, indicating they refine intents through consultations based on motivation and need. The implied motivation in consultations is a key enhancing factor for personalized search. This unexplored area comes with new challenges including aligning contextual motivations with concise queries, bridging the category-text gap, and filtering noise within sequence history. To address these, we propose a Motivation-Aware Personalized Search (MAPS) method. It embeds queries and consultations into a unified semantic space via LLMs, utilizes a Mixture of Attention Experts (MoAE) to prioritize critical semantics, and introduces dual alignment: (1) contrastive learning aligns consultations, reviews, and product features; (2) bidirectional attention integrates motivation-aware embeddings with user preferences. Extensive experiments on real and synthetic data show MAPS outperforms existing methods in both retrieval and ranking tasks.

arxiv情報

著者 Weicong Qin,Yi Xu,Weijie Yu,Chenglei Shen,Ming He,Jianping Fan,Xiao Zhang,Jun Xu
発行日 2025-03-04 17:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment はコメントを受け付けていません

Revealing the Pragmatic Dilemma for Moral Reasoning Acquisition in Language Models

要約

大規模な言語モデル(LLM)が、社会的価値を順守する応答だけであることを確認することが、より広範なアプリケーションにとって非常に重要です。
以前の研究では、LLMが倫理に基づく判断などの道徳的認識を必要とするタスクでLLMが十分に実行できないことが多いことが示されています。
現在のアプローチは、このようなタスクの機能を改善するためにキュレーションされたデータセットを備えたLLMSを微調整していることに焦点を当てていますが、LLMSの倫理的反応を強化するための最適な学習パラダイムを選択することは、未解決の研究議論のままです。
この作業では、この基本的な質問に対処することを目指しています。現在の学習パラダイムは、LLMが十分な道徳的推論能力を獲得できるようにすることができますか?
分布のセマンティクス理論と道徳的談話の実用的な性質からの導き出し、私たちの分析は、パフォーマンスの改善がセマンティックレベルのタスクと同様のメカニズムに従うことを示しています。
この実用的なジレンマは、現在の学習パラダイムの一般化能力に大きな制限を課し、LLMSでの道徳的推論の獲得のための主要なボトルネックになっていると結論付けています。

要約(オリジナル)

Ensuring that Large Language Models (LLMs) return just responses which adhere to societal values is crucial for their broader application. Prior research has shown that LLMs often fail to perform satisfactorily on tasks requiring moral cognizance, such as ethics-based judgments. While current approaches have focused on fine-tuning LLMs with curated datasets to improve their capabilities on such tasks, choosing the optimal learning paradigm to enhance the ethical responses of LLMs remains an open research debate. In this work, we aim to address this fundamental question: can current learning paradigms enable LLMs to acquire sufficient moral reasoning capabilities? Drawing from distributional semantics theory and the pragmatic nature of moral discourse, our analysis indicates that performance improvements follow a mechanism similar to that of semantic-level tasks, and therefore remain affected by the pragmatic nature of morals latent in discourse, a phenomenon we name the pragmatic dilemma. We conclude that this pragmatic dilemma imposes significant limitations on the generalization ability of current learning paradigms, making it the primary bottleneck for moral reasoning acquisition in LLMs.

arxiv情報

著者 Guangliang Liu,Lei Jiang,Xitong Zhang,Kristen Marie Johnson
発行日 2025-03-04 17:23:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Revealing the Pragmatic Dilemma for Moral Reasoning Acquisition in Language Models はコメントを受け付けていません

Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs

要約

大規模な言語モデル(LLM)は、膨大な量の事実知識をエンコードすることにより、多様なタスク全体で顕著なパフォーマンスを実証しています。
しかし、彼らはまだ幻覚を起こしやすく、誤ったまたは誤解を招く情報を生成し、しばしば高い不確実性を伴います。
幻覚検出のための既存の方法は、主に、モデル内の知識の欠落または矛盾する知識から生じる内部の不確実性の定量化に焦点を当てています。
ただし、幻覚は、曖昧なユーザークエリが複数の可能な解釈につながる外部の不確実性に起因する可能性もあります。
この作業では、LLMSの外部と内部の両方の不確実性を定量化するための新しい数学的尺度であるセマンティックボリュームを紹介します。
私たちのアプローチは、摂食と応答の質問と応答を埋め込み、埋め込みベクターのグラムマトリックスの決定要因を計算し、不確実性の尺度として分散をキャプチャします。
私たちのフレームワークは、LLMSへのホワイトボックスアクセスを必要とせずに、一般化可能で監視されていない不確実性検出方法を提供します。
外部および内部の不確実性検出の両方で広範な実験を実施し、セマンティックボリューム方法が両方のタスクで既存のベースラインを常に上回ることを示しています。
さらに、私たちの尺度を差別的エントロピーにリンクする理論的洞察を提供し、セマンティックエントロピーなどの以前のサンプリングベースの不確実性測定を統合し、拡張します。
セマンティックボリュームは、ユーザークエリとモデル応答の両方の不確実性を体系的に検出することにより、LLMの信頼性を改善するための堅牢で解釈可能なアプローチであることが示されています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance across diverse tasks by encoding vast amounts of factual knowledge. However, they are still prone to hallucinations, generating incorrect or misleading information, often accompanied by high uncertainty. Existing methods for hallucination detection primarily focus on quantifying internal uncertainty, which arises from missing or conflicting knowledge within the model. However, hallucinations can also stem from external uncertainty, where ambiguous user queries lead to multiple possible interpretations. In this work, we introduce Semantic Volume, a novel mathematical measure for quantifying both external and internal uncertainty in LLMs. Our approach perturbs queries and responses, embeds them in a semantic space, and computes the determinant of the Gram matrix of the embedding vectors, capturing their dispersion as a measure of uncertainty. Our framework provides a generalizable and unsupervised uncertainty detection method without requiring white-box access to LLMs. We conduct extensive experiments on both external and internal uncertainty detection, demonstrating that our Semantic Volume method consistently outperforms existing baselines in both tasks. Additionally, we provide theoretical insights linking our measure to differential entropy, unifying and extending previous sampling-based uncertainty measures such as the semantic entropy. Semantic Volume is shown to be a robust and interpretable approach to improving the reliability of LLMs by systematically detecting uncertainty in both user queries and model responses.

arxiv情報

著者 Xiaomin Li,Zhou Yu,Ziji Zhang,Yingying Zhuang,Swair Shah,Anurag Beniwal
発行日 2025-03-04 17:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs はコメントを受け付けていません

Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

要約

大規模なビジョン言語モデル(VLM)は、長い間空間的推論タスクに苦労してきました。
驚くべきことに、2つのオブジェクトのみの間の「下」または「背後」の関係を認識するなど、単純な空間的推論タスクでさえ、現在のVLMに大きな課題をもたらします。
この作業では、メカニズムの解釈可能性のレンズからの空間的推論の課題を研究し、モデルの内部状態に飛び込み、画像トークンとテキストトークンの相互作用を調べます。
中間層を介して画像上の注意分布を追跡することにより、成功した空間推論は、特に馴染みのない空間的関係の間で異なる注意分布とその注意分布を整合するモデルの能力と強く相関していることがわかります。
これらの調査結果に動機付けられて、私たちは、自信があるときに、非常に関連性の高い地域での注意を磨き、注意ウィンドウを広げて信頼度が低いときにより広いコンテキストを検討するために、推論時の信頼性スコアに基づいてAdaptVisを提案します。
このトレーニングなしのデコード方法は、WhatsUpやVSRなどの空間推論ベンチマークの大幅な改善(たとえば、最大50の絶対点改善)を示しています。
https://github.com/shiqichen17/adaptvisで研究目的でコードとデータを公開しています。

要約(オリジナル)

Large Vision Language Models (VLMs) have long struggled with spatial reasoning tasks. Surprisingly, even simple spatial reasoning tasks, such as recognizing ‘under’ or ‘behind’ relationships between only two objects, pose significant challenges for current VLMs. In this work, we study the spatial reasoning challenge from the lens of mechanistic interpretability, diving into the model’s internal states to examine the interactions between image and text tokens. By tracing attention distribution over the image through out intermediate layers, we observe that successful spatial reasoning correlates strongly with the model’s ability to align its attention distribution with actual object locations, particularly differing between familiar and unfamiliar spatial relationships. Motivated by these findings, we propose ADAPTVIS based on inference-time confidence scores to sharpen the attention on highly relevant regions when confident, while smoothing and broadening the attention window to consider a wider context when confidence is lower. This training-free decoding method shows significant improvement (e.g., up to a 50 absolute point improvement) on spatial reasoning benchmarks such as WhatsUp and VSR with negligible cost. We make code and data publicly available for research purposes at https://github.com/shiqichen17/AdaptVis.

arxiv情報

著者 Shiqi Chen,Tongyao Zhu,Ruochen Zhou,Jinghan Zhang,Siyang Gao,Juan Carlos Niebles,Mor Geva,Junxian He,Jiajun Wu,Manling Li
発行日 2025-03-04 18:01:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas はコメントを受け付けていません

Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs

要約

大規模な言語モデル(LLM)は、さまざまなドメインでAIアシスタントを務める際に幻覚(すなわち、不誠実または無意味な情報)を示します。
幻覚には常にLLM応答に真実のコンテンツが付いているため、応答レベルの選好学習を実施する以前の事実のアライメント方法は、トレーニング中に必然的にノイズを導入しました。
したがって、このペーパーでは、MASK-DPOと呼ばれる直接選好最適化(DPO)に基づいて、きめ細かい事実アライメント方法を提案します。
MASK-DPOは、文レベルの事実をマスク信号として組み込むことで、優先サンプルの事実上修正された文からのみ学習し、好みのないサンプルの事実上のコンテンツに対するペナルティを防ぎ、優先学習の曖昧さを解決します。
広範な実験結果は、MASK-DPOがドメイン内およびドメイン外データセットの両方からの質問に対するLLMS応答の事実性を大幅に改善できることを示していますが、これらの質問とそれらに対応するトピックはトレーニング中に見えません。
ANAH列車のセットでのみ訓練されたANAHテストセットのLlAMA3.1-8B-Instructのスコアは、49.19%から77.53%に改善され、Llama3.1-70B-Intruct(53.44%)のスコアを超えていますが、ドメインの生物造影データセットから39.39%の事実上のスコアは改善されています。
さらに、さまざまなトレーニングサンプルスケーリング戦略を使用してMASK-DPOの一般化プロパティを調査し、データセット内のトピックの数をスケーリングすることは、質問の数よりも効果的であることがわかります。
私たちは、この現象の意味について、事実上の整合性がLLMとどのようなものを行っているかを仮定し、それを検証するために概念実証を実施します。
この方法と調査結果が、事実の整合性の拡大に関する将来の研究への道を開くことを願っています。

要約(オリジナル)

Large language models (LLMs) exhibit hallucinations (i.e., unfaithful or nonsensical information) when serving as AI assistants in various domains. Since hallucinations always come with truthful content in the LLM responses, previous factuality alignment methods that conduct response-level preference learning inevitably introduced noises during training. Therefore, this paper proposes a fine-grained factuality alignment method based on Direct Preference Optimization (DPO), called Mask-DPO. Incorporating sentence-level factuality as mask signals, Mask-DPO only learns from factually correct sentences in the preferred samples and prevents the penalty on factual contents in the not preferred samples, which resolves the ambiguity in the preference learning. Extensive experimental results demonstrate that Mask-DPO can significantly improve the factuality of LLMs responses to questions from both in-domain and out-of-domain datasets, although these questions and their corresponding topics are unseen during training. Only trained on the ANAH train set, the score of Llama3.1-8B-Instruct on the ANAH test set is improved from 49.19% to 77.53%, even surpassing the score of Llama3.1-70B-Instruct (53.44%), while its FactScore on the out-of-domain Biography dataset is also improved from 30.29% to 39.39%. We further study the generalization property of Mask-DPO using different training sample scaling strategies and find that scaling the number of topics in the dataset is more effective than the number of questions. We provide a hypothesis of what factual alignment is doing with LLMs, on the implication of this phenomenon, and conduct proof-of-concept experiments to verify it. We hope the method and the findings pave the way for future research on scaling factuality alignment.

arxiv情報

著者 Yuzhe Gu,Wenwei Zhang,Chengqi Lyu,Dahua Lin,Kai Chen
発行日 2025-03-04 18:20:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs はコメントを受け付けていません

Shakespearean Sparks: The Dance of Hallucination and Creativity in LLMs’ Decoding Layers

要約

大規模な言語モデル(LLM)は、しばしば創造性に関連する現象である幻覚が知られています。
以前の研究は主に理論的または定性的レンズを通じてこのつながりを調査してきましたが、私たちの研究は、LLMの幻覚と創造性の関係を体系的に調べるために定量的なアプローチを採用しています。
創造性の複雑な性質を考えると、LLMSに合わせた狭い定義を提案し、評価フレームワークであるHCLを導入します。これは、デコード中にLLMの異なる層にわたって幻覚と創造性を定量化します。
私たちの経験的分析は、幻覚と創造性のトレードオフを明らかにしており、層の深さ、モデルの種類、モデルサイズを越えて一貫しています。
特に、さまざまなモデルアーキテクチャにわたって、このトレードオフを最適にバランスさせる各モデルサイズの特定のレイヤーを特定します。
さらに、最適な層は、より大きなモデルの初期層に現れる傾向があり、この層ではモデルの信頼性も大幅に高くなっています。
これらの調査結果は、LLMの創造性と幻覚の相互作用に関する新しい洞察を提供する定量的な視点を提供します。
実験のコードとデータは、https://github.com/ziconghe2002/hcl-sparkで入手できます。

要約(オリジナル)

Large language models (LLMs) are known to hallucinate, a phenomenon often linked to creativity. While previous research has primarily explored this connection through theoretical or qualitative lenses, our work takes a quantitative approach to systematically examine the relationship between hallucination and creativity in LLMs. Given the complex nature of creativity, we propose a narrow definition tailored to LLMs and introduce an evaluation framework, HCL, which quantifies Hallucination and Creativity across different Layers of LLMs during decoding. Our empirical analysis reveals a tradeoff between hallucination and creativity that is consistent across layer depth, model type, and model size. Notably, across different model architectures, we identify a specific layer at each model size that optimally balances this tradeoff. Additionally, the optimal layer tends to appear in the early layers of larger models, and the confidence of the model is also significantly higher at this layer. These findings provide a quantitative perspective that offers new insights into the interplay between LLM creativity and hallucination. The code and data for our experiments are available at https://github.com/ZicongHe2002/HCL-Spark.

arxiv情報

著者 Zicong He,Boxuan Zhang,Lu Cheng
発行日 2025-03-04 18:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Shakespearean Sparks: The Dance of Hallucination and Creativity in LLMs’ Decoding Layers はコメントを受け付けていません