HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States

要約

追加のモダリティを統合すると、言語のみの対応物と比較して、脱獄攻撃などの安全リスクに対する大きな視覚言語モデル(LVLM)の感受性が高まります。
既存の研究は主に事後のアライメント技術に焦点を当てていますが、LVLM内の基礎となる安全メカニズムはほとんど未調査のままです。
この作業では、LVLMSが推論中に内部アクティベーション内で安全関連信号を本質的にエンコードするかどうかを調査します。
私たちの調査結果は、LVLMSが危険なプロンプトを処理するときに異なる活性化パターンを示すことを明らかにしています。これは、広範な微調整を必要とせずに敵対的な入力を検出および軽減するために活用できます。
この洞察に基づいて、安全性を高めるために内部モデルのアクティベーションを活用する新しいチューニングフリーのフレームワークであるHiddendEtectを紹介します。
実験結果は、{hiddendetect}がLVLMSに対する脱獄攻撃を検出する際に最先端の方法を上回ることを示しています。
本質的な安全性パターンを利用することにより、この方法は、マルチモーダルの脅威に対するLVLMの堅牢性を強化するための効率的でスケーラブルなソリューションを提供します。
私たちのコードは、https://github.com/leigest519/hiddendetectで公開されます。

要約(オリジナル)

The integration of additional modalities increases the susceptibility of large vision-language models (LVLMs) to safety risks, such as jailbreak attacks, compared to their language-only counterparts. While existing research primarily focuses on post-hoc alignment techniques, the underlying safety mechanisms within LVLMs remain largely unexplored. In this work , we investigate whether LVLMs inherently encode safety-relevant signals within their internal activations during inference. Our findings reveal that LVLMs exhibit distinct activation patterns when processing unsafe prompts, which can be leveraged to detect and mitigate adversarial inputs without requiring extensive fine-tuning. Building on this insight, we introduce HiddenDetect, a novel tuning-free framework that harnesses internal model activations to enhance safety. Experimental results show that {HiddenDetect} surpasses state-of-the-art methods in detecting jailbreak attacks against LVLMs. By utilizing intrinsic safety-aware patterns, our method provides an efficient and scalable solution for strengthening LVLM robustness against multimodal threats. Our code will be released publicly at https://github.com/leigest519/HiddenDetect.

arxiv情報

著者 Yilei Jiang,Xinyan Gao,Tianshuo Peng,Yingshui Tan,Xiaoyong Zhu,Bo Zheng,Xiangyu Yue
発行日 2025-02-20 17:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States はコメントを受け付けていません

Large Language Models Struggle to Describe the Haystack without Human Help: Human-in-the-loop Evaluation of LLMs

要約

NLPの一般的な使用は、従来のトピックモデルの使用から大規模な言語モデルにシフトすることで、大規模なドキュメントコレクションの理解を促進することです。
しかし、実際のアプリケーションでの大規模なコーパス理解にLLMを使用することの有効性は、未調査のままです。
この調査では、ユーザーが2つのデータセットで監督されていない、監視されたLLMベースの探索的アプローチまたは従来のトピックモデルで獲得する知識を測定します。
LLMベースの方法は、より人間の読み取り可能なトピックを生成し、データ探索の従来のモデルよりも高い平均WIN確率を示しますが、ユーザーがドキュメントについてあまり学習できないドメイン固有のデータセットの過度に一般的なトピックを作成します。
LLM生成プロセスに人間の監督を追加すると、幻覚と過剰な性能を緩和することにより、データ探索が改善されますが、より大きな人間の努力が必要です。
対照的に、伝統的です。
Latent Dirichlet Allocation(LDA)のようなモデルは、探索に効果的なままですが、使いやすいものではありません。
LLMSは、人間の助け、特にドメイン固有のデータ、およびコンテキストの長さの制約によるスケーリングと幻覚の制限に直面している大規模なコーパラの干し草の屋根を記述するのに苦労していることを示しています。
https:// huggingfaceで利用可能なデータセット。
CO/データセット/ZLI12321/請求書。

要約(オリジナル)

A common use of NLP is to facilitate the understanding of large document collections, with a shift from using traditional topic models to Large Language Models. Yet the effectiveness of using LLM for large corpus understanding in real-world applications remains under-explored. This study measures the knowledge users acquire with unsupervised, supervised LLM-based exploratory approaches or traditional topic models on two datasets. While LLM-based methods generate more human-readable topics and show higher average win probabilities than traditional models for data exploration, they produce overly generic topics for domain-specific datasets that do not easily allow users to learn much about the documents. Adding human supervision to the LLM generation process improves data exploration by mitigating hallucination and over-genericity but requires greater human effort. In contrast, traditional. models like Latent Dirichlet Allocation (LDA) remain effective for exploration but are less user-friendly. We show that LLMs struggle to describe the haystack of large corpora without human help, particularly domain-specific data, and face scaling and hallucination limitations due to context length constraints. Dataset available at https://huggingface. co/datasets/zli12321/Bills.

arxiv情報

著者 Zongxia Li,Lorena Calvo-Bartolomé,Alexander Hoyle,Paiheng Xu,Alden Dima,Juan Francisco Fung,Jordan Boyd-Graber
発行日 2025-02-20 17:19:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models Struggle to Describe the Haystack without Human Help: Human-in-the-loop Evaluation of LLMs はコメントを受け付けていません

TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators

要約

効率的なGPUカーネルを構築するために設計された高レベルのPythonのような言語であるTritonは、その携帯性、柔軟性、およびアクセシビリティのために、深い学習フレームワークに広く採用されています。
ただし、プログラミングと並列の最適化には、Triton開発者からのかなりの試行錯誤が必要です。
従来のコード生成の大規模な言語モデル(LLMS)の進歩にもかかわらず、これらのモデルは、その仕様とGPUプログラミングの複雑さの認識が欠けているため、正確でパフォーマンスが最適化されたTritonコードを生成するのに苦労しています。
さらに重要なことは、トリトンに合わせた体系的な評価が緊急に必要であることです。
この作業では、Triton Operator Generationの最初の包括的なベンチマークであるTritonbenchを紹介します。
Tritonbenchには、GitHubの184の実世界オペレーターのキュレーションセットと、Pytorchインターフェイスに沿ったオペレーターのコレクションの2つの評価チャネルがあります。
機能的正しさの優先順位付けの従来のコードベンチマークとは異なり、Tritonbenchは、業界アプリケーションに合わせた広く展開されたGPUの効率性能もプロファイルします。
私たちの研究は、現在の最先端のコードLLMSが効率的なTritonオペレーターを生成するのに苦労しており、高性能コード生成の大きなギャップを強調していることを明らかにしています。
Tritonbenchはhttps://github.com/thunlp/tritonbenchで入手できます。

要約(オリジナル)

Triton, a high-level Python-like language designed for building efficient GPU kernels, is widely adopted in deep learning frameworks due to its portability, flexibility, and accessibility. However, programming and parallel optimization still require considerable trial and error from Triton developers. Despite advances in large language models (LLMs) for conventional code generation, these models struggle to generate accurate, performance-optimized Triton code, as they lack awareness of its specifications and the complexities of GPU programming. More critically, there is an urgent need for systematic evaluations tailored to Triton. In this work, we introduce TritonBench, the first comprehensive benchmark for Triton operator generation. TritonBench features two evaluation channels: a curated set of 184 real-world operators from GitHub and a collection of operators aligned with PyTorch interfaces. Unlike conventional code benchmarks prioritizing functional correctness, TritonBench also profiles efficiency performance on widely deployed GPUs aligned with industry applications. Our study reveals that current state-of-the-art code LLMs struggle to generate efficient Triton operators, highlighting a significant gap in high-performance code generation. TritonBench will be available at https://github.com/thunlp/TritonBench.

arxiv情報

著者 Jianling Li,Shangzhan Li,Zhenye Gao,Qi Shi,Yuxuan Li,Zefan Wang,Jiacheng Huang,Haojie Wang,Jianrong Wang,Xu Han,Zhiyuan Liu,Maosong Sun
発行日 2025-02-20 17:21:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators はコメントを受け付けていません

SurveyX: Academic Survey Automation via Large Language Models

要約

大規模な言語モデル(LLMS)は、例外的な理解能力と膨大な知識ベースを実証しており、LLMが自動調査生成の効率的なツールとして機能できることを示唆しています。
ただし、自動調査生成に関連する最近の研究は、有限コンテキストウィンドウ、詳細なコンテンツの議論の欠如、体系的な評価フレームワークの欠如など、いくつかの重要な制限によって制約されたままです。
人間の執筆プロセスに触発されて、調査プロセスを2つの段階に分解する自動調査生成のための効率的で組織化されたシステムであるSurveyXを提案します:準備と生成の段階。
オンラインリファレンス検索、AttributeTreeと呼ばれる前処理方法、および再編成プロセスを革新的に導入することにより、SurveyXは調査構成の有効性を大幅に向上させます。
実験的評価の結果は、SurveyXがコンテンツの品質(0.259の改善)と引用の品質(1.76強化)の既存の自動調査生成システムを上回り、複数の評価ディメンションにわたって人間の専門家パフォーマンスに近づいていることを示しています。
surveyxによって生成された調査の例は、www.surveyx.cnで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional comprehension capabilities and a vast knowledge base, suggesting that LLMs can serve as efficient tools for automated survey generation. However, recent research related to automated survey generation remains constrained by some critical limitations like finite context window, lack of in-depth content discussion, and absence of systematic evaluation frameworks. Inspired by human writing processes, we propose SurveyX, an efficient and organized system for automated survey generation that decomposes the survey composing process into two phases: the Preparation and Generation phases. By innovatively introducing online reference retrieval, a pre-processing method called AttributeTree, and a re-polishing process, SurveyX significantly enhances the efficacy of survey composition. Experimental evaluation results show that SurveyX outperforms existing automated survey generation systems in content quality (0.259 improvement) and citation quality (1.76 enhancement), approaching human expert performance across multiple evaluation dimensions. Examples of surveys generated by SurveyX are available on www.surveyx.cn

arxiv情報

著者 Xun Liang,Jiawei Yang,Yezhaohui Wang,Chen Tang,Zifan Zheng,Simin Niu,Shichao Song,Hanyu Wang,Bo Tang,Feiyu Xiong,Keming Mao,Zhiyu li
発行日 2025-02-20 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SurveyX: Academic Survey Automation via Large Language Models はコメントを受け付けていません

How do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations

要約

マルチモーダルファンデーションモデルは、言語の構文やモダリティの違いなどの表面の特徴から抽象化する統一された表現空間を作成することを目的としています。
これを調査するために、最近の3つのモデルの内部表現を研究し、テキストと音声モダリティの言語間で意味的に同等の文章からのモデルの活性化を分析します。
私たちの調査結果は、次のことが明らかになりました。1)クロスモーダル表現は、テキストと音声処理に特化した初期層を除き、モデル層に収束します。
2)長さの適応は、テキストと音声の間の交差点ギャップを減らすために重要ですが、現在のアプローチの有効性は主に高リソース言語に限定されています。
3)スピーチは、テキストよりも大きな言語間の違いを示します。
4)モダリティに依存しない表現のために明示的に訓練されていないモデルの場合、モダリティギャップは言語ギャップよりも顕著です。

要約(オリジナル)

Multimodal foundation models aim to create a unified representation space that abstracts away from surface features like language syntax or modality differences. To investigate this, we study the internal representations of three recent models, analyzing the model activations from semantically equivalent sentences across languages in the text and speech modalities. Our findings reveal that: 1) Cross-modal representations converge over model layers, except in the initial layers specialized at text and speech processing. 2) Length adaptation is crucial for reducing the cross-modal gap between text and speech, although current approaches’ effectiveness is primarily limited to high-resource languages. 3) Speech exhibits larger cross-lingual differences than text. 4) For models not explicitly trained for modality-agnostic representations, the modality gap is more prominent than the language gap.

arxiv情報

著者 Hyunji Lee,Danni Liu,Supriti Sinhamahapatra,Jan Niehues
発行日 2025-02-20 18:04:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations はコメントを受け付けていません

Measuring Faithfulness of Chains of Thought by Unlearning Reasoning Steps

要約

段階的に考えるように促されると、言語モデル(LMS)は、モデルが予測を生成するために使用されると思われる一連の推論ステップである思考の連鎖(COT)を生成します。
ただし、COTのプロンプトに関する多くの作業にもかかわらず、COTの推論がモデルのパラメーター信念に忠実であるかどうかは不明です。
生成された推論のパラメトリックな忠実さを測定するためのフレームワークを紹介し、このフレームワークのインスタンスである推論ステップ(fur)を解き放つことにより、忠実さを提案します。
Furは、モデルパラメーターからの推論ステップに含まれる情報を消去します。
4つのMulti-Choice質問応答(MCQA)データセットでプロンプトがプロンプトされた4つのLMSのCOTSを解き放つ実験を実行します。
私たちの実験は、FURが重要なステップを獲得することにより、基礎となるモデルの予測を頻繁に変更できることを示しています。
さらなる分析により、モデルが終了後のモデルによって生成されたCOTは、さまざまな回答をサポートし、学習のより深い効果を示唆していることが示されています。
重要なことに、Furによって重要であると特定されたCOTステップは、もっともらしい性の人間の概念とうまく調和しておらず、専門的なアライメントの必要性を強調しています

要約(オリジナル)

When prompted to think step-by-step, language models (LMs) produce a chain of thought (CoT), a sequence of reasoning steps that the model supposedly used to produce its prediction. However, despite much work on CoT prompting, it is unclear if CoT reasoning is faithful to the models’ parameteric beliefs. We introduce a framework for measuring parametric faithfulness of generated reasoning, and propose Faithfulness by Unlearning Reasoning steps (FUR), an instance of this framework. FUR erases information contained in reasoning steps from model parameters. We perform experiments unlearning CoTs of four LMs prompted on four multi-choice question answering (MCQA) datasets. Our experiments show that FUR is frequently able to change the underlying models’ prediction by unlearning key steps, indicating when a CoT is parametrically faithful. Further analysis shows that CoTs generated by models post-unlearning support different answers, hinting at a deeper effect of unlearning. Importantly, CoT steps identified as important by FUR do not align well with human notions of plausbility, emphasizing the need for specialized alignment

arxiv情報

著者 Martin Tutek,Fateme Hashemi Chaleshtori,Ana Marasović,Yonatan Belinkov
発行日 2025-02-20 18:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Measuring Faithfulness of Chains of Thought by Unlearning Reasoning Steps はコメントを受け付けていません

GATE: Graph-based Adaptive Tool Evolution Across Diverse Tasks

要約

大規模な言語モデル(LLM)はツール作成に大きな期待を示していますが、既存のフレームワークは信頼できるツールセットを効率的に構築するのに苦労しており、シングルタスク設定に限定されています。
これらの課題に対処するために、複数のシナリオにわたって再利用可能なツールの階層グラフを動的に構築および進化させる適応フレームワークであるGATE(グラフベースの適応ツールの進化)を提案します。
オープンエンドのタスク(Minecraft)、エージェントベースのタスク(Textcraft、Dabench)、およびコード生成タスク(数学、日付、TABMWP)でゲートを評価します。
我々の結果は、GATEが以前のSOTAと比較してMinecraftで最大4.3倍のマイルストーン完成を達成し、コード生成タスクの既存のツール作成方法で9.23%、エージェントタスクで10.03%の平均改善を提供することを示しています。
GATEは、高効率を維持しながら、適応進化の力、ツールの量、複雑さ、および機能のバランスをとることを示しています。
コードとデータは、\ url {https://github.com/ayanami2003/gate}で利用できます。

要約(オリジナル)

Large Language Models (LLMs) have shown great promise in tool-making, yet existing frameworks often struggle to efficiently construct reliable toolsets and are limited to single-task settings. To address these challenges, we propose GATE (Graph-based Adaptive Tool Evolution), an adaptive framework that dynamically constructs and evolves a hierarchical graph of reusable tools across multiple scenarios. We evaluate GATE on open-ended tasks (Minecraft), agent-based tasks (TextCraft, DABench), and code generation tasks (MATH, Date, TabMWP). Our results show that GATE achieves up to 4.3x faster milestone completion in Minecraft compared to the previous SOTA, and provides an average improvement of 9.23% over existing tool-making methods in code generation tasks and 10.03% in agent tasks. GATE demonstrates the power of adaptive evolution, balancing tool quantity, complexity, and functionality while maintaining high efficiency. Code and data are available at \url{https://github.com/ayanami2003/GATE}.

arxiv情報

著者 Jianwen Luo,Yiming Huang,Jinxiang Meng,Fangyu Lei,Shizhu He,Xiao Liu,Shanshan Jiang,Bin Dong,Jun Zhao,Kang Liu
発行日 2025-02-20 18:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 | GATE: Graph-based Adaptive Tool Evolution Across Diverse Tasks はコメントを受け付けていません

CLIPPER: Compression enables long-context synthetic data generation

要約

LLM開発者は合成データにますます依存していますが、複雑な長いコンテストの推論タスクのための高品質のデータを生成することは依然として困難です。
物語の主張検証に合わせた合成データを生成するための圧縮ベースのアプローチであるClipperを紹介します。これは、特定の主張を検証するために本をめぐる推論を必要とするタスクです。
Artifactに満ちたクレームをもたらす本の生のテキストから直接クレームを生成する代わりに、Clipperは本を章の概要と本の要約に最初に圧縮し、これらの中間表現を使用して複雑なクレームと対応するチェーンを生成します。
ナイーブなアプローチと比較して、クリッパーは、より有効で、接地され、複雑なクレームを生成します。
Clipperを使用して、ソーステキストと考え方の推論と組み合わせた19kの合成書籍クレームのデータセットを作成し、それを使用して3つのオープンウェイトモデルを微調整します。
私たちの最高のモデルは、物語のクレーム検証(テストセットの28%から76%の精度)で画期的な結果を達成し、Nochaリーダーボードのサブ10Bモデルの新しい最先端の最先端を設定します。
さらなる分析では、モデルがより詳細で根拠のあるチェーンの推論を生成しながら、他の物語の理解タスク(たとえば、ナラティブQA)のパフォーマンスを改善することが示されています。

要約(オリジナル)

LLM developers are increasingly reliant on synthetic data, but generating high-quality data for complex long-context reasoning tasks remains challenging. We introduce CLIPPER, a compression-based approach for generating synthetic data tailored to narrative claim verification – a task that requires reasoning over a book to verify a given claim. Instead of generating claims directly from the raw text of the book, which results in artifact-riddled claims, CLIPPER first compresses the book into chapter outlines and book summaries and then uses these intermediate representations to generate complex claims and corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces claims that are more valid, grounded, and complex. Using CLIPPER, we construct a dataset of 19K synthetic book claims paired with their source texts and chain-of-thought reasoning, and use it to fine-tune three open-weight models. Our best model achieves breakthrough results on narrative claim verification (from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for sub-10B models on the NoCha leaderboard. Further analysis shows that our models generate more detailed and grounded chain-of-thought reasoning while also improving performance on other narrative understanding tasks (e.g., NarrativeQA).

arxiv情報

著者 Chau Minh Pham,Yapei Chang,Mohit Iyyer
発行日 2025-02-20 18:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CLIPPER: Compression enables long-context synthetic data generation はコメントを受け付けていません

Prompt-to-Leaderboard

要約

大規模な言語モデル(LLM)評価は、通常、精度や人間の好みなどの集計されたメトリック、ユーザーとプロンプト間の平均化に依存しています。
この平均化により、モデルパフォーマンスのユーザーとプロンプト固有の変動が不明瞭になります。
これに対処するために、プロンプトに固有のリーダーボードを生成するメソッドであるプロンプトからリードボード(P2L)を提案します。
中核的なアイデアは、自然言語プロンプトを取得するLLMを入力として訓練することです。Bradley-Terry係数のベクトルを出力し、その後、人間の好みの投票を予測するために使用されます。
結果として生じるプロンプト依存のリーダーボードにより、教師なしのタスク固有の評価、モデルへのクエリの最適なルーティング、モデルの長所と短所の自動評価が可能になります。
Chatbot Arenaのデータは、P2Lが平均化されたリーダーボードよりも言語モデルのパフォーマンスの微妙なランドスケープをよりよくキャプチャすることを示唆しています。
さらに、我々の調査結果は、P2Lの迅速な特異的評価を生成する能力が、LLMS自体で観察されたものと同様のパワー法則に従うことを示唆しています。
2025年1月、この方法論に基づいてトレーニングしたルーターは、チャットボットアリーナリーダーボードの\#1スポットを達成しました。
私たちのコードは、このgithubリンクhttps://github.com/lmarena/p2lで入手できます。

要約(オリジナル)

Large language model (LLM) evaluations typically rely on aggregated metrics like accuracy or human preference, averaging across users and prompts. This averaging obscures user- and prompt-specific variations in model performance. To address this, we propose Prompt-to-Leaderboard (P2L), a method that produces leaderboards specific to a prompt. The core idea is to train an LLM taking natural language prompts as input to output a vector of Bradley-Terry coefficients which are then used to predict the human preference vote. The resulting prompt-dependent leaderboards allow for unsupervised task-specific evaluation, optimal routing of queries to models, personalization, and automated evaluation of model strengths and weaknesses. Data from Chatbot Arena suggest that P2L better captures the nuanced landscape of language model performance than the averaged leaderboard. Furthermore, our findings suggest that P2L’s ability to produce prompt-specific evaluations follows a power law scaling similar to that observed in LLMs themselves. In January 2025, the router we trained based on this methodology achieved the \#1 spot in the Chatbot Arena leaderboard. Our code is available at this GitHub link: https://github.com/lmarena/p2l.

arxiv情報

著者 Evan Frick,Connor Chen,Joseph Tennyson,Tianle Li,Wei-Lin Chiang,Anastasios N. Angelopoulos,Ion Stoica
発行日 2025-02-20 18:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Prompt-to-Leaderboard はコメントを受け付けていません

Aligning LLMs to Ask Good Questions A Case Study in Clinical Reasoning

要約

大規模な言語モデル(LLM)は、不確実性の下で効果的な質問をすることができず、意思決定に積極的な情報収集が不可欠なドメインでは信頼できないようにします。
ALFAを提示します。これは、(i)「良い」質問の概念を理論に基づいた属性のセット(例えば、明確さ、関連性)に分解することにより、LLMの質問を改善するフレームワークを提示します。
バリエーション、および(iii)優先ベースの最適化を介してモデルを調整して、これらのきめ細かい属性に沿ってより良い質問をすることを明示的に学習します。
ケーススタディとしての臨床的推論に焦点を当てて、80K属性固有のフォローアップ質問のペアで増強された17Kの実世界の臨床的相互作用で構成されるMediq-Askdocsデータセットと、新しい専門家とアノテーションされたインタラクティブなヘルスケアQAを紹介します。
質問asking能力を評価するためのタスク。
ALFAと整合したモデルは、SOTA命令チューニングLLMと比較して、MEDIQ-AskDocsで診断エラーを56.6%減らし、質問レベルのWINレートは64.4%と強力な一般化可能性です。
私たちの調査結果は、特に専門家のアプリケーションドメインで、LLMを改善するためのスケーラブルなパスを構造化された細かい属性で明示的にガイドすることを示唆しています。

要約(オリジナル)

Large language models (LLMs) often fail to ask effective questions under uncertainty, making them unreliable in domains where proactive information-gathering is essential for decisionmaking. We present ALFA, a framework that improves LLM question-asking by (i) decomposing the notion of a ‘good’ question into a set of theory-grounded attributes (e.g., clarity, relevance), (ii) controllably synthesizing attribute-specific question variations, and (iii) aligning models via preference-based optimization to explicitly learn to ask better questions along these fine-grained attributes. Focusing on clinical reasoning as a case study, we introduce the MediQ-AskDocs dataset, composed of 17k real-world clinical interactions augmented with 80k attribute-specific preference pairs of follow-up questions, as well as a novel expert-annotated interactive healthcare QA task to evaluate question-asking abilities. Models aligned with ALFA reduce diagnostic errors by 56.6% on MediQ-AskDocs compared to SOTA instruction-tuned LLMs, with a question-level win-rate of 64.4% and strong generalizability. Our findings suggest that explicitly guiding question-asking with structured, fine-grained attributes offers a scalable path to improve LLMs, especially in expert application domains.

arxiv情報

著者 Shuyue Stella Li,Jimin Mun,Faeze Brahman,Jonathan S. Ilgen,Yulia Tsvetkov,Maarten Sap
発行日 2025-02-20 18:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Aligning LLMs to Ask Good Questions A Case Study in Clinical Reasoning はコメントを受け付けていません