Holistically Guided Monte Carlo Tree Search for Intricate Information Seeking

要約

膨大なデジタル情報の時代において、利用可能な情報の膨大な量と不均一性は、複雑な情報探索の重要な課題を提示します。
ユーザーは、広大でさまざまなデータソースをナビゲートすることを伴うMultiStep Web検索タスクに頻繁に直面しています。
この複雑さには、すべてのステップが包括的で正確で、関連性のあるままです。
ただし、従来の検索方法は、局所的な精度の必要性と全体的な理解に必要なより広範なコンテキストのバランスをとるのに苦労しており、複雑なクエリの重要な側面を露出していないままにします。
このホワイトペーパーでは、LLMベースの検索アシスタントを紹介します。これは、総合的にガイド付きモンテカルロツリー検索(HG-MCTS)を備えた新しい情報を求めるパラダイムを採用しています。
知識メモリを使用したプログレッシブ情報収集プロセスとしてタスクを再定式化し、MCTのマルチパーセプティックな報酬モデリングで適応的なチェックリストを統合します。
Adaptive Checklistは、複雑なユーザークエリの包括的なカバレッジに向けてMCTプロセスをガイドするための明示的なサブゴールを提供します。
同時に、当社の多面的な報酬モデリングは、探索と検索の両方の報酬の両方を提供し、完了したサブゴールと残りのサブゴールを追跡する進捗フィードバックを提供し、ツリー検索が進むにつれてチェックリストを改良します。
ローカライズされたツリーの拡張とグローバルガイダンスのバランスをとることにより、HG-MCTSは検索パスでの冗長性を減らし、複雑なクエリのすべての重要な側面が適切に対処されるようにします。
現実世界の複雑な情報探索タスクに関する広範な実験は、HG-MCTSが徹底的な知識コレクションを取得し、既存のベースラインと比較してより正確な最終応答を提供することを示しています。

要約(オリジナル)

In the era of vast digital information, the sheer volume and heterogeneity of available information present significant challenges for intricate information seeking. Users frequently face multistep web search tasks that involve navigating vast and varied data sources. This complexity demands every step remains comprehensive, accurate, and relevant. However, traditional search methods often struggle to balance the need for localized precision with the broader context required for holistic understanding, leaving critical facets of intricate queries underexplored. In this paper, we introduce an LLM-based search assistant that adopts a new information seeking paradigm with holistically guided Monte Carlo tree search (HG-MCTS). We reformulate the task as a progressive information collection process with a knowledge memory and unite an adaptive checklist with multi-perspective reward modeling in MCTS. The adaptive checklist provides explicit sub-goals to guide the MCTS process toward comprehensive coverage of complex user queries. Simultaneously, our multi-perspective reward modeling offers both exploration and retrieval rewards, along with progress feedback that tracks completed and remaining sub-goals, refining the checklist as the tree search progresses. By striking a balance between localized tree expansion and global guidance, HG-MCTS reduces redundancy in search paths and ensures that all crucial aspects of an intricate query are properly addressed. Extensive experiments on real-world intricate information seeking tasks demonstrate that HG-MCTS acquires thorough knowledge collections and delivers more accurate final responses compared with existing baselines.

arxiv情報

著者 Ruiyang Ren,Yuhao Wang,Junyi Li,Jinhao Jiang,Wayne Xin Zhao,Wenjie Wang,Tat-Seng Chua
発行日 2025-02-07 08:36:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Holistically Guided Monte Carlo Tree Search for Intricate Information Seeking はコメントを受け付けていません

UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

要約

このペーパーでは、UCFE:ユーザー中心の金融専門知識ベンチマークを紹介します。これは、複雑な現実世界の金融タスクを処理する大規模な言語モデル(LLMS)の能力を評価するために設計された革新的なフレームワークです。
UCFEベンチマークは、人間の専門家の評価と動的でタスク固有の相互作用を組み合わせて、進化する財務シナリオの複雑さをシミュレートするハイブリッドアプローチを採用しています。
まず、804人の参加者を含むユーザー調査を実施し、財務タスクに関するフィードバックを収集しました。
第二に、このフィードバックに基づいて、幅広いユーザーの意図とインタラクションを含むデータセットを作成しました。
このデータセットは、LLM-As-Judgeの方法論を使用して、11のLLMSサービスをベンチマークするための基盤として機能します。
私たちの結果は、ベンチマークスコアと人間の好みとの間に大きな整合性を示しており、ピアソン相関係数は0.78で、UCFEデータセットの有効性と評価アプローチを確認しています。
UCFEベンチマークは、金融ドメインにおけるLLMの可能性を明らかにするだけでなく、パフォーマンスとユーザーの満足度を評価するための堅牢なフレームワークも提供します。

要約(オリジナル)

This paper introduces the UCFE: User-Centric Financial Expertise benchmark, an innovative framework designed to evaluate the ability of large language models (LLMs) to handle complex real-world financial tasks. UCFE benchmark adopts a hybrid approach that combines human expert evaluations with dynamic, task-specific interactions to simulate the complexities of evolving financial scenarios. Firstly, we conducted a user study involving 804 participants, collecting their feedback on financial tasks. Secondly, based on this feedback, we created our dataset that encompasses a wide range of user intents and interactions. This dataset serves as the foundation for benchmarking 11 LLMs services using the LLM-as-Judge methodology. Our results show a significant alignment between benchmark scores and human preferences, with a Pearson correlation coefficient of 0.78, confirming the effectiveness of the UCFE dataset and our evaluation approach. UCFE benchmark not only reveals the potential of LLMs in the financial domain but also provides a robust framework for assessing their performance and user satisfaction.

arxiv情報

著者 Yuzhe Yang,Yifei Zhang,Yan Hu,Yilin Guo,Ruoli Gan,Yueru He,Mingcong Lei,Xiao Zhang,Haining Wang,Qianqian Xie,Jimin Huang,Honghai Yu,Benyou Wang
発行日 2025-02-07 08:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL, q-fin.CP | UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models はコメントを受け付けていません

Concept Navigation and Classification via Open Source Large Language Model Processing

要約

このペーパーでは、オープンソースの大手言語モデル(LLM)を使用したテキストデータから、フレーム、物語、トピックなどの潜在的な構造を検出および分類するための新しい方法論的フレームワークを紹介します。
提案されたハイブリッドアプローチは、自動化された要約と人間のループ検証を組み合わせて、構成識別の精度と解釈可能性を高めます。
専門家の洗練と組み合わせた反復サンプリングを採用することにより、フレームワークは方法論的堅牢性を保証し、概念的な精度を保証します。
AIポリシー討論、暗号化に関する新聞記事、20のNewsGroupsデータセットなど、多様なデータセットに適用されるこのアプローチは、複雑な政治的言説、メディアフレーミング、トピック分類タスクを体系的に分析する際の汎用性を示しています。

要約(オリジナル)

This paper presents a novel methodological framework for detecting and classifying latent constructs, including frames, narratives, and topics, from textual data using Open-Source Large Language Models (LLMs). The proposed hybrid approach combines automated summarization with human-in-the-loop validation to enhance the accuracy and interpretability of construct identification. By employing iterative sampling coupled with expert refinement, the framework guarantees methodological robustness and ensures conceptual precision. Applied to diverse data sets, including AI policy debates, newspaper articles on encryption, and the 20 Newsgroups data set, this approach demonstrates its versatility in systematically analyzing complex political discourses, media framing, and topic classification tasks.

arxiv情報

著者 Maël Kubli
発行日 2025-02-07 08:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | Concept Navigation and Classification via Open Source Large Language Model Processing はコメントを受け付けていません

ELITE: Enhanced Language-Image Toxicity Evaluation for Safety

要約

現在のビジョン言語モデル(VLM)は、有害な出力を誘導する悪意のあるプロンプトに対して脆弱なままです。
VLMの既存の安全ベンチマークは主に自動化された評価方法に依存していますが、これらの方法は暗黙の有害なコンテンツを検出したり、不正確な評価を生成するのに苦労しています。
したがって、既存のベンチマークには、有害レベルが低く、あいまいなデータ、および画像テキストペアの組み合わせにおける多様性が限られていることがわかりました。
これらの問題に対処するために、VLMSの高品質の安全評価ベンチマークであるElite {\ em Benchmark}を提案します。
エリート評価者は、マルチモーダルのコンテキストでの有害性を正確に評価するために毒性スコアを明示的に組み込みます。ここでは、VLMは多くの場合、特定の説得力のある、しかし無駄のない画像の説明を提供します。
エリート評価者を使用して、既存のベンチマークから曖昧で低品質の画像テキストペアを除外し、安全で安全でない画像テキストペアの多様な組み合わせを生成します。
私たちの実験は、エリート評価者が以前の自動化された方法と比較して人間の評価と優れた整合性を達成することを示しており、エリートベンチマークはベンチマークの品質と多様性の向上を提供することを示しています。
エリートを紹介することで、より安全で堅牢なVLMSへの道を開き、実際のアプリケーションで安全リスクを評価および緩和するための重要なツールを提供します。

要約(オリジナル)

Current Vision Language Models (VLMs) remain vulnerable to malicious prompts that induce harmful outputs. Existing safety benchmarks for VLMs primarily rely on automated evaluation methods, but these methods struggle to detect implicit harmful content or produce inaccurate evaluations. Therefore, we found that existing benchmarks have low levels of harmfulness, ambiguous data, and limited diversity in image-text pair combinations. To address these issues, we propose the ELITE {\em benchmark}, a high-quality safety evaluation benchmark for VLMs, underpinned by our enhanced evaluation method, the ELITE {\em evaluator}. The ELITE evaluator explicitly incorporates a toxicity score to accurately assess harmfulness in multimodal contexts, where VLMs often provide specific, convincing, but unharmful descriptions of images. We filter out ambiguous and low-quality image-text pairs from existing benchmarks using the ELITE evaluator and generate diverse combinations of safe and unsafe image-text pairs. Our experiments demonstrate that the ELITE evaluator achieves superior alignment with human evaluations compared to prior automated methods, and the ELITE benchmark offers enhanced benchmark quality and diversity. By introducing ELITE, we pave the way for safer, more robust VLMs, contributing essential tools for evaluating and mitigating safety risks in real-world applications.

arxiv情報

著者 Wonjun Lee,Doehyeon Lee,Eugene Choi,Sangyoon Yu,Ashkan Yousefpour,Haon Park,Bumsub Ham,Suhyun Kim
発行日 2025-02-07 08:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ELITE: Enhanced Language-Image Toxicity Evaluation for Safety はコメントを受け付けていません

SeDi-Instruct: Enhancing Alignment of Language Models through Self-Directed Instruction Generation

要約

大規模な言語モデル(LLMS)の急速な進化により、業界はさまざまなAIベースのサービスを開発することができました。
顧客に高品質のサービスを提供するために、ターゲットドメインの基礎モデルを適応させる際には、命令調整が不可欠であると考えられています。
命令調整における重要な課題は、高品質の命令データを取得することです。
CHATGPT APIを使用して命令データを自動的に生成する自己計算は、データ不足の問題を軽減します。
命令データの品質を向上させるために、自己インストラクションは、多くの役に立たないAPI呼び出しのためにコストに関しては非効率的であるにもかかわらず、ChatGptから生成された命令の多くを破棄します。
低コストで高品質の命令データを生成するために、多様性ベースのフィルタリングおよび反復フィードバックタスクの生成を採用する新しいデータ生成フレームワーク、自己指導命令生成(SEDI-INSTRUCT)を提案します。
多様性ベースのフィルタリングは、バッチ内の命令の多様性を強化することにより、低品質の生成された命令を過度に破棄することなく、モデルの精度を維持します。
これにより、命令データを合成するコストが削減されます。
反復フィードバックタスク生成は、命令の生成とトレーニングタスクを統合し、トレーニング中に得られた情報を利用して高品質の命令セットを作成します。
我々の結果は、堆積物インストラクションが、従来の方法と比較してAIモデルの精度を5.2%増加させ、データ生成コストを36%削減することを示しています。

要約(オリジナル)

The rapid evolution of Large Language Models (LLMs) has enabled the industry to develop various AI-based services. Instruction tuning is considered essential in adapting foundation models for target domains to provide high-quality services to customers. A key challenge in instruction tuning is obtaining high-quality instruction data. Self-Instruct, which automatically generates instruction data using ChatGPT APIs, alleviates the data scarcity problem. To improve the quality of instruction data, Self-Instruct discards many of the instructions generated from ChatGPT, even though it is inefficient in terms of cost owing to many useless API calls. To generate high-quality instruction data at a low cost, we propose a novel data generation framework, Self-Direct Instruction generation (SeDi-Instruct), which employs diversity-based filtering and iterative feedback task generation. Diversity-based filtering maintains model accuracy without excessively discarding low-quality generated instructions by enhancing the diversity of instructions in a batch. This reduces the cost of synthesizing instruction data. The iterative feedback task generation integrates instruction generation and training tasks and utilizes information obtained during the training to create high-quality instruction sets. Our results show that SeDi-Instruct enhances the accuracy of AI models by 5.2%, compared with traditional methods, while reducing data generation costs by 36%.

arxiv情報

著者 Jungwoo Kim,Minsang Kim,Sungjin Lee
発行日 2025-02-07 09:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SeDi-Instruct: Enhancing Alignment of Language Models through Self-Directed Instruction Generation はコメントを受け付けていません

Probing Internal Representations of Multi-Word Verbs in Large Language Models

要約

この研究では、変圧器ベースの大手言語モデル(LLM)内のマルチワード動詞と呼ばれる動詞粒子の組み合わせの内部表現を調査し、これらのモデルが異なるニューラルネットワーク層で語彙的および構文特性をキャプチャする方法を具体的に調べます。
Bertアーキテクチャを使用して、2つの異なる動詞粒子構造の層の表現を分析します。「あきらめる」などの句動詞と「見てください」のような前置詞動詞です。
私たちの方法論には、内部表現で分類を調査するトレーニングを含むために、これらのカテゴリを単語レベルと文レベルの両方で分類することが含まれます。
結果は、モデルの中間層が最高の分類精度を達成することを示しています。
これらの区別の性質をさらに分析するために、一般化識別値(GDV)を使用してデータ分離性テストを実施します。
GDVの結果は2つの動詞タイプ間で弱い線形分離性を示しますが、プロービング分類器は依然として高精度を達成し、これらの言語カテゴリの表現は非線形的に分離可能である可能性があることを示唆しています。
これは、ニューラルネットワークにおける言語の区別が常に直線的に分離可能な方法でエンコードされるとは限らないことを示す以前の研究と一致しています。
これらの調査結果は、動詞粒子構造の表現に関する使用法ベースの主張を計算し、ニューラルネットワークアーキテクチャと言語構造の間の複雑な相互作用を強調しています。

要約(オリジナル)

This study investigates the internal representations of verb-particle combinations, called multi-word verbs, within transformer-based large language models (LLMs), specifically examining how these models capture lexical and syntactic properties at different neural network layers. Using the BERT architecture, we analyze the representations of its layers for two different verb-particle constructions: phrasal verbs like ‘give up’ and prepositional verbs like ‘look at’. Our methodology includes training probing classifiers on the internal representations to classify these categories at both word and sentence levels. The results indicate that the model’s middle layers achieve the highest classification accuracies. To further analyze the nature of these distinctions, we conduct a data separability test using the Generalized Discrimination Value (GDV). While GDV results show weak linear separability between the two verb types, probing classifiers still achieve high accuracy, suggesting that representations of these linguistic categories may be non-linearly separable. This aligns with previous research indicating that linguistic distinctions in neural networks are not always encoded in a linearly separable manner. These findings computationally support usage-based claims on the representation of verb-particle constructions and highlight the complex interaction between neural network architectures and linguistic structures.

arxiv情報

著者 Hassane Kissane,Achim Schilling,Patrick Krauss
発行日 2025-02-07 09:49:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Probing Internal Representations of Multi-Word Verbs in Large Language Models はコメントを受け付けていません

S$^2$-MAD: Breaking the Token Barrier to Enhance Multi-Agent Debate Efficiency

要約

大規模な言語モデル(LLMS)は、さまざまな自然言語処理(NLP)シナリオにわたって顕著な機能を実証していますが、複雑な算術および論理的推論タスクを処理する際には依然として課題に直面しています。
チェーンオブ考え(COT)の推論、自己整合性(SC)および自己修正戦略は、モデルを連続的でマルチステップの推論でガイドしようとしました。
LLMSの推論機能。
エージェントの数と議論の頻度の両方を増やすことにより、LLMSのパフォーマンスが大幅に向上します。
ただし、この戦略により、トークンコストが大幅に増加し、スケーラビリティに対する障壁を提示します。
この課題に対処するために、MAD内のトークンコストを削減するために設計された新しいスパース化戦略を紹介します。
このアプローチは、エージェント間の情報と非生産的な議論の効果的な交換を最小限に抑え、それにより議論プロセスの全体的な効率を高めます。
私たちは、さまざまなモデルの複数のデータセットで比較実験を実施し、私たちのアプローチがMADのトークンコストを大幅に削減することを実証しています。
具体的には、MADと比較して、私たちのアプローチは、2.0 \%未満のパフォーマンスの劣化を維持しながら、トークンコストで最大94.5%の印象的な削減を達成します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities across various natural language processing (NLP) scenarios, but they still face challenges when handling complex arithmetic and logical reasoning tasks. While Chain-Of-Thought (CoT) reasoning, self-consistency (SC) and self-correction strategies have attempted to guide models in sequential, multi-step reasoning, Multi-agent Debate (MAD) has emerged as a viable approach for enhancing the reasoning capabilities of LLMs. By increasing both the number of agents and the frequency of debates, the performance of LLMs improves significantly. However, this strategy results in a significant increase in token costs, presenting a barrier to scalability. To address this challenge, we introduce a novel sparsification strategy designed to reduce token costs within MAD. This approach minimizes ineffective exchanges of information and unproductive discussions among agents, thereby enhancing the overall efficiency of the debate process. We conduct comparative experiments on multiple datasets across various models, demonstrating that our approach significantly reduces the token costs in MAD to a considerable extent. Specifically, compared to MAD, our approach achieves an impressive reduction of up to 94.5\% in token costs while maintaining performance degradation below 2.0\%.

arxiv情報

著者 Yuting Zeng,Weizhe Huang,Lei Jiang,Tongxuan Liu,Xitai Jin,Chen Tianying Tiana,Jing Li,Xiaohua Xu
発行日 2025-02-07 09:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | S$^2$-MAD: Breaking the Token Barrier to Enhance Multi-Agent Debate Efficiency はコメントを受け付けていません

Developmentally-plausible Working Memory Shapes a Critical Period for Language Acquisition

要約

大規模な言語モデルは一般的な言語能力を示しますが、言語習得の効率が人間とは大きく異なります。
この研究では、人間の言語習得が特に効率的である段階で言語モデルに、作業記憶の発達特性を統合する方法を提案しています。
提案された方法は、トレーニングの初期段階で最初に作業記憶を制約し、学習が進むにつれてこの制約を指数関数的に徐々に緩和するメカニズムを導入します。
ターゲットを絞った構文評価は、提案された方法が、メモリの制約や静的メモリの制約のない従来のモデルよりも優れていることを示しています。
これらの調査結果は、データ効率の良い言語モデルを設計するための新しい方向性を提供するだけでなく、人間の言語習得における重要な時期仮説の根本的なメカニズムを支持する間接的な証拠も提供します。

要約(オリジナル)

Large language models exhibit general linguistic abilities but significantly differ from humans in their efficiency of language acquisition. This study proposes a method for integrating the developmental characteristics of working memory during the critical period, a stage when human language acquisition is particularly efficient, into language models. The proposed method introduces a mechanism that initially constrains working memory during the early stages of training and gradually relaxes this constraint in an exponential manner as learning progresses. Targeted syntactic evaluation shows that the proposed method outperforms conventional models without memory constraints or with static memory constraints. These findings not only provide new directions for designing data-efficient language models but also offer indirect evidence supporting the underlying mechanisms of the critical period hypothesis in human language acquisition.

arxiv情報

著者 Masato Mita,Ryo Yoshida,Yohei Oseki
発行日 2025-02-07 09:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Developmentally-plausible Working Memory Shapes a Critical Period for Language Acquisition はコメントを受け付けていません

Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks

要約

フリーテキストの説明は表現力豊かで理解しやすいですが、多くのデータセットには注釈付きの説明データがないため、説明可能な予測のためにモデルを訓練することが困難です。
これに対処するために、既存の説明データセットを自己合理化に使用する方法を調査し、モデルの分散分布(OOD)パフォーマンスを評価します。
T5-LargeおよびOLMO-7Bモデルを微調整し、微調整データ品質の影響、微調整サンプルの数、および少数のショット選択方法を評価します。
モデルは、抽象的要約における自然言語推論(NLI)、ファクトチェック、および幻覚検出の3つのタスクにわたる19の多様なOODデータセットで評価されます。
生成された説明評価では、13の選択されたモデルに関する人間の研究を実施し、受容性スコア(T5-11B)および他の3つのLLMベースの参照フリーメトリックとの相関関係を研究します。
人間の評価は、受容性スコアが人間の判断と最も強く相関していることを示しており、フリーテキストの説明を評価する際の有効性を示しています。
私たちの調査結果は、次のように明らかになりました。1)注釈付きの例は、OOD説明生成のモデルを効果的に適応させます。
2)サンプル選択戦略と比較して、微調整データソースはOODパフォーマンスに大きな影響を与えます。
3)ラベル予測の精度が高いモデルは、より高い受容性スコアに反映されるように、より良い説明を生成する傾向があります。

要約(オリジナル)

Free-text explanations are expressive and easy to understand, but many datasets lack annotated explanation data, making it challenging to train models for explainable predictions. To address this, we investigate how to use existing explanation datasets for self-rationalization and evaluate models’ out-of-distribution (OOD) performance. We fine-tune T5-Large and OLMo-7B models and assess the impact of fine-tuning data quality, the number of fine-tuning samples, and few-shot selection methods. The models are evaluated on 19 diverse OOD datasets across three tasks: natural language inference (NLI), fact-checking, and hallucination detection in abstractive summarization. For the generated explanation evaluation, we conduct a human study on 13 selected models and study its correlation with the Acceptability score (T5-11B) and three other LLM-based reference-free metrics. Human evaluation shows that the Acceptability score correlates most strongly with human judgments, demonstrating its effectiveness in evaluating free-text explanations. Our findings reveal: 1) few annotated examples effectively adapt models for OOD explanation generation; 2) compared to sample selection strategies, fine-tuning data source has a larger impact on OOD performance; and 3) models with higher label prediction accuracy tend to produce better explanations, as reflected by higher Acceptability scores.

arxiv情報

著者 Jing Yang,Max Glockner,Anderson Rocha,Iryna Gurevych
発行日 2025-02-07 10:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks はコメントを受け付けていません

CASE-Bench: Context-Aware SafEty Benchmark for Large Language Models

要約

大規模な言語モデル(LLM)を人間の価値観に合わせて、安全な展開と広範な採用には不可欠です。
現在のLLM安全ベンチマークは、多くの場合、個々の問題のあるクエリの拒否のみに焦点を当てています。これは、ユーザーエクスペリエンスを減らす安全なコンテキストの下でクエリが発生し、望ましくないクエリの拒否を引き起こす可能性のあるコンテキストの重要性を見下ろします。
このギャップに対処するには、コンテキストをLLMSの安全評価に統合するコンテキスト対応の安全ベンチマークであるケースベンチを紹介します。
ケースベンチは、文脈的整合性理論に基づいて、明確で正式に説明されたコンテキストを分類されたクエリに割り当てます。
さらに、主に少数のアノテーターからの過半数の投票に依存していた以前の研究とは対照的に、電力分析に基づいた実験条件間の統計的に有意な差の検出を確保するために必要な十分な数のアノテーターを募集しました。
さまざまなオープンソースおよび商業LLMのケースベンチを使用した広範な分析は、安全評価におけるコンテキストの必要性を強調し、人間の判断に対するコンテキストの実質的かつ重要な影響を明らかにしています(ZテストからのP <0.0001)。 また、特に安全なコンテキスト内の商業モデルで、人間の判断とLLM応答の間の顕著な不一致を特定します。

要約(オリジナル)

Aligning large language models (LLMs) with human values is essential for their safe deployment and widespread adoption. Current LLM safety benchmarks often focus solely on the refusal of individual problematic queries, which overlooks the importance of the context where the query occurs and may cause undesired refusal of queries under safe contexts that diminish user experience. Addressing this gap, we introduce CASE-Bench, a Context-Aware SafEty Benchmark that integrates context into safety assessments of LLMs. CASE-Bench assigns distinct, formally described contexts to categorized queries based on Contextual Integrity theory. Additionally, in contrast to previous studies which mainly rely on majority voting from just a few annotators, we recruited a sufficient number of annotators necessary to ensure the detection of statistically significant differences among the experimental conditions based on power analysis. Our extensive analysis using CASE-Bench on various open-source and commercial LLMs reveals a substantial and significant influence of context on human judgments (p<0.0001 from a z-test), underscoring the necessity of context in safety evaluations. We also identify notable mismatches between human judgments and LLM responses, particularly in commercial models within safe contexts.

arxiv情報

著者 Guangzhi Sun,Xiao Zhan,Shutong Feng,Philip C. Woodland,Jose Such
発行日 2025-02-07 10:23:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | CASE-Bench: Context-Aware SafEty Benchmark for Large Language Models はコメントを受け付けていません