Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts?

要約

著者の検証は、2つの異なるライティングサンプルが同じ著者を共有しているかどうかを判断するタスクであり、通常、書かれたテキストの帰属に関係しています。
この論文では、転写されたスピーチの帰属を調査します。これは、新しい課題をもたらします。
主な課題は、句読点や大文字などの多くのスタイルの特徴がこの設定では有益ではないことです。
一方、転写された音声は、異なるスピーカーの特徴である可能性のあるフィラーの単語やバックチャネル(「um」、「uh-huh」など)などの他のパタ​​ーンを示します。
人間転写された会話音声成績証明書に焦点を当てたスピーカーの帰属の新しいベンチマークを提案します。
スピーカーとトピックとの偽の関連性を制限するために、同じ会話に参加する会話プロンプトとスピーカーの両方を使用して、さまざまな困難の検証試験を作成します。
私たちは、一連のニューラルと非ネオラルのベースラインを比較することにより、この新しいベンチマークの最先端を確立し、書かれたテキストの帰属モデルは特定の設定で驚くほど良いパフォーマンスを達成しますが、会話のトピックがますます制御されるにつれて著しく悪いパフォーマンスを発揮することを発見しました。
転写スタイルがパフォーマンスに与える影響の分析と、パフォーマンスを改善するための音声転写産物に対する微調整の能力を示します。

要約(オリジナル)

Authorship verification is the task of determining if two distinct writing samples share the same author and is typically concerned with the attribution of written text. In this paper, we explore the attribution of transcribed speech, which poses novel challenges. The main challenge is that many stylistic features, such as punctuation and capitalization, are not informative in this setting. On the other hand, transcribed speech exhibits other patterns, such as filler words and backchannels (e.g., ‘um’, ‘uh-huh’), which may be characteristic of different speakers. We propose a new benchmark for speaker attribution focused on human-transcribed conversational speech transcripts. To limit spurious associations of speakers with topic, we employ both conversation prompts and speakers participating in the same conversation to construct verification trials of varying difficulties. We establish the state of the art on this new benchmark by comparing a suite of neural and non-neural baselines, finding that although written text attribution models achieve surprisingly good performance in certain settings, they perform markedly worse as conversational topic is increasingly controlled. We present analyses of the impact of transcription style on performance as well as the ability of fine-tuning on speech transcripts to improve performance.

arxiv情報

著者 Cristina Aggazzotti,Nicholas Andrews,Elizabeth Allyn Smith
発行日 2025-05-16 15:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? はコメントを受け付けていません

Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models

要約

重要な質問生成(CQS-Gen)のタスクは、システムが仮定を公開する質問を生成し、議論の推論に挑戦できるようにすることにより、批判的思考を促進することを目指しています。
この分野への関心が高まっているにもかかわらず、適切なデータセットと自動評価基準がないことにより、進歩が妨げられています。
この作業は、このタスクのシステムの開発とベンチマークをサポートする包括的なアプローチを提示します。
最初の大規模な手動で解決されたデータセットを構築します。
また、自動評価方法を調査し、人間の判断と最もよく相関する戦略として、大規模な言語モデル(LLMS)を使用した参照ベースの手法を特定します。
11 LLMのゼロショット評価は、タスクの難しさを紹介しながら、強力なベースラインを確立します。
データ、コード、およびパブリックリーダーボードは、モデルのパフォーマンスの観点からだけでなく、自動化された推論と人間の批判的思考の両方についてCQS-Genの実際的な利点を探求するために、さらなる研究を促進するために提供されます。

要約(オリジナル)

The task of Critical Questions Generation (CQs-Gen) aims to foster critical thinking by enabling systems to generate questions that expose assumptions and challenge the reasoning in arguments. Despite growing interest in this area, progress has been hindered by the lack of suitable datasets and automatic evaluation standards. This work presents a comprehensive approach to support the development and benchmarking of systems for this task. We construct the first large-scale manually-annotated dataset. We also investigate automatic evaluation methods and identify a reference-based technique using large language models (LLMs) as the strategy that best correlates with human judgments. Our zero-shot evaluation of 11 LLMs establishes a strong baseline while showcasing the difficulty of the task. Data, code, and a public leaderboard are provided to encourage further research not only in terms of model performance, but also to explore the practical benefits of CQs-Gen for both automated reasoning and human critical thinking.

arxiv情報

著者 Banca Calvo Figueras,Rodrigo Agerri
発行日 2025-05-16 15:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models はコメントを受け付けていません

FOReCAst: The Future Outcome Reasoning and Confidence Assessment Benchmark

要約

予測は、テクノロジーや経済学など、多くのドメインで重要なタスクです。
ただし、既存の予測ベンチマークには、包括的な信頼評価がほとんどなく、限られた質問タイプに焦点を当てており、多くの場合、実際の人間の予測ニーズと一致しない人為的な質問で構成されています。
これらのギャップに対処するために、予測(将来の結果の推論と信頼評価)を紹介します。これは、モデルの予測能力とそれらに対する自信を評価するベンチマークです。
予測には、ブールの質問、時間枠の予測、および数量推定を含む多様な予測シナリオに及び、現実世界アプリケーションの予測精度と信頼キャリブレーションの両方の包括的な評価を可能にします。

要約(オリジナル)

Forecasting is an important task in many domains, such as technology and economics. However existing forecasting benchmarks largely lack comprehensive confidence assessment, focus on limited question types, and often consist of artificial questions that do not align with real-world human forecasting needs. To address these gaps, we introduce FOReCAst (Future Outcome Reasoning and Confidence Assessment), a benchmark that evaluates models’ ability to make predictions and their confidence in them. FOReCAst spans diverse forecasting scenarios involving Boolean questions, timeframe prediction, and quantity estimation, enabling a comprehensive evaluation of both prediction accuracy and confidence calibration for real-world applications.

arxiv情報

著者 Zhangdie Yuan,Zifeng Ding,Andreas Vlachos
発行日 2025-05-16 15:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | FOReCAst: The Future Outcome Reasoning and Confidence Assessment Benchmark はコメントを受け付けていません

LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors

要約

最近、大規模な事前訓練を受けた音声エンコーダと大規模な言語モデル(LLM)がリリースされました。これは、自動音声認識(ASR)を含むさまざまな音声言語処理タスクで最先端のパフォーマンスを示しています。
両方のモデルを効果的に組み合わせて、パフォーマンスを向上させるために、連続音声プロンプト、およびASRエラー補正が採用されています。
ただし、これらの方法は最適でないパフォーマンスが発生しやすいものであるか、柔軟性があります。
この論文では、ASR事後マトリックスを使用して音声エンコーダとLLMをブリッジする新しいパラダイム、LegoSLMを提案します。
音声エンコーダは、LLMの語彙を介してコネクショニストの時間的分類(CTC)後眼鏡を生成するように訓練されています。これは、LLM入力埋め込みの加重合計を計算することにより、擬似オーディオ埋め込みを再構築するために使用されます。
これらの埋め込みは、LLM入力空間にテキスト埋め込みと連結されています。
例として、パフォーマンスの良いUSMおよびGEMMAモデルを使用して、提案されているLEGOSLMメソッドがASRと音声翻訳タスクの両方で良好なパフォーマンスをもたらすことを示します。
USMをGEMMAモデルと接続することにより、8 MLSテストセットでUSM-CTCベースラインで平均49%WERRを取得できます。
訓練されたモデルは、GEMMAモデルの重みを微調整した後、スピーチエンコーダーをゼロショットでLLMと組み合わせることができます。
さらに、ソフトマックス温度を使用してUSMとLLMのデコード時間の影響を制御することを提案します。これは、ドメイン適応の有効性を示しています。

要約(オリジナル)

Recently, large-scale pre-trained speech encoders and Large Language Models (LLMs) have been released, which show state-of-the-art performance on a range of spoken language processing tasks including Automatic Speech Recognition (ASR). To effectively combine both models for better performance, continuous speech prompts, and ASR error correction have been adopted. However, these methods are prone to suboptimal performance or are inflexible. In this paper, we propose a new paradigm, LegoSLM, that bridges speech encoders and LLMs using the ASR posterior matrices. The speech encoder is trained to generate Connectionist Temporal Classification (CTC) posteriors over the LLM vocabulary, which are used to reconstruct pseudo-audio embeddings by computing a weighted sum of the LLM input embeddings. These embeddings are concatenated with text embeddings in the LLM input space. Using the well-performing USM and Gemma models as an example, we demonstrate that our proposed LegoSLM method yields good performance on both ASR and speech translation tasks. By connecting USM with Gemma models, we can get an average of 49% WERR over the USM-CTC baseline on 8 MLS testsets. The trained model also exhibits modularity in a range of settings — after fine-tuning the Gemma model weights, the speech encoder can be switched and combined with the LLM in a zero-shot fashion. Additionally, we propose to control the decode-time influence of the USM and LLM using a softmax temperature, which shows effectiveness in domain adaptation.

arxiv情報

著者 Rao Ma,Tongzhou Chen,Kartik Audhkhasi,Bhuvana Ramabhadran
発行日 2025-05-16 15:15:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors はコメントを受け付けていません

Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More

要約

大規模な言語モデル(LLM)は、重要な情報の正確な取得に苦しむことが発見されています。
これに対処するために、マスク強化された自己回帰予測(MEAP)を提案します。これは、マスクされた言語モデリング(MLM)を次のトークン予測(NTP)にシームレスに統合して、後者のコンテキスト内検索機能を強化するシンプルで効果的なトレーニングパラダイムです。
具体的には、MEAPは最初に入力トークンのごく一部をランダムにマスクし、次にデコーダーのみの変圧器を使用して標準の次のトークン予測を自動再生的に直接実行します。
MEAPは、MLMの双方向の注意またはエンコーダーデコーダーアーキテクチャの必要性を排除し、トレーニング前または推論中に追加の計算オーバーヘッドを発生させません。
集中的な実験は、MEAPが主要な情報検索と長いコンテキスト推論のタスクでNTPを実質的に上回ることを示しています。
MEAPの利点は、監督された微調整にも及びます。そこでは、中間の紛失シナリオで顕著な利点を示し、NTPを11.77パーセントポイント上回ることができます。
私たちの分析は、MEAPの有効性が、マスクされていないトークンの縮小セットに集中することにより、より識別可能な注意スコアを促進する能力から生じることを示しています。
このメカニズムは、末梢コンテキストの影響を軽減しながら、タスク関連信号にモデルの焦点を向上させます。
これらの調査結果は、大規模な言語モデルの有望なトレーニングパラダイムとしてMEAPを位置付けています。

要約(オリジナル)

Large Language Models (LLMs) are discovered to suffer from accurately retrieving key information. To address this, we propose Mask-Enhanced Autoregressive Prediction (MEAP), a simple yet effective training paradigm that seamlessly integrates Masked Language Modeling (MLM) into Next-Token Prediction (NTP) to enhance the latter’s in-context retrieval capabilities. Specifically, MEAP first randomly masks a small fraction of input tokens and then directly performs the standard next-token prediction autoregressive using a decoder-only Transformer. MEAP eliminates the need for bidirectional attention or encoder-decoder architectures for MLM, incurring no additional computational overhead during pre-training or inference. Intensive experiments demonstrate that MEAP substantially outperforms NTP on key information retrieval and long-context reasoning tasks, while performing on par or better on commonsense reasoning tasks. The benefits of MEAP also extend to supervised fine-tuning, where it shows remarkable advantages in lost-in-the-middle scenarios, outperforming NTP by 11.77 percentage points. Our analysis indicates that MEAP’s effectiveness arises from its ability to promote more distinguishable attention scores by concentrating on a reduced set of non-masked tokens. This mechanism improves the model’s focus on task-relevant signals while mitigating the influence of peripheral context. These findings position MEAP as a promising training paradigm for large language models.

arxiv情報

著者 Xialie Zhuang,Zhikai Jia,Jianjin Li,Zhenyu Zhang,Li Shen,Zheng Cao,Shiwei Liu
発行日 2025-05-16 15:21:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More はコメントを受け付けていません

GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents

要約

大規模な言語モデル(LLM)は、ユーザーの指示に従い、実際のアプリケーションで決定を下すことができる自律エージェントとして広く展開されています。
以前の研究では、一般的なドメインにおけるLLMの能力に従って命令のベンチマークに顕著な進歩を遂げており、その固有の常識的な知識に主に焦点を当てています。
最近、LLMはドメイン指向のエージェントとしてますます展開されており、それは彼らの常識的な知識と矛盾する可能性のあるドメイン指向のガイドラインに依存しています。
これらのガイドラインは、2つの重要な特性を示しています。これらは、幅広いドメイン指向のルールで構成され、頻繁に更新される可能性があります。
これらの課題にもかかわらず、LLMSの能力に従ってドメイン指向のガイドラインを評価するための包括的なベンチマークがないことは、効果的な評価とさらなる開発に大きな障害を提示します。
この論文では、LLMSのパフォーマンス後のガイドラインを評価するために設計された包括的なベンチマークであるGuideBenchを紹介します。
GuideBenchは、3つの重要な側面についてLLMを評価します。(i)多様なルールへの順守、(ii)更新をルールするための堅牢性、および(iii)人間の好みとの調整。
LLMの範囲での実験結果は、ドメイン指向のガイドラインに従う能力を向上させる大きな機会を示しています。

要約(オリジナル)

Large language models (LLMs) have been widely deployed as autonomous agents capable of following user instructions and making decisions in real-world applications. Previous studies have made notable progress in benchmarking the instruction following capabilities of LLMs in general domains, with a primary focus on their inherent commonsense knowledge. Recently, LLMs have been increasingly deployed as domain-oriented agents, which rely on domain-oriented guidelines that may conflict with their commonsense knowledge. These guidelines exhibit two key characteristics: they consist of a wide range of domain-oriented rules and are subject to frequent updates. Despite these challenges, the absence of comprehensive benchmarks for evaluating the domain-oriented guideline following capabilities of LLMs presents a significant obstacle to their effective assessment and further development. In this paper, we introduce GuideBench, a comprehensive benchmark designed to evaluate guideline following performance of LLMs. GuideBench evaluates LLMs on three critical aspects: (i) adherence to diverse rules, (ii) robustness to rule updates, and (iii) alignment with human preferences. Experimental results on a range of LLMs indicate substantial opportunities for improving their ability to follow domain-oriented guidelines.

arxiv情報

著者 Lingxiao Diao,Xinyue Xu,Wanxuan Sun,Cheng Yang,Zhuosheng Zhang
発行日 2025-05-16 15:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents はコメントを受け付けていません

A computational system to handle the orthographic layer of tajwid in contemporary Quranic Orthography

要約

現代のコーラニック正書法(CQO)は、コーランが本質的に口頭で主に口頭であり、それの最初の書かれたレンダリングがこの口頭の伝統の記憶補助具として役立ったイスラムの初期段階にまでさかのぼることができる音声表記の正確なシステムに依存しています。
コーランの子音のテキスト(QCT)の上に作成された異なるマークの初期のシステムは、Tajwidを表す音声表記の細かいシステムの作成とさらなる開発を動機付け、朗読のルールを動機付けました。
コーランのテキストの完全かつ正確にエンコードされたデジタル版を使用して、カイロコーランで遭遇するように、タージュウィッドの規則の体系性を調査しました。
この目的のために、CQOのコーランテキストからTajwidの正書法層を削除または追加できるPythonモジュールを開発しました。
これらの2つのルールセットの興味深い特徴は、カイロコーランの完全なコーランテキストに対処することであるため、音声と韻律のプロセスを研究するために正確な証人として使用できます。
計算の観点から、カイロコーランのテキストは、その豊かさと完全性のために、コーランの原稿を調整および比較するためのリンチピンとして使用できます。
これにより、分離されたテキスト内だけでなく、他の接続された原稿の特定のテキスト現象を自動的に探索するための非常に強力なフレームワークを作成することができます。
互いにマッピングされたすべてのテキストを持つことは、子音の骨格に追加されたディアチックの表記システムの性質を研究するための強力なツールとして機能します。

要約(オリジナル)

Contemporary Quranic Orthography (CQO) relies on a precise system of phonetic notation that can be traced back to the early stages of Islam, when the Quran was mainly oral in nature and the first written renderings of it served as memory aids for this oral tradition. The early systems of diacritical marks created on top of the Quranic Consonantal Text (QCT) motivated the creation and further development of a fine-grained system of phonetic notation that represented tajwid-the rules of recitation. We explored the systematicity of the rules of tajwid, as they are encountered in the Cairo Quran, using a fully and accurately encoded digital edition of the Quranic text. For this purpose, we developed a python module that can remove or add the orthographic layer of tajwid from a Quranic text in CQO. The interesting characteristic of these two sets of rules is that they address the complete Quranic text of the Cairo Quran, so they can be used as precise witnesses to study its phonetic and prosodic processes. From a computational point of view, the text of the Cairo Quran can be used as a linchpin to align and compare Quranic manuscripts, due to its richness and completeness. This will let us create a very powerful framework to work with the Arabic script, not just within an isolated text, but automatically exploring a specific textual phenomenon in other connected manuscripts. Having all the texts mapped among each other can serve as a powerful tool to study the nature of the notation systems of diacritics added to the consonantal skeleton.

arxiv情報

著者 Alicia González Martínez
発行日 2025-05-16 15:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A computational system to handle the orthographic layer of tajwid in contemporary Quranic Orthography はコメントを受け付けていません

iAgent: LLM Agent as a Shield between User and Recommender Systems

要約

従来の推奨システムは通常、ユーザープラットフォームのパラダイムを採用します。ユーザーは、プラットフォームの推奨アルゴリズムの制御下で直接公開されます。
ただし、推奨アルゴリズムの欠陥は、このパラダイムの下でユーザーを非常に脆弱な位置に置く可能性があります。
第一に、多くの洗練されたモデルは、多くの場合、商業目標を念頭に置いて設計されており、プラットフォームの利点に焦点を当てており、ユーザーの真の関心を保護およびキャプチャする能力を妨げる可能性があります。
第二に、これらのモデルは通常、すべてのユーザーのデータを使用して最適化されており、個々のユーザーの好みを見落とす可能性があります。
これらの欠点により、ユーザーは、推奨システムの制御の欠如、プラットフォームによる潜在的な操作、エコーチャンバー効果、協力学習中のアクティブユーザーの優位性の低いユーザーのパーソナライズの欠如など、従来のユーザープラットフォーム直接露出パラダイムの下でいくつかの欠点を経験する場合があります。
したがって、ユーザーの関心を保護し、これらの問題を軽減するために、新しいパラダイムを開発する緊急の必要性があります。
最近、一部の研究者がユーザーの動作をシミュレートするためにLLMエージェントを導入しました。これらのアプローチは主にプラットフォーム側のパフォーマンスを最適化することを目指しており、推奨システムのコア問題を解決していません。
これらの制限に対処するために、エージェントが間接的な露出を可能にするユーザーと推奨システムの間の保護シールドとして機能する新しいユーザーエージェントプラットフォームパラダイムを提案します。

要約(オリジナル)

Traditional recommender systems usually take the user-platform paradigm, where users are directly exposed under the control of the platform’s recommendation algorithms. However, the defect of recommendation algorithms may put users in very vulnerable positions under this paradigm. First, many sophisticated models are often designed with commercial objectives in mind, focusing on the platform’s benefits, which may hinder their ability to protect and capture users’ true interests. Second, these models are typically optimized using data from all users, which may overlook individual user’s preferences. Due to these shortcomings, users may experience several disadvantages under the traditional user-platform direct exposure paradigm, such as lack of control over the recommender system, potential manipulation by the platform, echo chamber effects, or lack of personalization for less active users due to the dominance of active users during collaborative learning. Therefore, there is an urgent need to develop a new paradigm to protect user interests and alleviate these issues. Recently, some researchers have introduced LLM agents to simulate user behaviors, these approaches primarily aim to optimize platform-side performance, leaving core issues in recommender systems unresolved. To address these limitations, we propose a new user-agent-platform paradigm, where agent serves as the protective shield between user and recommender system that enables indirect exposure.

arxiv情報

著者 Wujiang Xu,Yunxiao Shi,Zujie Liang,Xuying Ning,Kai Mei,Kun Wang,Xi Zhu,Min Xu,Yongfeng Zhang
発行日 2025-05-16 15:43:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | iAgent: LLM Agent as a Shield between User and Recommender Systems はコメントを受け付けていません

Training of Scaffolded Language Models with Language Supervision: A Survey

要約

この調査では、訓練後のLMS周辺の新興構造の設計と最適化に関する複雑な文献を開催しています。
この包括的な構造を足場LMSと呼び、ツールを使用してマルチステッププロセスに統合されているLMSに焦点を当てます。
足場LMSは、プロンプト、ツール、および足場のコードを含むノンパラメトリック変数をトレーニングする半パラメトリックモデルと見なしています。
特に、指示を解釈し、ツールを使用し、すべての言語でフィードバックを受け取ります。
最近の研究では、LMをオプティマイザーとして使用して、言語監督を解釈し、複雑な目的に従ってノンパラメトリック変数を更新します。
この調査では、このパラダイムを、言語監督の足場LMSのトレーニングと呼びます。
ノンパラメトリックトレーニングの重要な機能は、言語から学ぶ能力です。
パラメトリックトレーニングは、明確に定義された損失関数を使用して、デモンストレーション(監視された学習)、探索(強化学習)、または観察(監視されていない学習)からの学習に優れています。
言語ベースの最適化により、リッチ、解釈可能、表現力のある目的が可能になり、壊滅的な忘れや閉鎖モデルとの互換性をサポートするなどの問題を軽減します。
さらに、エージェントは、オフィスツールやソフトウェア開発のCopilotなどの実際のアプリケーションの同僚としてますます展開されています。
人間とAIの間で制御と意思決定が共有されるこれらの混合自動環境では、ユーザーはエラーを指摘するか、修正を提案します。
したがって、このリアルタイムの言語ベースのフィードバックから学習することで継続的に改善するエージェントについて説明し、この設定を言語監督からのストリーミング学習と呼びます。

要約(オリジナル)

This survey organizes the intricate literature on the design and optimization of emerging structures around post-trained LMs. We refer to this overarching structure as scaffolded LMs and focus on LMs that are integrated into multi-step processes with tools. We view scaffolded LMs as semi-parametric models wherein we train non-parametric variables, including the prompt, tools, and scaffold’s code. In particular, they interpret instructions, use tools, and receive feedback all in language. Recent works use an LM as an optimizer to interpret language supervision and update non-parametric variables according to intricate objectives. In this survey, we refer to this paradigm as training of scaffolded LMs with language supervision. A key feature of non-parametric training is the ability to learn from language. Parametric training excels in learning from demonstration (supervised learning), exploration (reinforcement learning), or observations (unsupervised learning), using well-defined loss functions. Language-based optimization enables rich, interpretable, and expressive objectives, while mitigating issues like catastrophic forgetting and supporting compatibility with closed-source models. Furthermore, agents are increasingly deployed as co-workers in real-world applications such as Copilot in Office tools or software development. In these mixed-autonomy settings, where control and decision-making are shared between human and AI, users point out errors or suggest corrections. Accordingly, we discuss agents that continuously improve by learning from this real-time, language-based feedback and refer to this setting as streaming learning from language supervision.

arxiv情報

著者 Matthieu Lin,Jenny Sheng,Andrew Zhao,Shenzhi Wang,Yang Yue,Victor Shea Jay Huang,Huan Liu,Jun Liu,Gao Huang,Yong-Jin Liu
発行日 2025-05-16 16:01:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Training of Scaffolded Language Models with Language Supervision: A Survey はコメントを受け付けていません

CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs

要約

大規模な言語モデル(LLM)は、医療の文脈でますます展開されており、敵対的操作に対する安全性、アライメント、および感受性に関する重要な懸念を引き起こしています。
以前のベンチマークは、有害なプロンプトのモデル拒否能力を評価しますが、多くの場合、臨床的特異性、段階的な有害レベル、脱獄スタイルの攻撃のカバレッジを欠いています。
ヘルスケアのLLM安全性を評価するためのベンチマークであるケア(臨床的敵対的堅牢性と安全性の評価)を紹介します。
ケアには、8つの医療安全原則、4つの害レベル、および4つのプロンプトスタイルにまたがる18,000を超えるプロンプトが含​​まれます:直接、間接、難読化、およびロールプレイには、悪意のあるユースケースの両方をシミュレートします。
モデルの動作を評価するために、3方向応答評価プロトコル(Accept、Caution、Reduse)と細粒の安全性スコアメトリックを提案します。
私たちの分析により、多くの最先端のLLMは、有害なプロンプトを微妙に言い換えると同時に、安全ではあるが非定型的に表現されたクエリを繰り返す脱獄に対して脆弱なままであることが明らかになりました。
最後に、軽量分類器を使用して緩和戦略を提案し、脱獄の試みを検出し、リマインダーベースのコンディショニングを介してより安全な動作に向けてモデルを操縦します。
CAREは、敵対的および曖昧な状態で医療LLMの安全性をテストおよび改善するための厳格な枠組みを提供します。

要約(オリジナル)

Large language models (LLMs) are increasingly deployed in medical contexts, raising critical concerns about safety, alignment, and susceptibility to adversarial manipulation. While prior benchmarks assess model refusal capabilities for harmful prompts, they often lack clinical specificity, graded harmfulness levels, and coverage of jailbreak-style attacks. We introduce CARES (Clinical Adversarial Robustness and Evaluation of Safety), a benchmark for evaluating LLM safety in healthcare. CARES includes over 18,000 prompts spanning eight medical safety principles, four harm levels, and four prompting styles: direct, indirect, obfuscated, and role-play, to simulate both malicious and benign use cases. We propose a three-way response evaluation protocol (Accept, Caution, Refuse) and a fine-grained Safety Score metric to assess model behavior. Our analysis reveals that many state-of-the-art LLMs remain vulnerable to jailbreaks that subtly rephrase harmful prompts, while also over-refusing safe but atypically phrased queries. Finally, we propose a mitigation strategy using a lightweight classifier to detect jailbreak attempts and steer models toward safer behavior via reminder-based conditioning. CARES provides a rigorous framework for testing and improving medical LLM safety under adversarial and ambiguous conditions.

arxiv情報

著者 Sijia Chen,Xiaomin Li,Mengxue Zhang,Eric Hanchen Jiang,Qingcheng Zeng,Chen-Hsiang Yu
発行日 2025-05-16 16:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CARES: Comprehensive Evaluation of Safety and Adversarial Robustness in Medical LLMs はコメントを受け付けていません