Human Decision-making is Susceptible to AI-driven Manipulation

要約

人工知能(AI)システムは、日常生活とますます絡み合っており、ユーザーがさまざまなタスクを実行し、意思決定に関するガイダンスを提供するのを支援しています。
この統合は、AI駆動型の操作のリスクをもたらします。このようなシステムは、ユーザーの認知バイアスと感情的な脆弱性を悪用して、有害な結果に向かって誘導する可能性があります。
233人の参加者とのランダム化比較試験を通じて、財務(例:購入)および感情的な(紛争解決など)意思決定コンテキストでのそのような操作に対する人間の感受性を調べました。
参加者は、3つのAIエージェントのいずれかと相互作用しました:明示的な影響なしにユーザーの利益を最適化する中立エージェント(NA)、信念と行動にひどく影響するように設計された操作エージェント(MA)、または明示的な心理学を採用する戦略強化操作エージェント(SEMA)
その隠れた目的に到達する戦術。
参加者の決定パターンと相互作用後の好みの評価のシフトを分析することにより、AI駆動型の操作に対する著しい感受性を発見しました。
特に、両方の意思決定ドメインで、操作剤と対話する参加者は、実質的に高いレートで有害なオプションにシフトしました(金融、MA:62.3%、SEMA:59.6%;感情、MA:42.3%、SEMA:41.5%)
NAグループ(金融、35.8%、感情、12.8%)。
特に、我々の調査結果は、微妙な操作目的(MA)でさえ、人間の意思決定を揺るがす際に明示的な心理的戦略(SEMA)を採用するのと同じくらい効果的であることが明らかになっています。
秘密のAIの影響の可能性を明らかにすることにより、この研究は、人間との相互作用における重大な脆弱性を強調し、AI技術の責任ある展開を確保し、人間の自律性を保護するために倫理的保障措置と規制枠組みの必要性を強調します。

要約(オリジナル)

Artificial Intelligence (AI) systems are increasingly intertwined with daily life, assisting users in executing various tasks and providing guidance on decision-making. This integration introduces risks of AI-driven manipulation, where such systems may exploit users’ cognitive biases and emotional vulnerabilities to steer them toward harmful outcomes. Through a randomized controlled trial with 233 participants, we examined human susceptibility to such manipulation in financial (e.g., purchases) and emotional (e.g., conflict resolution) decision-making contexts. Participants interacted with one of three AI agents: a neutral agent (NA) optimizing for user benefit without explicit influence, a manipulative agent (MA) designed to covertly influence beliefs and behaviors, or a strategy-enhanced manipulative agent (SEMA) employing explicit psychological tactics to reach its hidden objectives. By analyzing participants’ decision patterns and shifts in their preference ratings post-interaction, we found significant susceptibility to AI-driven manipulation. Particularly, across both decision-making domains, participants interacting with the manipulative agents shifted toward harmful options at substantially higher rates (financial, MA: 62.3%, SEMA: 59.6%; emotional, MA: 42.3%, SEMA: 41.5%) compared to the NA group (financial, 35.8%; emotional, 12.8%). Notably, our findings reveal that even subtle manipulative objectives (MA) can be as effective as employing explicit psychological strategies (SEMA) in swaying human decision-making. By revealing the potential for covert AI influence, this study highlights a critical vulnerability in human-AI interactions, emphasizing the need for ethical safeguards and regulatory frameworks to ensure responsible deployment of AI technologies and protect human autonomy.

arxiv情報

著者 Sahand Sabour,June M. Liu,Siyang Liu,Chris Z. Yao,Shiyao Cui,Xuanming Zhang,Wen Zhang,Yaru Cao,Advait Bhat,Jian Guan,Wei Wu,Rada Mihalcea,Hongning Wang,Tim Althoff,Tatia M. C. Lee,Minlie Huang
発行日 2025-02-24 15:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC | Human Decision-making is Susceptible to AI-driven Manipulation はコメントを受け付けていません

PairBench: A Systematic Framework for Selecting Reliable Judge VLMs

要約

大規模なビジョン言語モデル(VLM)が自動化された評価者としてますます使用されているため、プロンプトで指示されているようにデータペアを効果的に比較する能力を理解することが不可欠になります。
これに対処するために、さまざまなモダリティやシナリオにわたってカスタマイズ可能な類似性ツールとしてVLMを体系的に評価する低コストのフレームワークであるペアベンチを提示します。
ペアベンチを介して、類似性スコアの重要なデシデラタを表す4つのメトリックを紹介します。ヒトの注釈とのアラインメント、順序の一貫性、類似性分布の滑らかさ、プロンプトによる制御可能性。
私たちの分析は、閉鎖またはオープンソースであろうと、すべてのメトリックで優れているモデルはないことを示しています。
最適な選択は、自動車評価者の望ましい動作(たとえば、スムーズとシャープジャッジ)に依存し、徹底的な評価なしで評価者としてのVLMSの広範な採用のリスクを強調しています。
たとえば、VLMの大部分は、順序に関係なく、対称的な類似性スコアの維持に苦労しています。
さらに、我々の結果は、ペアベンチのメトリック上のVLMのパフォーマンスが一般的なベンチマークと密接に相関しており、ランキングモデルでの予測力を紹介することを示しています。

要約(オリジナル)

As large vision language models (VLMs) are increasingly used as automated evaluators, understanding their ability to effectively compare data pairs as instructed in the prompt becomes essential. To address this, we present PairBench, a low-cost framework that systematically evaluates VLMs as customizable similarity tools across various modalities and scenarios. Through PairBench, we introduce four metrics that represent key desiderata of similarity scores: alignment with human annotations, consistency for data pairs irrespective of their order, smoothness of similarity distributions, and controllability through prompting. Our analysis demonstrates that no model, whether closed- or open-source, is superior on all metrics; the optimal choice depends on an auto evaluator’s desired behavior (e.g., a smooth vs. a sharp judge), highlighting risks of widespread adoption of VLMs as evaluators without thorough assessment. For instance, the majority of VLMs struggle with maintaining symmetric similarity scores regardless of order. Additionally, our results show that the performance of VLMs on the metrics in PairBench closely correlates with popular benchmarks, showcasing its predictive power in ranking models.

arxiv情報

著者 Aarash Feizi,Sai Rajeswar,Adriana Romero-Soriano,Reihaneh Rabbany,Spandana Gella,Valentina Zantedeschi,João Monteiro
発行日 2025-02-24 15:01:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | PairBench: A Systematic Framework for Selecting Reliable Judge VLMs はコメントを受け付けていません

Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction

要約

オーディオの理解と生成をシームレスに統合するエンドツーエンドのオーディオ大規模な言語モデルであるBaichuan-Audioを紹介します。
テキスト誘導されたアライメントされた音声生成メカニズムを備えており、理解と生成の両方の能力を備えたリアルタイムの音声相互作用を可能にします。
Baichuan-Audioは、事前に訓練されたASRモデルを活用し、その後、12.5 Hzのフレームレートでの音声のマルチコードブック離散化が続きます。
このマルチコードブックのセットアップにより、音声トークンがセマンティック情報とアコースティック情報の両方を保持することが保証されます。
モデリングをさらに強化するために、独自の特性を効果的にキャプチャするために、独立したオーディオヘッドが採用されています。
トレーニング前のインテリジェンスの喪失を軽減し、LLMの元の機能を保存するために、オーディオモデリングを強化しながら言語理解を維持する2段階のトレーニング戦略を提案します。
アライメントに続いて、このモデルはリアルタイムの音声ベースの会話に優れており、傑出した質問をする能力を示し、その汎用性と効率性を示しています。
提案されたモデルは、リアルタイムの話し言葉で優れたパフォーマンスを示し、強力な質問回答能力を示します。
当社のコード、モデル、トレーニングデータは、https://github.com/baichuan-inc/baichuan-audioで入手できます。

要約(オリジナル)

We introduce Baichuan-Audio, an end-to-end audio large language model that seamlessly integrates audio understanding and generation. It features a text-guided aligned speech generation mechanism, enabling real-time speech interaction with both comprehension and generation capabilities. Baichuan-Audio leverages a pre-trained ASR model, followed by multi-codebook discretization of speech at a frame rate of 12.5 Hz. This multi-codebook setup ensures that speech tokens retain both semantic and acoustic information. To further enhance modeling, an independent audio head is employed to process audio tokens, effectively capturing their unique characteristics. To mitigate the loss of intelligence during pre-training and preserve the original capabilities of the LLM, we propose a two-stage pre-training strategy that maintains language understanding while enhancing audio modeling. Following alignment, the model excels in real-time speech-based conversation and exhibits outstanding question-answering capabilities, demonstrating its versatility and efficiency. The proposed model demonstrates superior performance in real-time spoken dialogue and exhibits strong question-answering abilities. Our code, model and training data are available at https://github.com/baichuan-inc/Baichuan-Audio

arxiv情報

著者 Tianpeng Li,Jun Liu,Tao Zhang,Yuanbo Fang,Da Pan,Mingrui Wang,Zheng Liang,Zehuan Li,Mingan Lin,Guosheng Dong,Jianhua Xu,Haoze Sun,Zenan Zhou,Weipeng Chen
発行日 2025-02-24 15:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction はコメントを受け付けていません

ESPnet-SpeechLM: An Open Speech Language Model Toolkit

要約

Speech Language Models(SpeechLMS)および音声駆動型エージェントアプリケーションの開発を民主化するために設計されたオープンツールキットであるESPNetSpeechLmを紹介します。
このツールキットは、普遍的なシーケンシャルモデリングの問題としてフレーミングすることにより、音声処理タスクを標準化し、データの前処理、プリトレーニング、推論、およびタスク評価のまとまりのあるワークフローを網羅しています。
ESPNETSpeheechLMを使用すると、ユーザーはタスクテンプレートを簡単に定義し、キー設定を構成し、シームレスで合理化されたSpeechLM開発を可能にすることができます。
ツールキットは、ワークフローのすべての段階で高度に構成可能なモジュールを提供することにより、柔軟性、効率、およびスケーラビリティを保証します。
その機能を説明するために、多様なベンチマーク全体でテキストタスクと音声タスクの両方で事前に訓練された1.7Bパラメーターモデルを含む、ESPNetSpeechLMをESPNetLMSでどのように構築できるかを示す複数のユースケースを提供します。
ツールキットとそのレシピは、https://github.com/espnet/espnet/tree/speechlmで完全に透明で再現可能です。

要約(オリジナル)

We present ESPnet-SpeechLM, an open toolkit designed to democratize the development of speech language models (SpeechLMs) and voice-driven agentic applications. The toolkit standardizes speech processing tasks by framing them as universal sequential modeling problems, encompassing a cohesive workflow of data preprocessing, pre-training, inference, and task evaluation. With ESPnet-SpeechLM, users can easily define task templates and configure key settings, enabling seamless and streamlined SpeechLM development. The toolkit ensures flexibility, efficiency, and scalability by offering highly configurable modules for every stage of the workflow. To illustrate its capabilities, we provide multiple use cases demonstrating how competitive SpeechLMs can be constructed with ESPnet-SpeechLM, including a 1.7B-parameter model pre-trained on both text and speech tasks, across diverse benchmarks. The toolkit and its recipes are fully transparent and reproducible at: https://github.com/espnet/espnet/tree/speechlm.

arxiv情報

著者 Jinchuan Tian,Jiatong Shi,William Chen,Siddhant Arora,Yoshiki Masuyama,Takashi Maekaku,Yihan Wu,Junyi Peng,Shikhar Bharadwaj,Yiwen Zhao,Samuele Cornell,Yifan Peng,Xiang Yue,Chao-Han Huck Yang,Graham Neubig,Shinji Watanabe
発行日 2025-02-24 15:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | ESPnet-SpeechLM: An Open Speech Language Model Toolkit はコメントを受け付けていません

MULTITAT: Benchmarking Multilingual Table-and-Text Question Answering

要約

テーブルとテキストのハイブリッドコンテキスト(TATQA)のハイブリッドコンテキストに関する質問の回答は、データ集約型のドメインに幅広いアプリケーションを備えた重要なタスクです。
ただし、既存のTATQAデータセットは英語に限定されており、いくつかの欠点につながります。(i)多言語TAT-QAの課題を見落としており、多言語設定でモデルのパフォーマンスを評価できません。
(ii)テーブルやテキストが英語以外の言語で頻繁に表示される現実世界のシナリオを反映していません。
制限に対処するために、最初の多言語TATQAデータセット(MultITAT)を提案します。
具体的には、3つの主流のTATQAデータセットのデータをサンプリングし、10の多様な言語に変換します。
英語のモデルTATQA機能を​​他の言語に合わせるために、ベースラインを開発します。
実験結果は、マルチタットの非英語データのパフォーマンスが英語と比較して平均19.4%低下し、マルチタットの必要性を証明することを明らかにしています。
このパフォーマンスギャップの理由をさらに分析します。
さらに、私たちのものは平均3.3で他のベースラインよりも優れており、その有効性を示しています。

要約(オリジナル)

Question answering on the hybrid context of tables and text (TATQA) is a critical task, with broad applications in data-intensive domains. However, existing TATQA datasets are limited to English, leading to several drawbacks: (i) They overlook the challenges of multilingual TAT-QA and cannot assess model performance in the multilingual setting. (ii) They do not reflect real-world scenarios where tables and texts frequently appear in non-English languages. To address the limitations, we propose the first multilingual TATQA dataset (MULTITAT). Specifically, we sample data from 3 mainstream TATQA datasets and translate it into 10 diverse languages. To align the model TATQA capabilities in English with other languages, we develop a baseline, Ours. Experimental results reveal that the performance on non-English data in MULTITAT drops by an average of 19.4% compared to English, proving the necessity of MULTITAT. We further analyze the reasons for this performance gap. Furthermore, Ours outperforms other baselines by an average of 3.3, demonstrating its effectiveness.

arxiv情報

著者 Xuanliang Zhang,Dingzirui Wang,Keyan Xu,Qingfu Zhu,Wanxiang Che
発行日 2025-02-24 15:34:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MULTITAT: Benchmarking Multilingual Table-and-Text Question Answering はコメントを受け付けていません

NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models

要約

グローバルなユーザー集団に効果的かつ安全に展開するには、大規模な言語モデル(LLM)がユーザーの値や文化に出力を適応させる必要がある場合があります。
LLMSの文化的適応性を評価する評価フレームワークであるノーマッドを紹介し、抽象的な価値から明示的な社会的規範まで、さまざまなレベルの文化的規範の特異性を超えて社会的受容性を判断する能力を測定します。
私たちのフレームワークのインスタンス化として、私たちは、75か国からの社会的エチケットに関連する文化的規範を表す2.6kの状況的説明のベンチマークであるノーマッド・エティを作成します。
ノルマド-ETIに関する包括的な実験を通じて、LLMSは、これらのさまざまな程度の文化的文脈にわたって社会的受容性を正確に判断し、グローバルな南部の文化よりも英語中心の文化に対するより強い適応性を示すのに苦労していることがわかります。
関連する社会的規範が提供される最も単純な設定でさえ、最高のLLMSのパフォーマンス(<82 \%)が人間(> 95 \%)に遅れています。
抽象的な値と国情報を持つ設定では、モデルのパフォーマンスは大幅に低下します(<60 \%)が、人間の精度は高いままです(> 90 \%)。
さらに、モデルは、社会的に受け入れられると受け入れられない状況を認識するのに優れていることがわかります。
私たちの調査結果は、LLMSの社会文化的推論における現在の落とし穴を示しており、それが世界の視聴者への適応性を妨げています。

要約(オリジナル)

To be effectively and safely deployed to global user populations, large language models (LLMs) may need to adapt outputs to user values and cultures, not just know about them. We introduce NormAd, an evaluation framework to assess LLMs’ cultural adaptability, specifically measuring their ability to judge social acceptability across varying levels of cultural norm specificity, from abstract values to explicit social norms. As an instantiation of our framework, we create NormAd-Eti, a benchmark of 2.6k situational descriptions representing social-etiquette related cultural norms from 75 countries. Through comprehensive experiments on NormAd-Eti, we find that LLMs struggle to accurately judge social acceptability across these varying degrees of cultural contexts and show stronger adaptability to English-centric cultures over those from the Global South. Even in the simplest setting where the relevant social norms are provided, the best LLMs’ performance (< 82\%) lags behind humans (> 95\%). In settings with abstract values and country information, model performance drops substantially (< 60\%), while human accuracy remains high (> 90\%). Furthermore, we find that models are better at recognizing socially acceptable versus unacceptable situations. Our findings showcase the current pitfalls in socio-cultural reasoning of LLMs which hinder their adaptability for global audiences.

arxiv情報

著者 Abhinav Rao,Akhila Yerukola,Vishwa Shah,Katharina Reinecke,Maarten Sap
発行日 2025-02-24 15:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models はコメントを受け付けていません

MonoTODia: Translating Monologue Requests to Task-Oriented Dialogues

要約

データ不足は、変圧器ベースのモデルの実際のアプリケーションに関して主な問題の1つです。
これは、通常、容易に入手できない特殊なデータセットを必要とするタスク指向のダイアログ(TOD)システムで特に明白です。
これにより、企業がTODシステムをサービスに追加することを妨げる可能性があります。
したがって、この研究は、既存のドイツの独白資料から注釈付きの対話を調達するための新しいアプローチを調査します。
現実世界の例に焦点を当てて、これらのモノローグをTODシステムのトレーニングに適したダイアログ形式に変換できるかどうかを調査します。
電子メールで旅行の予約を専門とする会社の具体的な例でアプローチを示します。
私たちは、電子メールを対話と注釈として書き換えるというタスクのために、最先端の大規模な言語モデルを微調整します。
生成されたデータの品質と妥当性を確保するために、群衆労働者を採用して、複数の基準で対話を評価し、テストデータセットに金標準の注釈を提供します。
さらに、TODシステムをトレーニングするための対話の有用性を評価します。
私たちの評価は、対話と注釈が高品質であり、TODシステムをトレーニングするための貴重な出発点として機能することを示しています。
最後に、注釈付きのデータセットを公開して、将来の研究を促進します。

要約(オリジナル)

Data scarcity is one of the main problems when it comes to real-world applications of transformer-based models. This is especially evident for task-oriented dialogue (TOD) systems, which require specialized datasets, that are usually not readily available. This can hinder companies from adding TOD systems to their services. This study therefore investigates a novel approach to sourcing annotated dialogues from existing German monologue material. Focusing on a real-world example, we investigate whether these monologues can be transformed into dialogue formats suitable for training TOD systems. We show the approach with the concrete example of a company specializing in travel bookings via e-mail. We fine-tune state-of-the-art Large Language Models for the task of rewriting e-mails as dialogues and annotating them. To ensure the quality and validity of the generated data, we employ crowd workers to evaluate the dialogues across multiple criteria and to provide gold-standard annotations for the test dataset. We further evaluate the usefulness of the dialogues for training TOD systems. Our evaluation shows that the dialogues and annotations are of high quality and can serve as a valuable starting point for training TOD systems. Finally, we make the annotated dataset publicly available to foster future research.

arxiv情報

著者 Sebastian Steindl,Ulrich Schäfer,Bernd Ludwig
発行日 2025-02-24 15:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MonoTODia: Translating Monologue Requests to Task-Oriented Dialogues はコメントを受け付けていません

PersonalLLM: Tailoring LLMs to Individual Preferences

要約

LLMが複雑なタスクになると、ユーザーの微妙で特異な好みに合わせたパーソナライズされた相互作用の可能性が高まっています。
特定のユーザーに最大限の利点を提供するためにLLMSの適応に焦点を当てて、パブリックベンチマークであるPersonAlllmを提示します。
暗黙的に均一な好みを想定する既存のアライメントベンチマークから離れると、ユーザーが異種の潜在的な好みを表示することが期待される多くの高品質の回答と組み合わせたオープンエンドプロンプトをキュレートします。
高レベルの属性(ユーザーの人種や応答の長さなど)に基づいたペルソナ宣伝LLMSの代わりに、人間と比較して均一な好みを生み出します。
訓練された報酬モデル。
当社のデータセットと生成されたパーソナリティは、他の(同様の)ユーザーからの履歴データを活用することにより、継続的なデータスパース(特定のユーザーからのFEW関連フィードバック)に取り組むパーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
Personalllmの有用性を説明し、将来の方法論的開発の必要性を強調するために、基本的なコンテキスト内学習とメタ学習ベースラインを調査します。
データセットはhttps://huggingface.co/datasets/namkoong-lab/personalllmで入手できます

要約(オリジナル)

As LLMs become capable of complex tasks, there is growing potential for personalized interactions tailored to the subtle and idiosyncratic preferences of the user. We present a public benchmark, PersonalLLM, focusing on adapting LLMs to provide maximal benefits for a particular user. Departing from existing alignment benchmarks that implicitly assume uniform preferences, we curate open-ended prompts paired with many high-quality answers over which users would be expected to display heterogeneous latent preferences. Instead of persona-prompting LLMs based on high-level attributes (e.g., user’s race or response length), which yields homogeneous preferences relative to humans, we develop a method that can simulate a large user base with diverse preferences from a set of pre-trained reward models. Our dataset and generated personalities offer an innovative testbed for developing personalization algorithms that grapple with continual data sparsity–few relevant feedback from the particular user–by leveraging historical data from other (similar) users. We explore basic in-context learning and meta-learning baselines to illustrate the utility of PersonalLLM and highlight the need for future methodological development. Our dataset is available at https://huggingface.co/datasets/namkoong-lab/PersonalLLM

arxiv情報

著者 Thomas P. Zollo,Andrew Wei Tung Siah,Naimeng Ye,Ang Li,Hongseok Namkoong
発行日 2025-02-24 16:00:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, I.2.6 | PersonalLLM: Tailoring LLMs to Individual Preferences はコメントを受け付けていません

Extracting domain-specific terms using contextual word embeddings

要約

自動用語抽出とは、ドメイン固有のテキストから意味のある用語を抽出するタスクを指します。
このペーパーでは、用語抽出に対する新しい機械学習アプローチを提案します。これは、従来の用語抽出システムの特徴と、文脈的単語の埋め込みから派生した新しいコンテキスト機能を組み合わせています。
スピーチパターンの事前定義されたリストを使用する代わりに、まずスロベニア語用の新しい用語と記録されたコーパスRSDO5を分析し、ターム候補の選択のための一連のルールを考案し、統計的、言語的、コンテキストベースの機能を生成します。
サポートベクトルマシンアルゴリズムを使用して分類モデルをトレーニングし、RSDO5コーパスの4つのドメイン(バイオメカニクス、言語学、化学、獣医)で評価し、結果をスロベニア語の最先端の用語抽出アプローチと比較します。

私たちのアプローチは、以前の最先端のF1スコアに関して大幅な改善を提供します。これは、文脈的な単語の埋め込みが用語抽出を改善するのに役立つことを証明しています。

要約(オリジナル)

Automated terminology extraction refers to the task of extracting meaningful terms from domain-specific texts. This paper proposes a novel machine learning approach to terminology extraction, which combines features from traditional term extraction systems with novel contextual features derived from contextual word embeddings. Instead of using a predefined list of part-of-speech patterns, we first analyse a new term-annotated corpus RSDO5 for the Slovenian language and devise a set of rules for term candidate selection and then generate statistical, linguistic and context-based features. We use a support-vector machine algorithm to train a classification model, evaluate it on the four domains (biomechanics, linguistics, chemistry, veterinary) of the RSDO5 corpus and compare the results with state-of-art term extraction approaches for the Slovenian language. Our approach provides significant improvements in terms of F1 score over the previous state-of-the-art, which proves that contextual word embeddings are valuable for improving term extraction.

arxiv情報

著者 Andraž Repar,Nada Lavrač,Senja Pollak
発行日 2025-02-24 16:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Extracting domain-specific terms using contextual word embeddings はコメントを受け付けていません

Improving the Inclusivity of Dutch Speech Recognition by Fine-tuning Whisper on the JASMIN-CGN Corpus

要約

ジャスミンCGNコーパスの子供、高齢者、非ネイティブオランダ語のスピーチに関するウィスパーモデルの微調整されたバージョンの音声認識の変動をテストし、研究します。
私たちの主な目標は、スピーカーの年齢と言語的背景がウィスパーのパフォーマンスにどのように影響するかを評価することです。
ささやきは、特定の年齢と言語の背景の亜集団で微調整されたときに、さまざまな単語エラー率(WER)を実現します。
微調整されたパフォーマンスは、ゼロショットのパフォーマンスよりも非常に優れており、在来子供の場合は81%、非ネイティブの子供は72%、非ネイティブの成人で67%、在来の高齢者で65%を比較しています。
私たちの調査結果は、子供、高齢者、非ネイティブスピーカーなどの過小評価されている亜集団に関するささやきのようなスピーチ認識モデルをトレーニングすることの重要性を強調しています。

要約(オリジナル)

We test and study the variation in speech recognition of fine-tuned versions of the Whisper model on child, elderly and non-native Dutch speech from the JASMIN-CGN corpus. Our primary goal is to evaluate how speakers’ age and linguistic background influence Whisper’s performance. Whisper achieves varying Word Error Rates (WER) when fine-tuned on subpopulations of specific ages and linguistic backgrounds. Fine-tuned performance is remarkably better than zero-shot performance, achieving a relative reduction in WER of 81% for native children, 72% for non-native children, 67% for non-native adults, and 65% for native elderly people. Our findings underscore the importance of training speech recognition models like Whisper on underrepresented subpopulations such as children, the elderly, and non-native speakers.

arxiv情報

著者 Golshid Shekoufandeh,Paul Boersma,Antal van den Bosch
発行日 2025-02-24 16:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Improving the Inclusivity of Dutch Speech Recognition by Fine-tuning Whisper on the JASMIN-CGN Corpus はコメントを受け付けていません