OpenHuEval: Evaluating Large Language Model on Hungarian Specifics

要約

ハンガリー語と詳細に焦点を当てたLLMSの最初のベンチマークであるOpenHuevalを紹介します。
OpenHuevalは、複数の起源から供給されたハンガリー固有の材料の膨大なコレクションから構築されています。
構造では、インターネットからの実際のユーザークエリの使用、LLMSの生成能力の評価を強調し、LLM-As-Judgeを使用して評価の多次元性と精度を高めるなど、LLMを評価するための最新の設計原則を組み込みました。
最終的に、OpenHuevalは、5つのタスクと3953の質問を備えた8つのハンガリー固有の次元を網羅しています。
その結果、OpenHuevalは、ハンガリー語とその詳細の文脈におけるLLMパフォーマンスの包括的な、詳細な、科学的に正確な評価を提供します。
従来のLLMと最近開発された大規模な推論モデルの両方を含む、現在の主流LLMを評価しました。
結果は、ハンガリー語と詳細に合わせた評価とモデルの最適化の重要な必要性を示しています。
また、OpenHuevalでLRMの思考プロセスを分析するためのフレームワークを確立し、英語以外の言語でこれらのモデルの本質的なパターンとメカニズムを明らかにし、ハンガリーは代表的な例として機能します。
https://github.com/opendatalab/openhuevalでOpenHuevalをリリースします。

要約(オリジナル)

We introduce OpenHuEval, the first benchmark for LLMs focusing on the Hungarian language and specifics. OpenHuEval is constructed from a vast collection of Hungarian-specific materials sourced from multiple origins. In the construction, we incorporated the latest design principles for evaluating LLMs, such as using real user queries from the internet, emphasizing the assessment of LLMs’ generative capabilities, and employing LLM-as-judge to enhance the multidimensionality and accuracy of evaluations. Ultimately, OpenHuEval encompasses eight Hungarian-specific dimensions, featuring five tasks and 3953 questions. Consequently, OpenHuEval provides the comprehensive, in-depth, and scientifically accurate assessment of LLM performance in the context of the Hungarian language and its specifics. We evaluated current mainstream LLMs, including both traditional LLMs and recently developed Large Reasoning Models. The results demonstrate the significant necessity for evaluation and model optimization tailored to the Hungarian language and specifics. We also established the framework for analyzing the thinking processes of LRMs with OpenHuEval, revealing intrinsic patterns and mechanisms of these models in non-English languages, with Hungarian serving as a representative example. We will release OpenHuEval at https://github.com/opendatalab/OpenHuEval .

arxiv情報

著者 Haote Yang,Xingjian Wei,Jiang Wu,Noémi Ligeti-Nagy,Jiaxing Sun,Yinfan Wang,Zijian Győző Yang,Junyuan Gao,Jingchao Wang,Bowen Jiang,Shasha Wang,Nanjun Yu,Zihao Zhang,Shixin Hong,Hongwei Liu,Wei Li,Songyang Zhang,Dahua Lin,Lijun Wu,Gábor Prószéky,Conghui He
発行日 2025-03-27 13:40:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OpenHuEval: Evaluating Large Language Model on Hungarian Specifics はコメントを受け付けていません

Keyword-Oriented Multimodal Modeling for Euphemism Identification

要約

陶酔感の識別は、「雑草」(e曲表現)を「マリファナ」(ターゲットキーワード)に違法テキストで「マリファナ」(ターゲットキーワード)にリンクし、コンテンツの節度を支援し、地下市場との闘いなど、e曲表現の真の意味を解読します。
既存の方法は主にテキストベースですが、ソーシャルメディアの台頭は、テキスト、画像、オーディオを組み込むマルチモーダル分析の必要性を強調しています。
ただし、e曲表現のためのマルチモーダルデータセットの欠如は、さらなる研究を制限します。
これに対処するために、e曲表現とその対応するターゲットキーワードをキーワードと見なし、最初にテキスト、画像、スピーチを含む3つのデータセット(薬物、武器、セクシュアリティ)を含む、キーワード指向のe曲表現(KOM-euph)を紹介します。
さらに、クロスモーダル機能のアライメントと動的融合モジュールを使用して、キーワードの視覚的および音声機能を効率的なef間主義識別のために明示的に利用するキーワード指向のマルチモーダルe曲識別法(KOM-EI)をさらに提案します。
広範な実験は、KOM-EIが最先端のモデルと大規模な言語モデルよりも優れていることを示しており、マルチモーダルデータセットの重要性を示しています。

要約(オリジナル)

Euphemism identification deciphers the true meaning of euphemisms, such as linking ‘weed’ (euphemism) to ‘marijuana’ (target keyword) in illicit texts, aiding content moderation and combating underground markets. While existing methods are primarily text-based, the rise of social media highlights the need for multimodal analysis, incorporating text, images, and audio. However, the lack of multimodal datasets for euphemisms limits further research. To address this, we regard euphemisms and their corresponding target keywords as keywords and first introduce a keyword-oriented multimodal corpus of euphemisms (KOM-Euph), involving three datasets (Drug, Weapon, and Sexuality), including text, images, and speech. We further propose a keyword-oriented multimodal euphemism identification method (KOM-EI), which uses cross-modal feature alignment and dynamic fusion modules to explicitly utilize the visual and audio features of the keywords for efficient euphemism identification. Extensive experiments demonstrate that KOM-EI outperforms state-of-the-art models and large language models, and show the importance of our multimodal datasets.

arxiv情報

著者 Yuxue Hu,Junsong Li,Meixuan Chen,Dongyu Su,Tongguan Wang,Ying Sha
発行日 2025-03-27 13:45:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Keyword-Oriented Multimodal Modeling for Euphemism Identification はコメントを受け付けていません

Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving

要約

自律運転(AD)に関するビジョン言語モデル(VLM)の既存のベンチマーク(AD)は、粗粒のタスク内のオープンフォームの視覚質問(QA)を通じて解釈可能性を主に評価します。
この目的のために、$ \ textBf {vladbench} $を紹介します。これは、静的な基礎的知識と要素から動的なオンロード状況の高度な推論に進む密接な形式のQAを特徴とする挑戦的で微調整されたデータセットです。
精巧な$ \ textbf {vladbench} $は、5つの重要なドメインに及びます。トラフィック知識の理解、一般的な要素認識、トラフィックグラフの生成、ターゲット属性の理解、および自我の意思決定と計画。
これらのドメインは、詳細な評価のために11の二次的な側面と29の三次タスクに分解されます。
このベンチマークでの一般的およびドメイン固有の(DS)VLMの徹底的な評価により、ADコンテキストにおけるその強みと重大な制限の両方が明らかになります。
広告理解のために5つのドメイン間の認知と推論の相互作用をさらに活用するために、小規模なVLMから始めて、個々のドメインデータセットでDSモデルをトレーニングします(パブリックソースで1.4m DS QAから収集)。
実験結果は、提案されたベンチマークがADにおけるVLMのより包括的な評価に向けた重要なステップを提供し、より認知的に洗練された推論的なADシステムの開発への道を開くことを示しています。

要約(オリジナル)

Existing benchmarks for Vision-Language Model (VLM) on autonomous driving (AD) primarily assess interpretability through open-form visual question answering (QA) within coarse-grained tasks, which remain insufficient to assess capabilities in complex driving scenarios. To this end, we introduce $\textbf{VLADBench}$, a challenging and fine-grained dataset featuring close-form QAs that progress from static foundational knowledge and elements to advanced reasoning for dynamic on-road situations. The elaborate $\textbf{VLADBench}$ spans 5 key domains: Traffic Knowledge Understanding, General Element Recognition, Traffic Graph Generation, Target Attribute Comprehension, and Ego Decision-Making and Planning. These domains are further broken down into 11 secondary aspects and 29 tertiary tasks for a granular evaluation. A thorough assessment of general and domain-specific (DS) VLMs on this benchmark reveals both their strengths and critical limitations in AD contexts. To further exploit the cognitive and reasoning interactions among the 5 domains for AD understanding, we start from a small-scale VLM and train the DS models on individual domain datasets (collected from 1.4M DS QAs across public sources). The experimental results demonstrate that the proposed benchmark provides a crucial step toward a more comprehensive assessment of VLMs in AD, paving the way for the development of more cognitively sophisticated and reasoning-capable AD systems.

arxiv情報

著者 Yue Li,Meng Tian,Zhenyu Lin,Jiangtong Zhu,Dechang Zhu,Haiqiang Liu,Zining Wang,Yueyi Zhang,Zhiwei Xiong,Xinhai Zhao
発行日 2025-03-27 13:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving はコメントを受け付けていません

Datasets for Depression Modeling in Social Media: An Overview

要約

うつ病は最も一般的な精神衛生障害であり、その有病率はCovid-19パンデミック中に増加しました。
最も広範囲に研究されている心理的状態の1つとして、最近の研究は、ソーシャルメディアデータを活用して、うつ病のスクリーニングの従来の方法を強化することにますます焦点を当てています。
このペーパーでは、うつ病に関する学際的な研究への関心の高まりに取り組んでおり、ソーシャルメディアデータを介してうつ病を分析および予測するためのデータセットの包括的かつ最新のリストを提供することにより、早期キャリアの研究者を支援することを目的としています。
2019年から2024年の間に公開されたデータセットの概要を説明します。また、ソーシャルメディアでのうつ病の言語表現に関する学際的な研究をさらに促進することを期待して、継続的に更新されたリソースとしてオンラインで利用可能なデータセットの包括的なリストを作成します。

要約(オリジナル)

Depression is the most common mental health disorder, and its prevalence increased during the COVID-19 pandemic. As one of the most extensively researched psychological conditions, recent research has increasingly focused on leveraging social media data to enhance traditional methods of depression screening. This paper addresses the growing interest in interdisciplinary research on depression, and aims to support early-career researchers by providing a comprehensive and up-to-date list of datasets for analyzing and predicting depression through social media data. We present an overview of datasets published between 2019 and 2024. We also make the comprehensive list of datasets available online as a continuously updated resource, with the hope that it will facilitate further interdisciplinary research into the linguistic expressions of depression on social media.

arxiv情報

著者 Ana-Maria Bucur,Andreea-Codrina Moldovan,Krutika Parvatikar,Marcos Zampieri,Ashiqur R. KhudaBukhsh,Liviu P. Dinu
発行日 2025-03-27 14:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Datasets for Depression Modeling in Social Media: An Overview はコメントを受け付けていません

WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference

要約

大規模な言語モデル(LLMS)の長いコンテキスト推論機能の進歩により、KVキャッシュは基礎コンポーネントの1つになりました。
ただし、その大幅なGPUメモリ消費は、KVキャッシュ圧縮により、産業シナリオで効率的なLLM推論を可能にするための重要な手法になります。
最近の研究では、KVキャッシュが占めるメモリの最適化に焦点を当てていますが、2つの重要な要因を見落としています。意味的な一貫性を維持し、圧縮中のタスク固有の特性を検討しています。
これらの制限に対処するために、新しいタスクに適したKVキャッシュウィンドウ選択方法であるWindowKVを提案します。
WindowKVは、タスク固有の特性に従って連続したトークンで構成されるローカルセマンティックウィンドウを動的に選択し、保持されたKVキャッシュが連続的で本質的なコンテキストをキャプチャするようにします。
さらに、グループ内層KVキャッシュインデックス共有戦略を導入して、計算オーバーヘッドを削減し、パフォーマンスと効率のバランスをとっています。
ロングベンチベンチマークでWindokKVを厳密に評価し、結果は、元のKVキャッシュの12%しか使用しない一方で、完全なKVキャッシュ保持に匹敵するパフォーマンスを維持し、メモリ要件を大幅に削減することを示しています。
さらに、私たちの方法は、ヘイスタックの針評価で最新の結果を達成し、その有効性と堅牢性を強調しています。

要約(オリジナル)

With the advancements in long-context inference capabilities of large language models (LLMs), the KV cache has become one of the foundational components. However, its substantial GPU memory consumption makes KV cache compression a key technique for enabling efficient LLM inference in industrial scenarios. While recent studies have focused on optimizing the memory occupied by the KV cache, they overlook two critical factors: preserving semantic coherence and considering task-specific characteristic during compression. To address these limitations, we propose a novel task-adaptive KV cache window selection method, WindowKV. WindowKV dynamically selects local semantic windows consisting of consecutive tokens, according to task-specific characteristics, ensuring the retained KV cache captures continuous, essential context. Additionally, we introduce an intra-group layer KV cache indices sharing strategy to reduce computational overhead, achieving a balance between performance and efficiency. We rigorously evaluate WindowKV on the LongBench benchmark, and the results demonstrate that it maintains a performance comparable to full KV cache retention while using only 12% of the original KV cache, significantly reducing memory requirements. Furthermore, our method also achieves state-of-the-art results in the Needle-in-a-Haystack evaluation, highlighting its effectiveness and robustness.

arxiv情報

著者 Youhui Zuo,Sibo Wei,Chen Zhang,Zhuorui Liu,Wenpeng Lu,Dawei Song
発行日 2025-03-27 14:11:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference はコメントを受け付けていません

Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach

要約

私たちは、元のテキストに頼ることなく、内部知識からのみ包括的で正確な本の要約を生成する大規模な言語モデル(LLM)の能力を研究しています。
多様な本のセットと複数のLLMアーキテクチャを採用して、これらのモデルが確立された人間の解釈と一致する意味のある物語を合成できるかどうかを調べます。
評価はLLM-as-a-Judgeパラダイムで実行されます。各AIに生成された要約は、クロスモデル評価を介して高品質の人間が記述した要約と比較されます。
この方法論により、モデルが他の人よりも独自の要約スタイルを支持するための傾向など、潜在的なバイアスの識別を可能にします。
さらに、RougeとBertscoreのメトリックを使用して、人間が作成した概要とLLM生成された要約のアラインメントが定量化され、文法および意味対応の深さを評価します。
結果は、モデル間のコンテンツ表現とスタイルの好みの微妙な変動を明らかにし、要約タスクの内部知識に依存することに固有の強みと制限の両方を強調しています。
これらの調査結果は、より堅牢な自然言語生成システムの開発に影響を与える、事実情報のLLM内部エンコーディングとクロスモデル評価のダイナミクスのより深い理解に貢献します。

要約(オリジナル)

We study the ability of large language models (LLMs) to generate comprehensive and accurate book summaries solely from their internal knowledge, without recourse to the original text. Employing a diverse set of books and multiple LLM architectures, we examine whether these models can synthesize meaningful narratives that align with established human interpretations. Evaluation is performed with a LLM-as-a-judge paradigm: each AI-generated summary is compared against a high-quality, human-written summary via a cross-model assessment, where all participating LLMs evaluate not only their own outputs but also those produced by others. This methodology enables the identification of potential biases, such as the proclivity for models to favor their own summarization style over others. In addition, alignment between the human-crafted and LLM-generated summaries is quantified using ROUGE and BERTScore metrics, assessing the depth of grammatical and semantic correspondence. The results reveal nuanced variations in content representation and stylistic preferences among the models, highlighting both strengths and limitations inherent in relying on internal knowledge for summarization tasks. These findings contribute to a deeper understanding of LLM internal encodings of factual information and the dynamics of cross-model evaluation, with implications for the development of more robust natural language generative systems.

arxiv情報

著者 Javier Coronado-Blázquez
発行日 2025-03-27 15:36:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach はコメントを受け付けていません

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

要約

Deepseek-R1やOpenai O1などの最近の大きな推論モデル(LRMS)は、推論中に推論チェーン(COT)推論の長さをスケーリングすることにより、パフォーマンスの強い利益を実証しました。
ただし、冗長なコンテンツ(繰り返し定義など)、単純な問題の過剰分析、より難しいタスクの複数の推論パスの表面的な調査で満たされていることが多い過度に長い推論痕跡を生成する傾向が高まっています。
この非効率性は、トークン経済が重要なトレーニング、推論、および実際の展開(例えば、エージェントベースのシステム)に大きな課題をもたらします。
この調査では、LRMSの推論効率を改善することを目的とした最近の取り組みの包括的な概要を説明します。これは、この新しいパラダイムで生じる独自の課題に特に焦点を当てています。
非効率性の一般的なパターンを特定し、LRMライフサイクル全体で提案されている方法、つまり推論への前提からの方法を調べ、研究のための将来の方向性について議論します。
継続的な開発をサポートするために、フィールドの最近の進捗状況を追跡するリアルタイムGithubリポジトリも維持しています。
この調査がさらなる探求の基盤として機能し、この急速に進化する分野のイノベーションを刺激することを願っています。

要約(オリジナル)

Recent Large Reasoning Models (LRMs), such as DeepSeek-R1 and OpenAI o1, have demonstrated strong performance gains by scaling up the length of Chain-of-Thought (CoT) reasoning during inference. However, a growing concern lies in their tendency to produce excessively long reasoning traces, which are often filled with redundant content (e.g., repeated definitions), over-analysis of simple problems, and superficial exploration of multiple reasoning paths for harder tasks. This inefficiency introduces significant challenges for training, inference, and real-world deployment (e.g., in agent-based systems), where token economy is critical. In this survey, we provide a comprehensive overview of recent efforts aimed at improving reasoning efficiency in LRMs, with a particular focus on the unique challenges that arise in this new paradigm. We identify common patterns of inefficiency, examine methods proposed across the LRM lifecycle, i.e., from pretraining to inference, and discuss promising future directions for research. To support ongoing development, we also maintain a real-time GitHub repository tracking recent progress in the field. We hope this survey serves as a foundation for further exploration and inspires innovation in this rapidly evolving area.

arxiv情報

著者 Xiaoye Qu,Yafu Li,Zhaochen Su,Weigao Sun,Jianhao Yan,Dongrui Liu,Ganqu Cui,Daizong Liu,Shuxian Liang,Junxian He,Peng Li,Wei Wei,Jing Shao,Chaochao Lu,Yue Zhang,Xian-Sheng Hua,Bowen Zhou,Yu Cheng
発行日 2025-03-27 15:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond はコメントを受け付けていません

A Context-Aware Approach for Enhancing Data Imputation with Pre-trained Language Models

要約

このペーパーでは、\ textbf {c} ontextally \ textbf {r} elevant \ textbf {i} mputation \ textbf {l} anguage \ textbf {m} odels(\ textbf {crilm})をレバレッジレバリングレバレンスした新しいアプローチを提示します。
Crilmは、従来の数値推定に依存する代わりに、事前に訓練された言語モデル(LMS)を使用して、欠損値のコンテキストに関連する記述子を作成します。
このメソッドは、データセットをLMSの強度に合わせて、大規模なLMSがこれらの記述子と小さなLMSを生成し、濃縮データセットで微調整できるようにします。
私たちの評価は、MCAR、MAR、および挑戦的なMNARシナリオでのCrilmの優れたパフォーマンスと堅牢性を示しており、最高のパフォーマンスのベースラインよりも最大10 \%改善されています。
特にMNARの設定でバイアスを緩和することにより、Crilmはダウンストリームタスクのパフォーマンスを改善し、リソース制約の環境に費用対効果の高いソリューションを提供します。

要約(オリジナル)

This paper presents a novel approach named \textbf{C}ontextually \textbf{R}elevant \textbf{I}mputation leveraging pre-trained \textbf{L}anguage \textbf{M}odels (\textbf{CRILM}) for handling missing data in tabular datasets. Instead of relying on traditional numerical estimations, CRILM uses pre-trained language models (LMs) to create contextually relevant descriptors for missing values. This method aligns datasets with LMs’ strengths, allowing large LMs to generate these descriptors and small LMs to be fine-tuned on the enriched datasets for enhanced downstream task performance. Our evaluations demonstrate CRILM’s superior performance and robustness across MCAR, MAR, and challenging MNAR scenarios, with up to a 10\% improvement over the best-performing baselines. By mitigating biases, particularly in MNAR settings, CRILM improves downstream task performance and offers a cost-effective solution for resource-constrained environments.

arxiv情報

著者 Ahatsham Hayat,Mohammad Rashedul Hasan
発行日 2025-03-27 16:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | A Context-Aware Approach for Enhancing Data Imputation with Pre-trained Language Models はコメントを受け付けていません

Accelerating Antibiotic Discovery with Large Language Models and Knowledge Graphs

要約

新規抗生物質の発見は、成長する抗菌耐性(AMR)に対処するために重要です。
ただし、製薬産業は、既知の化合物の再発見によって悪化した高コスト(10億ドルを超える)、長いタイムライン、および故障率の高さに直面しています。
アラームシステムとして機能するLLMベースのパイプラインを提案し、高価な再発見を防ぐために抗生物質活性の事前の証拠を検出します。
このシステムは、生物と化学文献を知識グラフ(kg)に統合し、分類学的解像度、同義語処理、およびマルチレベルの証拠分類を確保します。
73の潜在的な抗生物質生産生物のプライベートリストでパイプラインをテストし、評価のために12の負のヒットを開示しました。
結果は、パイプラインの有効性を強調しており、証拠を検討し、偽陰性の削減、意思決定を加速します。
ネガティブヒットのKGとインタラクティブな探索のユーザーインターフェイスは、公開されます。

要約(オリジナル)

The discovery of novel antibiotics is critical to address the growing antimicrobial resistance (AMR). However, pharmaceutical industries face high costs (over $1 billion), long timelines, and a high failure rate, worsened by the rediscovery of known compounds. We propose an LLM-based pipeline that acts as an alarm system, detecting prior evidence of antibiotic activity to prevent costly rediscoveries. The system integrates organism and chemical literature into a Knowledge Graph (KG), ensuring taxonomic resolution, synonym handling, and multi-level evidence classification. We tested the pipeline on a private list of 73 potential antibiotic-producing organisms, disclosing 12 negative hits for evaluation. The results highlight the effectiveness of the pipeline for evidence reviewing, reducing false negatives, and accelerating decision-making. The KG for negative hits and the user interface for interactive exploration will be made publicly available.

arxiv情報

著者 Maxime Delmas,Magdalena Wysocka,Danilo Gusicuma,André Freitas
発行日 2025-03-27 16:26:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Accelerating Antibiotic Discovery with Large Language Models and Knowledge Graphs はコメントを受け付けていません

Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision

要約

多言語および相互自動音声認識(MCL-ASR) – 音声またはグラフェミックの転写を備えた監視された事前削除、および自己監視前の前orainsには3つのアプローチが存在します。
私たちは、音声監督を伴う事前にMCL-ASRで過小評価されているのに対し、概念的には異なる言語間の情報共有にとってより有利であることがわかります。
このペーパーでは、ホイッスルと呼ばれるデータ効率の高いMCL-ASRに向けて弱い音声監督を伴う事前トレーニングのアプローチを探ります。
ゴールドスタンダードのヒトで検証された音声転写産物の要件を緩和し、言語のグラフェメから音量間(G2P)モデルを活用することにより、国際的な音声アルファベット(IPA)ベースの転写を取得します。
CV-Lang10と呼ばれるCommonVoiceデータセットに基づいて、10のSEES言語と2つの目に見えない言語を使用して、一般的な実験セットアップを構築します。
CV-Lang10で一連の実験が行われ、MCL-ASRの共通セットアップに基づく3つのアプローチを可能な限り公平に比較​​します。
実験は、MCL-ASRの音素ベースのモデル(ホイッスル)の利点を示しています。見た言語の音声認識、異なる量の少数のデータを持つ目に見えない言語の交差的パフォーマンス、壊滅的な忘却の克服、トレーニング効率を示しています。
トレーニングデータがより制限されている場合、音素の監督は、サブワードの監督と自己監視と比較してより良い結果を達成し、それによってより高いデータ効率を提供することがわかっています。
再現性をサポートし、この方向に沿った将来の研究を促進するために、https://github.com/thu-spmi/cat/tree/master/egs/cv-lang10でホイッスルのパイプライン全体のコード、モデル、データをリリースします。

要約(オリジナル)

There exist three approaches for multilingual and crosslingual automatic speech recognition (MCL-ASR) – supervised pretraining with phonetic or graphemic transcription, and self-supervised pretraining. We find that pretraining with phonetic supervision has been underappreciated so far for MCL-ASR, while conceptually it is more advantageous for information sharing between different languages. This paper explores the approach of pretraining with weakly phonetic supervision towards data-efficient MCL-ASR, which is called Whistle. We relax the requirement of gold-standard human-validated phonetic transcripts, and obtain International Phonetic Alphabet (IPA) based transcription by leveraging the LanguageNet grapheme-to-phoneme (G2P) models. We construct a common experimental setup based on the CommonVoice dataset, called CV-Lang10, with 10 seen languages and 2 unseen languages. A set of experiments are conducted on CV-Lang10 to compare, as fair as possible, the three approaches under the common setup for MCL-ASR. Experiments demonstrate the advantages of phoneme-based models (Whistle) for MCL-ASR, in terms of speech recognition for seen languages, crosslingual performance for unseen languages with different amounts of few-shot data, overcoming catastrophic forgetting, and training efficiency. It is found that when training data is more limited, phoneme supervision can achieve better results compared to subword supervision and self-supervision, thereby providing higher data-efficiency. To support reproducibility and promote future research along this direction, we release the code, models and data for the entire pipeline of Whistle at https://github.com/thu-spmi/CAT/tree/master/egs/cv-lang10.

arxiv情報

著者 Saierdaer Yusuyin,Te Ma,Hao Huang,Wenbo Zhao,Zhijian Ou
発行日 2025-03-27 16:38:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision はコメントを受け付けていません