LexTime: A Benchmark for Temporal Ordering of Legal Events

要約

法的テキストの時間的推論は、判例法の分析やコンプライアンス監視などのアプリケーションにとって重要です。
ただし、既存のデータセットには専門家の言語評価があり、LLMSが法的文脈でイベントの注文を管理する方法を理解する際にギャップが残ります。
LLMSのイベント注文機能を法的言語で評価するために設計された最初のデータセットであるLextimeを紹介します。
私たちの調査結果は、(1)LLMが物語よりも法的イベントの注文により正確であることを示しています(最大 +10.5%)。
(2)より長い入力コンテキストと暗黙的なイベントは精度を高め、暗黙的に描写されたイベントペアで80.8%に達します。
(3)法的言語の複雑さとネストされた条項は依然として課題です。
コンテキストの長さ、明示的なイベントペア、および法的言語の特徴がモデルのパフォーマンスにどのように影響し、時間的イベント推論を強化するための特定のモデリング戦略が必要であることを示すことを調査します。

要約(オリジナル)

Temporal reasoning in legal texts is important for applications like case law analysis and compliance monitoring. However, existing datasets lack expert language evaluation, leaving a gap in understanding how LLMs manage event ordering in legal contexts. We introduce LexTime, the first dataset designed to evaluate LLMs’ event ordering capabilities in legal language, consisting of 512 instances from U.S. Federal Complaints with annotated event pairs and their temporal relations. Our findings show that (1) LLMs are more accurate on legal event ordering than on narrative (up to +10.5%); (2) longer input contexts and implicit events boost accuracy, reaching 80.8% for implicit-explicit event pairs; (3) legal linguistic complexities and nested clauses remain a challenge. We investigate how context length, explicit vs implicit event pairs, and legal language features affect model performance, demonstrating the need for specific modeling strategies to enhance temporal event reasoning.

arxiv情報

著者 Claire Barale,Leslie Barrett,Vikram Sunil Bajaj,Michael Rovatsos
発行日 2025-06-04 15:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LexTime: A Benchmark for Temporal Ordering of Legal Events はコメントを受け付けていません

Unveiling and Eliminating the Shortcut Learning for Locate-Then-Edit Knowledge Editing via Both Subject and Relation Awareness

要約

知識の編集は、無関係な知識に対する副作用が最も少ないことを保証しながら、大規模な言語モデルによって予測されるターゲットの知識を交互にすることを目的としています。
知識編集を実現する効果的な方法は、事実上の関連性を予測するための極めて重要なパラメーターを特定し、それらを最適化プロセスで変更して予測を更新することです。
ただし、これらの位置は、ターゲット編集の主題に関連する最も無関係な関係を変更する傾向があるため、制御できません。
制御可能な編集のこの障害は、最適化プロセス中のショートカット学習の問題によるものであることを明らかにします。
具体的には、最適化中に学習するモデルの関係機能である2つの重要な機能を発見しますが、現在の最適化プロセスは、関係機能を無視しながら、主題機能を過剰に学習する傾向があります。
主題機能のこのショートカット学習を排除するために、主題機能の学習と関係機能のバランスをとる新しい2段階の最適化プロセスを提案します。
実験結果は、私たちのアプローチがショートカット学習からの知識の編集を成功裏に妨げ、最適な全体的なパフォーマンスを達成し、制御可能な知識編集に貢献することを示しています。

要約(オリジナル)

Knowledge editing aims to alternate the target knowledge predicted by large language models while ensuring the least side effects on unrelated knowledge. An effective way to achieve knowledge editing is to identify pivotal parameters for predicting factual associations and modify them with an optimization process to update the predictions. However, these locate-then-edit methods are uncontrollable since they tend to modify most unrelated relations connected to the subject of target editing. We unveil that this failure of controllable editing is due to a shortcut learning issue during the optimization process. Specifically, we discover two crucial features that are the subject feature and the relation feature for models to learn during optimization, but the current optimization process tends to over-learning the subject feature while neglecting the relation feature. To eliminate this shortcut learning of the subject feature, we propose a novel two-stage optimization process that balances the learning of the subject feature and the relation feature. Experimental results demonstrate that our approach successfully prevents knowledge editing from shortcut learning and achieves the optimal overall performance, contributing to controllable knowledge editing.

arxiv情報

著者 Xiyu Liu,Zhengxiao Liu,Naibin Gu,Zheng Lin,Ji Xiang,Weiping Wang
発行日 2025-06-04 15:06:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unveiling and Eliminating the Shortcut Learning for Locate-Then-Edit Knowledge Editing via Both Subject and Relation Awareness はコメントを受け付けていません

How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?

要約

トークン化、正規化、停止単語の除去、および幹/lemmatationを含む古典的なテキストの前処理パイプラインは、構文オントロジーマッチング(OM)のために多くのシステムで実装されています。
ただし、テキストの前処理に標準化の欠如は、マッピング結果に多様性を生み出します。
この論文では、49個の異なるアライメントを備えた8オントロジーアライメント評価イニシアチブ(OAEI)トラックの構文OMに対するテキストの前処理パイプラインの効果を調査します。
フェーズ1テキストの前処理(トークン化と正規化)は、フェーズ2テキストの前処理(停止単語の削除と幹/板化)よりも効果的であることがわかります。
フェーズ2テキストの前処理によって引き起こされる不要な誤ったマッピングを修復するための2つの新しいアプローチを提案します。
1つは、誤ったマッピングを引き起こす一般的な単語を見つけるためにオントロジー固有のチェックを使用するアドホックロジックベースの修理アプローチです。
これらの単語は予約済みの単語セットに保存され、テキストの前処理前に適用されます。
大規模な言語モデル(LLMS)の力を活用することにより、事後LLMベースの修理アプローチも提案します。
このアプローチは、LLMSが提供する強力な背景知識を利用して、テキストの前処理後に存在しない直感に反する誤ったマッピングを修復します。
また、関数呼び出しを介して古典的なテキストの前処理パイプラインを注入することにより、不安定な真マッピングの傾向を克服します。
実験結果は、これらの2つのアプローチが一致する正確性と全体的なマッチングパフォーマンスを改善できることを示しています。

要約(オリジナル)

The classic text preprocessing pipeline, comprising Tokenisation, Normalisation, Stop Words Removal, and Stemming/Lemmatisation, has been implemented in many systems for syntactic ontology matching (OM). However, the lack of standardisation in text preprocessing creates diversity in mapping results. In this paper, we investigate the effect of the text preprocessing pipeline on syntactic OM in 8 Ontology Alignment Evaluation Initiative (OAEI) tracks with 49 distinct alignments. We find that Phase 1 text preprocessing (Tokenisation and Normalisation) is more effective than Phase 2 text preprocessing (Stop Words Removal and Stemming/Lemmatisation). We propose two novel approaches to repair unwanted false mappings caused by Phase 2 text preprocessing. One is an ad hoc logic-based repair approach that employs an ontology-specific check to find common words that cause false mappings. These words are stored in a reserved word set and applied before the text preprocessing. By leveraging the power of large language models (LLMs), we also propose a post hoc LLM-based repair approach. This approach utilises the strong background knowledge provided by LLMs to repair non-existent and counter-intuitive false mappings after the text preprocessing. It also overcomes the tendency towards unstable true mappings by injecting the classic text preprocessing pipeline via function calling. The experimental results show that these two approaches can improve the matching correctness and the overall matching performance.

arxiv情報

著者 Zhangcheng Qiang,Kerry Taylor,Weiqing Wang
発行日 2025-06-04 15:11:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching? はコメントを受け付けていません

On Support Samples of Next Word Prediction

要約

言語モデルは、複雑な決定を下すことでさまざまなタスクに優れていますが、これらの決定の背後にある理論的根拠を理解することは依然として課題です。
このペーパーでは、次の単語の予測タスクに焦点を当てた言語モデルで、\ emph {data-centric解釈可能性}を調査します。
代表者の定理を使用して、特定の予測を促進または阻害する2つのタイプの\ emph {サポートサンプル}を特定します。
私たちの調査結果は、サポートサンプルであることは本質的なプロパティであり、トレーニングが始まる前であっても予測可能であることを明らかにしています。
さらに、非サポートサンプルは直接的な予測ではあまり影響力がありませんが、一般化と表現学習の過剰適合と形成を防ぐ上で重要な役割を果たします。
特に、非サポートサンプルの重要性はより深い層で増加し、中間表現形成における重要な役割を示唆しています。これらの洞察は、データとモデルの決定の相互作用に光を当て、言語モデルの行動と解釈性を理解するための新しい次元を提供します。

要約(オリジナル)

Language models excel in various tasks by making complex decisions, yet understanding the rationale behind these decisions remains a challenge. This paper investigates \emph{data-centric interpretability} in language models, focusing on the next-word prediction task. Using representer theorem, we identify two types of \emph{support samples}-those that either promote or deter specific predictions. Our findings reveal that being a support sample is an intrinsic property, predictable even before training begins. Additionally, while non-support samples are less influential in direct predictions, they play a critical role in preventing overfitting and shaping generalization and representation learning. Notably, the importance of non-support samples increases in deeper layers, suggesting their significant role in intermediate representation formation.These insights shed light on the interplay between data and model decisions, offering a new dimension to understanding language model behavior and interpretability.

arxiv情報

著者 Yuqian Li,Yupei Du,Yufang Liu,Feifei Feng,Mou Xiao Feng,Yuanbin Wu
発行日 2025-06-04 15:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On Support Samples of Next Word Prediction はコメントを受け付けていません

Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning

要約

大規模な言語モデル(LLMS)は、さまざまな推論タスクで顕著なパフォーマンスを達成していますが、トレーニング後は、非効率的なサンプル利用と柔軟性のない難易度サンプル処理によって制約されます。
これらの制限に対処するために、2つの重要な革新を備えた新しいフレームワークであるカスタマイズされたカリキュラム学習(CCL)を提案します。
まず、事前定義された難易度メトリックを使用するのではなく、各モデルの個々の機能に基づいてカリキュラムデータセットをカスタマイズするモデル適応難易度定義を紹介します。
第二に、「ガイド付きプロンプト」を開発します。これにより、戦略的なヒントを通じてサンプルの難易度が動的に減少し、パフォーマンスを低下させる挑戦的なサンプルの効果的な利用を可能にします。
監視された微調整および強化学習に関する包括的な実験は、CCLが5つの数学的推論ベンチマークにわたって均一なトレーニングアプローチを大幅に上回り、サンプルの使用率とモデルのパフォーマンスを強化する際の両方のパラダイムにおけるその効果を確認することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable performance across various reasoning tasks, yet post-training is constrained by inefficient sample utilization and inflexible difficulty samples processing. To address these limitations, we propose Customized Curriculum Learning (CCL), a novel framework with two key innovations. First, we introduce model-adaptive difficulty definition that customizes curriculum datasets based on each model’s individual capabilities rather than using predefined difficulty metrics. Second, we develop ‘Guided Prompting,’ which dynamically reduces sample difficulty through strategic hints, enabling effective utilization of challenging samples that would otherwise degrade performance. Comprehensive experiments on supervised fine-tuning and reinforcement learning demonstrate that CCL significantly outperforms uniform training approaches across five mathematical reasoning benchmarks, confirming its effectiveness across both paradigms in enhancing sample utilization and model performance.

arxiv情報

著者 Muling Wu,Qi Qian,Wenhao Liu,Xiaohua Wang,Zisu Huang,Di Liang,LI Miao,Shihan Dou,Changze Lv,Zhenghua Wang,Zhibo Xu,Lina Chen,Tianlong Li,Xiaoqing Zheng,Xuanjing Huang
発行日 2025-06-04 15:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning はコメントを受け付けていません

LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward

要約

視覚障害のある(VI)個人(NIG-VI)のナビゲーション命令生成は重要ですが、比較的目立たないものです。
したがって、この研究は、VIユーザーが実際に使用できる、正確で標準の、段階的なナビゲーション指示の作成に焦点を当てています。
具体的には、LAF-GRPO(LLM-As-Follower GRPO)を提案します。LLMは、VIユーザー応答をシミュレートして、トレーニング後のVision言語モデル(VLM)をガイドする報酬を生成します。
これにより、教育の使いやすさが向上し、費用のかかる現実世界のデータのニーズを減らします。
トレーニングとテストを容易にするために、27KサンプルのオープンソースベンチマークであるNIG4VIを紹介します。
正確な空間座標を備えた多様なナビゲーションシナリオを提供し、詳細でオープンエンドのインシトゥ命令生成をサポートします。
NIG4VIでの実験は、定量的メトリックによるLAF-GRPOの有効性を示しています(例:ゼロ(LAF-GRPO)BLU +14 \%; SFT +(LAF-GRPO)Meteor 0.542対GPT-4Oの0.323)を示し、より控えめな指示をもたらします。
コードとベンチマークは、\ href {https://github.com/yiyiizhao/nig4vi} {https://github.com/yiyiyizhao/nig4vi}で入手できます。

要約(オリジナル)

Navigation instruction generation for visually impaired (VI) individuals (NIG-VI) is critical yet relatively underexplored. This study, hence, focuses on producing precise, in-situ, step-by-step navigation instructions that are practically usable by VI users. Concretely, we propose LaF-GRPO (LLM-as-Follower GRPO), where an LLM simulates VI user responses to generate rewards guiding the Vision-Language Model (VLM) post-training. This enhances instruction usability while reducing costly real-world data needs. To facilitate training and testing, we introduce NIG4VI, a 27k-sample open-sourced benchmark. It provides diverse navigation scenarios with accurate spatial coordinates, supporting detailed, open-ended in-situ instruction generation. Experiments on NIG4VI show the effectiveness of LaF-GRPO by quantitative metrics (e.g., Zero-(LaF-GRPO) boosts BLEU +14\%; SFT+(LaF-GRPO) METEOR 0.542 vs. GPT-4o’s 0.323) and yields more intuitive, safer instructions. Code and benchmark are available at \href{https://github.com/YiyiyiZhao/NIG4VI}{https://github.com/YiyiyiZhao/NIG4VI}.

arxiv情報

著者 Yi Zhao,Siqi Wang,Jing Li
発行日 2025-06-04 15:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM | LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward はコメントを受け付けていません

Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models

要約

大規模な言語モデル(LLM)のトレーニング前のデータセットの構成は、ほとんど非公開であり、モデルパフォーマンスの重要なドライバーであるデータ品質を最適化するための透明性と努力を妨げています。
自然言語の品質評価、多様性ベースのフィルター、分類器ベースのアプローチなどの現在のデータ選択方法は、単一次元の評価または冗長性に焦点を当てた戦略によって制限されます。
これらのギャップに対処するために、データの品質を評価するために4つの側面を提案します:プロフェッショナリズム、読みやすさ、推論、清潔さ。
さらに、学習した最適な重み付けを通じて、これらのディメンションを既存の品質メトリックと統合する多次元データ選択方法であるMeta-Raterを紹介します。
Meta-Raterはプロキシモデルを採用して、検証損失を予測する回帰モデルをトレーニングし、品質スコアの最適な組み合わせの識別を可能にします。
実験は、メタレイターが1.3Bパラメーターモデルの収束速度を2倍にし、下流タスクのパフォーマンスを3.23に改善することを示しています。
私たちの研究は、全体的で多次元の品質統合が従来の単一次元アプローチを大幅に上回り、トレーニング前の効率とモデル能力を高めるためのスケーラブルなパラダイムを提供することを確立しています。
将来の調査を進めるために、https://github.com/opendatalab/meta-raterでスクリプト、データ、モデルをリリースします。

要約(オリジナル)

The composition of pre-training datasets for large language models (LLMs) remains largely undisclosed, hindering transparency and efforts to optimize data quality, a critical driver of model performance. Current data selection methods, such as natural language quality assessments, diversity-based filters, and classifier-based approaches, are limited by single-dimensional evaluation or redundancy-focused strategies. To address these gaps, we propose four dimensions to evaluate data quality: professionalism, readability, reasoning, and cleanliness. We further introduce Meta-rater,a multi-dimensional data selection method that integrates these dimensions with existing quality metrics through learned optimal weightings. Meta-rater employs proxy models to train a regression model that predicts validation loss, enabling the identification of optimal combinations of quality scores. Experiments demonstrate that Meta-rater doubles convergence speed for 1.3B parameter models and improves downstream task performance by 3.23, with advantages that scale to models as large as 7.2B parameters. Our work establishes that holistic, multi-dimensional quality integration significantly outperforms conventional single-dimension approaches, offering a scalable paradigm for enhancing pre-training efficiency and model capability. To advance future research, we release scripts, data, and models at https://github.com/opendatalab/Meta-rater.

arxiv情報

著者 Xinlin Zhuang,Jiahui Peng,Ren Ma,Yinfan Wang,Tianyi Bai,Xingjian Wei,Jiantao Qiu,Chi Zhang,Ying Qian,Conghui He
発行日 2025-06-04 15:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models はコメントを受け付けていません

Controlling Difficulty of Generated Text for AI-Assisted Language Learning

要約

大規模な言語モデル(LLMS)との会話を実践することは、従来の対面学習に有望な代替手段を提示します。
ただし、ほとんどのLLMは、ネイティブに近いレベルの複雑さでテキストを生成し、初心者の学習者に適していません(CEFR:A1-A2)。
このホワイトペーパーでは、制御可能な生成技術、特にモデルの微調整を必要としないモジュラー方法が、絶対初心者をよりよくサポートするためにLLM出力を適応できるかどうかを調査します。
自動メトリックと、日本語の大学レベルの学習者とのユーザー調査の両方を通じて、これらの方法を評価します。
我々の調査結果は、促しだけで出力の難易度を制御できない一方で、将来の判別器(Yang and Klein、2021)の使用により、出力の理解可能性が大幅に向上することが示されています(40.4 \%から84.3 \%)。
さらに、発話ごとの理解できないトークンの割合を定量化し、人間の判断と強く相関する、新しいトークンレベルの評価メトリック、トークンミスレート(TMR)を導入します。
AIアシスト言語学習の将来の研究をサポートするために、コード、モデル、注釈ツール、およびデータセットをリリースします。

要約(オリジナル)

Practicing conversations with large language models (LLMs) presents a promising alternative to traditional in-person language learning. However, most LLMs generate text at a near-native level of complexity, making them ill-suited for beginner learners (CEFR: A1-A2). In this paper, we investigate whether controllable generation techniques — specifically modular methods that do not require model fine-tuning — can adapt LLM outputs to better support absolute beginners. We evaluate these methods through both automatic metrics and a user study with university-level learners of Japanese. Our findings show that while prompting alone fails to control output difficulty, the use of future discriminators (Yang and Klein, 2021) significantly improves output comprehensibility (from 40.4\% to 84.3\%). We further introduce a novel token-level evaluation metric, Token Miss Rate (TMR), that quantifies the proportion of incomprehensible tokens per utterance and correlates strongly with human judgments. To support future research in AI-assisted language learning, we release our code, models, annotation tools, and dataset.

arxiv情報

著者 Meiqing Jin,Liam Dugan,Chris Callison-Burch
発行日 2025-06-04 15:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, I.2.7 | Controlling Difficulty of Generated Text for AI-Assisted Language Learning はコメントを受け付けていません

Acoustically Precise Hesitation Tagging Is Essential for End-to-End Verbatim Transcription Systems

要約

自動スピーキング評価のための逐語的転写は、エラー分析やフィードバックなどの下流タスクに不可欠な、排出の正確なキャプチャを要求します。
ただし、多くのASRシステムはためらうことを破棄または一般化し、重要な音響の詳細を失います。
外部オーディオトレーニングデータに頼ることなく、低ランク適応(LORA)を使用して、Speak&改善の2025コーパスでささやきモデルを微調整します。
3つのアノテーションスキームを比較します:既存のオーディオ転写ペアからGemini 2.0フラッシュによって推測されるため、ためらう(純粋)、汎用タグ(リッチ)、および音響的に正確なフィラーを削除します。
チャレンジシステムは、6.47%のWER(純粋)および5.81%(追加)を達成しました。
チャレンジ後の実験により、微調整されたささやきの大きなV3ターボが「追加」スキームを使用して5.5%が得られ、「純粋な」スキーム(6.2%)より11.3%の相対的な改善が得られました。
これは、明示的で現実的な塗りつぶしの標識が、逐語的なL2音声転写のASR精度を大幅に向上させることを示しています。

要約(オリジナル)

Verbatim transcription for automatic speaking assessment demands accurate capture of disfluencies, crucial for downstream tasks like error analysis and feedback. However, many ASR systems discard or generalize hesitations, losing important acoustic details. We fine-tune Whisper models on the Speak & Improve 2025 corpus using low-rank adaptation (LoRA), without recourse to external audio training data. We compare three annotation schemes: removing hesitations (Pure), generic tags (Rich), and acoustically precise fillers inferred by Gemini 2.0 Flash from existing audio-transcript pairs (Extra). Our challenge system achieved 6.47% WER (Pure) and 5.81% WER (Extra). Post-challenge experiments reveal that fine-tuning Whisper Large V3 Turbo with the ‘Extra’ scheme yielded a 5.5% WER, an 11.3% relative improvement over the ‘Pure’ scheme (6.2% WER). This demonstrates that explicit, realistic filled-pause labeling significantly enhances ASR accuracy for verbatim L2 speech transcription.

arxiv情報

著者 Jhen-Ke Lin,Hao-Chien Lu,Chung-Chun Wang,Hong-Yun Lin,Berlin Chen
発行日 2025-06-04 15:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Acoustically Precise Hesitation Tagging Is Essential for End-to-End Verbatim Transcription Systems はコメントを受け付けていません

A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions

要約

意見表現に関する自動スピーキング評価(ASA)は、ラベル付きの録音の希少性によってしばしば妨げられ、迅速な多様性を制限し、スコアリングの信頼性を損ないます。
この課題に対処するために、大きな言語モデル(LLM)を活用して特定の習熟レベルの多様な応答を生成する新しいトレーニングパラダイムを提案し、スピーカーを認識したテキストからスピーチの合成を介して応答を合成された音声に変換し、合成とリアルの発話の間の特徴分布に基づいて適応的に再び競争するトレーニングインスタンスに動的に重要な損失を採用します。
その後、マルチモーダルの大手言語モデルは、アラインドされたテキスト機能を音声信号と統合して、習熟度スコアを直接予測します。
LTTCデータセットで実施された実験は、このアプローチが実際のデータまたは従来の増強に依存している方法を上回り、リソースの低い制約を効果的に緩和し、クロスモーダル情報を使用した意見表現でASAを有効にすることを示しています。

要約(オリジナル)

Automated speaking assessment (ASA) on opinion expressions is often hampered by the scarcity of labeled recordings, which restricts prompt diversity and undermines scoring reliability. To address this challenge, we propose a novel training paradigm that leverages a large language models (LLM) to generate diverse responses of a given proficiency level, converts responses into synthesized speech via speaker-aware text-to-speech synthesis, and employs a dynamic importance loss to adaptively reweight training instances based on feature distribution differences between synthesized and real speech. Subsequently, a multimodal large language model integrates aligned textual features with speech signals to predict proficiency scores directly. Experiments conducted on the LTTC dataset show that our approach outperforms methods relying on real data or conventional augmentation, effectively mitigating low-resource constraints and enabling ASA on opinion expressions with cross-modal information.

arxiv情報

著者 Chung-Chun Wang,Jhen-Ke Lin,Hao-Chien Lu,Hong-Yun Lin,Berlin Chen
発行日 2025-06-04 15:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions はコメントを受け付けていません