Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda

要約

この論文では、英語 – ルガンダ言語ペアの神経機械翻訳(NMT)モデルを強化するための半監視技術としてのバック翻訳(BT)の適用を調査し、特に低リソース言語が直面する課題に対処します。
私たちの研究の目的は、単一言語のコーパスから合成データを生成することにより、BTがバイリンガルデータの希少性をどのように軽減できるかを示すことです。
私たちの方法論では、公開されているデータとWebがクロールしたデータの両方を使用して、カスタムNMTモデルを開発し、反復的および増分バック翻訳手法を適用することが含まれます。
複数の小さなデータセットにわたってインクリメンタルバック変換のデータセットを戦略的に選択します。これは、アプローチの新しい要素です。
私たちの研究の結果は、大幅な改善を示しており、英語 – ラガンダペアの翻訳パフォーマンスは、以前のベンチマークをすべての翻訳方向に10を超えるBLEUスコアユニットを超えています。
さらに、当社の評価には、Sacrebleu、Chrf2、Terなどの包括的な評価メトリックが組み込まれており、翻訳品質の微妙な理解を提供します。
私たちの研究から得られた結論は、戦略的にキュレーションされたデータセットが利用されたときのBTの有効性を確認し、新しいパフォーマンスベンチマークを確立し、低リソース言語のNMTモデルを強化するBTの可能性を実証します。

要約(オリジナル)

In this paper,we explore the application of Back translation (BT) as a semi-supervised technique to enhance Neural Machine Translation(NMT) models for the English-Luganda language pair, specifically addressing the challenges faced by low-resource languages. The purpose of our study is to demonstrate how BT can mitigate the scarcity of bilingual data by generating synthetic data from monolingual corpora. Our methodology involves developing custom NMT models using both publicly available and web-crawled data, and applying Iterative and Incremental Back translation techniques. We strategically select datasets for incremental back translation across multiple small datasets, which is a novel element of our approach. The results of our study show significant improvements, with translation performance for the English-Luganda pair exceeding previous benchmarks by more than 10 BLEU score units across all translation directions. Additionally, our evaluation incorporates comprehensive assessment metrics such as SacreBLEU, ChrF2, and TER, providing a nuanced understanding of translation quality. The conclusion drawn from our research confirms the efficacy of BT when strategically curated datasets are utilized, establishing new performance benchmarks and demonstrating the potential of BT in enhancing NMT models for low-resource languages.

arxiv情報

著者 Richard Kimera,Dongnyeong Heo,Daniela N. Rim,Heeyoul Choi
発行日 2025-05-05 08:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda はコメントを受け付けていません

Unveiling the Mechanisms of Explicit CoT Training: How CoT Enhances Reasoning Generalization

要約

大規模な言語モデル(LLMS)のトレーニングへの明示的なチェーン(COT)の推論の統合は、推論能力を進めていますが、COTが一般化を強化するメカニズムは、よく理解されていないままです。
この作業は、(1)\ TextIT {How} COTトレーニングの内部モデルの表現を再構築し、(2)\ TextIT {なぜ}分散型(ID)と分散除外(OOD)の両方の推論一般化の両方を改善します。
制御された実験と理論分析を通じて、次の重要な洞察を導き出します。
\ textBf {1)}構造的利点:COTトレーニングは、推論を2段階の一般化回路に内面化します。ここで、段階の数はトレーニング中の明示的な推論ステップに対応します。
特に、COTトレーニングモデルは、非COTの対応物と比較して浅い層で中間結果を解決し、その後の推論ステップに特化するためにより深い層を解放します。
\ textBf {2)}理論分析:分布の発散を介した情報理論の一般化境界は、IDおよびOODコンポーネントに分解できます。
COTに関係なくIDエラーは十分なトレーニングで減少しますが、OODエラーはCOTに大きく依存します。非COTトレーニングは目に見えない推論パターンのためにSAMPLESに一般化できませんが、COTトレーニングは、トレーニング中にサブタスクと推論構成をマスターすることにより、ほぼ完璧なOOD一般化を達成します。
特定されたメカニズムは、実験結果を説明しています。COTトレーニングは収束を加速し、IDからIDとOODの両方のシナリオに一般化を強化し、許容可能なノイズでも堅牢なパフォーマンスを維持します。
これらの調査結果は、複雑な現実世界のデータセットでさらに検証されています。
このペーパーでは、LLMの推論を強化するためのCOT戦略を設計するための貴重な洞察を提供します。

要約(オリジナル)

The integration of explicit Chain-of-Thought (CoT) reasoning into training large language models (LLMs) has advanced their reasoning capabilities, yet the mechanisms by which CoT enhances generalization remain poorly understood. This work investigates (1) \textit{how} CoT training reshapes internal model representations and (2) \textit{why} it improves both in-distribution (ID) and out-of-distribution (OOD) reasoning generalization. Through controlled experiments and theoretical analysis, we derive the following key insights. \textbf{1)} Structural Advantage: CoT training internalizes reasoning into a two-stage generalizing circuit, where the number of stages corresponds to the explicit reasoning steps during training. Notably, CoT-trained models resolve intermediate results at shallower layers compared to non-CoT counterparts, freeing up deeper layers to specialize in subsequent reasoning steps. \textbf{2)} Theoretical Analysis: the information-theoretic generalization bounds via distributional divergence can be decomposed into ID and OOD components. While ID error diminishes with sufficient training regardless of CoT, OOD error critically depends on CoT: Non-CoT training fails to generalize to OOD samples due to unseen reasoning patterns, whereas CoT training achieves near-perfect OOD generalization by mastering subtasks and reasoning compositions during training. The identified mechanisms explain our experimental results: CoT training accelerates convergence and enhances generalization from ID to both ID and OOD scenarios while maintaining robust performance even with tolerable noise. These findings are further validated on complex real-world datasets. This paper offers valuable insights for designing CoT strategies to enhance LLM reasoning robustness.

arxiv情報

著者 Xinhao Yao,Ruifeng Ren,Yun Liao,Yong Liu
発行日 2025-05-05 09:01:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Unveiling the Mechanisms of Explicit CoT Training: How CoT Enhances Reasoning Generalization はコメントを受け付けていません

ParaICL: Towards Parallel In-Context Learning

要約

大規模な言語モデル(LLMS)は、自然言語処理(NLP)の標準となっており、驚くべき能力を備えた少ないショットコンテキスト内学習(ICL)で優れています。
それにもかかわらず、ICLの成功は、少数のショットデモンストレーションの例の選択に大きく依存しているため、選択プロセスがますます重要になります。
既存の方法は、これらの例の量とセマンティックな類似性を最適化して、ICLのパフォーマンスを改善するように拡大しています。
ただし、予備的な実験では、ICLの有効性が入力コンテキストの長さによって制限されることを示しています。
さらに、少数のショットデモンストレーションの例のさまざまな組み合わせは、さまざまなテストサンプル間で精度を大幅に高めることができます。
これに対処するために、管理可能な入力コンテキストの長さを超えることなくすべてのデモンストレーションの例を効果的に利用する並列内コンテキスト学習(PARAICL)という名前の新しい方法を提案します。
Paraiclは、デモンストレーションの質問のセマンティックな類似性に従って、並列バッチを使用して、デモンストレーションの例をテストの質問に分配します。
次に、各バッチの正規化されたバッチセマンティックスコアを計算します。
適応的な妥当性によって制約される加重平均セマンティック目標が、最も適切なトークンを選択するために適用されます。
広範な実験を通じて、Paraiclの有効性を検証し、アブレーション研究を実施して、その設計の根拠を強調します。
さらに、Paraiclが既存の方法とシームレスに統合できることを実証します。

要約(オリジナル)

Large language models (LLMs) have become the norm in natural language processing (NLP), excelling in few-shot in-context learning (ICL) with their remarkable abilities. Nonetheless, the success of ICL largely hinges on the choice of few-shot demonstration examples, making the selection process increasingly crucial. Existing methods have delved into optimizing the quantity and semantic similarity of these examples to improve ICL performances. However, our preliminary experiments indicate that the effectiveness of ICL is limited by the length of the input context. Moreover, varying combinations of few-shot demonstration examples can significantly boost accuracy across different test samples. To address this, we propose a novel method named parallel in-context learning (ParaICL) that effectively utilizes all demonstration examples without exceeding the manageable input context length. ParaICL employs parallel batching to distribute demonstration examples into different batches according to the semantic similarities of the questions in the demonstrations to the test question. It then computes normalized batch semantic scores for each batch. A weighted average semantic objective, constrained by adaptive plausibility, is applied to select the most appropriate tokens. Through extensive experiments, we validate the effectiveness of ParaICL and conduct ablation studies to underscore its design rationale. We further demonstrate that ParaICL can seamlessly integrate with existing methods.

arxiv情報

著者 Xingxuan Li,Xuan-Phi Nguyen,Shafiq Joty,Lidong Bing
発行日 2025-05-05 09:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ParaICL: Towards Parallel In-Context Learning はコメントを受け付けていません

Bemba Speech Translation: Exploring a Low-Resource African Language

要約

本論文では、国際音声言語翻訳会議(IWSLT2025)の低リソース言語トラックに提出した、ベンバ語から英語への音声翻訳システムについて述べる。WhisperとNLLB-200をベースとしたカスケード型音声翻訳システムを構築し、逆翻訳などのデータ補強技術を採用した。合成データを使用した場合の効果を調査し、実験セットアップについて述べる。

要約(オリジナル)

This paper describes our system submission to the International Conference on Spoken Language Translation (IWSLT 2025), low-resource languages track, namely for Bemba-to-English speech translation. We built cascaded speech translation systems based on Whisper and NLLB-200, and employed data augmentation techniques, such as back-translation. We investigate the effect of using synthetic data and discuss our experimental setup.

arxiv情報

著者 Muhammad Hazim Al Farouq,Aman Kassahun Wassie,Yasmin Moslem
発行日 2025-05-05 09:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS | Bemba Speech Translation: Exploring a Low-Resource African Language はコメントを受け付けていません

Large Language Models as Carriers of Hidden Messages

要約

単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができます。これは、特定のクエリによってトリガーされた場合にのみ明らかになります。
アプリケーションには、ライセンスコンプライアンスを確認するために一意の識別子が組み込まれているLLMフィンガープリントと、LLMにトリガークエリを通じて開示された隠されたメッセージが含まれるステガノグラフィが含まれます。
私たちの研究は、微調整を介して隠されたテキストを埋め込むことは、膨大な数の潜在的なトリガーのために一見安全であるように見えますが、LLMの出力デコードプロセスの分析を通じて抽出に対して脆弱であることを示しています。
無条件のトークンForcing(UTF)と呼ばれる抽出攻撃を導入します。これは、LLMの語彙からトークンを繰り返しフィードして、高いトークン確率を持つシーケンスを明らかにし、隠されたテキスト候補を示しています。
また、標準的な微調整と比較してLLMの一般的なパフォーマンスを低下させることなく、すべての既知の抽出攻撃に対して隠されたテキストに耐える防御パラダイムである、無条件のトークン強制混乱(UTFC)を提示します。
UTFCには、良性(LLMフィンガープリントの改善)と悪性アプリケーション(LLMを使用して隠れた通信チャネルを作成)の両方を備えています。

要約(オリジナル)

Simple fine-tuning can embed hidden text into large language models (LLMs), which is revealed only when triggered by a specific query. Applications include LLM fingerprinting, where a unique identifier is embedded to verify licensing compliance, and steganography, where the LLM carries hidden messages disclosed through a trigger query. Our work demonstrates that embedding hidden text via fine-tuning, although seemingly secure due to the vast number of potential triggers, is vulnerable to extraction through analysis of the LLM’s output decoding process. We introduce an extraction attack called Unconditional Token Forcing (UTF), which iteratively feeds tokens from the LLM’s vocabulary to reveal sequences with high token probabilities, indicating hidden text candidates. We also present Unconditional Token Forcing Confusion (UTFC), a defense paradigm that makes hidden text resistant to all known extraction attacks without degrading the general performance of LLMs compared to standard fine-tuning. UTFC has both benign (improving LLM fingerprinting) and malign applications (using LLMs to create covert communication channels).

arxiv情報

著者 Jakub Hoscilowicz,Pawel Popiolek,Jan Rudkowski,Jedrzej Bieniasz,Artur Janicki
発行日 2025-05-05 09:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Large Language Models as Carriers of Hidden Messages はコメントを受け付けていません

Bielik v3 Small: Technical Report

要約

ポーランド語処理用に最適化された一連のパラメーター効率の高い生成テキストモデル(1.5bおよび4.5b)であるBielik V3を紹介します。
これらのモデルは、小規模でよく最適化されたアーキテクチャが、はるかに大きなカウンターパートに匹敵するパフォーマンスを実現しながら、かなり少ない計算リソースを必要とすることを示しています。
私たちのアプローチには、いくつかの重要なイノベーションが組み込まれています。トークンの効率を大幅に改善するカスタムポリッシュトークン剤(APT4)、指導の種類間の学習のバランスをとる加重指導クロスエントロピー損失、トレーニングの進捗に基づいて動的に調整する適応学習率です。
3億3000万台のドキュメントにまたがる292億トークンの細心の注意を払ってキュレーションされたコーパスで訓練されたこれらのモデルは、オープンPLLMリーダーボード、複雑なポリッシュテキスト理解ベンチマーク、ポーランドのEQベンチ、ポーランドの医療リーダーボードなど、複数のベンチマークに及ぶ。
4.5Bパラメーターモデルは、モデルのサイズの2〜3倍のモデルと競合する結果を達成し、1.5Bモデルは非常にコンパクトなプロファイルにもかかわらず強力なパフォーマンスを提供します。
これらの進歩は、表現されていない言語でのパラメーター効率の高い言語モデリングのための新しいベンチマークを確立し、リソースに制約のあるアプリケーションで高品質のポーランド語AIをよりアクセスしやすくします。

要約(オリジナル)

We introduce Bielik v3, a series of parameter-efficient generative text models (1.5B and 4.5B) optimized for Polish language processing. These models demonstrate that smaller, well-optimized architectures can achieve performance comparable to much larger counterparts while requiring substantially fewer computational resources. Our approach incorporates several key innovations: a custom Polish tokenizer (APT4) that significantly improves token efficiency, Weighted Instruction Cross-Entropy Loss to balance learning across instruction types, and Adaptive Learning Rate that dynamically adjusts based on training progress. Trained on a meticulously curated corpus of 292 billion tokens spanning 303 million documents, these models excel across multiple benchmarks, including the Open PL LLM Leaderboard, Complex Polish Text Understanding Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter model achieves results competitive with models 2-3 times its size, while the 1.5B model delivers strong performance despite its extremely compact profile. These advances establish new benchmarks for parameter-efficient language modeling in less-represented languages, making high-quality Polish language AI more accessible for resource-constrained applications.

arxiv情報

著者 Krzysztof Ociepa,Łukasz Flis,Remigiusz Kinas,Krzysztof Wróbel,Adrian Gwoździej
発行日 2025-05-05 10:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2.7 | Bielik v3 Small: Technical Report はコメントを受け付けていません

EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning

要約

大規模な言語モデル(LLM)の補強学習(RL)の最近の進歩は、多目的タスクに対処する際の微調整を示していますが、複雑な客観的バランス、トレーニング効率の低さ、スケーラビリティの低さ、説明可能性など、重大な課題に直面しています。
アンサンブル学習の原則を活用すると、効率と柔軟性を向上させるためにトレーニング後に集約を最適化しながら、個々の目的で複数のモデルを微調整するアンサンブル多目的RL(emorl)フレームワークを導入します。
私たちの方法は、個々のモデルの最後の隠された状態を集約した最初の方法であり、複数の目的からコンテキスト情報を組み込んでいます。
このアプローチは、最適な加重組み合わせを識別する階層グリッド検索アルゴリズムによってサポートされています。
テキストスコアリングLLMSを使用して世代を評価し、RL微調整中に報酬を提供し、カウンセラーリフレクションの生成タスクでEmorlを評価します。
ペアとPsych8Kデータセットの包括的な実験を通じて、既存のベースラインに対するEmorlの利点を実証します。トレーニング消費量が大幅に低く、より安定したトレーニング消費(17,529 \ PM 1,650 $データポイントと6,573ドル\ PM 147.43 $秒)、鱗と類似性のパフォーマンスの説明を実証します。

要約(オリジナル)

Recent advances in reinforcement learning (RL) for large language model (LLM) fine-tuning show promise in addressing multi-objective tasks but still face significant challenges, including complex objective balancing, low training efficiency, poor scalability, and limited explainability. Leveraging ensemble learning principles, we introduce an Ensemble Multi-Objective RL (EMORL) framework that fine-tunes multiple models with individual objectives while optimizing their aggregation after the training to improve efficiency and flexibility. Our method is the first to aggregate the last hidden states of individual models, incorporating contextual information from multiple objectives. This approach is supported by a hierarchical grid search algorithm that identifies optimal weighted combinations. We evaluate EMORL on counselor reflection generation tasks, using text-scoring LLMs to evaluate the generations and provide rewards during RL fine-tuning. Through comprehensive experiments on the PAIR and Psych8k datasets, we demonstrate the advantages of EMORL against existing baselines: significantly lower and more stable training consumption ($17,529\pm 1,650$ data points and $6,573\pm 147.43$ seconds), improved scalability and explainability, and comparable performance across multiple objectives.

arxiv情報

著者 Lingxiao Kong,Cong Yang,Susanne Neufang,Oya Deniz Beyan,Zeyd Boukhers
発行日 2025-05-05 11:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning はコメントを受け付けていません

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

要約

マルチターン相互作用のための効果的なAIエージェントのトレーニングには、現実的なヒューマンエージェントダイナミクスをキャプチャする高品質のデータが必要ですが、そのようなデータは手動で収集するのに少ない費用がかかります。
検証可能で多様なマルチターンエージェントデータを生成する2相フレームワークであるApigen-MTを紹介します。
第1フェーズでは、エージェントパイプラインは、LLMレビュアーの委員会と反復フィードバックループを活用して、グラウンドトゥルースアクションを備えた詳細なタスクの青写真を作成します。
これらの青写真は、シミュレートされたヒトエージェント相互作用により、完全な相互作用の軌跡に変換されます。
モデルのファミリーをトレーニングします – 1Bから70Bのパラメーターの範囲のサイズのXLAM-2-FC-Rシリーズ。
私たちのモデルは、$ \ tau $ -benchおよびBFCLベンチマークでGPT-4oやClaude 3.5などのフロンティアモデルを上回り、特に複数の試行で優れた一貫性を維持しながら、より大きなカウンターパートを超えて、より大きなカウンターパートを上回ります。
包括的な実験は、検証された青写真から控えめアプローチが高品質のトレーニングデータを生成し、より信頼性が高く、効率的で有能なエージェントの開発を可能にすることを示しています。
AIエージェントの研究を進めるために、5K合成データの軌跡と訓練されたXLAL-2-FC-Rモデルをオープンソースで囲みます。
https://huggingface.co/collections/salesforce/xlam-2-67ef5be12949d8dcdae354c4のモデル;
https://huggingface.co/datasets/salesforce/apigen-mt-5kおよびhttps://apigen-mt.github.ioのデータセット

要約(オリジナル)

Training effective AI agents for multi-turn interactions requires high-quality data that captures realistic human-agent dynamics, yet such data is scarce and expensive to collect manually. We introduce APIGen-MT, a two-phase framework that generates verifiable and diverse multi-turn agent data. In the first phase, our agentic pipeline produces detailed task blueprints with ground-truth actions, leveraging a committee of LLM reviewers and iterative feedback loops. These blueprints are then transformed into complete interaction trajectories through simulated human-agent interplay. We train a family of models — the xLAM-2-fc-r series with sizes ranging from 1B to 70B parameters. Our models outperform frontier models such as GPT-4o and Claude 3.5 on $\tau$-bench and BFCL benchmarks, with the smaller models surpassing their larger counterparts, particularly in multi-turn settings, while maintaining superior consistency across multiple trials. Comprehensive experiments demonstrate that our verified blueprint-to-details approach yields high-quality training data, enabling the development of more reliable, efficient, and capable agents. We open-source 5K synthetic data trajectories and the trained xLAM-2-fc-r models to advance research in AI agents. Models at https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4; Dataset at https://huggingface.co/datasets/Salesforce/APIGen-MT-5k and Website at https://apigen-mt.github.io

arxiv情報

著者 Akshara Prabhakar,Zuxin Liu,Ming Zhu,Jianguo Zhang,Tulika Awalgaonkar,Shiyu Wang,Zhiwei Liu,Haolin Chen,Thai Hoang,Juan Carlos Niebles,Shelby Heinecke,Weiran Yao,Huan Wang,Silvio Savarese,Caiming Xiong
発行日 2025-05-05 11:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay はコメントを受け付けていません

Ensemble Kalman filter for uncertainty in human language comprehension

要約

人工ニューラルネットワーク(ANN)は、文処理のモデリングに広く使用されていますが、多くの場合、曖昧または予期しない入力中に不確実性を管理する人間の文の理解とは対照的に決定論的な行動を示します。
これは、Sente Gestalt(SG)モデルなどの従来のANNモデルの制限に挑戦する予期せぬ役割反転と、予期しない役割の逆転を伴う反転の異常の象徴によって例示されます。
これらの制限に対処するために、文の理解のためのベイジアンフレームワークを提案し、不確実性を定量化するためにベイジアン推論のためにアンサンブルカルマンフィルター(ENKF)の拡張を適用します。
言語の理解をベイジアンの逆問題としてフレーミングすることにより、このアプローチは、不確実性の表現に関して人間の文処理を反映するSGモデルの能力を高めます。
数値実験と最尤推定(MLE)との数値実験と比較は、ベイジアンの方法が不確実性の表現を改善し、モデルが言語のあいまいさを扱うときに人間の認知処理をよりよく近似できるようにすることを示しています。

要約(オリジナル)

Artificial neural networks (ANNs) are widely used in modeling sentence processing but often exhibit deterministic behavior, contrasting with human sentence comprehension, which manages uncertainty during ambiguous or unexpected inputs. This is exemplified by reversal anomalies-sentences with unexpected role reversals that challenge syntax and semantics-highlighting the limitations of traditional ANN models, such as the Sentence Gestalt (SG) Model. To address these limitations, we propose a Bayesian framework for sentence comprehension, applying an extension of the ensemble Kalman filter (EnKF) for Bayesian inference to quantify uncertainty. By framing language comprehension as a Bayesian inverse problem, this approach enhances the SG model’s ability to reflect human sentence processing with respect to the representation of uncertainty. Numerical experiments and comparisons with maximum likelihood estimation (MLE) demonstrate that Bayesian methods improve uncertainty representation, enabling the model to better approximate human cognitive processing when dealing with linguistic ambiguities.

arxiv情報

著者 Diksha Bhandari,Alessandro Lopopolo,Milena Rabovsky,Sebastian Reich
発行日 2025-05-05 11:56:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, stat.AP, stat.ML | Ensemble Kalman filter for uncertainty in human language comprehension はコメントを受け付けていません

Automatic Proficiency Assessment in L2 English Learners

要約

英語の第二言語能力(L2)は通常、英語の教師または専門家の評価者によって知覚的に評価され、固有の評価者間および評価者間変動があります。
このホワイトペーパーでは、包括的なL2習熟度評価のための深い学習技術を調査し、音声信号とその特派員の転写の両方に対処します。
2D CNN、周波数ベースのCNN、RESNET、および事前に処理されたWAV2VEC 2.0モデルを含む多様なアーキテクチャを使用して、音声能力分類予測を分析します。
さらに、リソースの制約内でBERT言語モデルを微調整することにより、テキストベースの習熟度評価を調べます。
最後に、自発的な対話評価の複雑なタスクに取り組み、WAV2VEC 2.0およびBERTモデルの個別のアプリケーションを介して長期のオーディオとスピーカーの相互作用を管理します。
EFCAMDATおよびAnglish Datasetおよびプライベートデータセットの実験の結果、特に自動化されたL2習熟度評価のための、特に前提条件のWAV2VEC 2.0モデルの可能性を強調しています。

要約(オリジナル)

Second language proficiency (L2) in English is usually perceptually evaluated by English teachers or expert evaluators, with the inherent intra- and inter-rater variability. This paper explores deep learning techniques for comprehensive L2 proficiency assessment, addressing both the speech signal and its correspondent transcription. We analyze spoken proficiency classification prediction using diverse architectures, including 2D CNN, frequency-based CNN, ResNet, and a pretrained wav2vec 2.0 model. Additionally, we examine text-based proficiency assessment by fine-tuning a BERT language model within resource constraints. Finally, we tackle the complex task of spontaneous dialogue assessment, managing long-form audio and speaker interactions through separate applications of wav2vec 2.0 and BERT models. Results from experiments on EFCamDat and ANGLISH datasets and a private dataset highlight the potential of deep learning, especially the pretrained wav2vec 2.0 model, for robust automated L2 proficiency evaluation.

arxiv情報

著者 Armita Mohammadi,Alessandro Lameiras Koerich,Laureano Moro-Velazquez,Patrick Cardinal
発行日 2025-05-05 12:36:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Automatic Proficiency Assessment in L2 English Learners はコメントを受け付けていません