(How) Can Transformers Predict Pseudo-Random Numbers?

要約

変圧器は、順次データのパターンの発見に優れていますが、その基本的な制限と学習メカニズムは、調査の重要なトピックのままです。
この論文では、再発関係$ x_ {t + 1} = a x_t + c \; \ mathrm {mod} \; \ mathrm \; \ mathrm \;
;
M $。
私たちの分析により、十分なアーキテクチャ能力とトレーニングデータの多様性により、トランスは、目に見えないモジュリ($ m $)とパラメーター($ a、c $)を使用してLCGシーケンスのコンテキスト内予測を実行できることが明らかになりました。
埋め込み層と注意パターンの分析を通じて、トランスが複雑さを高める2つのシナリオでこれらのシーケンスを学習するためのアルゴリズム構造を開発する方法を明らかにします。
まず、トランスが目に見えない($ a、c $)でLCGシーケンスを学習する方法を分析しますが、固定モジュラスを分析し、$ m = 2^{32} $までの学習を成功させることを示します。
私たちの分析により、モデルはモジュラスを因数分解し、数字の数値表現を利用して連続的な予測を行うことを学ぶことが明らかになりました。
2番目の目に見えないモジュリのより挑戦的なシナリオでは、トランスが$ m _ {\ text {test}} = 2^{16} $までの目に見えないモジュリに一般化できることを示します。
この場合、モデルは2段階の戦略を採用しています。まず、コンテキストから未知のモジュラスを推定し、次にプライム因数化を利用して予測を生成します。
このタスクでは、臨界深さ$ = 3 $で精度の急激な遷移を観察します。
また、モジュラスとともに高精度スケールに到達するために必要なコンテキスト内シーケンス要素の数が必要であることがわかります。

要約(オリジナル)

Transformers excel at discovering patterns in sequential data, yet their fundamental limitations and learning mechanisms remain crucial topics of investigation. In this paper, we study the ability of Transformers to learn pseudo-random number sequences from linear congruential generators (LCGs), defined by the recurrence relation $x_{t+1} = a x_t + c \;\mathrm{mod}\; m$. Our analysis reveals that with sufficient architectural capacity and training data variety, Transformers can perform in-context prediction of LCG sequences with unseen moduli ($m$) and parameters ($a,c$). Through analysis of embedding layers and attention patterns, we uncover how Transformers develop algorithmic structures to learn these sequences in two scenarios of increasing complexity. First, we analyze how Transformers learn LCG sequences with unseen ($a, c$) but fixed modulus, and we demonstrate successful learning up to $m = 2^{32}$. Our analysis reveals that models learn to factorize the modulus and utilize digit-wise number representations to make sequential predictions. In the second, more challenging scenario of unseen moduli, we show that Transformers can generalize to unseen moduli up to $m_{\text{test}} = 2^{16}$. In this case, the model employs a two-step strategy: first estimating the unknown modulus from the context, then utilizing prime factorizations to generate predictions. For this task, we observe a sharp transition in the accuracy at a critical depth $=3$. We also find that the number of in-context sequence elements needed to reach high accuracy scales sublinearly with the modulus.

arxiv情報

著者 Tao Tao,Darshil Doshi,Dayal Singh Kalra,Tianyu He,Maissam Barkeshli
発行日 2025-02-14 18:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.CR, cs.LG, stat.ML | (How) Can Transformers Predict Pseudo-Random Numbers? はコメントを受け付けていません

Probabilistic Lexical Manifold Construction in Large Language Models via Hierarchical Vector Field Interpolation

要約

階層ベクトルフィールド補間は、語彙表現のための構造化された確率的フレームワークを導入し、単語の埋め込みが離散トークンマッピングに制約されるのではなく、連続的多様体をスムーズに遷移するようにします。
提案された方法論は、単語表現がトポロジーの一貫性に従うと確率的関数空間を構築し、トランスベースの埋め込みで一般的に観察される表現の不連続性を緩和します。
経験的評価により、確率的制約は、文脈関係を改善することにより語彙的一貫性を高め、複数の言語分布における意味的安定性の改善につながることが明らかになりました。
発散最小化技術の適用により、補間埋め込みは、大規模な実装の計算可能性を維持しながら、確率的一貫性を維持することが保証されます。
実験的発見は、補間された語彙マニホールドが表現密度アライメントを改善し、コンテキスト埋め込み分布の異方性歪みを減らすことを示しています。
標準的な変圧器ベースのモデルとの比較分析は、特に細粒のセマンティック分化を必要とするタスクで、構造化された補間がより安定した表現をもたらすことを強調しています。
埋め込みの発散の統計的評価は、確率論的な語彙多様体が、文脈的抽象化のさまざまなスケール全体にわたって一貫性を維持しながら、表現の矛盾を減らすことを確認します。
計算効率の評価により、補間はマイナーな処理オーバーヘッドを導入する一方で、構造化された表現学習アプローチは実用的な展開のためにスケーラブルのままであることが明らかになりました。

要約(オリジナル)

Hierarchical vector field interpolation introduces a structured probabilistic framework for lexical representation, ensuring that word embeddings transition smoothly across a continuous manifold rather than being constrained to discrete token mappings. The proposed methodology constructs a probabilistic function space where word representations adhere to topological consistency, mitigating representational discontinuities commonly observed in transformer-based embeddings. Empirical evaluations reveal that probabilistic constraints enhance lexical coherence by refining contextual relationships, leading to improvements in semantic stability across multiple linguistic distributions. The application of divergence minimization techniques ensures that interpolated embeddings maintain probabilistic consistency while preserving computational feasibility for large-scale implementations. Experimental findings demonstrate that interpolated lexical manifolds improve representation density alignment, reducing anisotropic distortions in contextual embedding distributions. Comparative analyses with standard transformer-based models highlight that structured interpolation yields more stable representations, particularly in tasks requiring fine-grained semantic differentiation. The statistical evaluation of embedding divergence confirms that probabilistic lexical manifolds reduce representational inconsistencies while maintaining coherence across varying scales of contextual abstraction. An assessment of computational efficiency reveals that while interpolation introduces minor processing overhead, the structured representation learning approach remains scalable for practical deployment.

arxiv情報

著者 Clive Pendleton,Ewan Harrington,Giles Fairbrother,Jasper Arkwright,Nigel Fenwick,Richard Katrix
発行日 2025-02-14 08:47:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Probabilistic Lexical Manifold Construction in Large Language Models via Hierarchical Vector Field Interpolation はコメントを受け付けていません

Preference Optimization for Reasoning with Pseudo Feedback

要約

直接選好最適化(DPO)などの優先最適化手法は、数学的推論やコーディングなどのドメインでの大きな言語モデル(LLMS)の推論能力を強化するために頻繁に採用され、通常は監視された微調整に続きます。
これらの方法は、好みのペアを生成するためにタスクを推論するために高品質のラベルに依存しています。
ただし、人間が検証したラベルを使用した推論データセットの可用性は限られています。
この研究では、関連するテストケースに対する評価として推論問題に対する解決策をフレーミングすることにより、推論タスクのための擬似フィードバックを生成するための新しいアプローチを紹介します。
テストケースに基づいて2つの形式の擬似フィードバックを調査します。1つは、フロンティアLLMSによって生成され、もう1つはマルチテストケースに自己整合性を拡大することによって生成されます。
優先最適化のために擬似フィードバックを使用して、数学的推論とコーディングタスクの両方について実験を実施し、両方のタスクで改善を観察します。
具体的には、MathStral-7Bを基本モデルとして使用して、58.3から68.6に数学の結果を改善し、nuninamath-72bとGPT-4-Turbo-106-previewの両方を上回ります。
GSM8Kと大学の数学では、スコアはそれぞれ85.6から90.3、34.3から42.3に増加します。
DeepSeek-Coder-7B-V1.5に基づいて、LiveCodebench(21.1から)で24.6のスコアを達成し、Claude-3-Haikuを上回っています。

要約(オリジナル)

Preference optimization techniques, such as Direct Preference Optimization (DPO), are frequently employed to enhance the reasoning capabilities of large language models (LLMs) in domains like mathematical reasoning and coding, typically following supervised fine-tuning. These methods rely on high-quality labels for reasoning tasks to generate preference pairs; however, the availability of reasoning datasets with human-verified labels is limited. In this study, we introduce a novel approach to generate pseudo feedback for reasoning tasks by framing the labeling of solutions to reason problems as an evaluation against associated test cases. We explore two forms of pseudo feedback based on test cases: one generated by frontier LLMs and the other by extending self-consistency to multi-test-case. We conduct experiments on both mathematical reasoning and coding tasks using pseudo feedback for preference optimization, and observe improvements across both tasks. Specifically, using Mathstral-7B as our base model, we improve MATH results from 58.3 to 68.6, surpassing both NuminaMath-72B and GPT-4-Turbo-1106-preview. In GSM8K and College Math, our scores increase from 85.6 to 90.3 and from 34.3 to 42.3, respectively. Building on Deepseek-coder-7B-v1.5, we achieve a score of 24.6 on LiveCodeBench (from 21.1), surpassing Claude-3-Haiku.

arxiv情報

著者 Fangkai Jiao,Geyang Guo,Xingxing Zhang,Nancy F. Chen,Shafiq Joty,Furu Wei
発行日 2025-02-14 09:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Preference Optimization for Reasoning with Pseudo Feedback はコメントを受け付けていません

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

要約

いくつかの最近の研究では、拡散モデルと自己回帰モデルを組み合わせることにより、個別の音声トークンなしで連続音声表現を自動網羅して生成しようとしましたが、多くの場合、過度の計算負荷または最適ではない結果で課題に直面しています。
この作業では、言語モデルと拡散トランスを組み合わせたパッチベースの自己回帰フレームワークである拡散変圧器の自己回帰モデリング(DITAR)を提案します。
このアプローチは、連続トークンに対する自己回帰モデルの有効性を大幅に向上させ、計算需要を削減します。
DITARは、パッチ生成に分割統合戦略を利用しています。言語モデルが集約されたパッチ埋め込みを処理し、その後、言語モデルの出力に基づいて次のパッチを生成します。
推論のために、多様性と決定論のバランスをとるために、逆拡散オード中にノイズを導入する時点として温度を定義することを提案します。
また、広範なスケーリング分析では、Ditarが優れたスケーラビリティを持っていることを示しています。
ゼロショットの音声生成では、Ditarは堅牢性、スピーカーの類似性、および自然さで最先端のパフォーマンスを達成します。

要約(オリジナル)

Several recent studies have attempted to autoregressively generate continuous speech representations without discrete speech tokens by combining diffusion and autoregressive models, yet they often face challenges with excessive computational loads or suboptimal outcomes. In this work, we propose Diffusion Transformer Autoregressive Modeling (DiTAR), a patch-based autoregressive framework combining a language model with a diffusion transformer. This approach significantly enhances the efficacy of autoregressive models for continuous tokens and reduces computational demands. DiTAR utilizes a divide-and-conquer strategy for patch generation, where the language model processes aggregated patch embeddings and the diffusion transformer subsequently generates the next patch based on the output of the language model. For inference, we propose defining temperature as the time point of introducing noise during the reverse diffusion ODE to balance diversity and determinism. We also show in the extensive scaling analysis that DiTAR has superb scalability. In zero-shot speech generation, DiTAR achieves state-of-the-art performance in robustness, speaker similarity, and naturalness.

arxiv情報

著者 Dongya Jia,Zhuo Chen,Jiawei Chen,Chenpeng Du,Jian Wu,Jian Cong,Xiaobin Zhuang,Chumin Li,Zhen Wei,Yuping Wang,Yuxuan Wang
発行日 2025-02-14 09:49:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation はコメントを受け付けていません

Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models

要約

大規模なビジョン言語モデル(LVLMS)のパフォーマンスが向上するにつれて、複数の言語で応答できるようになり、LVLMSによって生成された説明の需要が増加することが期待されています。
ただし、Visionエンコーダーの事前トレーニングとVisionエンコーダーを使用したLLMSの統合トレーニングは、主に英語のトレーニングデータを使用して実施されているため、LVLMSが英語以外の言語で説明を生成するときに潜在能力を完全に処理できるかどうかは不確かです。
さらに、機械翻訳を使用してデータセットを作成する多言語QAベンチマークには、文化的な違いとバイアスがあり、評価タスクとして使用する問題が残ります。
これらの課題に対処するために、この研究は、機械翻訳に依存することなく、複数の言語で拡張データセットを作成しました。
次に、ニュアンスと国固有のフレーズを考慮したこのデータセットを使用して、LVLMSの生成説明能力を評価しました。
さらに、この研究では、リソースが豊富な英語での命令調整が他の言語のパフォーマンスを改善するかどうかを調べました。
私たちの調査結果は、LVLMSが英語と比較して英語以外の言語ではより悪化することを示しています。
さらに、LVLMSは英語のデータから学んだ知識を効果的に管理するのに苦労することが観察されました。
データセットはhttps://huggingface.co/datasets/naist-nlp/multiexpartで入手できます

要約(オリジナル)

As the performance of Large-scale Vision Language Models (LVLMs) improves, they are increasingly capable of responding in multiple languages, and there is an expectation that the demand for explanations generated by LVLMs will grow. However, pre-training of Vision Encoder and the integrated training of LLMs with Vision Encoder are mainly conducted using English training data, leaving it uncertain whether LVLMs can completely handle their potential when generating explanations in languages other than English. In addition, multilingual QA benchmarks that create datasets using machine translation have cultural differences and biases, remaining issues for use as evaluation tasks. To address these challenges, this study created an extended dataset in multiple languages without relying on machine translation. This dataset that takes into account nuances and country-specific phrases was then used to evaluate the generation explanation abilities of LVLMs. Furthermore, this study examined whether Instruction-Tuning in resource-rich English improves performance in other languages. Our findings indicate that LVLMs perform worse in languages other than English compared to English. In addition, it was observed that LVLMs struggle to effectively manage the knowledge learned from English data. Our dataset is available at https://huggingface.co/datasets/naist-nlp/MultiExpArt

arxiv情報

著者 Shintaro Ozaki,Kazuki Hayashi,Yusuke Sakai,Hidetaka Kamigaito,Katsuhiko Hayashi,Taro Watanabe
発行日 2025-02-14 09:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models はコメントを受け付けていません

ORI: O Routing Intelligence

要約

単一の大きな言語モデル(LLM)は、成長し続ける範囲のタスクに直面したときに不足していることが多く、シングルモデルのアプローチが不十分になります。
LLMのセットを活用する動的なフレームワークであるOri(Oルーティングインテリジェンス)を提案することにより、この課題に対処します。
着信クエリを最も適切なモデルにインテリジェントにルーティングすることにより、ORIはタスク固有の精度を向上させるだけでなく、効率を維持します。
多様なベンチマーク全体の包括的な評価は、計算オーバーヘッドを制御しながら一貫した精度の向上を示しています。
Intelligly Routingクエリによって、OriはMMLUで最大2.7ポイント、MUSRで最大2.8ポイント、ARCおよびBBHで最大のパフォーマンスを結び付けます。
これらの結果は、マルチモデル戦略の利点を強調し、ORIの適応アーキテクチャがどのように多様なタスクをより効果的に処理できるかを示し、複数の大手言語モデルのシステムにスケーラブルで高性能ソリューションを提供します。

要約(オリジナル)

Single large language models (LLMs) often fall short when faced with the ever-growing range of tasks, making a single-model approach insufficient. We address this challenge by proposing ORI (O Routing Intelligence), a dynamic framework that leverages a set of LLMs. By intelligently routing incoming queries to the most suitable model, ORI not only improves task-specific accuracy, but also maintains efficiency. Comprehensive evaluations across diverse benchmarks demonstrate consistent accuracy gains while controlling computational overhead. By intelligently routing queries, ORI outperforms the strongest individual models by up to 2.7 points on MMLU and 1.8 points on MuSR, ties the top performance on ARC, and on BBH. These results underscore the benefits of a multi-model strategy and demonstrate how ORI’s adaptive architecture can more effectively handle diverse tasks, offering a scalable, high-performance solution for a system of multiple large language models.

arxiv情報

著者 Ahmad Shadid,Rahul Kumar,Mohit Mayank
発行日 2025-02-14 10:00:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ORI: O Routing Intelligence はコメントを受け付けていません

How Privacy-Savvy Are Large Language Models? A Case Study on Compliance and Privacy Technical Review

要約

大規模な言語モデル(LLMS)の最近の進歩により、言語生成、要約、複雑な質問応答など、さまざまな分野でアプリケーションが大幅に拡大しました。
ただし、プライバシーコンプライアンスと技術的なプライバシーレビューへの適用は引き続き未調査であり、グローバルなプライバシー基準を遵守し、機密のユーザーデータを保護する能力に関する重要な懸念を引き起こしています。
このペーパーでは、プライバシー情報抽出(PIE)、法律および規制のキーポイント検出(KPD)、および質問回答(QA)などのプライバシー関連のタスクにおけるLLMSのパフォーマンスを評価する包括的なケーススタディを提供することにより、このギャップに対処しようとしています。
プライバシーポリシーとデータ保護規制。
プライバシーテクニカルレビュー(PTR)フレームワークを紹介し、ソフトウェア開発ライフサイクル中のプライバシーリスクの緩和におけるその役割を強調します。
実証的評価を通じて、プライバシーコンプライアンスチェックと技術的プライバシーレビューの実行において、BERT、GPT-3.5、GPT-4、およびカスタムモデルを含むいくつかの著名なLLMの能力を調査します。
私たちの実験は、プライバシーに敏感な情報を抽出し、主要な規制コンプライアンスポイントの検出において、その精度、リコール、およびF1スコアに焦点を当てた複数の次元にわたってモデルをベンチマークします。
LLMSは、プライバシーレビューを自動化し、規制当局の矛盾を特定することで有望であるが、進化する法的基準に完全に準拠する能力に大きなギャップが続いている。
プライバシーコンプライアンスにおけるLLMSの機能を強化するための実用的な推奨事項を提供し、堅牢なモデルの改善の必要性と法的および規制要件とのより良い統合を強調します。
この調査では、コンプライアンスの取り組みでビジネスをサポートし、ユーザープライバシーの権利を保護できるプライバシー認識LLMを開発することの重要性の高まりを強調しています。

要約(オリジナル)

The recent advances in large language models (LLMs) have significantly expanded their applications across various fields such as language generation, summarization, and complex question answering. However, their application to privacy compliance and technical privacy reviews remains under-explored, raising critical concerns about their ability to adhere to global privacy standards and protect sensitive user data. This paper seeks to address this gap by providing a comprehensive case study evaluating LLMs’ performance in privacy-related tasks such as privacy information extraction (PIE), legal and regulatory key point detection (KPD), and question answering (QA) with respect to privacy policies and data protection regulations. We introduce a Privacy Technical Review (PTR) framework, highlighting its role in mitigating privacy risks during the software development life-cycle. Through an empirical assessment, we investigate the capacity of several prominent LLMs, including BERT, GPT-3.5, GPT-4, and custom models, in executing privacy compliance checks and technical privacy reviews. Our experiments benchmark the models across multiple dimensions, focusing on their precision, recall, and F1-scores in extracting privacy-sensitive information and detecting key regulatory compliance points. While LLMs show promise in automating privacy reviews and identifying regulatory discrepancies, significant gaps persist in their ability to fully comply with evolving legal standards. We provide actionable recommendations for enhancing LLMs’ capabilities in privacy compliance, emphasizing the need for robust model improvements and better integration with legal and regulatory requirements. This study underscores the growing importance of developing privacy-aware LLMs that can both support businesses in compliance efforts and safeguard user privacy rights.

arxiv情報

著者 Yang Liu,Xichou Zhu,Zhou Shen,Yi Liu,Min Li,Yujun Chen,Benzi John,Zhenzhen Ma,Tao Hu,Zhi Li,Bolong Yang,Manman Wang,Zongxing Xie,Peng Liu,Dan Cai,Junhui Wang
発行日 2025-02-14 10:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How Privacy-Savvy Are Large Language Models? A Case Study on Compliance and Privacy Technical Review はコメントを受け付けていません

Do Large Language Models Possess Sensitive to Sentiment?

要約

大規模な言語モデル(LLM)は最近、言語理解に並外れた能力を表示しました。
ただし、LLMSの感情能力を包括的に評価する方法は、引き続き課題です。
このペーパーでは、LLMがテキストモーダルの感情を検出および反応する能力を調査します。
LLMの多様なアプリケーションへの統合が増加するため、ユーザーエクスペリエンスと感情主導のタスクの有効性に影響を与える可能性があるため、感情的なトーンに対する感受性を理解することが非常に重要になります。
一連の実験を実施して、陽性、否定的、中立的な感情などの感情を特定して応答する際に、いくつかの顕著なLLMのパフォーマンスを評価します。
モデルの出力は、さまざまな感情ベンチマークで分析され、それらの応答は人間の評価と比較されます。
私たちの発見によると、LLMは感情に対する基本的な感度を示していますが、正確性と一貫性に大きなばらつきがあり、微妙な感情的な手がかりをよりよく捉えるためにトレーニングプロセスのさらなる強化の要件を強調しています。
調査結果の例を挙げてみると、場合によっては、モデルは強く肯定的な感情を中立として誤って分類するか、テキストの皮肉や皮肉を認識できない場合があります。
このような誤分類は、感情分析の複雑さと、モデルを改良する必要がある領域を強調しています。
別の側面は、異なるLLMがアーキテクチャとトレーニングデータセットに応じて、同じデータセットで異なる機能を実行する可能性があることです。
この分散では、パフォーマンスの違いとそれらの最適化に寄与する要因のより詳細な研究が必要です。

要約(オリジナル)

Large Language Models (LLMs) have recently displayed their extraordinary capabilities in language understanding. However, how to comprehensively assess the sentiment capabilities of LLMs continues to be a challenge. This paper investigates the ability of LLMs to detect and react to sentiment in text modal. As the integration of LLMs into diverse applications is on the rise, it becomes highly critical to comprehend their sensitivity to emotional tone, as it can influence the user experience and the efficacy of sentiment-driven tasks. We conduct a series of experiments to evaluate the performance of several prominent LLMs in identifying and responding appropriately to sentiments like positive, negative, and neutral emotions. The models’ outputs are analyzed across various sentiment benchmarks, and their responses are compared with human evaluations. Our discoveries indicate that although LLMs show a basic sensitivity to sentiment, there are substantial variations in their accuracy and consistency, emphasizing the requirement for further enhancements in their training processes to better capture subtle emotional cues. Take an example in our findings, in some cases, the models might wrongly classify a strongly positive sentiment as neutral, or fail to recognize sarcasm or irony in the text. Such misclassifications highlight the complexity of sentiment analysis and the areas where the models need to be refined. Another aspect is that different LLMs might perform differently on the same set of data, depending on their architecture and training datasets. This variance calls for a more in-depth study of the factors that contribute to the performance differences and how they can be optimized.

arxiv情報

著者 Yang Liu,Xichou Zhu,Zhou Shen,Yi Liu,Min Li,Yujun Chen,Benzi John,Zhenzhen Ma,Tao Hu,Zhi Li,Zhiyang Xu,Wei Luo,Junhui Wang
発行日 2025-02-14 10:04:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Do Large Language Models Possess Sensitive to Sentiment? はコメントを受け付けていません

MTLM: an Innovative Language Model Training Paradigm for ASR

要約

大量のテキストでのトレーニング前の変圧器ベースの言語モデル(LMS)は、自動音声認識(ASR)のパフォーマンスを改善するために重要であることが証明されています。
一般に、従来のLMSは単方向であり、右側のコンテキストにアクセスできません。
このペーパーでは、従来の単方向LMSが左右のコンテキストを完全に利用できるようにするLMSをトレーニングする方法を提案します。
単方向LMSと比較して、LMはASRを促進し、より豊かな文脈表現が組み込まれているため、より一貫してより一貫して明確な方法で仮説を転写します。
最後に、Librispeech Corpusでの実験結果は、n-best scoringまたは浅い核融合を除くモデルが従来の単方向LMSを上回ることを示しています。

要約(オリジナル)

Pre-training Transformer-based language models (LMs) on a large amount of text has proven crucial for improving automatic speech recognition (ASR) performance. Generally, traditional LMs are unidirectional and unable to access the context on the right. This paper proposes a method for training LMs that enable traditional unidirectional LMs to fully utilize left and right contexts. Compared with the unidirectional LMs, our LM facilitates ASR to transcribe hypotheses more consistently and in a more semantically unambiguous way, as it incorporates richer contextual representations. Finally, our experimental results on the LibriSpeech corpus demonstrate that our model outperforms traditional unidirectional LMs, whether n-best rescoring or shallow fusion is used as the decoding algorithm.

arxiv情報

著者 Qingliang Meng,Pengju Ren,Tian Li,Changsong Dai
発行日 2025-02-14 10:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | MTLM: an Innovative Language Model Training Paradigm for ASR はコメントを受け付けていません

Annotating Compositionality Scores for Irish Noun Compounds is Hard Work

要約

名詞化合物は、慣用度と解釈の変動を考えると、NLPアプリケーションの困難な構造となります。
この論文では、専門家のアノテーターによってさまざまなドメインのアイルランドのテキストで特定された化合物名詞の分析を提示し、重要な特徴としての構成性に焦点を当て、ドメインの特異性、および評価を与えるアノテーターの親しみやすさと自信を示します。
私たちの調査結果とその後の議論は、これらの構造がアイルランド語でどのように登場するか、そしてそれらが英語の名詞化合物とは別に扱われる方法をより深く理解することに貢献します。

要約(オリジナル)

Noun compounds constitute a challenging construction for NLP applications, given their variability in idiomaticity and interpretation. In this paper, we present an analysis of compound nouns identified in Irish text of varied domains by expert annotators, focusing on compositionality as a key feature, but also domain specificity, as well as familiarity and confidence of the annotator giving the ratings. Our findings and the discussion that ensued contributes towards a greater understanding of how these constructions appear in Irish language, and how they might be treated separately from English noun compounds.

arxiv情報

著者 Abigail Walsh,Teresa Clifford,Emma Daly,Jane Dunne,Brian Davis,Gearóid Ó Cleircín
発行日 2025-02-14 10:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Annotating Compositionality Scores for Irish Noun Compounds is Hard Work はコメントを受け付けていません