Mixture-of-Personas Language Models for Population Simulation

要約

大規模な言語モデル(LLMS)の進歩は、LLMが社会科学研究や機械学習モデルトレーニングで人間生成データを増強できる人間の行動シミュレーションなど、さまざまなドメインで新たなアプリケーションの道を開いた。
ただし、事前に保護されたLLMは、個人とグループ間の固有のばらつきのため、ターゲット集団の行動の多様性を捉えることができないことがよくあります。
これに対処するために、\ textit {ペルソナの混合}(MOP)、\ textIT {probabilistic}プロンプトのプロンプトを提案します。
MOPはコンテキスト混合モデルであり、各コンポーネントはペルソナとサブポピュレーションの動作を表す模範を特徴とするLMエージェントです。
ペルソナと模範は、シミュレーション中に多様なLLM応答を引き出すために、学習された混合重量に従ってランダムに選択されます。
MOPは柔軟性があり、モデルの微調整を必要とせず、ベースモデル全体で転送可能です。
合成データ生成の実験は、MOPがアラインメントおよび多様性メトリックの競合する方法を上回ることを示しています。

要約(オリジナル)

Advances in Large Language Models (LLMs) paved the way for their emerging applications in various domains, such as human behavior simulations, where LLMs could augment human-generated data in social science research and machine learning model training. However, pretrained LLMs often fail to capture the behavioral diversity of target populations due to the inherent variability across individuals and groups. To address this, we propose \textit{Mixture of Personas} (MoP), a \textit{probabilistic} prompting method that aligns the LLM responses with the target population. MoP is a contextual mixture model, where each component is an LM agent characterized by a persona and an exemplar representing subpopulation behaviors. The persona and exemplar are randomly chosen according to the learned mixing weights to elicit diverse LLM responses during simulation. MoP is flexible, requires no model finetuning, and is transferable across base models. Experiments for synthetic data generation show that MoP outperforms competing methods in alignment and diversity metrics.

arxiv情報

著者 Ngoc Bui,Hieu Trung Nguyen,Shantanu Kumar,Julian Theodore,Weikang Qiu,Viet Anh Nguyen,Rex Ying
発行日 2025-04-07 12:43:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Mixture-of-Personas Language Models for Population Simulation はコメントを受け付けていません

Batch Aggregation: An Approach to Enhance Text Classification with Correlated Augmented Data

要約

自然言語処理モデルは、特にドメイン固有の領域、例えば臨床試験において、ラベル付きデータが限られているため、課題に直面することがよくあります。
これを克服するために、テキストの増強技術は、一般に、元の入力データを保存された人工データに変換することにより、サンプルサイズを増やすために使用されます。
ただし、従来のテキスト分類方法は、拡張されたテキストの関係を無視し、それらを分類エラーを導入する可能性のある独立したサンプルとして扱います。
したがって、「バッチ集約」(BAGG)と呼ばれる新しいアプローチを提案します。このアプローチは、相関テキストから生じる追加のレイヤーを組み込むことにより、増強を通じて生成されたテキスト入力の依存性を明示的にモデル化します。
異なるドメインで複数のベンチマークデータセットを調査することで、BAGGが分類の精度を改善できることがわかりました。
また、BAGGによるパフォーマンスの増加は、ドメイン固有のデータセットではより明白であり、最大10〜29%の精度の向上があることがわかりました。
ベンチマークデータの分析を通じて、提案された方法は、従来の手法の制限に対処し、テキスト分類タスクの堅牢性を向上させます。
私たちの結果は、BAGGがより堅牢な結果を提供し、トレーニングデータが制限されているときに従来のアプローチよりも優れていることを示しています。

要約(オリジナル)

Natural language processing models often face challenges due to limited labeled data, especially in domain specific areas, e.g., clinical trials. To overcome this, text augmentation techniques are commonly used to increases sample size by transforming the original input data into artificial ones with the label preserved. However, traditional text classification methods ignores the relationship between augmented texts and treats them as independent samples which may introduce classification error. Therefore, we propose a novel approach called ‘Batch Aggregation’ (BAGG) which explicitly models the dependence of text inputs generated through augmentation by incorporating an additional layer that aggregates results from correlated texts. Through studying multiple benchmark data sets across different domains, we found that BAGG can improve classification accuracy. We also found that the increase of performance with BAGG is more obvious in domain specific data sets, with accuracy improvements of up to 10-29%. Through the analysis of benchmark data, the proposed method addresses limitations of traditional techniques and improves robustness in text classification tasks. Our result demonstrates that BAGG offers more robust results and outperforms traditional approaches when training data is limited.

arxiv情報

著者 Charco Hui,Yalu Wen
発行日 2025-04-07 12:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Batch Aggregation: An Approach to Enhance Text Classification with Correlated Augmented Data はコメントを受け付けていません

Not All Data Are Unlearned Equally

要約

Machine Ulearningは、訓練されたモデルから特定のデータポイントから学んだ知識を削除するタスクに関係しています。
大規模な言語モデル(LLMS)のコンテキストでは、特にプライバシー目的のためにモデルから指定されたエンティティに関する知識を削除するために、最近、学習が注目を集めています。
未学習の問題に対処するためにさまざまなアプローチが提案されていますが、既存のアプローチのほとんどは、すべてのデータポイントを均等に扱うように扱います。つまり、モントリオールがカナダの都市であることを学習することは、この論文の最初の著者の電話番号を学ぶこととまったく同じ扱いになっています。
この作業では、このすべてのデータが等しい仮定がLLMの学習には当てはまらないことを示しています。
私たちは、学習の成功が、モデルのトレーニング前のデータで学習したい知識の頻度にどのように依存し、頻度が学習を強く影響することを発見する方法を調べます。
さらに、確率と生成に基づく評価の不整合の不整合を明らかにし、モデルが大きくなるにつれてこの問題が悪化することを示します。
全体として、私たちの実験は、モデルのトレーニングデータを考慮に入れるためのLLM学習のためのより良い評価慣行と新しい方法の必要性を強調しています。

要約(オリジナル)

Machine unlearning is concerned with the task of removing knowledge learned from particular data points from a trained model. In the context of large language models (LLMs), unlearning has recently received increased attention, particularly for removing knowledge about named entities from models for privacy purposes. While various approaches have been proposed to address the unlearning problem, most existing approaches treat all data points to be unlearned equally, i.e., unlearning that Montreal is a city in Canada is treated exactly the same as unlearning the phone number of the first author of this paper. In this work, we show that this all data is equal assumption does not hold for LLM unlearning. We study how the success of unlearning depends on the frequency of the knowledge we want to unlearn in the pre-training data of a model and find that frequency strongly affects unlearning, i.e., more frequent knowledge is harder to unlearn. Additionally, we uncover a misalignment between probability and generation-based evaluations of unlearning and show that this problem worsens as models become larger. Overall, our experiments highlight the need for better evaluation practices and novel methods for LLM unlearning that take the training data of models into account.

arxiv情報

著者 Aravind Krishnan,Siva Reddy,Marius Mosbach
発行日 2025-04-07 13:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Not All Data Are Unlearned Equally はコメントを受け付けていません

DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products

要約

線形再発性ニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスの競争力のある代替品として浮上しており、効率的なトレーニングと線形時間推論を提供しています。
ただし、既存のアーキテクチャは、表現力と効率性の基本的なトレードオフに直面しており、国家移動マトリックスの構造によって決定されます。
Mamba、GLA、またはMLSTMなどのアーキテクチャで使用される斜めのマトリックスは、ランタイムが速い速いことを生み出しますが、表現率は厳しくありません。
これに対処するために、(ゲート)デルタネットやRWKV-7などの最近のアーキテクチャは、対角線プラスランク1構造を採用し、同時トークンチャネル混合を可能にし、トレーニング効率がわずかに低下するだけで表現率の制限を克服します。
デルタネットの再発の解釈に基づいて、連想リコール損失でトークンごとにオンライン勾配降下の1つのステップを実行すると、デルタプロダクトを導入します。
これは、自然に対角線プラスランク$ $ n_h $の状態移動マトリックスにつながり、$ n_h $一般化された世帯主の変換の積として形成され、表現性と効率と安定した再発のバランスをとる調整可能なメカニズムを提供します。
広範な実験を通じて、デルタプロダクトが優れた状態追跡および言語モデリング機能を達成しながら、デルタネットと比較して長さの外挿を大幅に改善することを実証します。
さらに、Deltanetの理論的基礎を強化し、2層での二面体グループの問題を解決できることを証明します。

要約(オリジナル)

Linear Recurrent Neural Networks (linear RNNs) have emerged as competitive alternatives to Transformers for sequence modeling, offering efficient training and linear-time inference. However, existing architectures face a fundamental trade-off between expressivity and efficiency, dictated by the structure of their state-transition matrices. While diagonal matrices used in architectures like Mamba, GLA, or mLSTM yield fast runtime, they suffer from severely limited expressivity. To address this, recent architectures such as (Gated) DeltaNet and RWKV-7 adopted a diagonal plus rank-1 structure, allowing simultaneous token-channel mixing, which overcomes some expressivity limitations with only a slight decrease in training efficiency. Building on the interpretation of DeltaNet’s recurrence as performing one step of online gradient descent per token on an associative recall loss, we introduce DeltaProduct, which instead takes multiple ($n_h$) steps per token. This naturally leads to diagonal plus rank-$n_h$ state-transition matrices, formed as products of $n_h$ generalized Householder transformations, providing a tunable mechanism to balance expressivity and efficiency and a stable recurrence. Through extensive experiments, we demonstrate that DeltaProduct achieves superior state-tracking and language modeling capabilities while exhibiting significantly improved length extrapolation compared to DeltaNet. Additionally, we also strengthen the theoretical foundation of DeltaNet by proving that it can solve dihedral group word problems in just two layers.

arxiv情報

著者 Julien Siems,Timur Carstensen,Arber Zela,Frank Hutter,Massimiliano Pontil,Riccardo Grazzi
発行日 2025-04-07 13:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG | DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products はコメントを受け付けていません

On the Performance of an Explainable Language Model on PubMedQA

要約

大規模な言語モデル(LLM)は、医学的知識を取得し、それを推論し、医師に比例して医学的質問に答える上で重要な能力を示しています。
ただし、これらのモデルは解釈可能ではなく、幻覚、維持が困難であり、トレーニングと推論のために膨大な計算リソースを必要とします。
この論文では、PubMedQAデータセットの代替アーキテクチャに基づいた説明可能な言語モデルであるGyanの結果を報告します。
Gyan LLMは構成言語モデルであり、モデルは知識から切り離されています。
Gyanは信頼できる、透明であり、幻覚せず、重要なトレーニングやリソースの計算を必要としません。
Gyanはドメイン全体で簡単に転送できます。
Gyan-4.3は、GPT-4に基づいてMedPromptによる82%、Med-PALM 2(GoogleおよびDeepMind)に基づいて82%の精度でSOTAの結果を87.1%の精度で達成します。
将来、MEDQA、MEDMCQA、MMLUなど、他の医療データセットの結果を報告します。

要約(オリジナル)

Large language models (LLMs) have shown significant abilities in retrieving medical knowledge, reasoning over it and answering medical questions comparably to physicians. However, these models are not interpretable, hallucinate, are difficult to maintain and require enormous compute resources for training and inference. In this paper, we report results from Gyan, an explainable language model based on an alternative architecture, on the PubmedQA data set. The Gyan LLM is a compositional language model and the model is decoupled from knowledge. Gyan is trustable, transparent, does not hallucinate and does not require significant training or compute resources. Gyan is easily transferable across domains. Gyan-4.3 achieves SOTA results on PubmedQA with 87.1% accuracy compared to 82% by MedPrompt based on GPT-4 and 81.8% by Med-PaLM 2 (Google and DeepMind). We will be reporting results for other medical data sets – MedQA, MedMCQA, MMLU – Medicine in the future.

arxiv情報

著者 Venkat Srinivasan,Vishaal Jatav,Anushka Chandrababu,Geetika Sharma
発行日 2025-04-07 13:42:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On the Performance of an Explainable Language Model on PubMedQA はコメントを受け付けていません

The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning

要約

明示的な説明的理論的根拠の生成を通じて、大規模な言語モデル(LLM)の推論能力を強化する能力について、チェーンオブ思考(COT)プロンプトが広く認識されています。
しかし、私たちの研究は、この一般的な視点に対する驚くべき矛盾を明らかにしています。
16の最先端のLLMSと9つの多様なパターンベースのコンテキスト学習(ICL)データセットを含む広範な実験を通じて、COTとその推論バリアントは、さまざまなモデルスケールとベンチマークの複雑さにわたって直接回答を一貫してパフォーマンスしていることを実証します。
この予期しない現象を体系的に調査するために、いくつかの仮想的な説明を検証するために広範な実験を設計しました。
私たちの分析は、パターンベースのICLにおけるCOTのパフォーマンスを駆動する基本的な明示的な二重性を明らかにします。一方、LLMSがデモンストレーションから根本的なパターンを推測するための闘争による明示的な推論は、COTの理論的根拠の補償の増加により破壊され、補償の補償に伴う暗黙的な推論が破壊され、適切な回答にもかかわらず、正解の回答が崩壊します。
この二重性は、暗黙のメカニズムが部分的に回収された場合でも、弱い明示的な推論からのノイズがプロセスを損なうため、COTの相対的なパフォーマンスを説明しています。
特に、抽象的および象徴的な推論に優れているロングコットの推論モデルでさえ、計算コストが高いにもかかわらず、これらの制限を完全に克服できません。
私たちの調査結果は、COTの普遍的な有効性に関する既存の仮定に挑戦し、その限界に関する新しい洞察をもたらし、LLMSのより微妙で効果的な推論方法に将来の研究を導きます。

要約(オリジナル)

Chain-of-Thought (CoT) prompting has been widely recognized for its ability to enhance reasoning capabilities in large language models (LLMs) through the generation of explicit explanatory rationales. However, our study reveals a surprising contradiction to this prevailing perspective. Through extensive experiments involving 16 state-of-the-art LLMs and nine diverse pattern-based in-context learning (ICL) datasets, we demonstrate that CoT and its reasoning variants consistently underperform direct answering across varying model scales and benchmark complexities. To systematically investigate this unexpected phenomenon, we designed extensive experiments to validate several hypothetical explanations. Our analysis uncovers a fundamental explicit-implicit duality driving CoT’s performance in pattern-based ICL: while explicit reasoning falters due to LLMs’ struggles to infer underlying patterns from demonstrations, implicit reasoning-disrupted by the increased contextual distance of CoT rationales-often compensates, delivering correct answers despite flawed rationales. This duality explains CoT’s relative underperformance, as noise from weak explicit inference undermines the process, even as implicit mechanisms partially salvage outcomes. Notably, even long-CoT reasoning models, which excel in abstract and symbolic reasoning, fail to fully overcome these limitations despite higher computational costs. Our findings challenge existing assumptions regarding the universal efficacy of CoT, yielding novel insights into its limitations and guiding future research toward more nuanced and effective reasoning methodologies for LLMs.

arxiv情報

著者 Tianshi Zheng,Yixiang Chen,Chengxi Li,Chunyang Li,Qing Zong,Haochen Shi,Baixuan Xu,Yangqiu Song,Ginny Y. Wong,Simon See
発行日 2025-04-07 13:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning はコメントを受け付けていません

Explainable ICD Coding via Entity Linking

要約

臨床コーディングはヘルスケアの重要なタスクですが、臨床コーディングを自動化するための従来の方法は、生産環境でコーダーに十分な明示的な証拠を提供しない場合があります。
医療コーダーは、コードの帰属を正当化する入力健康記録に少なくとも1つの明示的な通過が存在することを確認する必要があるため、この証拠は非常に重要です。
したがって、タスクを問題をリンクするエンティティとして再構築することを提案します。このエンティティでは、各ドキュメントにコードのセットとそれぞれのテキスト証拠が注釈が付けられ、より良いヒューマンマシンコラボレーションを可能にします。
大規模な言語モデル(LLMS)のパラメーター効率の高い微調整を活用することと、制約されたデコードとともに、臨床言及を曖昧にするのに効果的であり、少ないショットシナリオでうまく機能するこの問題を解決するための3つのアプローチを導入します。

要約(オリジナル)

Clinical coding is a critical task in healthcare, although traditional methods for automating clinical coding may not provide sufficient explicit evidence for coders in production environments. This evidence is crucial, as medical coders have to make sure there exists at least one explicit passage in the input health record that justifies the attribution of a code. We therefore propose to reframe the task as an entity linking problem, in which each document is annotated with its set of codes and respective textual evidence, enabling better human-machine collaboration. By leveraging parameter-efficient fine-tuning of Large Language Models (LLMs), together with constrained decoding, we introduce three approaches to solve this problem that prove effective at disambiguating clinical mentions and that perform well in few-shot scenarios.

arxiv情報

著者 Leonor Barreiros,Isabel Coutinho,Gonçalo M. Correia,Bruno Martins
発行日 2025-04-07 13:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Explainable ICD Coding via Entity Linking はコメントを受け付けていません

State Tuning: State-based Test-Time Scaling on RWKV-7

要約

テスト時間スケーリングは、機械学習における顕著な研究方向として浮上しており、モデルが推論中の表現力のある能力を高めることを可能にします。トランスフォーマーは、効率と表現力の間の微妙なバランスをとることで有名です。
RNNベースのRWKV-7モデルに合わせて、RWKV-7のユニークな強みを活用することにより、この方法は、モデルの事前に訓練された重みを変更することなく、ターゲットタスクの最先端のパフォーマンスを実現します。
私たちのアプローチは、3つの重要なイノベーションに集中しています。
まず、小さなモデルがRWKV-7モデルの状態ダイナミクスを複製および学習できるようにするオブザーバーフレームワークを開発します。
第二に、カーネル法を使用して状態サイズを動的にアップスケールし、複雑なパターンをキャプチャするモデルの能力を高めます。
第三に、逆相関のバックプロパゲーション(DBP)を統合して、アップスケール状態マトリックスを最適化し、それにより収束と表現力を向上させます。
状態マトリックスのみを調整することにより、小さなモデルが指定されたタスク上のより大きなモデルを上回ることができることを示します。
この方法は、テスト時間スケーリングの力を活用して優れた結果を提供しながら、元のRWKV-7アーキテクチャの効率を維持します。
私たちの調査結果は、リソースに制約のある設定でモデルパフォーマンスを進めるための効果的な戦略として、状態調整の可能性を強調しています。
私たちのコードはhttps://github.com/torchrwkv/flash-linear-attentionです。

要約(オリジナル)

Test-time scaling has emerged as a prominent research direction in machine learning, enabling models to enhance their expressive capabilities during inference.Transformers, renowned for striking a delicate balance between efficiency and expressiveness, have benefited from test-time scaling techniques that leverage an expanding key-value (KV) cache to significantly improve performance.In this paper, we introduce a novel state-based approach to test-time scaling, which we term state tuning, tailored to the RNN-based RWKV-7 model.By exploiting the unique strengths of RWKV-7, our method achieves state-of-the-art performance on the target task without altering the model’s pre-trained weights. Our approach centers on three key innovations. First, we develop an observer framework that allows a smaller model to replicate and learn the state dynamics of the RWKV-7 model. Second, we employ a kernel method to dynamically upscale the state size, enhancing the model’s capacity to capture intricate patterns. Third, we integrate Decorrelated Backpropagation (DBP) to optimize the upscaled state matrix, thereby improving convergence and expressivity. By tuning only the state matrix, we demonstrate that a smaller model can outperform larger models on the given task. This method preserves the efficiency of the original RWKV-7 architecture while harnessing the power of test-time scaling to deliver superior results. Our findings underscore the potential of state tuning as an effective strategy for advancing model performance in resource-constrained settings. Our code is https://github.com/TorchRWKV/flash-linear-attention.

arxiv情報

著者 Liu Xiao,Li Zhiyuan,Lin Yueyu
発行日 2025-04-07 14:04:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | State Tuning: State-based Test-Time Scaling on RWKV-7 はコメントを受け付けていません

AI for Climate Finance: Agentic Retrieval and Multi-Step Reasoning for Early Warning System Investments

要約

気候適応への金融投資の追跡は、特に多国間開発銀行(MDB)とファンド全体の標準化された財務報告を欠いている早期警告システム(EWS)にとって、複雑で専門知識集約的なタスクです。
この課題に対処するために、関連する財務データを抽出し、投資を分類し、資金調達ガイドラインへの準拠を確保するために、コンテキスト検索、微調整、およびマルチステップの推論を統合するLLMベースのエージェントAIシステムを導入します。
私たちの研究は、現実世界のアプリケーションに焦点を当てています。気候リスクおよび早期警告システム(クルー)ファンドへのEWS投資の追跡です。
25のMDBプロジェクトドキュメントを分析し、ゼロショットおよび少数のショット学習、微調整された変圧器ベースの分類子、チェーンオブ考え(COT)プロンプト、およびエージェントベースの検索熟成(RAG)アプローチなど、複数のAI駆動型分類方法を評価します。
私たちの結果は、エージェントベースのRAGアプローチが他の方法を大幅に上回り、87 \%の精度、89 \%精度、および83 \%のリコールを達成することを示しています。
さらに、ベンチマークデータセットとエキスパートが解決したコーパスを提供し、AI駆動型の金融追跡と気候金融の透明性における将来の研究のための貴重なリソースを提供します。

要約(オリジナル)

Tracking financial investments in climate adaptation is a complex and expertise-intensive task, particularly for Early Warning Systems (EWS), which lack standardized financial reporting across multilateral development banks (MDBs) and funds. To address this challenge, we introduce an LLM-based agentic AI system that integrates contextual retrieval, fine-tuning, and multi-step reasoning to extract relevant financial data, classify investments, and ensure compliance with funding guidelines. Our study focuses on a real-world application: tracking EWS investments in the Climate Risk and Early Warning Systems (CREWS) Fund. We analyze 25 MDB project documents and evaluate multiple AI-driven classification methods, including zero-shot and few-shot learning, fine-tuned transformer-based classifiers, chain-of-thought (CoT) prompting, and an agent-based retrieval-augmented generation (RAG) approach. Our results show that the agent-based RAG approach significantly outperforms other methods, achieving 87\% accuracy, 89\% precision, and 83\% recall. Additionally, we contribute a benchmark dataset and expert-annotated corpus, providing a valuable resource for future research in AI-driven financial tracking and climate finance transparency.

arxiv情報

著者 Saeid Ario Vaghefi,Aymane Hachcham,Veronica Grasso,Jiska Manicus,Nakiete Msemo,Chiara Colesanti Senni,Markus Leippold
発行日 2025-04-07 14:11:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AI for Climate Finance: Agentic Retrieval and Multi-Step Reasoning for Early Warning System Investments はコメントを受け付けていません

DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation

要約

ドキュメントレベルのコンテキストは、テキスト間ドキュメントレベルの機械翻訳(MT)の談話の課題を処理するために重要です。
自動音声認識(ASR)からのノイズによって導入された談話の課題の増加にもかかわらず、音声翻訳(ST)におけるドキュメントレベルのコンテキストの統合は不十分なままです。
このペーパーでは、ドキュメントレベルのコンテキストを組み込むことでSTパフォーマンスを向上させるオンラインフレームワークであるDociaを開発します。
Dociaは、STパイプラインを4つの段階に分解します。
ドキュメントレベルのコンテキストは、補助LLM(大手言語モデル)ベースのモジュールを介して、ASR洗練、MT、およびMT洗練の段階に統合されています。
さらに、Dociaは、計算オーバーヘッドを最小限に抑えながら、ドキュメントレベルの情報をマルチレベルで活用します。
さらに、幻覚が過度に洗練されたことを防ぎ、最終結果の信頼性を確保するために、シンプルでありながら効果的な決定メカニズムが導入されています。
実験結果は、Dociaが4つのLLMにわたる文と談話の両方のメトリックの従来のSTベースラインを大幅に上回り、STパフォーマンスの向上におけるその効果を示していることを示しています。

要約(オリジナル)

Document-level context is crucial for handling discourse challenges in text-to-text document-level machine translation (MT). Despite the increased discourse challenges introduced by noise from automatic speech recognition (ASR), the integration of document-level context in speech translation (ST) remains insufficiently explored. In this paper, we develop DoCIA, an online framework that enhances ST performance by incorporating document-level context. DoCIA decomposes the ST pipeline into four stages. Document-level context is integrated into the ASR refinement, MT, and MT refinement stages through auxiliary LLM (large language model)-based modules. Furthermore, DoCIA leverages document-level information in a multi-level manner while minimizing computational overhead. Additionally, a simple yet effective determination mechanism is introduced to prevent hallucinations from excessive refinement, ensuring the reliability of the final results. Experimental results show that DoCIA significantly outperforms traditional ST baselines in both sentence and discourse metrics across four LLMs, demonstrating its effectiveness in improving ST performance.

arxiv情報

著者 Xinglin Lyu,Wei Tang,Yuang Li,Xiaofeng Zhao,Ming Zhu,Junhui Li,Yunfei Lu,Min Zhang,Daimeng Wei,Hao Yang,Min Zhang
発行日 2025-04-07 14:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DoCIA: An Online Document-Level Context Incorporation Agent for Speech Translation はコメントを受け付けていません