GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection

要約

大規模な言語モデル(LLM)は、多様なドメイン全体で膨大な量の知識を記憶する上で強力な能力を実証しています。
ただし、特定の知識を選択的に忘れる能力は、展開されたモデルの安全性とコンプライアンスを確保するために重要です。
既存の学習の取り組みは、通常、データ、データの保持、キャリブレーションモデルなどのリソースでモデルを微調整します。
これらの追加の勾配ステップは、忘却と保持の知識の間の決定境界を曖昧にし、全体的なパフォーマンスを犠牲にして頻繁に学習します。
微調整のマイナスの影響を回避するために、テキスト生成の流encyさを破壊することなく、忘れターゲットに関連する応答を生成することに対してモデルを安全に守ることにより、推論時間のみで学習する方が良いでしょう。
この作業では、LLMの生成中に動的な解除を可能にするフレームワークである適応制限と検出(Guard)を介して、生成時間の解除を提案します。
具体的には、最初にプロンプ​​ト分類器を採用して、ターゲットを解き放ち、対応する禁止されたトークンを抽出します。
次に、トークンマッチングとセマンティックマッチングの組み合わせを使用して、生成中に候補のトークンを動的にペナルティおよびフィルタリングし、モデルが忘れられたコンテンツを漏らしないようにします。
著作権コンテンツの実験結果は、ハリーポッターデータセットとミューズベンチマークを介したタスクを解き放ち、豆腐データセットのエンティティを拡張するタスクを獲得し、ガードがさまざまなタスクにわたって強い忘れの品質を達成しながら、LLMの一般的な能力にほとんど悪化しないことを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated strong capabilities in memorizing vast amounts of knowledge across diverse domains. However, the ability to selectively forget specific knowledge is critical for ensuring the safety and compliance of deployed models. Existing unlearning efforts typically fine-tune the model with resources such as forget data, retain data, and a calibration model. These additional gradient steps blur the decision boundary between forget and retain knowledge, making unlearning often at the expense of overall performance. To avoid the negative impact of fine-tuning, it would be better to unlearn solely at inference time by safely guarding the model against generating responses related to the forget target, without destroying the fluency of text generation. In this work, we propose Generation-time Unlearning via Adaptive Restriction and Detection (GUARD), a framework that enables dynamic unlearning during LLM generation. Specifically, we first employ a prompt classifier to detect unlearning targets and extract the corresponding forbidden token. We then dynamically penalize and filter candidate tokens during generation using a combination of token matching and semantic matching, effectively preventing the model from leaking the forgotten content. Experimental results on copyright content unlearning tasks over the Harry Potter dataset and the MUSE benchmark, as well as entity unlearning tasks on the TOFU dataset, demonstrate that GUARD achieves strong forget quality across various tasks while causing almost no degradation to the LLM’s general capabilities, striking an excellent trade-off between forgetting and utility.

arxiv情報

著者 Zhijie Deng,Chris Yuhao Liu,Zirui Pang,Xinlei He,Lei Feng,Qi Xuan,Zhaowei Zhu,Jiaheng Wei
発行日 2025-05-19 16:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection はコメントを受け付けていません

Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges

要約

ツールの使用の言語モデル(LMS)を評価する言語モデル(LMS)を評価する既存のベンチマークは、主にステートレス、単一ターンの相互作用、または1回のターンでのツール選択などの部分的な評価に焦点を当て、マルチターンアプリケーションでの相互作用の固有の状態のような性質を見下ろします。
このギャップを達成するために、3つの段階で6つの主要なタスクにわたって、ツール使用のライフサイクル全体に関連するステートフルツール相互作用を備えたマルチターンダイアログデータセットである\ texttt {dialogtool}を提案します。1)\ textit {ツール作成};
2)\ TextIT {Tool Utilization}:ツールの認識、ツール選択、ツール実行。
および3)\ textit {ロールと一貫性のある応答}:応答生成とロールプレイ。
さらに、\ texttt {virtualMobile}を構築します – 具体化された仮想モバイル評価環境であるAPI呼び出しをシミュレートし、作成したAPI \ footnoteの堅牢性を評価します{または、この論文ではそれらの間に有意な違いはありません。}。
これらのアーティファクトを活用して、13個の異なるオープンソースLLMと閉鎖型LLMについて包括的な評価を実施し、各段階で詳細な分析を提供し、既存の最先端のLLMが長い視野を超えてツールを使用するためにまだうまく機能できないことを明らかにします。

要約(オリジナル)

Existing benchmarks that assess Language Models (LMs) as Language Agents (LAs) for tool use primarily focus on stateless, single-turn interactions or partial evaluations, such as tool selection in a single turn, overlooking the inherent stateful nature of interactions in multi-turn applications. To fulfill this gap, we propose \texttt{DialogTool}, a multi-turn dialogue dataset with stateful tool interactions considering the whole life cycle of tool use, across six key tasks in three stages: 1) \textit{tool creation}; 2) \textit{tool utilization}: tool awareness, tool selection, tool execution; and 3) \textit{role-consistent response}: response generation and role play. Furthermore, we build \texttt{VirtualMobile} — an embodied virtual mobile evaluation environment to simulate API calls and assess the robustness of the created APIs\footnote{We will use tools and APIs alternatively, there are no significant differences between them in this paper.}. Taking advantage of these artifacts, we conduct comprehensive evaluation on 13 distinct open- and closed-source LLMs and provide detailed analysis at each stage, revealing that the existing state-of-the-art LLMs still cannot perform well to use tools over long horizons.

arxiv情報

著者 Hongru Wang,Wenyu Huang,Yufei Wang,Yuanhao Xi,Jianqiao Lu,Huan Zhang,Nan Hu,Zeming Liu,Jeff Z. Pan,Kam-Fai Wong
発行日 2025-05-19 16:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges はコメントを受け付けていません

Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks

要約

大規模な言語モデル(LLM)は、機械で生成されたテキストの品質を評価するために、評価者(LLM-as-a-judge)としてますます採用されています。
このパラダイムは、人間の注釈と比較して、スケーラビリティと費用対効果を提供します。
ただし、そのようなシステムの信頼性とセキュリティ、特に敵対的な操作に対する堅牢性は、依然として重要な懸念事項です。
このペーパーでは、LLM-as-a-judgeの建築物の脆弱性が迅速な注入攻撃に対する脆弱性を調査します。そこでは、裁判官の意思決定プロセスを妥協するように悪意のある入力が設計されています。
2つの主要な攻撃戦略を正式化します。最終決定出力を直接ターゲットとする比較攻撃(CUA)と、モデルの生成された推論を変更することを目的とする正当化操作攻撃(JMA)です。
貪欲な座標勾配(GCG)最適化法を使用して、比較される応答の1つに追加された敵対的な接尾辞を作成します。
オープンソース命令チューニングLLMS(QWEN2.5-3B-InstructおよびFalcon3-3B-instruct)を使用して、MTベンチヒューマン判断データセットで実施された実験は、有意な感受性を示しています。
CUAは30 \%を超える攻撃成功率(ASR)を達成し、JMAも顕著な有効性を示しています。
これらの調査結果は、現在のLLMとしてのJudgeシステムにおける実質的な脆弱性を強調し、LLMベースの評価フレームワークにおける堅牢な防御メカニズムの必要性と敵対的評価と信頼性に関するさらなる研究を強調しています。

要約(オリジナル)

Large Language Models (LLMs) are increasingly employed as evaluators (LLM-as-a-Judge) for assessing the quality of machine-generated text. This paradigm offers scalability and cost-effectiveness compared to human annotation. However, the reliability and security of such systems, particularly their robustness against adversarial manipulations, remain critical concerns. This paper investigates the vulnerability of LLM-as-a-Judge architectures to prompt-injection attacks, where malicious inputs are designed to compromise the judge’s decision-making process. We formalize two primary attack strategies: Comparative Undermining Attack (CUA), which directly targets the final decision output, and Justification Manipulation Attack (JMA), which aims to alter the model’s generated reasoning. Using the Greedy Coordinate Gradient (GCG) optimization method, we craft adversarial suffixes appended to one of the responses being compared. Experiments conducted on the MT-Bench Human Judgments dataset with open-source instruction-tuned LLMs (Qwen2.5-3B-Instruct and Falcon3-3B-Instruct) demonstrate significant susceptibility. The CUA achieves an Attack Success Rate (ASR) exceeding 30\%, while JMA also shows notable effectiveness. These findings highlight substantial vulnerabilities in current LLM-as-a-Judge systems, underscoring the need for robust defense mechanisms and further research into adversarial evaluation and trustworthiness in LLM-based assessment frameworks.

arxiv情報

著者 Narek Maloyan,Bislan Ashinov,Dmitry Namiot
発行日 2025-05-19 16:51:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks はコメントを受け付けていません

Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning

要約

最新の大規模な言語モデル(LLMS)は非常に大きなコンテキストをサポートしていますが、コード推論に長いコンテキストを利用する上での有効性は不明のままです。
このペーパーでは、大規模なリポジトリ内のコードスニペットを介したLLMの推論能力と、それがリコール能力との関係を調査します。
具体的には、語彙コードリコール(逐語的検索)とセマンティックコードリコール(コードが何をするかを思い出す)を区別します。
セマンティックリコールを測定するために、semtraceを提案します。これは、出力に対する特定のステートメントの影響が帰属し、予測不可能なコード推論手法です。
また、既存のベンチマークでセマンティックリコール感度を定量化する方法も提示します。
最先端のLLMSの評価は、コードスニペットが入力コンテキストの中央に近づくため、特にSemtraceのような高いセマンティックリコールを必要とする手法で、コードの推論の正確性の大幅な低下を明らかにしています。
さらに、語彙のリコールは粒度によって異なることがわかり、モデルは関数の検索に優れていますが、ラインごとのリコールに苦労しています。
特に、語彙とセマンティックのリコールの間には切断が存在し、異なる根本的なメカニズムを示唆しています。
最後に、我々の調査結果は、現在のコード推論ベンチマークが低セマンティックリコール感度を示し、コンテキスト内情報を活用する際にLLMの課題を過小評価する可能性があることを示しています。

要約(オリジナル)

Although modern Large Language Models (LLMs) support extremely large contexts, their effectiveness in utilizing long context for code reasoning remains unclear. This paper investigates LLM reasoning ability over code snippets within large repositories and how it relates to their recall ability. Specifically, we differentiate between lexical code recall (verbatim retrieval) and semantic code recall (remembering what the code does). To measure semantic recall, we propose SemTrace, a code reasoning technique where the impact of specific statements on output is attributable and unpredictable. We also present a method to quantify semantic recall sensitivity in existing benchmarks. Our evaluation of state-of-the-art LLMs reveals a significant drop in code reasoning accuracy as a code snippet approaches the middle of the input context, particularly with techniques requiring high semantic recall like SemTrace. Moreover, we find that lexical recall varies by granularity, with models excelling at function retrieval but struggling with line-by-line recall. Notably, a disconnect exists between lexical and semantic recall, suggesting different underlying mechanisms. Finally, our findings indicate that current code reasoning benchmarks may exhibit low semantic recall sensitivity, potentially underestimating LLM challenges in leveraging in-context information.

arxiv情報

著者 Adam Štorek,Mukur Gupta,Samira Hajizadeh,Prashast Srivastava,Suman Jana
発行日 2025-05-19 16:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SE | Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning はコメントを受け付けていません

Beyond Pairwise: Global Zero-shot Temporal Graph Generation

要約

時間関係抽出(TRE)は、ドキュメント内のイベント間の時間的関係を特定することを含む、自然言語処理(NLP)の基本的なタスクです。
大規模な言語モデル(LLMS)の進歩にもかかわらず、TREへの適用は依然として限られています。
既存のアプローチのほとんどは、イベントペアが単独で分類されているペアワイズ分類に依存しており、計算の非効率性と結果として得られる時間グラフのグローバルな一貫性の欠如につながります。
この作業では、ドキュメントの完全な時間グラフを1つのステップで生成するTREの新しいゼロショット方法を提案し、その後、予測を改善し、関係全体の時間的一貫性を強制するための時間的制約最適化が続きます。
さらに、ドキュメント内のターゲットイベントのすべてのペアに完全な注釈を備えた新しいデータセットであるOmnitempを紹介します。
実験と分析を通じて、私たちの方法は、既存のゼロショットアプローチを上回り、監視されたTREモデルに競争力のある代替品を提供することを実証します。

要約(オリジナル)

Temporal relation extraction (TRE) is a fundamental task in natural language processing (NLP) that involves identifying the temporal relationships between events in a document. Despite the advances in large language models (LLMs), their application to TRE remains limited. Most existing approaches rely on pairwise classification, where event pairs are classified in isolation, leading to computational inefficiency and a lack of global consistency in the resulting temporal graph. In this work, we propose a novel zero-shot method for TRE that generates a document’s complete temporal graph in a single step, followed by temporal constraint optimization to refine predictions and enforce temporal consistency across relations. Additionally, we introduce OmniTemp, a new dataset with complete annotations for all pairs of targeted events within a document. Through experiments and analyses, we demonstrate that our method outperforms existing zero-shot approaches and offers a competitive alternative to supervised TRE models.

arxiv情報

著者 Alon Eirew,Kfir Bar,Ido Dagan
発行日 2025-05-19 17:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Pairwise: Global Zero-shot Temporal Graph Generation はコメントを受け付けていません

What Prompts Don’t Say: Understanding and Managing Underspecification in LLM Prompts

要約

LLMを搭載したソフトウェアを構築するには、開発者が自然言語を通じて要件を伝える必要がありますが、開発者のプロンプトには頻繁に概念が込められており、多くのユーザーに重要な要件を完全に把握できません。
この論文では、迅速な分析の詳細な分析を提示します。LLMSはデフォルトでは不特定の要件を推測できることが多いことを示していますが、そのような動作は堅牢性が低くなります。
次に、LLMSの指導に従う能力と競合する制約が限られているため、プロンプトに要件を追加するだけではパフォーマンスが確実に向上しないことを実証します。
これに対処するために、プロンプト内のすべてを素朴に指定するベースラインよりも平均4.8%のパフォーマンスを改善できる新しい要件を意識したプロンプト最適化メカニズムを導入します。
迅速な最適化を超えて、迅速な分割力を効果的に管理するには、プロアクティブな要件の発見、評価、監視など、より広範なプロセスが必要であることを想定しています。

要約(オリジナル)

Building LLM-powered software requires developers to communicate their requirements through natural language, but developer prompts are frequently underspecified, failing to fully capture many user-important requirements. In this paper, we present an in-depth analysis of prompt underspecification, showing that while LLMs can often (41.1%) guess unspecified requirements by default, such behavior is less robust: Underspecified prompts are 2x more likely to regress over model or prompt changes, sometimes with accuracy drops by more than 20%. We then demonstrate that simply adding more requirements to a prompt does not reliably improve performance, due to LLMs’ limited instruction-following capabilities and competing constraints, and standard prompt optimizers do not offer much help. To address this, we introduce novel requirements-aware prompt optimization mechanisms that can improve performance by 4.8% on average over baselines that naively specify everything in the prompt. Beyond prompt optimization, we envision that effectively managing prompt underspecification requires a broader process, including proactive requirements discovery, evaluation, and monitoring.

arxiv情報

著者 Chenyang Yang,Yike Shi,Qianou Ma,Michael Xieyang Liu,Christian Kästner,Tongshuang Wu
発行日 2025-05-19 17:03:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | What Prompts Don’t Say: Understanding and Managing Underspecification in LLM Prompts はコメントを受け付けていません

From the New World of Word Embeddings: A Comparative Study of Small-World Lexico-Semantic Networks in LLMs

要約

Lexico-Semantic Networksは、ノードとしての単語を表し、その意味関係はエッジとして表しています。
このようなネットワークは、エンコーダーベースのモデルまたは静的ベクトルからの埋め込みを使用して伝統的に構築されていますが、デコーダーのみの大手言語モデル(LLM)からの埋め込みは未定です。
エンコーダーモデルとは異なり、LLMは次のトークン予測目標でトレーニングされます。これは、現在のトークンの意味を直接エンコードしません。
このホワイトペーパーでは、LLMの入力埋め込みからさまざまなパラメータースケールを備えたレキシコセマンティックネットワークを構築し、グローバルおよびローカル構造の比較分析を実施します。
我々の結果は、これらのネットワークが高いクラスタリングと短いパス長を特徴とする小さな世界の特性を示すことを示しています。
さらに、LLMが大きいほど、より少ない世界の効果とより長いパスを備えたより複雑なネットワークが得られ、より豊かなセマンティック構造と関係を反映しています。
さらに、一般的な概念ペア、WordNetに由来する構造化された語彙関係、および定性的単語のためのクロスリンガルセマンティックネットワークの分析を通じて、アプローチをさらに検証します。

要約(オリジナル)

Lexico-semantic networks represent words as nodes and their semantic relatedness as edges. While such networks are traditionally constructed using embeddings from encoder-based models or static vectors, embeddings from decoder-only large language models (LLMs) remain underexplored. Unlike encoder models, LLMs are trained with a next-token prediction objective, which does not directly encode the meaning of the current token. In this paper, we construct lexico-semantic networks from the input embeddings of LLMs with varying parameter scales and conduct a comparative analysis of their global and local structures. Our results show that these networks exhibit small-world properties, characterized by high clustering and short path lengths. Moreover, larger LLMs yield more intricate networks with less small-world effects and longer paths, reflecting richer semantic structures and relations. We further validate our approach through analyses of common conceptual pairs, structured lexical relations derived from WordNet, and a cross-lingual semantic network for qualitative words.

arxiv情報

著者 Zhu Liu,Ying Liu,KangYang Luo,Cunliang Kong,Maosong Sun
発行日 2025-05-19 17:17:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From the New World of Word Embeddings: A Comparative Study of Small-World Lexico-Semantic Networks in LLMs はコメントを受け付けていません

A Minimum Description Length Approach to Regularization in Neural Networks

要約

最先端のニューラルネットワークは、多くの問題に対する顕著な解決策になるように訓練することができます。
しかし、これらのアーキテクチャは象徴的で完璧な解決策を表現できますが、訓練されたモデルは代わりに近似に到達することがよくあります。
正規化方法の選択が重要な役割を果たしていることを示します。標準的な正規化($ l_1 $、$ l_2 $、またはなし)で正式な言語で訓練された場合、表現力豊かなアーキテクチャは、正しい解決策に収束することに失敗するだけでなく、完全な初期化から積極的に押し出されます。
対照的に、モデルの複雑さとデータ適合性のバランスをとるために最小説明長(MDL)原理を適用すると、理論的に根拠のある正則化方法が得られます。
MDLを使用して、最適化アルゴリズムとは無関係に、近似で完全なソリューションが選択されます。
MDLは、既存の正規化手法とは異なり、適切な帰納的バイアスを導入して、過剰適合と一般化を効果的にカウンターし、促進することを提案します。

要約(オリジナル)

State-of-the-art neural networks can be trained to become remarkable solutions to many problems. But while these architectures can express symbolic, perfect solutions, trained models often arrive at approximations instead. We show that the choice of regularization method plays a crucial role: when trained on formal languages with standard regularization ($L_1$, $L_2$, or none), expressive architectures not only fail to converge to correct solutions but are actively pushed away from perfect initializations. In contrast, applying the Minimum Description Length (MDL) principle to balance model complexity with data fit provides a theoretically grounded regularization method. Using MDL, perfect solutions are selected over approximations, independently of the optimization algorithm. We propose that unlike existing regularization techniques, MDL introduces the appropriate inductive bias to effectively counteract overfitting and promote generalization.

arxiv情報

著者 Matan Abudy,Orr Well,Emmanuel Chemla,Roni Katzir,Nur Lan
発行日 2025-05-19 17:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | A Minimum Description Length Approach to Regularization in Neural Networks はコメントを受け付けていません

MR. Judge: Multimodal Reasoner as a Judge

要約

評価審査員としての大規模な言語モデル(LLMS)およびマルチモーダル大手言語モデル(MLLM)を使用するパラダイムは、RLHFおよび推論時間スケーリングの効果的なアプローチとして浮上しています。
この作業では、マルチモーダル推論者を裁判官(裁判官)として提案します。これは、汎用MLLMS裁判官に強力な推論能力を強化するためのパラダイムです。
各応答のスコアを直接割り当てる代わりに、推論にインスパイアされた複数選択問題として判断プロセスを策定します。
具体的には、裁判官モデルは最初に、回答のさまざまな側面をカバーする意図的な推論を実施し、最終的にそれらから最良の応答を選択します。
この推論プロセスは、判断の解釈を改善するだけでなく、MLLM審査員のパフォーマンスを大幅に向上させます。
スコア付き応答の質問の不足に対処するために、自動注釈を達成するための次の戦略を提案します。1)逆応答候補の合成:監視された微調整(SFT)データセットから始まり、元の応答を最良の候補として扱い、MLLMに促進し、もっともらしいが欠陥のあるネガティブ候補を生成します。
2)テキストベースの推論抽出:テキストベースの推論モデルから推論機能を蒸留するためのデータ統合パイプラインを慎重に設計します。これにより、MLLM裁判官は、監視された微調整を介して複雑な推論能力を取り戻すことができます。
実験は、私たちのMRを示しています。
裁判官は、幅広いタスクにわたって効果的です。
具体的には、私たちのMR。
Judge-7Bは、VL-RewardbenchでGPT-4Oを9.9%上回り、推論時間スケーリング中のMM-VETのパフォーマンスを最大7.7%上回ります。

要約(オリジナル)

The paradigm of using Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) as evaluative judges has emerged as an effective approach in RLHF and inference-time scaling. In this work, we propose Multimodal Reasoner as a Judge (MR. Judge), a paradigm for empowering general-purpose MLLMs judges with strong reasoning capabilities. Instead of directly assigning scores for each response, we formulate the judgement process as a reasoning-inspired multiple-choice problem. Specifically, the judge model first conducts deliberate reasoning covering different aspects of the responses and eventually selects the best response from them. This reasoning process not only improves the interpretibility of the judgement, but also greatly enhances the performance of MLLM judges. To cope with the lack of questions with scored responses, we propose the following strategy to achieve automatic annotation: 1) Reverse Response Candidates Synthesis: starting from a supervised fine-tuning (SFT) dataset, we treat the original response as the best candidate and prompt the MLLM to generate plausible but flawed negative candidates. 2) Text-based reasoning extraction: we carefully design a data synthesis pipeline for distilling the reasoning capability from a text-based reasoning model, which is adopted to enable the MLLM judges to regain complex reasoning ability via warm up supervised fine-tuning. Experiments demonstrate that our MR. Judge is effective across a wide range of tasks. Specifically, our MR. Judge-7B surpasses GPT-4o by 9.9% on VL-RewardBench, and improves performance on MM-Vet during inference-time scaling by up to 7.7%.

arxiv情報

著者 Renjie Pi,Felix Bai,Qibin Chen,Simon Wang,Jiulong Shan,Kieran Liu,Meng Cao
発行日 2025-05-19 17:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MR. Judge: Multimodal Reasoner as a Judge はコメントを受け付けていません

Granary: Speech Recognition and Translation Dataset in 25 European Languages

要約

マルチタスクと多言語のアプローチは大規模なモデルに利益をもたらしますが、低リソース言語の音声処理は、データ不足のために露出不足のままです。
これに対処するために、25のヨーロッパ言語にわたる認識と翻訳のための音声データセットの大規模なコレクションであるGranaryを提示します。
これは、転写と翻訳の両方のためのこの規模での最初のオープンソースの取り組みです。
セグメンテーション、2つのパス推論、幻覚フィルタリング、および句読点の回復を伴う擬似ラベルパイプラインを使用して、データの品質を向上させます。
さらに、Eurollmを使用して擬似標識転写から翻訳ペアを生成し、その後にデータろ過パイプラインを使用します。
効率のために設計されたパイプラインは、数時間以内に膨大な量のデータを処理します。
高品質と低リソース言語の両方で、以前にキュレーションされたデータセットのパフォーマンスを比較することにより、処理されたデータでトレーニングされたモデルを評価します。
私たちの調査結果は、これらのモデルが約を使用して同様のパフォーマンスを達成することを示しています。
50%少ないデータ。
データセットはhttps://hf.co/datasets/nvidia/granaryで利用可能になります

要約(オリジナル)

Multi-task and multilingual approaches benefit large models, yet speech processing for low-resource languages remains underexplored due to data scarcity. To address this, we present Granary, a large-scale collection of speech datasets for recognition and translation across 25 European languages. This is the first open-source effort at this scale for both transcription and translation. We enhance data quality using a pseudo-labeling pipeline with segmentation, two-pass inference, hallucination filtering, and punctuation restoration. We further generate translation pairs from pseudo-labeled transcriptions using EuroLLM, followed by a data filtration pipeline. Designed for efficiency, our pipeline processes vast amount of data within hours. We assess models trained on processed data by comparing their performance on previously curated datasets for both high- and low-resource languages. Our findings show that these models achieve similar performance using approx. 50% less data. Dataset will be made available at https://hf.co/datasets/nvidia/Granary

arxiv情報

著者 Nithin Rao Koluguri,Monica Sekoyan,George Zelenfroynd,Sasha Meister,Shuoyang Ding,Sofia Kostandian,He Huang,Nikolay Karpov,Jagadeesh Balam,Vitaly Lavrukhin,Yifan Peng,Sara Papi,Marco Gaido,Alessio Brutti,Boris Ginsburg
発行日 2025-05-19 17:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Granary: Speech Recognition and Translation Dataset in 25 European Languages はコメントを受け付けていません