The Esethu Framework: Reimagining Sustainable Dataset Governance and Curation for Low-Resource Languages

要約

このペーパーでは、ESETHUフレームワークを紹介します。これは、地域社会に力を与え、言語リソースから公平な利益共有を確保するために特別に設計された持続可能なデータキュレーションフレームワークです。
このフレームワークは、新しいコミュニティ中心のデータライセンスであるEsethuライセンスによってサポートされています。
概念実証として、Esethuフレームワークとライセンスの下で開発されたオープンソースコーパスであるVuk’uzenzele isixhosa Speech Dataset(VIXSD)を紹介します。
人口統計学的および言語的メタデータを豊かにしたネイティブIsixhosaスピーカーからの読み取りスピーチを含むデータセットは、コミュニティ主導のライセンスとキュレーションの原則が、データクリエーターの関心を保護しながら、アフリカ言語の自動音声認識(ASR)の資源ギャップをどのように埋めることができるかを示しています。
データセットの開発をガイドするフレームワークについて説明し、ESETHUライセンスの規定の概要を説明し、VIXSDの方法論を提示し、ISIXHOSAの音声駆動型アプリケーションの構築と洗練におけるVIXSDの使いやすさを検証するASR実験を提示します。

要約(オリジナル)

This paper presents the Esethu Framework, a sustainable data curation framework specifically designed to empower local communities and ensure equitable benefit-sharing from their linguistic resource. This framework is supported by the Esethu license, a novel community-centric data license. As a proof of concept, we introduce the Vuk’uzenzele isiXhosa Speech Dataset (ViXSD), an open-source corpus developed under the Esethu Framework and License. The dataset, containing read speech from native isiXhosa speakers enriched with demographic and linguistic metadata, demonstrates how community-driven licensing and curation principles can bridge resource gaps in automatic speech recognition (ASR) for African languages while safeguarding the interests of data creators. We describe the framework guiding dataset development, outline the Esethu license provisions, present the methodology for ViXSD, and present ASR experiments validating ViXSD’s usability in building and refining voice-driven applications for isiXhosa.

arxiv情報

著者 Jenalea Rajab,Anuoluwapo Aremu,Everlyn Asiko Chimoto,Dale Dunbar,Graham Morrissey,Fadel Thior,Luandrie Potgieter,Jessico Ojo,Atnafu Lambebo Tonja,Maushami Chetty,Wilhelmina NdapewaOnyothi Nekoto,Pelonomi Moiloa,Jade Abbott,Vukosi Marivate,Benjamin Rosman
発行日 2025-06-12 15:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Esethu Framework: Reimagining Sustainable Dataset Governance and Curation for Low-Resource Languages はコメントを受け付けていません

Mitigating Negative Interference in Multilingual Sequential Knowledge Editing through Null-Space Constraints

要約

大規模な言語モデル(LLMS)の多言語知識を効率的に更新する一方で、言語間で一貫した事実上の表現を維持しながら、長年にわたる未解決の課題のままです。
各言語の個別の編集システムを展開することは実行可能に思えるかもしれませんが、このアプローチには複数のモデルを管理する必要があるため、かなりのコストがかかります。
より効率的なソリューションには、すべての言語にわたる知識の更新を統一されたモデルに統合することが含まれます。
ただし、言語間で連続した編集を実行すると、破壊的なパラメーター干渉につながり、多言語の一般化と注入された知識の正確性が大幅に低下します。
この課題に対処するために、言語固有の知識の更新を正確に分離するように設計された新しいヌル空間制約のあるフレームワークであるLangeditを提案します。
Langeditのコアイノベーションは、各言語のパラメーターの更新を、以前の更新されたサブスペースの直交補体に投影する能力にあります。
このアプローチは、多言語の一般化能力を維持しながら、数学的に更新の独立性を保証します。
3つのモデルアーキテクチャ、6つの言語、4つのダウンストリームタスクで包括的な評価を実施し、Langeditがパラメーター干渉を効果的に緩和し、既存の最先端の編集方法を上回ることを実証します。
私たちの結果は、LLMSで効率的かつ正確な多言語の知識の更新を可能にする可能性を強調しています。
このコードは、https://github.com/vrcmf/langedit.gitで入手できます。

要約(オリジナル)

Efficiently updating multilingual knowledge in large language models (LLMs), while preserving consistent factual representations across languages, remains a long-standing and unresolved challenge. While deploying separate editing systems for each language might seem viable, this approach incurs substantial costs due to the need to manage multiple models. A more efficient solution involves integrating knowledge updates across all languages into a unified model. However, performing sequential edits across languages often leads to destructive parameter interference, significantly degrading multilingual generalization and the accuracy of injected knowledge. To address this challenge, we propose LangEdit, a novel null-space constrained framework designed to precisely isolate language-specific knowledge updates. The core innovation of LangEdit lies in its ability to project parameter updates for each language onto the orthogonal complement of previous updated subspaces. This approach mathematically guarantees update independence while preserving multilingual generalization capabilities. We conduct a comprehensive evaluation across three model architectures, six languages, and four downstream tasks, demonstrating that LangEdit effectively mitigates parameter interference and outperforms existing state-of-the-art editing methods. Our results highlight its potential for enabling efficient and accurate multilingual knowledge updates in LLMs. The code is available at https://github.com/VRCMF/LangEdit.git.

arxiv情報

著者 Wei Sun,Tingyu Qu,Mingxiao Li,Jesse Davis,Marie-Francine Moens
発行日 2025-06-12 15:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Mitigating Negative Interference in Multilingual Sequential Knowledge Editing through Null-Space Constraints はコメントを受け付けていません

ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization

要約

チェーンオブシャーチ(COT)プロンプトの最近の進歩により、大規模な言語モデル(LLM)の推論能力が大幅に改善されました。
しかし、これらの方法はしばしば考え過ぎに悩まされ、不必要に長いまたは冗長な推論の痕跡につながります。
既存のアプローチは、LLMをトレーニングするための複数の推論チェーンをキュレーションすることでこの問題を軽減しようとしますが、それらの有効性は、生成されたデータの品質によって制約され、過剰フィッティングを起こしやすいことがよくあります。
課題に対処するために、推論軌道の精度と長さのバランスをとることを目的とした新しい方法である段階的試験(RecUT)を通じて推定を推論することを提案します。
具体的には、RecUTは段階的な探索メカニズムと長期にわたる切り替えサンプリング戦略を採用しており、LLMが多様な推論パスを徐々に生成できるようにします。
これらのパスは評価され、2つの特殊なモデル(Gemini LLMS)をトレーニングするための優先ペアを構築するために使用されます。
これら2つのモデルのパラメーターを補間することにより、最終的な統合モデルが取得されます。
複数の数学の推論データセットとバックボーンモデルにわたる実験結果は、Recutがさまざまなベースラインと比較して推論の精度を維持または改善しながら、推論の長さを約30〜50%削減することを示しています。
すべてのコードとデータは、https://github.com/neuir/recutからリリースされます。

要約(オリジナル)

Recent advances in Chain-of-Thought (CoT) prompting have substantially improved the reasoning capabilities of Large Language Models (LLMs). However, these methods often suffer from overthinking, leading to unnecessarily lengthy or redundant reasoning traces. Existing approaches attempt to mitigate this issue through curating multiple reasoning chains for training LLMs, but their effectiveness is often constrained by the quality of the generated data and prone to overfitting. To address the challenge, we propose Reasoning Compression ThroUgh Stepwise Trials (ReCUT), a novel method aimed at balancing the accuracy and length of reasoning trajectory. Specifically, ReCUT employs a stepwise exploration mechanism and a long-short switched sampling strategy, enabling LLMs to incrementally generate diverse reasoning paths. These paths are evaluated and used to construct preference pairs to train two specialized models (Gemini LLMs)-one optimized for reasoning accuracy, the other for shorter reasoning. A final integrated model is obtained by interpolating the parameters of these two models. Experimental results across multiple math reasoning datasets and backbone models demonstrate that ReCUT significantly reduces reasoning lengths by approximately 30-50%, while maintaining or improving reasoning accuracy compared to various baselines. All codes and data will be released via https://github.com/NEUIR/ReCUT.

arxiv情報

著者 Zhensheng Jin,Xinze Li,Yifan Ji,Chunyi Peng,Zhenghao Liu,Qi Shi,Yukun Yan,Shuo Wang,Furong Peng,Ge Yu
発行日 2025-06-12 15:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization はコメントを受け付けていません

CIIR@LiveRAG 2025: Optimizing Multi-Agent Retrieval Augmented Generation through Self-Training

要約

このペーパーでは、計画、検索、推論、調整などのサブタスクのための専門的なエージェントで構成されるマルチエージェント検索の高等発電(RAG)フレームワークであるMragを紹介します。
私たちのシステムは、報酬誘導軌道サンプリングを備えたセルフトレーニングパラダイムを使用して、エージェント間コラボレーションを最適化し、応答の生成を強化します。
Sigir 2025 Liveragコンペティション中にDatamorgana由来のデータセットで評価されたMragは、従来のRAGベースラインを上回ります。
競争の結果をさらに分析し、フレームワークの強みをケーススタディで紹介し、複雑で実世界のぼろきれタスクに対するその有効性を示しています。

要約(オリジナル)

This paper presents mRAG, a multi-agent retrieval-augmented generation (RAG) framework composed of specialized agents for subtasks such as planning, searching, reasoning, and coordination. Our system uses a self-training paradigm with reward-guided trajectory sampling to optimize inter-agent collaboration and enhance response generation. Evaluated on DataMorgana-derived datasets during the SIGIR 2025 LiveRAG competition, mRAG outperforms conventional RAG baselines. We further analyze competition outcomes and showcase the framework’s strengths with case studies, demonstrating its efficacy for complex, real-world RAG tasks.

arxiv情報

著者 Alireza Salemi,Mukta Maddipatla,Hamed Zamani
発行日 2025-06-12 16:02:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | CIIR@LiveRAG 2025: Optimizing Multi-Agent Retrieval Augmented Generation through Self-Training はコメントを受け付けていません

Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models

要約

自己教師の音声モデルの分析は、さまざまな種類の情報をどこでどのように表現するかを明らかにし始めています。
ただし、ほとんどすべての分析は英語に焦点を当てています。
ここでは、4つの異なる言語でトレーニングされたWAV2VEC2モデルが、言語が一致していないスピーチと非マッチングされていないスピーチの両方をエンコードする方法を調べます。
プロービング分類器と幾何学的分析を使用して、携帯電話、語彙トーン、およびスピーカー情報の表現方法を調べます。
すべての事前トレーニングおよびテスト言語について、携帯電話、トーン、スピーカーをエンコードするサブスペースは主に直交しており、プロービング精度のレイヤーワイズパターンは同様であり、後のレイヤーの一致した言語の電話とトーン(スピーカーではない)プローブに比較的小さな利点があることを示しています。
我々の調査結果は、WAV2VEC2によって学んだ表現の構造は、事前脱出中に使用される音声材料とほとんど依存していることを示唆しています。

要約(オリジナル)

Analyses of self-supervised speech models have begun to reveal where and how they represent different types of information. However, almost all analyses have focused on English. Here, we examine how wav2vec2 models trained on four different languages encode both language-matched and non-matched speech. We use probing classifiers and geometric analyses to examine how phones, lexical tones, and speaker information are represented. We show that for all pretraining and test languages, the subspaces encoding phones, tones, and speakers are largely orthogonal, and that layerwise patterns of probing accuracy are similar, with a relatively small advantage for matched-language phone and tone (but not speaker) probes in the later layers. Our findings suggest that the structure of representations learned by wav2vec2 is largely independent of the speech material used during pretraining.

arxiv情報

著者 Michele Gubian,Ioana Krehan,Oli Liu,James Kirby,Sharon Goldwater
発行日 2025-06-12 16:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Analyzing the relationships between pretraining language, phonetic, tonal, and speaker information in self-supervised speech models はコメントを受け付けていません

Debiasing Watermarks for Large Language Models via Maximal Coupling

要約

言語モデルの透かしは、人間と機械で生成されたテキストを区別し、デジタル通信の完全性と信頼性を維持するために不可欠です。
トークンセットを「グリーン」と「レッド」リストに分割する新しいグリーン/レッドリストの透かし式アプローチを提示し、グリーントークンの生成確率を微妙に増やします。
トークン分布バイアスを修正するために、我々の方法では、均一なコインフリップを使用してバイアス補正を適用するかどうかを決定し、結果を擬似ランダム透かし信号として埋め込んでいます。
理論分析により、このアプローチの偏りのない性質と堅牢な検出機能が確認されます。
実験結果は、高い検出可能性を維持しながらテキストの品質を維持することにより、以前の手法よりも優れていることを示しており、テキストの品質を改善することを目的としたターゲットを絞った修正に対する回復力を示しています。
この研究は、言語モデルの有望な透かしソリューションを提供し、テキストの品質への影響を最小限に抑えるための効果的な検出のバランスをとります。

要約(オリジナル)

Watermarking language models is essential for distinguishing between human and machine-generated text and thus maintaining the integrity and trustworthiness of digital communication. We present a novel green/red list watermarking approach that partitions the token set into “green” and “red” lists, subtly increasing the generation probability for green tokens. To correct token distribution bias, our method employs maximal coupling, using a uniform coin flip to decide whether to apply bias correction, with the result embedded as a pseudorandom watermark signal. Theoretical analysis confirms this approach’s unbiased nature and robust detection capabilities. Experimental results show that it outperforms prior techniques by preserving text quality while maintaining high detectability, and it demonstrates resilience to targeted modifications aimed at improving text quality. This research provides a promising watermarking solution for language models, balancing effective detection with minimal impact on text quality.

arxiv情報

著者 Yangxinyu Xie,Xiang Li,Tanwi Mallick,Weijie J. Su,Ruixun Zhang
発行日 2025-06-12 16:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG, stat.ME, stat.ML | Debiasing Watermarks for Large Language Models via Maximal Coupling はコメントを受け付けていません

Sailing by the Stars: A Survey on Reward Models and Learning Strategies for Learning from Rewards

要約

大規模な言語モデル(LLMS)の最近の開発は、トレーニング前のスケーリングからトレーニング後およびテスト時間のスケーリングに移行しました。
これらの開発全体で、主要な統一されたパラダイムが生じています。報酬信号がLLMの動作を導くためのガイドスターとして機能する報酬から学ぶことです。
補強学習(RLHF、RLAIF、DPO、GRPO)、報酬誘導デコード、事後修正など、幅広い一般的な技術を支えています。
重要なことに、このパラダイムにより、静的データからのパッシブ学習から動的フィードバックからのアクティブな学習への移行が可能になります。
これにより、LLMSは、さまざまなタスクの整合性の設定と深い推論機能を備えています。
この調査では、報酬モデルと学習戦略の観点から、トレーニング、推論、および推論後の段階で、報酬からの学習の包括的な概要を示します。
さらに、報酬モデルのベンチマークと主要なアプリケーションについて説明します。
最後に、課題と将来の方向性を強調します。
https://github.com/bobxwu/learning-from-rewards-llm-papersで紙コレクションを維持しています。

要約(オリジナル)

Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (RLHF, RLAIF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities for diverse tasks. In this survey, we present a comprehensive overview of learning from rewards, from the perspective of reward models and learning strategies across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.

arxiv情報

著者 Xiaobao Wu
発行日 2025-06-12 16:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Sailing by the Stars: A Survey on Reward Models and Learning Strategies for Learning from Rewards はコメントを受け付けていません

Large Language Models for Multilingual Previously Fact-Checked Claim Detection

要約

広範囲にわたる虚偽の情報の時代において、人間の事実確認者は、他の国や言語ですでに対処されている可能性のある主張を検証する際に、努力を重複させるという課題にしばしば直面しています。
誤った情報が言語の境界を超えているため、言語間で以前に事実チェックされたクレームを自動的に検出する能力がますます重要なタスクになりました。
このペーパーでは、以前に事前にチェックされた多言語の請求検出に関する大規模な言語モデル(LLMS)の最初の包括的な評価を紹介します。
単一言語と横断的な設定の両方で、20の言語で7つのLLMを評価します。
私たちの結果は、LLMSが高リソース言語ではうまく機能しますが、リソースの低い言語に苦労していることを示しています。
さらに、元のテキストを英語に翻訳することは、低リソース言語にとって有益であることが証明されました。
これらの調査結果は、以前に事前に確認された多言語の請求検出のLLMSの可能性を強調し、LLMSのこの有望な適用に関するさらなる研究の基盤を提供します。

要約(オリジナル)

In our era of widespread false information, human fact-checkers often face the challenge of duplicating efforts when verifying claims that may have already been addressed in other countries or languages. As false information transcends linguistic boundaries, the ability to automatically detect previously fact-checked claims across languages has become an increasingly important task. This paper presents the first comprehensive evaluation of large language models (LLMs) for multilingual previously fact-checked claim detection. We assess seven LLMs across 20 languages in both monolingual and cross-lingual settings. Our results show that while LLMs perform well for high-resource languages, they struggle with low-resource languages. Moreover, translating original texts into English proved to be beneficial for low-resource languages. These findings highlight the potential of LLMs for multilingual previously fact-checked claim detection and provide a foundation for further research on this promising application of LLMs.

arxiv情報

著者 Ivan Vykopal,Matúš Pikuliak,Simon Ostermann,Tatiana Anikina,Michal Gregor,Marián Šimko
発行日 2025-06-12 16:40:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models for Multilingual Previously Fact-Checked Claim Detection はコメントを受け付けていません

Enhancing Medical Dialogue Generation through Knowledge Refinement and Dynamic Prompt Adjustment

要約

医療対話システム(MDS)は、患者とのマルチターン、コンテキストを意識した会話を可能にするための重要なオンラインプラットフォームとして浮上しています。
ただし、既存のMDは、(1)関連する医療知識を特定し、(2)パーソナライズされた医学的に正確な反応を生成するために苦労しています。
これらの課題に対処するために、知識の精製と動的な迅速な調整を組み込んだ新しいMDSであるMedRefを提案します。
まず、知識精製メカニズムを採用して、無関係な医療データを除外し、反応における重要な医療エンティティの予測を改善します。
さらに、歴史的な詳細と明白な詳細を組み込んだ包括的なプロンプト構造を設計します。
多様な患者の状態にリアルタイムの適応性を有効にするために、2つの重要なモジュール、トリプレットフィルターとデモセレクターを実装し、システムプロンプトに適切な知識とデモンストレーションを提供します。
MEDDGおよびKamedベンチマークに関する広範な実験は、MEDREFが生成品質と医療エンティティの両方の精度の最先端のベースラインを上回り、実際のヘルスケアアプリケーションの有効性と信頼性を強調することを示しています。

要約(オリジナル)

Medical dialogue systems (MDS) have emerged as crucial online platforms for enabling multi-turn, context-aware conversations with patients. However, existing MDS often struggle to (1) identify relevant medical knowledge and (2) generate personalized, medically accurate responses. To address these challenges, we propose MedRef, a novel MDS that incorporates knowledge refining and dynamic prompt adjustment. First, we employ a knowledge refining mechanism to filter out irrelevant medical data, improving predictions of critical medical entities in responses. Additionally, we design a comprehensive prompt structure that incorporates historical details and evident details. To enable real-time adaptability to diverse patient conditions, we implement two key modules, Triplet Filter and Demo Selector, providing appropriate knowledge and demonstrations equipped in the system prompt. Extensive experiments on MedDG and KaMed benchmarks show that MedRef outperforms state-of-the-art baselines in both generation quality and medical entity accuracy, underscoring its effectiveness and reliability for real-world healthcare applications.

arxiv情報

著者 Hongda Sun,Jiaren Peng,Wenzhong Yang,Liang He,Bo Du,Rui Yan
発行日 2025-06-12 16:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Medical Dialogue Generation through Knowledge Refinement and Dynamic Prompt Adjustment はコメントを受け付けていません

Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers

要約

大規模な言語モデル(LLM)は微調整を通じて新しい知識を獲得できますが、このプロセスは不可解な二重性を示します。モデルは新しい事実から著しく一般化できますが、誤った情報を幻覚に陥れやすいです。
ただし、この現象の理由はよく理解されていません。
この作業では、両方の動作は、概念の推論(OCR)として知られる単一のメカニズムに由来すると主張します。概念を関連付けることによって、因果関係のないものであっても、概念を関連付けることによって意味を推測する能力です。
5つの著名なLLMにまたがる実験では、OCRが実際に一般化と幻覚の両方を促進し、関連する概念が因果関係があるかどうかに応じて確認しています。
この現象の厳密な理論的理解を構築するために、OCRを合成事実のリコールタスクとして形式化します。
因数分解された出力と値行列を備えた1層のシングルヘッドの注意のみのトランスがこのタスクを解決することを学ぶことができる一方で、重みを組み合わせたモデルはマトリックス因数分解の重要な役割を強調することができないことを経験的に示します。
私たちの理論分析は、OCR能力が勾配降下の暗黙的なバイアスに起因する可能性があることを示しています。これは、統合された出力値マトリックスの核基準を最小限に抑えるソリューションを支持します。
この数学的構造は、相関が因果関係であるか単に偽物であるかに関係なく、モデルが事実と意味を高いサンプル効率と関連付けることを学ぶ理由を説明しています。
最終的に、私たちの研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し、軽減するための新しいレンズを提供します。

要約(オリジナル)

Large language models (LLMs) can acquire new knowledge through fine-tuning, but this process exhibits a puzzling duality: models can generalize remarkably from new facts, yet are also prone to hallucinating incorrect information. However, the reasons for this phenomenon remain poorly understood. In this work, we argue that both behaviors stem from a single mechanism known as out-of-context reasoning (OCR): the ability to deduce implications by associating concepts, even those without a causal link. Our experiments across five prominent LLMs confirm that OCR indeed drives both generalization and hallucination, depending on whether the associated concepts are causally related. To build a rigorous theoretical understanding of this phenomenon, we then formalize OCR as a synthetic factual recall task. We empirically show that a one-layer single-head attention-only transformer with factorized output and value matrices can learn to solve this task, while a model with combined weights cannot, highlighting the crucial role of matrix factorization. Our theoretical analysis shows that the OCR capability can be attributed to the implicit bias of gradient descent, which favors solutions that minimize the nuclear norm of the combined output-value matrix. This mathematical structure explains why the model learns to associate facts and implications with high sample efficiency, regardless of whether the correlation is causal or merely spurious. Ultimately, our work provides a theoretical foundation for understanding the OCR phenomenon, offering a new lens for analyzing and mitigating undesirable behaviors from knowledge injection.

arxiv情報

著者 Yixiao Huang,Hanlin Zhu,Tianyu Guo,Jiantao Jiao,Somayeh Sojoudi,Michael I. Jordan,Stuart Russell,Song Mei
発行日 2025-06-12 16:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers はコメントを受け付けていません