Understanding Task Vectors in In-Context Learning: Emergence, Functionality, and Limitations

要約

タスクベクトルは、タスク固有の情報を単一の再利用可能な表現に蒸留することにより、コンテキスト内学習(ICL)における推論を加速するための魅力的なメカニズムを提供します。
彼らの経験的成功にもかかわらず、彼らの出現と機能性を管理する根本的な原則は不明のままです。
この作業では、線形の組み合わせの推測を提案し、タスクベクトルが元のものの線形組み合わせを通じて形成された単一のコンテキストデモンストレーションとして機能します。
この推測に対する理論的および経験的サポートの両方を提供します。
まず、タスクベクトルが、損失景観分析を通じてトリプレット形式のプロンプトで訓練された線形トランスで自然に出現することを示します。
次に、ハイランクマッピングを表す際のタスクベクトルの障害を予測し、これを実際のLLMで確認します。
私たちの調査結果は、顕著性分析とパラメーターの視覚化を通じてさらに検証され、複数のものを少数のショットプロンプトに注入することにより、タスクベクターの強化を示唆しています。
一緒に、私たちの結果は、トランスベースのモデルのICLの根底にあるメカニズムにタスクベクトルの理解を促進します。

要約(オリジナル)

Task vectors offer a compelling mechanism for accelerating inference in in-context learning (ICL) by distilling task-specific information into a single, reusable representation. Despite their empirical success, the underlying principles governing their emergence and functionality remain unclear. This work proposes the Linear Combination Conjecture, positing that task vectors act as single in-context demonstrations formed through linear combinations of the original ones. We provide both theoretical and empirical support for this conjecture. First, we show that task vectors naturally emerge in linear transformers trained on triplet-formatted prompts through loss landscape analysis. Next, we predict the failure of task vectors on representing high-rank mappings and confirm this on practical LLMs. Our findings are further validated through saliency analyses and parameter visualization, suggesting an enhancement of task vectors by injecting multiple ones into few-shot prompts. Together, our results advance the understanding of task vectors and shed light on the mechanisms underlying ICL in transformer-based models.

arxiv情報

著者 Yuxin Dong,Jiachen Jiang,Zhihui Zhu,Xia Ning
発行日 2025-06-10 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Understanding Task Vectors in In-Context Learning: Emergence, Functionality, and Limitations はコメントを受け付けていません

TextAtari: 100K Frames Game Playing with Language Agents

要約

TextAtariは、最大100,000のステップにまたがる非常に長期の意思決定タスクで言語エージェントを評価するためのベンチマークです。
古典的なアタリゲームの視覚的状態表現を豊かなテキストの説明に変換することにより、Textatariは、自然言語処理でシーケンシャルな意思決定を橋渡しする挑戦的なテストベッドを作成します。
ベンチマークには、さまざまな複雑さ、アクションスペース、および計画の視野を持つ100近くの異なるタスクが含まれており、すべてが監視されていない表現学習フレームワーク(Atariari)を通じてテキストとしてレンダリングされます。
3つのエージェントフレームワーク(ゼロショット、少ないショットチェーン、および反射推論)にわたって、3つのオープンソースの大型言語モデル(QWEN2.5-7B、GEMMA-7B、およびLLAMA3.1-8B)を評価して、これらの長期の課題の異なる形態の事前知識がパフォーマンスにどのように影響するかを評価します。
4つのシナリオ、根本的、不明瞭な、手動の増強、および参照ベースの投資は、エージェントの意思決定に関する意味的理解、指導の理解、および専門家のデモンストレーションの影響を調査します。
私たちの結果は、広範な計画タスクにおける言語エージェントと人間のプレーヤーの間の重要なパフォーマンスギャップを明らかにし、数万のステップにわたる順次推論、州の追跡、戦略的計画の課題を強調しています。
Textatariは、標準化された評価プロトコル、ベースラインの実装、および言語モデルと計画の交差点で研究を進めるためのフレームワークを提供します。
私たちのコードは、https://github.com/lww007/text-atari-agentsで入手できます。

要約(オリジナル)

We present TextAtari, a benchmark for evaluating language agents on very long-horizon decision-making tasks spanning up to 100,000 steps. By translating the visual state representations of classic Atari games into rich textual descriptions, TextAtari creates a challenging test bed that bridges sequential decision-making with natural language processing. The benchmark includes nearly 100 distinct tasks with varying complexity, action spaces, and planning horizons, all rendered as text through an unsupervised representation learning framework (AtariARI). We evaluate three open-source large language models (Qwen2.5-7B, Gemma-7B, and Llama3.1-8B) across three agent frameworks (zero-shot, few-shot chain-of-thought, and reflection reasoning) to assess how different forms of prior knowledge affect performance on these long-horizon challenges. Four scenarios-Basic, Obscured, Manual Augmentation, and Reference-based-investigate the impact of semantic understanding, instruction comprehension, and expert demonstrations on agent decision-making. Our results reveal significant performance gaps between language agents and human players in extensive planning tasks, highlighting challenges in sequential reasoning, state tracking, and strategic planning across tens of thousands of steps. TextAtari provides standardized evaluation protocols, baseline implementations, and a framework for advancing research at the intersection of language models and planning. Our code is available at https://github.com/Lww007/Text-Atari-Agents.

arxiv情報

著者 Wenhao Li,Wenwu Li,Chuyun Shen,Junjie Sheng,Zixiao Huang,Di Wu,Yun Hua,Wei Yin,Xiangfeng Wang,Hongyuan Zha,Bo Jin
発行日 2025-06-10 13:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | TextAtari: 100K Frames Game Playing with Language Agents はコメントを受け付けていません

Silencing Empowerment, Allowing Bigotry: Auditing the Moderation of Hate Speech on Twitch

要約

コンテンツモデレートの需要を満たすために、オンラインプラットフォームは自動化されたシステムに頼りました。
Twitchのようなプラットフォームでのリアルタイムエンゲージメントの新しい形式($ \ textit {e.g。} $、ライブストリームについてコメントするユーザー)の新しい形式は、このようなモデレートシステムに期待されるレイテンシに追加の圧力をかけます。
それらの有病率にもかかわらず、これらのシステムの有効性についてはほとんど知られていません。
このホワイトペーパーでは、Twitchの自動モデレーションツール($ \ texttt {automod} $)の監査を実施して、憎悪なコンテンツにフラグを立てることにおけるその効果を調査します。
監査のために、ストリーミングアカウントを作成してサイロ化されたテストベッドとして機能し、TwitchのAPIを使用してライブチャットとのインターフェースを作成して、$ 4 $データセットから照合された107,000ドル以上のコメントを送信します。
$ \ texttt {automod} $の正確さを測定します。
私たちの実験は、一部のデータセットで最大$ 94 \%$の憎悪なメッセージの大部分が$ \ textit {bypass moderation} $であることを明らかにしています。
これらのメッセージへのスラーのコンテキストの追加により、$ 100 \%$の削除が得られ、$ \ texttt {automod} $が節度信号としてのSlursに依存しています。
また、Twitchのコミュニティガイドラインに反して、$ \ texttt {automod} $は、教育学的またはエンパワーメントコンテキストで敏感な単語を使用する良性の例の最大$ 89.5 \%$のブロックをブロックします。
全体として、監査は$ \ texttt {automod} $の機能の大きなギャップを指摘し、そのようなシステムがコンテキストを効果的に理解することの重要性を強調しています。

要約(オリジナル)

To meet the demands of content moderation, online platforms have resorted to automated systems. Newer forms of real-time engagement($\textit{e.g.}$, users commenting on live streams) on platforms like Twitch exert additional pressures on the latency expected of such moderation systems. Despite their prevalence, relatively little is known about the effectiveness of these systems. In this paper, we conduct an audit of Twitch’s automated moderation tool ($\texttt{AutoMod}$) to investigate its effectiveness in flagging hateful content. For our audit, we create streaming accounts to act as siloed test beds, and interface with the live chat using Twitch’s APIs to send over $107,000$ comments collated from $4$ datasets. We measure $\texttt{AutoMod}$’s accuracy in flagging blatantly hateful content containing misogyny, racism, ableism and homophobia. Our experiments reveal that a large fraction of hateful messages, up to $94\%$ on some datasets, $\textit{bypass moderation}$. Contextual addition of slurs to these messages results in $100\%$ removal, revealing $\texttt{AutoMod}$’s reliance on slurs as a moderation signal. We also find that contrary to Twitch’s community guidelines, $\texttt{AutoMod}$ blocks up to $89.5\%$ of benign examples that use sensitive words in pedagogical or empowering contexts. Overall, our audit points to large gaps in $\texttt{AutoMod}$’s capabilities and underscores the importance for such systems to understand context effectively.

arxiv情報

著者 Prarabdh Shukla,Wei Yin Chong,Yash Patel,Brennan Schaffner,Danish Pruthi,Arjun Bhagoji
発行日 2025-06-10 13:22:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG | Silencing Empowerment, Allowing Bigotry: Auditing the Moderation of Hate Speech on Twitch はコメントを受け付けていません

Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval

要約

変圧器ベースの事前訓練を受けた言語モデルを使用したニューラル検索方法には、多言語と横断的な検索が高度にあります。
しかし、低リソースの有効性、Amharicなどの形態学的に豊富な言語は、データの希少性と最適ではないトークン化のために露出不足のままです。
事前に訓練されたAmharic BertおよびRobertaのバックボーンに基づいて、Amharic特異的な密な検索モデルを導入することにより、このギャップに対処します。
提案されたRoberta-base-Amharic-埋め込みモデル(110mパラメーター)は、MRR@10の17.6%の相対的な改善を達成し、最強の多言語ベースラインでRecall@10で9.86%の増加を達成しました。
Roberta-Medium-Amharic-Membed(42m)などのよりコンパクトなバリエーションは、13倍以上の競争力を維持しています。
さらに、すべての評価されたモデルの中で最高のMRR@10スコア(0.843)を達成するコルバートベースの後期相互作用検索モデルをトレーニングします。
提案されたモデルは、Amharicの検索効果を体系的に評価するために、スパースと密な検索ベースラインの両方に対してベンチマークします。
私たちの分析は、低リソースの設定における重要な課題を強調し、言語固有の適応の重要性を強調しています。
低リソースIRの将来の研究を促進するために、https://github.com/kidist-amde/amharic-ir-benchmarksでデータセット、コードベース、トレーニングモデルを公開します。

要約(オリジナル)

Neural retrieval methods using transformer-based pre-trained language models have advanced multilingual and cross-lingual retrieval. However, their effectiveness for low-resource, morphologically rich languages such as Amharic remains underexplored due to data scarcity and suboptimal tokenization. We address this gap by introducing Amharic-specific dense retrieval models based on pre-trained Amharic BERT and RoBERTa backbones. Our proposed RoBERTa-Base-Amharic-Embed model (110M parameters) achieves a 17.6% relative improvement in MRR@10 and a 9.86% gain in Recall@10 over the strongest multilingual baseline, Arctic Embed 2.0 (568M parameters). More compact variants, such as RoBERTa-Medium-Amharic-Embed (42M), remain competitive while being over 13x smaller. Additionally, we train a ColBERT-based late interaction retrieval model that achieves the highest MRR@10 score (0.843) among all evaluated models. We benchmark our proposed models against both sparse and dense retrieval baselines to systematically assess retrieval effectiveness in Amharic. Our analysis highlights key challenges in low-resource settings and underscores the importance of language-specific adaptation. To foster future research in low-resource IR, we publicly release our dataset, codebase, and trained models at https://github.com/kidist-amde/amharic-ir-benchmarks.

arxiv情報

著者 Kidist Amde Mekonnen,Yosef Worku Alemneh,Maarten de Rijke
発行日 2025-06-10 13:33:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T05, cs.AI, cs.CL, cs.IR, cs.LG, H.3.3 | Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval はコメントを受け付けていません

In Praise of Stubbornness: An Empirical Case for Cognitive-Dissonance Aware Continual Update of Knowledge in LLMs

要約

体系的な経験的調査を通じて、私たちは大規模な言語モデルの根本的かつ懸念される財産を明らかにします。彼らは知識と矛盾しない事実を安全に学ぶことができますが、矛盾した情報で事実を更新しようとすると、無関係な知識の壊滅的な腐敗が引き起こされます。
矛盾した情報に自然に抵抗する人間とは異なり、これらのモデルは無差別に矛盾を受け入れ、壊滅的な干渉につながり、10-100の矛盾した事実を学習しても、無関係な知識の最大80%を破壊します。
この干渉を選択的可塑性を通じて軽減できるかどうかを理解するために、ターゲットを絞ったネットワーク更新を実験し、以前に使用した(頑固な)とめったに使用されない(プラスチック)ニューロンを区別します。
別の非対称性を発見します。頻繁に使用されるニューロンを節約することで、非矛盾のある更新の既存の知識の保持が大幅に改善されます(標準的な更新で98%対93%)、矛盾する更新はターゲティング戦略に関係なく壊滅的な干渉を引き起こします。
テストされたモデルスケール(GPT-2からGPT-J-6b)全体で持続するこの効果は、ニューラルネットワークが矛盾をどのように処理するかの基本的な制限を示唆しています。
最後に、矛盾した情報を単純なモデル機能を使用して確実に検出(95%以上の精度)が提供し、潜在的な保護メカニズムを提供することを実証します。
これらの発見は、人間のように、破壊的な上書きを許すのではなく、自然に矛盾に抵抗する可能性のある新しいアーキテクチャを動機付けます。

要約(オリジナル)

Through systematic empirical investigation, we uncover a fundamental and concerning property of Large Language Models: while they can safely learn facts that don’t contradict their knowledge, attempting to update facts with contradictory information triggers catastrophic corruption of unrelated knowledge. Unlike humans, who naturally resist contradictory information, these models indiscriminately accept contradictions, leading to devastating interference, destroying up to 80% of unrelated knowledge even when learning as few as 10-100 contradicting facts. To understand whether this interference could be mitigated through selective plasticity, we experiment with targeted network updates, distinguishing between previously used (stubborn) and rarely used (plastic) neurons. We uncover another asymmetry: while sparing frequently-used neurons significantly improves retention of existing knowledge for non-contradictory updates (98% vs 93% with standard updates), contradictory updates trigger catastrophic interference regardless of targeting strategy. This effect which persists across tested model scales (GPT-2 to GPT-J-6B), suggests a fundamental limitation in how neural networks handle contradictions. Finally, we demonstrate that contradictory information can be reliably detected (95%+ accuracy) using simple model features, offering a potential protective mechanism. These findings motivate new architectures that can, like humans, naturally resist contradictions rather than allowing destructive overwrites.

arxiv情報

著者 Simone Clemente,Zied Ben Houidi,Alexis Huet,Dario Rossi,Giulio Franzese,Pietro Michiardi
発行日 2025-06-10 13:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, q-bio.NC | In Praise of Stubbornness: An Empirical Case for Cognitive-Dissonance Aware Continual Update of Knowledge in LLMs はコメントを受け付けていません

Measuring Data Science Automation: A Survey of Evaluation Tools for AI Assistants and Agents

要約

データサイエンスは、意思決定プロセスをサポートするために、データから洞察を抽出することを目的としています。
最近、大規模な言語モデル(LLM)は、データサイエンスのアシスタントとして、アイデア、テクニック、小さなコードスニペットを提案すること、または結果とレポートの解釈のためにますます使用されています。
現在、一部のデータサイエンスアクティビティの適切な自動化は、LLMエージェントの台頭、つまり、コードの実行や知識ベースなど、追加のアフォーダンスを備えたLLMを搭載したAIシステムを、自己指向のアクションを実行し、デジタル環境と対話することによって約束されています。
この論文では、データサイエンスに関するLLMアシスタントとエージェントの評価を調査します。
(1)目標指向の活動の小さなサブセットに支配的な焦点が焦点を当てており、データ管理と探索的活動をほとんど無視しています。
(2)人間とのコラボレーションの中間レベルを考慮せずに、純粋な支援または完全に自律的なエージェントに集中する。
(3)人間の代替に重点を置くため、タスク変換のおかげで、より高いレベルの自動化の可能性を無視します。

要約(オリジナル)

Data science aims to extract insights from data to support decision-making processes. Recently, Large Language Models (LLMs) are increasingly used as assistants for data science, by suggesting ideas, techniques and small code snippets, or for the interpretation of results and reporting. Proper automation of some data-science activities is now promised by the rise of LLM agents, i.e., AI systems powered by an LLM equipped with additional affordances–such as code execution and knowledge bases–that can perform self-directed actions and interact with digital environments. In this paper, we survey the evaluation of LLM assistants and agents for data science. We find (1) a dominant focus on a small subset of goal-oriented activities, largely ignoring data management and exploratory activities; (2) a concentration on pure assistance or fully autonomous agents, without considering intermediate levels of human-AI collaboration; and (3) an emphasis on human substitution, therefore neglecting the possibility of higher levels of automation thanks to task transformation.

arxiv情報

著者 Irene Testini,José Hernández-Orallo,Lorenzo Pacchiardi
発行日 2025-06-10 13:47:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Measuring Data Science Automation: A Survey of Evaluation Tools for AI Assistants and Agents はコメントを受け付けていません

SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems

要約

大規模な言語モデル(LLMS)およびビジョン言語モデル(VLM)の最近の進歩により、複雑な推論とマルチモーダルツールの使用が可能な強力な自律エージェントが可能になりました。
能力が高まっているにもかかわらず、今日のエージェントフレームワークは壊れやすいままであり、安全な情報の流れ、信頼性、およびマルチエージェント調整のための原則的なメカニズムがありません。
この作業では、信頼できるLLM/VLMベースのエージェントを構築するための新しいプロトコルレベルのフレームワークであるSafeflowを紹介します。
Safeflowは、エージェント、ツール、ユーザー、および環境間で交換されるすべてのデータの起源、完全性、および機密性を正確に追跡し、微調整された情報フロー制御(IFC)を実施します。
これらのセキュリティラベルを尊重するためにLLMの推論を制約することにより、Safeflowは、信頼できないまたは敵対的なインプットが高統合の決定を汚染することを防ぎます。
同時マルチエージェント設定の堅牢性を確保するために、Safeflowは、共有状態よりもトランザクション実行、競合解決、および安全なスケジューリングを導入し、エージェント間のグローバルな一貫性を維持します。
さらに、書き込みログ、ロールバック、安全なキャッシュなどのメカニズムを導入し、ランタイムエラーやポリシー違反に対する回復力をさらに高めます。
パフォーマンスを検証するために、敵対的、騒々しい、および同時運用条件の下でエージェントの信頼性を評価するために設計された包括的なベンチマークスイートであるSafeflowBenchを構築しました。
大規模な実験は、Safeflowで構築されたエージェントが、敵対的な環境でさえも印象的なタスクのパフォーマンスとセキュリティ保証を維持し、最先端を大幅に上回ることを示しています。
SafeflowとSafeflowbenchを合わせて、原則的で堅牢で安全なエージェントエコシステムの基礎を築き、信頼できる自律性のフロンティアを前進させます。

要約(オリジナル)

Recent advances in large language models (LLMs) and vision-language models (VLMs) have enabled powerful autonomous agents capable of complex reasoning and multi-modal tool use. Despite their growing capabilities, today’s agent frameworks remain fragile, lacking principled mechanisms for secure information flow, reliability, and multi-agent coordination. In this work, we introduce SAFEFLOW, a new protocol-level framework for building trustworthy LLM/VLM-based agents. SAFEFLOW enforces fine-grained information flow control (IFC), precisely tracking provenance, integrity, and confidentiality of all the data exchanged between agents, tools, users, and environments. By constraining LLM reasoning to respect these security labels, SAFEFLOW prevents untrusted or adversarial inputs from contaminating high-integrity decisions. To ensure robustness in concurrent multi-agent settings, SAFEFLOW introduces transactional execution, conflict resolution, and secure scheduling over shared state, preserving global consistency across agents. We further introduce mechanisms, including write-ahead logging, rollback, and secure caches, that further enhance resilience against runtime errors and policy violations. To validate the performances, we built SAFEFLOWBENCH, a comprehensive benchmark suite designed to evaluate agent reliability under adversarial, noisy, and concurrent operational conditions. Extensive experiments demonstrate that agents built with SAFEFLOW maintain impressive task performance and security guarantees even in hostile environments, substantially outperforming state-of-the-art. Together, SAFEFLOW and SAFEFLOWBENCH lay the groundwork for principled, robust, and secure agent ecosystems, advancing the frontier of reliable autonomy.

arxiv情報

著者 Peiran Li,Xinkai Zou,Zhuohang Wu,Ruifeng Li,Shuo Xing,Hanwen Zheng,Zhikai Hu,Yuping Wang,Haoxi Li,Qin Yuan,Yingmo Zhang,Zhengzhong Tu
発行日 2025-06-10 13:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems はコメントを受け付けていません

Cross-lingual Transfer in Programming Languages: An Extensive Empirical Study

要約

大規模な言語モデル(LLMS)は、エラー検出、クローン検出、コード翻訳など、さまざまなソフトウェアエンジニアリングタスクで最先端のパフォーマンスを達成し、主にPythonやJavaなどの高リソースプログラミング言語を活用しています。
ただし、COBOLなどの多くの重要な言語や、RustやSwiftなどの新たな言語は、公然と利用可能なコードが限られているため、リソースが低いままです。
この希少性は、これらの言語のLLMのトレーニングと有効性を妨げ、ソフトウェアのメンテナンスコストを増加させ、革新を抑制します。
このギャップに対処すると、高リソースのカウンターパートからのデータを活用することにより、低リソースプログラミング言語のLLMパフォーマンスを強化するための転送学習の可能性を調査します。
当社の広範な経験的研究では、10〜41のプログラミング言語と5つの重要なタスクの転送可能性を評価します:コード生成、クローン検出、コード修復、ソリューションドメイン分類、エラー検出。
さらに、特定のターゲットとタスクに最適なソース言語を推測するパフォーマンス予測モデルを開発し、転送パフォーマンスに影響を与える機能を分析します。
さらに、より大きなモデルを使用して実験の代表的なサブセットを再現して、現代の大規模なLLMに対する結論の一般化可能性をテストします。
私たちの調査結果は、言語間転送がゼロショット学習を大幅に上回ることを示しており、ソース言語とターゲット言語の両方に基づいて有効性が異なります。
さらに、我々のモデルは、言語およびデータセット固有の機能を考慮することにより、成功した転送ソースを確実に予測し、データ収集とモデルトレーニングのための実用的なガイダンスを提供します。
この作業は、低リソースのプログラミング言語向けのLLM駆動型ツールの開発に貢献し、言語ペア間の転送を促進する特性に関する洞察を提供します。

要約(オリジナル)

Large language models (LLMs) have achieved state-of-the-art performance in various software engineering tasks, including error detection, clone detection, and code translation, primarily leveraging high-resource programming languages like Python and Java. However, many critical languages, such as COBOL, as well as emerging languages, such as Rust and Swift, remain low-resource due to limited openly available code. This scarcity hampers the training and effectiveness of LLMs for these languages, increasing software maintenance costs and stifling innovation. Addressing this gap, we investigate the potential of transfer learning to enhance LLM performance on low-resource programming languages by leveraging data from high-resource counterparts. Our extensive empirical study evaluates transferability across 10 to 41 programming languages and five key tasks: code generation, clone detection, code repair, solution domain classification, and error detection. Additionally, we develop a performance prediction model to guess the best source languages for a given target and task, and analyze the features that influence transfer performance. We further replicate a representative subset of experiments with a larger model to test the generalizability of our conclusions to contemporary large-scale LLMs. Our findings demonstrate that cross-lingual transfer significantly outperforms zero-shot learning, with effectiveness varying based on both source and target languages. Furthermore, our model reliably predicts successful transfer sources by considering linguistic and dataset-specific features, offering practical guidance for data acquisition and model training. This work contributes to the development of LLM-driven tools for low-resource programming languages and provides insights into the characteristics that facilitate transfer across language pairs.

arxiv情報

著者 Razan Baltaji,Saurabh Pujar,Louis Mandel,Martin Hirzel,Luca Buratti,Lav Varshney
発行日 2025-06-10 14:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.5 | Cross-lingual Transfer in Programming Languages: An Extensive Empirical Study はコメントを受け付けていません

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models

要約

大規模な言語モデル(LLMS)は推論に優れていますが、トレーニング後の動作をタスクの目標に合わせるためには依然として重要です。
既存の強化学習(RL)方法は、多くの場合、費用のかかる人間の注釈または外部報酬モデルに依存します。
自信(RLSC)を介した強化学習を提案します。これは、モデル自身の自信を報酬信号として使用し、ラベル、優先モデル、または報酬エンジニアリングの必要性を有効にします。
QWEN2.5-MATH-7Bには、質問ごとに16のサンプルと10または20のトレーニングステップのみで適用されたRLSCは、AIME2024で +13.4%、Math500で +21.7%、Olympiadbenchで +20.8%、AMC23で +9.7%で精度を改善します。
RLSCは、推論モデルにシンプルでスケーラブルなトレーニング後の方法を提供し、少数のサンプルと非標識監督のみを必要とします。

要約(オリジナル)

Large language models (LLMs) excel at reasoning, yet post-training remains critical for aligning their behavior with task goals. Existing reinforcement learning (RL) methods often depend on costly human annotations or external reward models. We propose Reinforcement Learning via Self-Confidence (RLSC), which uses the model’s own confidence as reward signals-eliminating the need for labels, preference models, or reward engineering. Applied to Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps, RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a simple, scalable post-training method for inference models, requiring only a small number of samples and unlabelled supervision.

arxiv情報

著者 Pengyi Li,Matvey Skripkin,Alexander Zubrey,Andrey Kuznetsov,Ivan Oseledets
発行日 2025-06-10 14:10:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models はコメントを受け付けていません

The impact of fine tuning in LLaMA on hallucinations for named entity extraction in legal documentation

要約

法的文書からの交通事故に関する情報の抽出は、保険会社の費用を定量化するために重要です。
身体的および/または心理的障害の割合や関与する補償額などのエンティティを抽出することは、裁判所の決定における微妙な議論と推論のために、専門家にとっても挑戦的なプロセスです。
2段階の手順が提案されています。まず、最も関連性の高いセグメントを識別するドキュメントをセグメント化し、エンティティを抽出します。
テキストセグメンテーションでは、2つの方法論が比較されます。正規表現に基づく古典的な方法と、ドキュメントをn-tokensのブロックに分割する2番目のアプローチで、セマンティック検索の多言語モデルを使用してベクトル化されます(テキスト巻き取り-ADA-L12-V2)。
その後、大規模な言語モデル(LLAMA-2 7B、70B、LLAMA-3 8B、およびGPT-4ターボ)が、選択したエンティティ抽出のために選択したセグメントにプロンプ​​トとともに適用されます。
Llamaモデルの場合、LORAを使用して微調整が実行されます。
Llama-2 7bは、温度がゼロであっても、抽出にかなりの数の幻覚を示しています。これは、名前付きエンティティ抽出の重要な競合点です。
この作業は、これらの幻覚がモデルを微調整した後に大幅に減少することを示しています。
セグメントのベクトル化とその後のLLMの使用に基づく方法論のパフォーマンスは、39.5%の精度を達成する古典的な方法を大幅に上回ります。
オープンソースモデルの中で、Finetuningを備えたLlama-2 70bは、ベースバージョン61.7%を上回る最高の精度79.4%を達成します。
特に、ベースのLlama-3 8Bモデルは、すでにFinetuned Llama-2 70Bモデルに匹敵し、76.6%を達成し、モデル開発の急速な進歩を強調しています。
一方、GPT-4ターボは86.1%で最高の精度を達成します。

要約(オリジナル)

The extraction of information about traffic accidents from legal documents is crucial for quantifying insurance company costs. Extracting entities such as percentages of physical and/or psychological disability and the involved compensation amounts is a challenging process, even for experts, due to the subtle arguments and reasoning in the court decision. A two-step procedure is proposed: first, segmenting the document identifying the most relevant segments, and then extracting the entities. For text segmentation, two methodologies are compared: a classic method based on regular expressions and a second approach that divides the document into blocks of n-tokens, which are then vectorized using multilingual models for semantic searches (text-embedding-ada-002/MiniLM-L12-v2 ). Subsequently, large language models (LLaMA-2 7b, 70b, LLaMA-3 8b, and GPT-4 Turbo) are applied with prompting to the selected segments for entity extraction. For the LLaMA models, fine-tuning is performed using LoRA. LLaMA-2 7b, even with zero temperature, shows a significant number of hallucinations in extractions which are an important contention point for named entity extraction. This work shows that these hallucinations are substantially reduced after finetuning the model. The performance of the methodology based on segment vectorization and subsequent use of LLMs significantly surpasses the classic method which achieves an accuracy of 39.5%. Among open-source models, LLaMA-2 70B with finetuning achieves the highest accuracy 79.4%, surpassing its base version 61.7%. Notably, the base LLaMA-3 8B model already performs comparably to the finetuned LLaMA-2 70B model, achieving 76.6%, highlighting the rapid progress in model development. Meanwhile, GPT-4 Turbo achieves the highest accuracy at 86.1%.

arxiv情報

著者 Francisco Vargas,Alejandro González Coene,Gaston Escalante,Exequiel Lobón,Manuel Pulido
発行日 2025-06-10 14:17:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The impact of fine tuning in LLaMA on hallucinations for named entity extraction in legal documentation はコメントを受け付けていません