MuDAF: Long-Context Multi-Document Attention Focusing through Contrastive Learning on Attention Heads

要約

大規模な言語モデル(LLM)は、入力の無関係な情報のために気を散らす注意を頻繁に示し、長期コンテキスト機能を重大に損なうことがあります。
長いコンテキストの折り畳みにおける検索ヘッドの有効性に関する最近の研究に触発された私たちは、このような検索ヘッドを直接改善することにより、この気晴らしの問題に対処することを目指しています。
対照的な学習を通じて頭レベルでの注意分布を明示的に最適化する新しい方法であるマルチドキュメントの注意フォーカシング(MUDAF)を提案します。
実験結果によると、MUDAFは、特にマルチドキュメントの質問回答において、LLMSのパフォーマンスに応答する長いコンテストの質問を大幅に改善できます。
検索スコアと注意の視覚化に関する広範な評価は、Mudafが関連する情報に焦点を当て、注意の注意散漫を減らすために注意を向ける大きな可能性を持っていることを示しています。

要約(オリジナル)

Large Language Models (LLMs) frequently show distracted attention due to irrelevant information in the input, which severely impairs their long-context capabilities. Inspired by recent studies on the effectiveness of retrieval heads in long-context factutality, we aim at addressing this distraction issue through improving such retrieval heads directly. We propose Multi-Document Attention Focusing (MuDAF), a novel method that explicitly optimizes the attention distribution at the head level through contrastive learning. According to the experimental results, MuDAF can significantly improve the long-context question answering performance of LLMs, especially in multi-document question answering. Extensive evaluations on retrieval scores and attention visualizations show that MuDAF possesses great potential in making attention heads more focused on relevant information and reducing attention distractions.

arxiv情報

著者 Weihao Liu,Ning Wu,Shiping Yang,Wenbiao Ding,Shining Liang,Ming Gong,Dongmei Zhang
発行日 2025-02-19 18:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク