Rethinking Scientific Summarization Evaluation: Grounding Explainable Metrics on Facet-aware Benchmark

要約

事前学習された大規模言語モデル(LLM)の要約能力は、一般的な分野では広く検証されているが、複雑な文章や専門的な知識を含む科学コーパスでの利用はあまり評価されていない。本論文では、科学的要約の概念分析と実験的分析を行い、特に、説明の提供、科学的概念の把握、重要な内容の特定において、$n$-gram、埋め込み比較、QAといった従来の評価手法の不十分さを強調する。その後、我々はファセット認識メトリック(FM)を導入し、高度な意味的マッチングのためにLLMを採用し、様々な側面に基づいて要約を評価する。このファセット認識アプローチは、評価タスクをより単純なサブタスクに分解することで、要約の徹底的な評価を提供する。この領域には評価ベンチマークが存在しないことを認識し、ファセットレベルの注釈を持つファセットベースの科学的要約データセット(FD)を作成した。我々の結果は、FMが科学的要約を評価するためのより論理的なアプローチを提供することを確認した。さらに、微調整された小さいモデルは、科学的な文脈においてLLMと競合することができるが、LLMは科学的なドメインにおいて文脈内の情報から学習することに限界がある。このことは、LLMの将来的な強化分野を示唆している。

要約(オリジナル)

The summarization capabilities of pretrained and large language models (LLMs) have been widely validated in general areas, but their use in scientific corpus, which involves complex sentences and specialized knowledge, has been less assessed. This paper presents conceptual and experimental analyses of scientific summarization, highlighting the inadequacies of traditional evaluation methods, such as $n$-gram, embedding comparison, and QA, particularly in providing explanations, grasping scientific concepts, or identifying key content. Subsequently, we introduce the Facet-aware Metric (FM), employing LLMs for advanced semantic matching to evaluate summaries based on different aspects. This facet-aware approach offers a thorough evaluation of abstracts by decomposing the evaluation task into simpler subtasks.Recognizing the absence of an evaluation benchmark in this domain, we curate a Facet-based scientific summarization Dataset (FD) with facet-level annotations. Our findings confirm that FM offers a more logical approach to evaluating scientific summaries. In addition, fine-tuned smaller models can compete with LLMs in scientific contexts, while LLMs have limitations in learning from in-context information in scientific domains. This suggests an area for future enhancement of LLMs.

arxiv情報

著者 Xiuying Chen,Tairan Wang,Qingqing Zhu,Taicheng Guo,Shen Gao,Zhiyong Lu,Xin Gao,Xiangliang Zhang
発行日 2025-05-02 05:08:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Rethinking Scientific Summarization Evaluation: Grounding Explainable Metrics on Facet-aware Benchmark はコメントを受け付けていません

Towards the Resistance of Neural Network Watermarking to Fine-tuning

要約

本稿では、ディープニューラルネットワーク(DNN)に所有者情報を埋め込むための、微調整に頑健な新しい電子透かし法を証明する。具体的には、畳み込み層の入力特徴量が低周波成分のみを含む場合、畳み込みフィルタの特定の周波数成分は、微調整プロセス中の勾配降下によって変化しないことを証明する。さらに、これらの周波数成分は、重みのスケーリングと重みの並べ替えに対して等変であることも証明する。このようにして、我々は、畳み込みフィルタの特定の周波数成分に電子透かし情報を符号化する電子透かしモジュールを設計する。予備実験により、本手法の有効性が実証された。

要約(オリジナル)

This paper proves a new watermarking method to embed the ownership information into a deep neural network (DNN), which is robust to fine-tuning. Specifically, we prove that when the input feature of a convolutional layer only contains low-frequency components, specific frequency components of the convolutional filter will not be changed by gradient descent during the fine-tuning process, where we propose a revised Fourier transform to extract frequency components from the convolutional filter. Additionally, we also prove that these frequency components are equivariant to weight scaling and weight permutations. In this way, we design a watermark module to encode the watermark information to specific frequency components in a convolutional filter. Preliminary experiments demonstrate the effectiveness of our method.

arxiv情報

著者 Ling Tang,Yuefeng Chen,Hui Xue,Quanshi Zhang
発行日 2025-05-02 05:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Towards the Resistance of Neural Network Watermarking to Fine-tuning はコメントを受け付けていません

Competition Dynamics Shape Algorithmic Phases of In-Context Learning

要約

文脈内学習(In-Context Learning: ICL)は、大規模言語モデルの汎用性を大幅に拡張し、入力された文脈のみを用いて新しいタスクに適応することを可能にした。このことは、扱いやすい合成ドメインを分析し、ICLの根底にある可能性のある正確なメカニズムを仮定する一連の論文を動機付けた。しかし、多くの場合、シーケンスモデリング的な性質を欠く、比較的明確なセットアップを使用するため、このような研究から報告された洞察がどの程度一般的であるかは不明である。そこで我々は、マルコフ連鎖の有限混合をシミュレートする学習を含む、合成シーケンスモデリング課題を提案する。このタスクで学習したモデルは、ICLに関するほとんどの有名な結果を再現する。この設定を基に、ファジィ検索対推論アプローチとコンテキストのユニグラム統計またはビッググラム統計のいずれかを組み合わせた4つの大まかなアルゴリズムに分解することで、モデルの振る舞いを説明できることを示す。例えば、コンテキストのサイズや学習量を変化させるだけで、どのアルゴリズムがモデルの振る舞いを決定するかが(時には急激に)変化することがわかり、ICLの一過性の性質を説明するメカニズムが明らかになった。この意味で、ICLは、一枚岩の能力ではなく、それぞれが特異性を持つ異なるアルゴリズムの混合物として考えるのが最善であると主張する。このことはまた、ICLについて、あらゆる設定に普遍的に通用するような一般的な主張をすることは不可能であることを示唆している。

要約(オリジナル)

In-Context Learning (ICL) has significantly expanded the general-purpose nature of large language models, allowing them to adapt to novel tasks using merely the inputted context. This has motivated a series of papers that analyze tractable synthetic domains and postulate precise mechanisms that may underlie ICL. However, the use of relatively distinct setups that often lack a sequence modeling nature to them makes it unclear how general the reported insights from such studies are. Motivated by this, we propose a synthetic sequence modeling task that involves learning to simulate a finite mixture of Markov chains. As we show, models trained on this task reproduce most well-known results on ICL, hence offering a unified setting for studying the concept. Building on this setup, we demonstrate we can explain a model’s behavior by decomposing it into four broad algorithms that combine a fuzzy retrieval vs. inference approach with either unigram or bigram statistics of the context. These algorithms engage in a competition dynamics to dominate model behavior, with the precise experimental conditions dictating which algorithm ends up superseding others: e.g., we find merely varying context size or amount of training yields (at times sharp) transitions between which algorithm dictates the model behavior, revealing a mechanism that explains the transient nature of ICL. In this sense, we argue ICL is best thought of as a mixture of different algorithms, each with its own peculiarities, instead of a monolithic capability. This also implies that making general claims about ICL that hold universally across all settings may be infeasible.

arxiv情報

著者 Core Francisco Park,Ekdeep Singh Lubana,Itamar Pres,Hidenori Tanaka
発行日 2025-05-02 05:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | Competition Dynamics Shape Algorithmic Phases of In-Context Learning はコメントを受け付けていません

Value Portrait: Understanding Values of LLMs with Human-aligned Benchmark

要約

言語モデルの価値を評価するためのベンチマークの重要性は、より信憑性の高い、人間に沿った応答の必要性が高まっているため、顕著になってきている。しかし、既存のベンチマークは、値に関連するバイアスの影響を受けやすい人間または機械によるアノテーションに依存しています。さらに、テストされたシナリオは、モデルがテキストを生成し、値を表現するために一般的に使用される実世界のコンテキストと乖離していることが多い。これらの問題に対処するため、我々はLLMの価値志向性を評価するための信頼性の高いフレームワークであるValue Portraitベンチマークを提案する。第一に、このベンチマークは実際のユーザーとLLMのやり取りを捉えた項目で構成されており、評価結果と実際のLLMの使用状況との関連性を高め、生態学的妥当性を高めています。第二に、各項目は被験者自身の思考との類似性に基づいて評価され、これらの評価と被験者の実際の価値スコアとの相関が導き出される。この心理学的に検証されたアプローチにより、特定の価値観と強く相関する項目が、その価値観を評価するための信頼できる項目として機能することが保証される。27のLLMを我々のベンチマークで評価した結果、これらのモデルは「博愛」、「安全」、「自己指示」の価値観を優先し、「伝統」、「権力」、「達成」の価値観はあまり重視していないことがわかった。また、我々の分析では、LLMが様々な人口統計学的グループをどのように認識するかについて、実際の人間のデータと乖離したバイアスがあることが明らかになった。

要約(オリジナル)

The importance of benchmarks for assessing the values of language models has been pronounced due to the growing need of more authentic, human-aligned responses. However, existing benchmarks rely on human or machine annotations that are vulnerable to value-related biases. Furthermore, the tested scenarios often diverge from real-world contexts in which models are commonly used to generate text and express values. To address these issues, we propose the Value Portrait benchmark, a reliable framework for evaluating LLMs’ value orientations with two key characteristics. First, the benchmark consists of items that capture real-life user-LLM interactions, enhancing the relevance of assessment results to real-world LLM usage and thus ecological validity. Second, each item is rated by human subjects based on its similarity to their own thoughts, and correlations between these ratings and the subjects’ actual value scores are derived. This psychometrically validated approach ensures that items strongly correlated with specific values serve as reliable items for assessing those values. Through evaluating 27 LLMs with our benchmark, we find that these models prioritize Benevolence, Security, and Self-Direction values while placing less emphasis on Tradition, Power, and Achievement values. Also, our analysis reveals biases in how LLMs perceive various demographic groups, deviating from real human data.

arxiv情報

著者 Jongwook Han,Dongmin Choi,Woojung Song,Eun-Ju Lee,Yohan Jo
発行日 2025-05-02 05:26:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, I.2.7 | Value Portrait: Understanding Values of LLMs with Human-aligned Benchmark はコメントを受け付けていません

ICLR: In-Context Learning of Representations

要約

最近の研究では、事前学習データによって指定された意味論が、大規模言語モデル(LLM)において異なる概念の表現がどのように構成されるかに影響を与えることが実証されている。しかし、LLMのオープンエンドな性質、例えば文脈内学習能力を考慮すると、モデルがこれらの事前学習セマンティクスを変更して、文脈で指定された別のセマンティクスを採用するかどうかを問うことができる。具体的には、ある概念が事前学習データが示唆するのとは異なる役割を果たすような文脈内模範を提供した場合、モデルはこれらの新しい意味論に従って表現を再編成するのだろうか?この問いに答えるために、我々は概念役割セマンティクスの理論からヒントを得て、グラフのノードがトレーニング中に見た概念(例えば、リンゴ、鳥など)を介して参照され、グラフの接続性が何らかの事前定義された構造(例えば、正方形のグリッド)を介して定義される、おもちゃの「グラフトレース」タスクを定義する。グラフ上のランダムウォークの痕跡を示す模範が与えられたとき、我々はモデルの中間表現を分析し、文脈の量がスケールされるにつれて、事前に訓練された意味表現からグラフ構造に沿った文脈内表現への急激な再組織化があることを発見する。さらに、参照概念がその意味論において相関を持つ場合(例えば、月曜日、火曜日など)、文脈で特定されたグラフ構造はまだ表現に存在するが、事前に訓練された構造を支配することはできない。これらの結果を説明するために、我々は我々のタスクを事前に定義されたグラフのトポロジーに対するエネルギー最小化になぞらえ、文脈で特定されたセマンティクスを推論する暗黙の最適化プロセスに対する証拠を提供する。全体として、我々の発見は、コンテキストサイズのスケーリングが、モデル表現を柔軟に再編成し、おそらく新しい能力を解き放つことができることを示している。

要約(オリジナル)

Recent work has demonstrated that semantics specified by pretraining data influence how representations of different concepts are organized in a large language model (LLM). However, given the open-ended nature of LLMs, e.g., their ability to in-context learn, we can ask whether models alter these pretraining semantics to adopt alternative, context-specified ones. Specifically, if we provide in-context exemplars wherein a concept plays a different role than what the pretraining data suggests, do models reorganize their representations in accordance with these novel semantics? To answer this question, we take inspiration from the theory of conceptual role semantics and define a toy ‘graph tracing’ task wherein the nodes of the graph are referenced via concepts seen during training (e.g., apple, bird, etc.) and the connectivity of the graph is defined via some predefined structure (e.g., a square grid). Given exemplars that indicate traces of random walks on the graph, we analyze intermediate representations of the model and find that as the amount of context is scaled, there is a sudden re-organization from pretrained semantic representations to in-context representations aligned with the graph structure. Further, we find that when reference concepts have correlations in their semantics (e.g., Monday, Tuesday, etc.), the context-specified graph structure is still present in the representations, but is unable to dominate the pretrained structure. To explain these results, we analogize our task to energy minimization for a predefined graph topology, providing evidence towards an implicit optimization process to infer context-specified semantics. Overall, our findings indicate scaling context-size can flexibly re-organize model representations, possibly unlocking novel capabilities.

arxiv情報

著者 Core Francisco Park,Andrew Lee,Ekdeep Singh Lubana,Yongyi Yang,Maya Okawa,Kento Nishi,Martin Wattenberg,Hidenori Tanaka
発行日 2025-05-02 05:27:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | ICLR: In-Context Learning of Representations はコメントを受け付けていません

Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?

要約

本研究では、大規模言語モデル(LLM)を用いた小論文自動採点(AES)における詳細なルーブリックの必要性と影響について調査する。LLMを用いたAESではルーブリックを用いることが標準的であるが、詳細なルーブリックを作成するには多大な労力を要し、トークンの使用量も増加する。我々は、TOEFL11データセットを用いて、ルーブリックの詳細度の違いが、複数のLLMの採点精度にどのような影響を与えるかを調べた。実験では、4つの異なるLLM(Claude 3.5 Haiku、Gemini 1.5 Flash、GPT-4o-mini、Llama 3 70B Instruct)を用いて、完全ルーブリック、簡易ルーブリック、ルーブリックなしの3つの条件を比較した。その結果、4つのモデルのうち3つは、簡略化されたルーブリックでも、トークンの使用量を大幅に減らしながら、詳細なルーブリックと同等の採点精度を維持した。しかし、1つのモデル(Gemini 1.5 Flash)は、より詳細なルーブリックを使用した場合に成績が低下した。この結果は、簡易ルーブリックがほとんどのLLMベースのAESアプリケーションにとって十分であり、採点精度を落とすことなく、より効率的な代替手段を提供することを示唆している。しかし、性能パターンはLLMによって異なるため、モデルごとの評価が重要である。

要約(オリジナル)

This study investigates the necessity and impact of a detailed rubric in automated essay scoring (AES) using large language models (LLMs). While using rubrics are standard in LLM-based AES, creating detailed rubrics requires substantial ef-fort and increases token usage. We examined how different levels of rubric detail affect scoring accuracy across multiple LLMs using the TOEFL11 dataset. Our experiments compared three conditions: a full rubric, a simplified rubric, and no rubric, using four different LLMs (Claude 3.5 Haiku, Gemini 1.5 Flash, GPT-4o-mini, and Llama 3 70B Instruct). Results showed that three out of four models maintained similar scoring accuracy with the simplified rubric compared to the detailed one, while significantly reducing token usage. However, one model (Gemini 1.5 Flash) showed decreased performance with more detailed rubrics. The findings suggest that simplified rubrics may be sufficient for most LLM-based AES applications, offering a more efficient alternative without compromis-ing scoring accuracy. However, model-specific evaluation remains crucial as per-formance patterns vary across different LLMs.

arxiv情報

著者 Lui Yoshida
発行日 2025-05-02 06:17:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models? はコメントを受け付けていません

Multimodal Transformers are Hierarchical Modal-wise Heterogeneous Graphs

要約

マルチモーダル感情分析(MSA)は、感情を認識するためにマルチモーダル情報を統合する急速に発展している分野であり、既存のモデルはこの分野で大きな進歩を遂げている。MSAにおける中心的な課題はマルチモーダル融合であり、これは主にマルチモーダル変換器(MulTs)によって対処されている。パラダイムとして機能するものの、MulTsは効率性の懸念に悩まされている。本研究では、効率最適化の観点から、MulTsが階層的モーダルワイズヘテロジニアスグラフ(HMHG)であることを提案・証明し、MulTsのグラフ構造表現パターンを導入する。このパターンに基づき、我々は、グラフ構造化・インターレースマスク化マルチモーダル変換器(GsiT)を設計するためのインターレースマスク(IM)機構を提案する。GsiTは形式的にはMulTsと等価であり、IMにより情報の乱れを伴わない効率的な重み共有機構を実現し、純粋なMulTsの1/3のパラメータでAll-Modal-In-Oneフュージョンを可能にする。Decompositionと呼ばれるTritonカーネルは、追加の計算オーバーヘッドを確実に回避するために実装されています。さらに、従来のMulTsよりも大幅に高い性能を達成している。GsiT自身とHMHGコンセプトの有効性をさらに検証するために、複数の最先端モデルに統合し、広く使用されているMSAデータセットで顕著な性能向上とパラメータ削減を実証する。

要約(オリジナル)

Multimodal Sentiment Analysis (MSA) is a rapidly developing field that integrates multimodal information to recognize sentiments, and existing models have made significant progress in this area. The central challenge in MSA is multimodal fusion, which is predominantly addressed by Multimodal Transformers (MulTs). Although act as the paradigm, MulTs suffer from efficiency concerns. In this work, from the perspective of efficiency optimization, we propose and prove that MulTs are hierarchical modal-wise heterogeneous graphs (HMHGs), and we introduce the graph-structured representation pattern of MulTs. Based on this pattern, we propose an Interlaced Mask (IM) mechanism to design the Graph-Structured and Interlaced-Masked Multimodal Transformer (GsiT). It is formally equivalent to MulTs which achieves an efficient weight-sharing mechanism without information disorder through IM, enabling All-Modal-In-One fusion with only 1/3 of the parameters of pure MulTs. A Triton kernel called Decomposition is implemented to ensure avoiding additional computational overhead. Moreover, it achieves significantly higher performance than traditional MulTs. To further validate the effectiveness of GsiT itself and the HMHG concept, we integrate them into multiple state-of-the-art models and demonstrate notable performance improvements and parameter reduction on widely used MSA datasets.

arxiv情報

著者 Yijie Jin,Junjie Peng,Xuanchao Lin,Haochen Yuan,Lan Wang,Cangzhi Zheng
発行日 2025-05-02 07:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Multimodal Transformers are Hierarchical Modal-wise Heterogeneous Graphs はコメントを受け付けていません

REFFLY: Melody-Constrained Lyrics Editing Model

要約

メロディから歌詞への自動生成(M2L)は、与えられたメロディに沿った歌詞を作成することを目的としている。従来のほとんどのアプローチがゼロから歌詞を生成するのに対して、リビジョンはプレーンテキストの草稿を編集してメロディに合わせることで、より柔軟で実用的な代替案を提供する。これにより、柔軟な入力(キーワード、テーマ、または歌えるように洗練する必要のある全文)から歌詞を生成したり、歌の翻訳(メロディをそのままに、言語を超えて意味を保持する)、スタイルの変換(異なるジャンルに歌詞を適合させる)など、幅広い応用が可能になる。本論文では、メロディーに沿った歌詞を編集・生成するための初の改訂フレームワークであるREFFLY(REvision Framework For LYrics)を紹介する。メロディに沿った歌詞データセットを用いて歌詞修正モジュールを学習させ、プレーンテキストを与えられたメロディに沿った歌詞に変換できるようにする。改訂能力をさらに向上させるために、編集プロセス全体を通して意味的な意味と音楽的な一貫性の両方を保持することを目的とした訓練不要のヒューリスティックスを提案する。実験結果は、様々なタスク(歌詞生成、楽曲翻訳など)においてREFFLYの有効性を実証し、我々のモデルが、Lyra (Tian et al., 2023)やGPT-4を含む強力なベースラインを、音楽性とテキストの質の両方において25%上回ることを示している。

要約(オリジナル)

Automatic melody-to-lyric (M2L) generation aims to create lyrics that align with a given melody. While most previous approaches generate lyrics from scratch, revision, editing plain text draft to fit it into the melody, offers a much more flexible and practical alternative. This enables broad applications, such as generating lyrics from flexible inputs (keywords, themes, or full text that needs refining to be singable), song translation (preserving meaning across languages while keeping the melody intact), or style transfer (adapting lyrics to different genres). This paper introduces REFFLY (REvision Framework For LYrics), the first revision framework for editing and generating melody-aligned lyrics. We train the lyric revision module using our curated synthesized melody-aligned lyrics dataset, enabling it to transform plain text into lyrics that align with a given melody. To further enhance the revision ability, we propose training-free heuristics aimed at preserving both semantic meaning and musical consistency throughout the editing process. Experimental results demonstrate the effectiveness of REFFLY across various tasks (e.g. lyrics generation, song translation), showing that our model outperforms strong baselines, including Lyra (Tian et al., 2023) and GPT-4, by 25% in both musicality and text quality.

arxiv情報

著者 Songyan Zhao,Bingxuan Li,Yufei Tian,Nanyun Peng
発行日 2025-05-02 07:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS | REFFLY: Melody-Constrained Lyrics Editing Model はコメントを受け付けていません

Clustering Internet Memes Through Template Matching and Multi-Dimensional Similarity

要約

ミームのクラスタリングは、毒性検出、バイラリティモデリング、タイピングのために重要であるが、これまでの研究ではほとんど注目されてこなかった。類似するインターネットミームをクラスタリングすることは、そのマルチモーダリティ、文化的文脈、適応性のために困難である。既存のアプローチは、データベースに依存し、セマンティクスを見落とし、類似性の多様な次元を扱うのに苦労している。本論文では、多次元の類似性特徴を持つテンプレートベースのマッチングを使用することで、事前に定義されたデータベースの必要性を排除し、適応的なマッチングをサポートする新しい手法を紹介する。ミームは、形態、視覚的コンテンツ、テキスト、アイデンティティなどの類似性カテゴリにまたがる局所的および大域的特徴を用いてクラスタリングされる。また、類似性に基づく特徴セットは適応性を可能にし、人間の直感に沿う。後続の研究を支援するため、サポートする全てのコードを公開する。

要約(オリジナル)

Meme clustering is critical for toxicity detection, virality modeling, and typing, but it has received little attention in previous research. Clustering similar Internet memes is challenging due to their multimodality, cultural context, and adaptability. Existing approaches rely on databases, overlook semantics, and struggle to handle diverse dimensions of similarity. This paper introduces a novel method that uses template-based matching with multi-dimensional similarity features, thus eliminating the need for predefined databases and supporting adaptive matching. Memes are clustered using local and global features across similarity categories such as form, visual content, text, and identity. Our combined approach outperforms existing clustering methods, producing more consistent and coherent clusters, while similarity-based feature sets enable adaptability and align with human intuition. We make all supporting code publicly available to support subsequent research.

arxiv情報

著者 Tygo Bloem,Filip Ilievski
発行日 2025-05-02 07:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR, cs.LG, cs.MM | Clustering Internet Memes Through Template Matching and Multi-Dimensional Similarity はコメントを受け付けていません

MateICL: Mitigating Attention Dispersion in Large-Scale In-Context Learning

要約

大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な能力を発揮している。しかし、事前に学習されたモデルでは、固定された位置の長さの制約により、実証例の数が制限される。コンテキストを拡張する最近の取り組みでは、デモの数が増えるにつれて、注意の分散に悩まされる。本論文では、コンテキストのサイズが大きくなってもLLMが効果的な自己注意を維持できるようにする、大規模ICLにおける注意分散の緩和(MateICL)を紹介する。まずコンテキストを複数のウィンドウに分割し、各ウィンドウはモデルのコンテキスト容量に満たされ、別々に処理される。次に、注意の重みを再調整するための追加レイヤーを導入し、デモの数が増えるにつれてクエリートークンを優先させる。我々の実証結果は、MateICLがより大きなコンテキストを効果的に活用し、ICLの性能を改善できることを示している。検索ベースのベースラインと比較して、MateICLは、外部で訓練された検索モデルを必要とすることなく、一貫して優れた性能を達成する。最近の推論ストラテジーの進歩(32kトークンコンテキストなど)にもかかわらず、我々の結果は、MateICLが計算リソースに制約のある環境においても有益であることを示している。コードはhttps://github.com/amurtadha/MateICL。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities in In-Context Learning (ICL). However, the fixed position length constraints in pre-trained models limit the number of demonstration examples. Recent efforts to extend context suffer from attention dispersion as the number of demonstrations increases. In this paper, we introduce Mitigating Attention Dispersion in large-scale ICL (MateICL) that enables LLMs to maintain effective self-attention as the context size grows. We first split the context into multiple windows, each filled to the model’s context capacity, which are processed separately. Then, we introduce an additional layer to recalibrate the attention weights, prioritizing the query tokens as the number of demonstrations increases. Our empirical results show that MateICL can effectively leverage larger contexts to improve ICL performance. Compared to retrieval-based baselines, MateICL consistently achieves better performance without requiring an externally trained retrieval model. Despite recent advances in inference strategies (e.g., 32k token contexts), our results demonstrate that MateICL remains beneficial in computationally resource-constrained settings. The code is publicly available at https://github.com/amurtadha/MateICL.

arxiv情報

著者 Murtadha Ahmed,Wenbo,Liu yunfeng
発行日 2025-05-02 08:45:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | MateICL: Mitigating Attention Dispersion in Large-Scale In-Context Learning はコメントを受け付けていません