Judging the Judges: Can Large Vision-Language Models Fairly Evaluate Chart Comprehension and Reasoning?

要約

チャートは、人々がデータを理解し、推論するのを助けるため、遍在しています。
最近、チャートの質問応答、Chart2Text、およびファクトチェックなどのさまざまなダウンストリームタスクが登場しました。
大規模なビジョン言語モデル(LVLMS)は、これらのタスクに取り組むことで有望ですが、その評価は費用がかかり、時間がかかり、現実世界の展開を制限しています。
LVLMSを審査員として使用して、他のLVLMのチャート理解能力を評価することができますが、評価プロセス、独自のデータセット、強力なモデルへのアクセスの制限、および評価コストなどの課題を合理化できます。
この目的のために、多様なチャートの理解と推論タスクの裁判官として、13のオープンソースLVLMの包括的な評価を提示します。
事実上の正確性、情報性、関連性などの基準をカバーするペアワイズとポイントワイズの両方の評価タスクを設計します。
さらに、フォーマットアドヒアランス、位置一貫性、長さのバイアス、および命令フォローに基づいてLVLM審査員を分析します。
LVLMジャッジの精度を測定するために標準化された評価プロトコルとルーブリックに従って、研究と商業使用の両方に適した費用対効果の高いLVLMS(<10Bパラメーター)に焦点を当てています。 実験結果は顕著な変動性を明らかにしています。一部のオープンLVLM審査員はGPT-4レベルの評価パフォーマンス(GPT-4判断と約80%の合意)を達成し、他のLVLEVERの評価パフォーマンスを達成しますが、苦労しています(〜10%の合意)。 私たちの調査結果は、最先端のオープンソースLVLMSがチャート関連のタスクの費用対効果の高い自動評価者として役立つことを強調していますが、位置設定や長さのバイアスなどのバイアスが持続します。

要約(オリジナル)

Charts are ubiquitous as they help people understand and reason with data. Recently, various downstream tasks, such as chart question answering, chart2text, and fact-checking, have emerged. Large Vision-Language Models (LVLMs) show promise in tackling these tasks, but their evaluation is costly and time-consuming, limiting real-world deployment. While using LVLMs as judges to assess the chart comprehension capabilities of other LVLMs could streamline evaluation processes, challenges like proprietary datasets, restricted access to powerful models, and evaluation costs hinder their adoption in industrial settings. To this end, we present a comprehensive evaluation of 13 open-source LVLMs as judges for diverse chart comprehension and reasoning tasks. We design both pairwise and pointwise evaluation tasks covering criteria like factual correctness, informativeness, and relevancy. Additionally, we analyze LVLM judges based on format adherence, positional consistency, length bias, and instruction-following. We focus on cost-effective LVLMs (<10B parameters) suitable for both research and commercial use, following a standardized evaluation protocol and rubric to measure the LVLM judge's accuracy. Experimental results reveal notable variability: while some open LVLM judges achieve GPT-4-level evaluation performance (about 80% agreement with GPT-4 judgments), others struggle (below ~10% agreement). Our findings highlight that state-of-the-art open-source LVLMs can serve as cost-effective automatic evaluators for chart-related tasks, though biases such as positional preference and length bias persist.

arxiv情報

著者 Md Tahmid Rahman Laskar,Mohammed Saidul Islam,Ridwan Mahbub,Ahmed Masry,Mizanur Rahman,Amran Bhuiyan,Mir Tafseer Nayeem,Shafiq Joty,Enamul Hoque,Jimmy Huang
発行日 2025-05-13 11:50:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Judging the Judges: Can Large Vision-Language Models Fairly Evaluate Chart Comprehension and Reasoning? はコメントを受け付けていません

LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩により、ゼロショット自動エッセイスコアリング(AES)が可能になり、手動グレーディングと比較してエッセイスコアリングのコストと努力を削減する有望な方法を提供します。
ただし、既存のゼロショットアプローチのほとんどは、LLMSに依存して絶対スコアを直接生成します。これは、モデルバイアスと一貫性のないスコアリングにより、人間の評価から分岐することがよくあります。
これらの制限に対処するために、AESをペアワイズ比較タスクとして定式化する方法であるLLMベースの比較エッセイスコアリング(LCES)を提案します。
具体的には、2つのエッセイのどれが優れているかを判断し、そのような比較の多くを収集し、それらを連続スコアに変換するようにLLMSに指示します。
可能な比較の数がエッセイの数とともに2次に増加することを考慮すると、LankNetを使用してLLMの好みをスカラースコアに効率的に変換することにより、スケーラビリティを向上させます。
AESベンチマークデータセットを使用した実験は、LCESが計算効率を維持しながら、従来のゼロショット方法よりも精度を上回ることを示しています。
さらに、LCESは異なるLLMバックボーンにわたって堅牢であり、実際のゼロショットAESへの適用性を強調しています。

要約(オリジナル)

Recent advances in large language models (LLMs) have enabled zero-shot automated essay scoring (AES), providing a promising way to reduce the cost and effort of essay scoring in comparison with manual grading. However, most existing zero-shot approaches rely on LLMs to directly generate absolute scores, which often diverge from human evaluations owing to model biases and inconsistent scoring. To address these limitations, we propose LLM-based Comparative Essay Scoring (LCES), a method that formulates AES as a pairwise comparison task. Specifically, we instruct LLMs to judge which of two essays is better, collect many such comparisons, and convert them into continuous scores. Considering that the number of possible comparisons grows quadratically with the number of essays, we improve scalability by employing RankNet to efficiently transform LLM preferences into scalar scores. Experiments using AES benchmark datasets show that LCES outperforms conventional zero-shot methods in accuracy while maintaining computational efficiency. Moreover, LCES is robust across different LLM backbones, highlighting its applicability to real-world zero-shot AES.

arxiv情報

著者 Takumi Shibata,Yuichi Miyamura
発行日 2025-05-13 12:26:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models はコメントを受け付けていません

Reassessing Graph Linearization for Sequence-to-sequence AMR Parsing: On the Advantages and Limitations of Triple-Based Encoding

要約

シーケンスからシーケンスモデルは、抽象的な意味表現をトレーニングするために広く使用されています(Banarescu et al。、2013、AMR)パーサー。
このようなモデルをトレーニングするには、AMRグラフを1行のテキスト形式に線形化する必要があります。
ペンマンのエンコーディングは通常この目的に使用されますが、制限があると主張します。(1)深いグラフの場合、いくつかの密接に関連するノードは、線形化されたテキスト(2)ペンマンのツリーベースのエンコードには、ノードの再配置を処理するために逆ロールを必要とし、関係タイプを2倍にする必要があります。
これらの問題に対処するために、トリプルベースの線形化方法を提案し、その効率をペンマンの線形化と比較します。
トリプルはグラフを表すのに適していますが、私たちの結果は、ペンマンのネストされたグラフ構造の簡潔で明示的な表現とよりよく競争するために、トリプルエンコードの改善の余地を示唆しています。

要約(オリジナル)

Sequence-to-sequence models are widely used to train Abstract Meaning Representation (Banarescu et al., 2013, AMR) parsers. To train such models, AMR graphs have to be linearized into a one-line text format. While Penman encoding is typically used for this purpose, we argue that it has limitations: (1) for deep graphs, some closely related nodes are located far apart in the linearized text (2) Penman’s tree-based encoding necessitates inverse roles to handle node re-entrancy, doubling the number of relation types to predict. To address these issues, we propose a triple-based linearization method and compare its efficiency with Penman linearization. Although triples are well suited to represent a graph, our results suggest room for improvement in triple encoding to better compete with Penman’s concise and explicit representation of a nested graph structure.

arxiv情報

著者 Jeongwoo Kang,Maximin Coavoux,Cédric Lopez,Didier Schwab
発行日 2025-05-13 12:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reassessing Graph Linearization for Sequence-to-sequence AMR Parsing: On the Advantages and Limitations of Triple-Based Encoding はコメントを受け付けていません

Can (A)I Change Your Mind?

要約

大規模な言語モデル(LLMS)ベースの会話エージェントの日常生活への統合の増加は、人間の意見に影響を与える可能性についての重要な認知的および社会的疑問を提起します。
以前の研究では、LLMベースのエージェントが説得力のあるコンテンツを生成できることが示されていますが、これらは通常、制御された英語の設定を伴います。
これに対処するために、私たちの前提条件の研究では、より生態学的で制約のないシナリオでLLMSの説得力のある能力を調査し、静的(書かれた段落)と動的(電報による会話)相互作用タイプの両方を調べました。
200人の参加者とともにヘブライ語で完全に実施されたこの研究では、論争の的となっている市民政策のトピックに対するLLMと人間の対談者の両方の説得力のある影響を評価しました。
結果は、参加者がLLMと人間の視点を同様に採用し、対話者の種類や相互作用モードに関係なく、すべての条件で重要な意見の変化が明らかになったことを示しています。
ほとんどのシナリオで信頼レベルが大幅に増加しました。
これらの調査結果は、LLMベースのエージェントの多様な情報源と設定にわたる堅牢な説得力のある能力を示しており、世論の形成への潜在的な影響を強調しています。

要約(オリジナル)

The increasing integration of large language models (LLMs) based conversational agents into everyday life raises critical cognitive and social questions about their potential to influence human opinions. Although previous studies have shown that LLM-based agents can generate persuasive content, these typically involve controlled English-language settings. Addressing this, our preregistered study explored LLMs’ persuasive capabilities in more ecological, unconstrained scenarios, examining both static (written paragraphs) and dynamic (conversations via Telegram) interaction types. Conducted entirely in Hebrew with 200 participants, the study assessed the persuasive effects of both LLM and human interlocutors on controversial civil policy topics. Results indicated that participants adopted LLM and human perspectives similarly, with significant opinion changes evident across all conditions, regardless of interlocutor type or interaction mode. Confidence levels increased significantly in most scenarios. These findings demonstrate LLM-based agents’ robust persuasive capabilities across diverse sources and settings, highlighting their potential impact on shaping public opinions.

arxiv情報

著者 Miriam Havin,Timna Wharton Kleinman,Moran Koren,Yaniv Dover,Ariel Goldstein
発行日 2025-05-13 12:45:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can (A)I Change Your Mind? はコメントを受け付けていません

Are We Paying Attention to Her? Investigating Gender Disambiguation and Attention in Machine Translation

要約

現代のニューラル機械翻訳(NMT)システムの性別バイアスは多くの注目を集めていますが、従来の評価メトリックは、これらのシステムがコンテキストの性別の手がかりを統合する程度を完全に捉えていません。
私たちは、性別の乱用のためのジェンダーキューに対するモデルの依存を測定する最小ペア精度(MPA)と呼ばれる新しい評価メトリックを提案します。
MPAは、モデルが最小限のペアで性別の手がかりに適応するかどうかに焦点を当てることにより、表面レベルの性別の精度メトリックを超えるように設計されています – 性別の代名詞のみ、つまりターゲットのエンティティの性別の明示的な指標(EN)の明示的な指標だけが異なる文のペア。
このメトリックを使用して、英語のイタリア語(en– it)言語ペアで多くのNMTモデルを評価します。ほとんどの場合、(統計的)ステレオタイプの性別解釈を支持して、利用可能な性別の手がかりを無視していることを示します。
さらに、反ステレオタイプの場合、これらのモデルは、女性的な手がかりを無視しながら、男性の性別の手がかりをより一貫して考慮に入れる傾向があることを示しています。
さらに、エンコーダコンポーネントの注意ヘッドウェイトを分析し、すべてのモデルが性別情報をある程度エンコードしている一方で、男性のキューが女性の性別のキューに対するより集中した専門的な反応と比較して、より拡散した応答を引き出すことを示します。

要約(オリジナル)

While gender bias in modern Neural Machine Translation (NMT) systems has received much attention, traditional evaluation metrics do not to fully capture the extent to which these systems integrate contextual gender cues. We propose a novel evaluation metric called Minimal Pair Accuracy (MPA), which measures the reliance of models on gender cues for gender disambiguation. MPA is designed to go beyond surface-level gender accuracy metrics by focusing on whether models adapt to gender cues in minimal pairs — sentence pairs that differ solely in the gendered pronoun, namely the explicit indicator of the target’s entity gender in the source language (EN). We evaluate a number of NMT models on the English-Italian (EN–IT) language pair using this metric, we show that they ignore available gender cues in most cases in favor of (statistical) stereotypical gender interpretation. We further show that in anti-stereotypical cases, these models tend to more consistently take masculine gender cues into account while ignoring the feminine cues. Furthermore, we analyze the attention head weights in the encoder component and show that while all models encode gender information to some extent, masculine cues elicit a more diffused response compared to the more concentrated and specialized responses to feminine gender cues.

arxiv情報

著者 Chiara Manna,Afra Alishahi,Frédéric Blain,Eva Vanmassenhove
発行日 2025-05-13 13:17:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Are We Paying Attention to Her? Investigating Gender Disambiguation and Attention in Machine Translation はコメントを受け付けていません

Scaling Laws for Floating Point Quantization Training

要約

低精度トレーニングは、トレーニングと下流の推論コストの両方を削減するための効果的な戦略と見なされます。
精度のための以前のスケーリング法則は主に整数量子化に焦点を当てており、このシナリオでは、浮動小数点(FP)量子化の成分にあまり注意を払うため、LLM損失に適していません。
対照的に、FP量子化トレーニングはより一般的に生産において実装されていますが、研究は比較的表面的なものでした。
この論文では、FP量子化ターゲット、指数ビット、マンティッサビット、およびLLMモデルのFP量子化トレーニングパフォーマンスにおけるスケーリング係数の計算粒度の影響を徹底的に調査します。
正確なFP量子化統合スケーリング法則に加えて、コミュニティに貴重な提案も提供します。(1)指数ビットは、マンティッサビットよりもモデルパフォーマンスにわずかに貢献します。
さまざまなビット番号に対して最適な指数マンティッサビット比を提供します。これは、ハードウェアメーカーが将来の参照に利用できます。
(2)低精度LLMトレーニングにおける重要なデータサイズの形成を発見します。
重要なデータサイズを超えるトレーニングデータが多すぎると、LLMのパフォーマンスが逆に劣化します。
(3)最適なFP量子化精度は、計算能力に直接比例しますが、幅広い計算能力範囲内です。
最高のコストパフォーマンス精度は4〜8ビットの間にあるべきであると推定しています。

要約(オリジナル)

Low-precision training is considered an effective strategy for reducing both training and downstream inference costs. Previous scaling laws for precision mainly focus on integer quantization, which pay less attention to the constituents in floating-point (FP) quantization, and thus cannot well fit the LLM losses in this scenario. In contrast, while FP quantization training is more commonly implemented in production, it’s research has been relatively superficial. In this paper, we thoroughly explore the effects of FP quantization targets, exponent bits, mantissa bits, and the calculation granularity of the scaling factor in FP quantization training performance of LLM models. In addition to an accurate FP quantization unified scaling law, we also provide valuable suggestions for the community: (1) Exponent bits contribute slightly more to the model performance than mantissa bits. We provide the optimal exponent-mantissa bit ratio for different bit numbers, which is available for future reference by hardware manufacturers; (2) We discover the formation of the critical data size in low-precision LLM training. Too much training data exceeding the critical data size will inversely bring in degradation of LLM performance; (3) The optimal FP quantization precision is directly proportional to the computational power, but within a wide computational power range. We estimate that the best cost-performance precision should lie between 4-8 bits.

arxiv情報

著者 Xingwu Sun,Shuaipeng Li,Ruobing Xie,Weidong Han,Kan Wu,Zhen Yang,Yixing Li,An Wang,Shuai Li,Jinbao Xue,Yu Cheng,Yangyu Tao,Zhanhui Kang,Chengzhong Xu,Di Wang,Jie Jiang
発行日 2025-05-13 13:19:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CL, cs.LG | Scaling Laws for Floating Point Quantization Training はコメントを受け付けていません

Crossing Boundaries: Leveraging Semantic Divergences to Explore Cultural Novelty in Cooking Recipes

要約

ノベルティモデリングと検出は、自然言語処理(NLP)の中心的なトピックであり、推奨システムや自動要約などの多くのタスクの中心です。
これには、以前に既知の情報から何らかの形で逸脱するテキストの識別を識別することが含まれます。
しかし、ノベルティは、各個人の世界の理解に基づいているため、経験の関連性と質の質のユニークな認識の重要な決定要因でもあります。
社会的要因、特に文化的背景は、目新しさと革新の認識に大きな影響を与えます。
文化的な目新しさは、異なるコミュニティ間の距離によって形作られるように、顕著性と目新しさの違いから生じます。
文化の多様性は人工知能(AI)の注目を集めていますが、文化的な斬新さを定量化するための堅牢な指標の欠如は、これらの相違のより深い理解を妨げます。
このギャップは、計算フレームワーク内の文化的な違いを定量化および理解することを制限します。
これに対処するために、社会学と管理からの知識を統合する学際的な枠組みを提案します。
私たちのアプローチの中心は、500皿と約100,000の調理レシピで構成される新しいデータセットであるGlobalFusionです。150か国以上からの文化的適応を獲得しています。
斬新さのためにジェンセンシャノンの分岐メトリックのセットを導入することにより、このデータセットを活用して、あるコミュニティからのレシピが別の文化的背景を持つ別のコミュニティによって変更されたときにテキストの発散を分析します。
結果は、私たちの文化的な斬新な指標と、言語的、宗教的、地理的距離に基づいた確立された文化的尺度との間に重要な相関関係を明らかにしています。
私たちの調査結果は、AIの文化的多様性の理解と測定を進めるための枠組みの可能性を強調しています。

要約(オリジナル)

Novelty modeling and detection is a core topic in Natural Language Processing (NLP), central to numerous tasks such as recommender systems and automatic summarization. It involves identifying pieces of text that deviate in some way from previously known information. However, novelty is also a crucial determinant of the unique perception of relevance and quality of an experience, as it rests upon each individual’s understanding of the world. Social factors, particularly cultural background, profoundly influence perceptions of novelty and innovation. Cultural novelty arises from differences in salience and novelty as shaped by the distance between distinct communities. While cultural diversity has garnered increasing attention in artificial intelligence (AI), the lack of robust metrics for quantifying cultural novelty hinders a deeper understanding of these divergences. This gap limits quantifying and understanding cultural differences within computational frameworks. To address this, we propose an interdisciplinary framework that integrates knowledge from sociology and management. Central to our approach is GlobalFusion, a novel dataset comprising 500 dishes and approximately 100,000 cooking recipes capturing cultural adaptation from over 150 countries. By introducing a set of Jensen-Shannon Divergence metrics for novelty, we leverage this dataset to analyze textual divergences when recipes from one community are modified by another with a different cultural background. The results reveal significant correlations between our cultural novelty metrics and established cultural measures based on linguistic, religious, and geographical distances. Our findings highlight the potential of our framework to advance the understanding and measurement of cultural diversity in AI.

arxiv情報

著者 Florian Carichon,Romain Rampa,Golnoosh Farnadi
発行日 2025-05-13 13:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Crossing Boundaries: Leveraging Semantic Divergences to Explore Cultural Novelty in Cooking Recipes はコメントを受け付けていません

Enhancing Thyroid Cytology Diagnosis with RAG-Optimized LLMs and Pa-thology Foundation Models

要約

人工知能(AI)の進歩は、検索された生成(RAG)およびドメイン固有の基礎モデルを備えた大規模な言語モデル(LLM)を統合することにより、病理学を変換しています。
この研究では、甲状腺の細胞診診断のための病理基礎モデルと組み合わせたRAG強化LLMの適用を調査し、細胞学的解釈、標準化、診断精度の課題に対処します。
キュレーションされた知識ベースを活用することにより、Ragは関連するケーススタディ、診断基準、および専門家の解釈のDYナミック検索を促進し、LLMSの文脈的理解を改善します。
一方、高解像度の病理画像で訓練された病理学のファウンデーションモデルは、特徴の追加機能と分類機能を改良します。
これらのAI駆動型のアプローチの融合は、診断の一貫性を有効にし、変動性を低下させ、悪性甲状腺病変から良性を放棄する病理学者をサポートします。
我々の結果は、RAGと病理特異的LLMSを統合することで診断効率と解釈可能性が大幅に向上し、AIアシストの甲状腺細胞病理学の道を開くことができることを示しています。これにより、基礎モデルUNIは、甲状腺細胞学のサンプルからの外科対カル病理診断の正しい予測のためにAUC 0.73-0.93を達成します。

要約(オリジナル)

Advancements in artificial intelligence (AI) are transforming pathology by integrat-ing large language models (LLMs) with retrieval-augmented generation (RAG) and domain-specific foundation models. This study explores the application of RAG-enhanced LLMs coupled with pathology foundation models for thyroid cytology diagnosis, addressing challenges in cytological interpretation, standardization, and diagnostic accuracy. By leveraging a curated knowledge base, RAG facilitates dy-namic retrieval of relevant case studies, diagnostic criteria, and expert interpreta-tion, improving the contextual understanding of LLMs. Meanwhile, pathology foun-dation models, trained on high-resolution pathology images, refine feature extrac-tion and classification capabilities. The fusion of these AI-driven approaches en-hances diagnostic consistency, reduces variability, and supports pathologists in dis-tinguishing benign from malignant thyroid lesions. Our results demonstrate that integrating RAG with pathology-specific LLMs significantly improves diagnostic efficiency and interpretability, paving the way for AI-assisted thyroid cytopathology, with foundation model UNI achieving AUC 0.73-0.93 for correct prediction of surgi-cal pathology diagnosis from thyroid cytology samples.

arxiv情報

著者 Hussien Al-Asi,Jordan P Reynolds,Shweta Agarwal,Bryan J Dangott,Aziza Nassar,Zeynettin Akkus
発行日 2025-05-13 14:01:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.QM | Enhancing Thyroid Cytology Diagnosis with RAG-Optimized LLMs and Pa-thology Foundation Models はコメントを受け付けていません

Round and Round We Go! What makes Rotary Positional Encodings useful?

要約

位置エンコーディング(PES)は、トランスベースの大型言語モデル(LLMS)の重要なコンポーネントであり、重要なシーケンスポジション情報で注意メカニズムを提供します。
LLMSで今日使用されている最も人気のあるタイプのエンコーディングの1つは、相対距離に基づいてクエリとキーを回転させる回転位置エンコーディング(ロープ)です。
一般的な信念は、相対距離が増加するにつれてトークンの依存関係を崩壊させるのに役立つため、ロープは有用であるということです。
この作業では、これが核となる理由である可能性は低いと主張します。
訓練されたジェマ7Bモデルの内部を研究して、ロープが機械レベルでどのように使用されているかを理解します。
Gemmaは、最高周波数を活用することにより、ロープを使用して堅牢な「位置的な」注意パターンを構築することを学ぶことがわかります。
また、一般的に、ジェマはロープの最低周波数を使用することを非常に好みます。これはセマンティック情報を運ぶために使用されると思われます。
数学的にロープの興味深い行動を証明し、調査結果を検証するための実験を実施し、強調された問題を修正し、パフォーマンスを改善するロープの変更を提案します。
この作業は、LLMSのPESをよりよく理解するための興味深いステップであると考えています。

要約(オリジナル)

Positional Encodings (PEs) are a critical component of Transformer-based Large Language Models (LLMs), providing the attention mechanism with important sequence-position information. One of the most popular types of encoding used today in LLMs are Rotary Positional Encodings (RoPE), that rotate the queries and keys based on their relative distance. A common belief is that RoPE is useful because it helps to decay token dependency as relative distance increases. In this work, we argue that this is unlikely to be the core reason. We study the internals of a trained Gemma 7B model to understand how RoPE is being used at a mechanical level. We find that Gemma learns to use RoPE to construct robust ‘positional’ attention patterns by exploiting the highest frequencies. We also find that, in general, Gemma greatly prefers to use the lowest frequencies of RoPE, which we suspect are used to carry semantic information. We mathematically prove interesting behaviours of RoPE and conduct experiments to verify our findings, proposing a modification of RoPE that fixes some highlighted issues and improves performance. We believe that this work represents an interesting step in better understanding PEs in LLMs, which we believe holds crucial value for scaling LLMs to large sizes and context lengths.

arxiv情報

著者 Federico Barbero,Alex Vitvitskyi,Christos Perivolaropoulos,Razvan Pascanu,Petar Veličković
発行日 2025-05-13 14:11:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Round and Round We Go! What makes Rotary Positional Encodings useful? はコメントを受け付けていません

Automatic Task Detection and Heterogeneous LLM Speculative Decoding

要約

ドラフトモデルとターゲットモデルを組み合わせた投機的デコードは、大規模な言語モデル(LLM)推論を加速するための効果的なアプローチとして浮上しています。
ただし、既存の方法は、ドラフトモデルの容量が限られているため、下流タスクの受け入れ率とデコード速度との間のトレードオフに直面することが多く、多様なタスク全体の効率を確保することが困難です。
この問題に対処するために、ダウンストリームタスクの最適化に合わせた投機的デコードアルゴリズムを提案します。
これには、自動タスクのパーティション化と割り当てメソッドが含まれています。これは、ダウンストリームタスクをさまざまなサブタスクに自動的に分類し、それらを異種ドラフトモデルのセットに割り当てます。
各ドラフトモデルは、タスク固有のデータを使用してターゲットモデルと整合しているため、推論結果の一貫性が向上します。
さらに、提案された方法には、オンラインの軽量プロンプト分類器が組み込まれ、適切なドラフトモデルにプロンプ​​トを動的にルーティングします。
実験結果は、提案された方法が、LLM推論で1.10倍から2.64倍のスピードアップを達成しながら、バニラの投機的デコードでドラフトの精度を6%から50%改善することを示しています。

要約(オリジナル)

Speculative decoding, which combines a draft model with a target model, has emerged as an effective approach to accelerate large language model (LLM) inference. However, existing methods often face a trade-off between the acceptance rate and decoding speed in downstream tasks due to the limited capacity of the draft model, making it difficult to ensure efficiency across diverse tasks. To address this problem, we propose a speculative decoding algorithm tailored for downstream task optimization. It includes an automatic task partitioning and assigning method, which automatically categorizes downstream tasks into different sub-tasks and assigns them to a set of heterogeneous draft models. Each draft model is aligned with the target model using task-specific data, thereby enhancing the consistency of inference results. In addition, our proposed method incorporates an online lightweight prompt classifier to dynamically route prompts to the appropriate draft model. Experimental results demonstrate that the proposed method improves draft accuracy by 6% to 50% over vanilla speculative decoding, while achieving a speedup of 1.10x to 2.64x in LLM inference.

arxiv情報

著者 Danying Ge,Jianhua Gao,Qizhi Jiang,Yifei Feng,Weixing Ji
発行日 2025-05-13 14:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Automatic Task Detection and Heterogeneous LLM Speculative Decoding はコメントを受け付けていません