MciteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs

要約

マルチモーダル大手言語モデル(MLLM)は、多様なモダリティの統合に進んでいますが、しばしば幻覚に苦しんでいます。
この問題を軽減する有望な解決策は、引用を含むテキストを生成し、検証のための透明なチェーンを提供することです。
ただし、既存の作業は、主にテキストのみのコンテンツの引用の生成に焦点を当てており、マルチモーダルコンテキストの課題と機会を見落としています。
このギャップに対処するために、MLLMSのマルチモーダル引用テキスト生成能力を評価および分析するために設計された最初のベンチマークであるMcIteBenchを紹介します。
私たちのベンチマークは、アカデミックペーパーとレビューとrebuttalの相互作用から派生したデータで構成され、多様な情報源とマルチモーダルコンテンツを備えています。
引用の品質、ソースの信頼性、回答の精度など、複数の次元からモデルを包括的に評価します。
広範な実験を通じて、MLLMはマルチモーダル引用テキスト生成と闘っていることがわかります。
また、モデルのパフォーマンスの深い分析を実施し、ボトルネックがマルチモーダルコンテンツを理解するのではなく、正しいソースに起因することにあることを明らかにしています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have advanced in integrating diverse modalities but frequently suffer from hallucination. A promising solution to mitigate this issue is to generate text with citations, providing a transparent chain for verification. However, existing work primarily focuses on generating citations for text-only content, overlooking the challenges and opportunities of multimodal contexts. To address this gap, we introduce MCiteBench, the first benchmark designed to evaluate and analyze the multimodal citation text generation ability of MLLMs. Our benchmark comprises data derived from academic papers and review-rebuttal interactions, featuring diverse information sources and multimodal content. We comprehensively evaluate models from multiple dimensions, including citation quality, source reliability, and answer accuracy. Through extensive experiments, we observe that MLLMs struggle with multimodal citation text generation. We also conduct deep analyses of models’ performance, revealing that the bottleneck lies in attributing the correct sources rather than understanding the multimodal content.

arxiv情報

著者 Caiyu Hu,Yikai Zhang,Tinghui Zhu,Yiwei Ye,Yanghua Xiao
発行日 2025-03-04 13:12:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MciteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs はコメントを受け付けていません

OkraLong: A Flexible Retrieval-Augmented Framework for Long-Text Query Processing

要約

大規模な言語モデル(LLMS)は、エンタープライズドキュメント分析や財務報告の理解などのアプリケーションで見られるように、長いテキストクエリを効率的に処理する際に課題に遭遇します。
従来のソリューションでは、長いコンテキストの処理または検索の高等発電(RAG)を採用していますが、禁止されている入力費用または不完全な情報に苦しんでいます。
最近の進歩は、コンテキストの圧縮と動的検索ループを採用していますが、それでも重要な詳細を犠牲にしたり、反復コストを犠牲にしたりします。これらの制限に対処するために、処理ワークフロー全体を柔軟に最適化する新しいフレームワークであるOkralongを提案します。
以前の静的または粗粒の適応戦略とは異なり、Okralongは、アナライザー、オーガナイザー、執行者の3つの相乗効果コンポーネントを通じて微細に粒のオーケストレーションを採用しています。
アナライザーは、ワークフローを動的にスケジュールする際にオーガナイザーを導くタスク状態を特徴付けます。
執行者は実行を実行し、最終的な答えを生成します。
実験結果は、Okralongが回答の精度を高めるだけでなく、さまざまなデータセット全体で費用対効果を達成することを示しています。

要約(オリジナル)

Large Language Models (LLMs) encounter challenges in efficiently processing long-text queries, as seen in applications like enterprise document analysis and financial report comprehension. While conventional solutions employ long-context processing or Retrieval-Augmented Generation (RAG), they suffer from prohibitive input expenses or incomplete information. Recent advancements adopt context compression and dynamic retrieval loops, but still sacrifice critical details or incur iterative costs.To address these limitations, we propose OkraLong, a novel framework that flexibly optimizes the entire processing workflow. Unlike prior static or coarse-grained adaptive strategies, OkraLong adopts fine-grained orchestration through three synergistic components: analyzer, organizer and executor. The analyzer characterizes the task states, which guide the organizer in dynamically scheduling the workflow. The executor carries out the execution and generates the final answer. Experimental results demonstrate that OkraLong not only enhances answer accuracy but also achieves cost-effectiveness across a variety of datasets.

arxiv情報

著者 Yulong Hui,Yihao Liu,Yao Lu,Huanchen Zhang
発行日 2025-03-04 13:21:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OkraLong: A Flexible Retrieval-Augmented Framework for Long-Text Query Processing はコメントを受け付けていません

Rewarding Doubt: A Reinforcement Learning Approach to Confidence Calibration of Large Language Models

要約

大規模な言語モデル(LLMS)の安全で信頼できる使用には、回答に対する信頼性の正確な表現が必要です。
LLMキャリブレーションのための新しい強化学習(RL)アプローチを導入し、LLMを微調整して、事実上の質問に対する回答に校正された信頼性の推定を引き出します。
問題を賭けゲームとしてモデル化し、モデルがすべての回答と一緒に信頼性スコアを予測し、強度を超えていっぱいと不足の両方を罰する報酬関数を設計します。
私たちの報酬設計の下で、最適なポリシーが完全に較正された信頼性の推定につながることを証明します。
私たちの実験は、再訓練をせずに新しいタスクの信頼のキャリブレーションと一般化が大幅に改善されたことを示しており、私たちのアプローチが一般的な自信の認識を教えていることを示しています。
このアプローチにより、本質的に調整されたLLMのトレーニングが可能になります。

要約(オリジナル)

A safe and trustworthy use of Large Language Models (LLMs) requires an accurate expression of confidence in their answers. We introduce a novel Reinforcement Learning (RL) approach for LLM calibration that fine-tunes LLMs to elicit calibrated confidence estimations in their answers to factual questions. We model the problem as a betting game where the model predicts a confidence score together with every answer, and design a reward function that penalizes both over and under-confidence. We prove that under our reward design an optimal policy would result in a perfectly calibrated confidence estimation. Our experiments demonstrate significantly improved confidence calibration and generalization to new tasks without re-training, indicating that our approach teaches a general confidence awareness. This approach enables the training of inherently calibrated LLMs.

arxiv情報

著者 Paul Stangel,David Bani-Harouni,Chantal Pellegrini,Ege Özsoy,Kamilia Zaripova,Matthias Keicher,Nassir Navab
発行日 2025-03-04 13:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Rewarding Doubt: A Reinforcement Learning Approach to Confidence Calibration of Large Language Models はコメントを受け付けていません

ttta: Tools for Temporal Text Analysis

要約

テキストデータは本質的に一時的です。
単語やフレーズの意味は時間とともに変化し、それらが使用されるコンテキストは常に進化しています。
これは、使用される言語が現在のイベント、ミーム、トレンドに急速に影響を受けるソーシャルメディアデータだけでなく、ジャーナリズム、経済、または政治的なテキストデータにも当てはまります。
ただし、ほとんどのNLP技術では、手元のコーパスが時間に関して均質であると考えています。
これは、単語やフレーズの意味が時間とともに変化する可能性があるため、偏った結果につながる可能性のある単純化です。
たとえば、数年にわたるコーパスで古典的な潜在的なディリクレの割り当てを実行するだけでは、時間の経過とともにトピックの変化をキャプチャするのに十分ではありませんが、全体で「平均的な」トピック分布のみをポートレートします。
研究者は、時間の経過とともにテキストデータを分析するための多くのツールを開発しました。
ただし、これらのツールはさまざまなパッケージやライブラリに散在することが多いため、研究者が一貫した再現性のある方法で使用することが困難です。
TTTAパッケージは、時間の経過とともにテキストデータを分析するためのツールのコレクションとして機能することになっています。

要約(オリジナル)

Text data is inherently temporal. The meaning of words and phrases changes over time, and the context in which they are used is constantly evolving. This is not just true for social media data, where the language used is rapidly influenced by current events, memes and trends, but also for journalistic, economic or political text data. Most NLP techniques however consider the corpus at hand to be homogenous in regard to time. This is a simplification that can lead to biased results, as the meaning of words and phrases can change over time. For instance, running a classic Latent Dirichlet Allocation on a corpus that spans several years is not enough to capture changes in the topics over time, but only portraits an ‘average’ topic distribution over the whole time span. Researchers have developed a number of tools for analyzing text data over time. However, these tools are often scattered across different packages and libraries, making it difficult for researchers to use them in a consistent and reproducible way. The ttta package is supposed to serve as a collection of tools for analyzing text data over time.

arxiv情報

著者 Kai-Robin Lange,Niklas Benner,Lars Grönberg,Aymane Hachcham,Imene Kolli,Jonas Rieger,Carsten Jentsch
発行日 2025-03-04 13:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ttta: Tools for Temporal Text Analysis はコメントを受け付けていません

PAD: Personalized Alignment of LLMs at Decoding-Time

要約

文化的、教育的、政治的な違いによって大きく異なるパーソナライズされた好みに合わせて、従来の調整方法の計算コストとデータの要求により、重要な課題をもたらします。
これに応じて、このペーパーでは、DECODING TIME(PAD)でのパーソナライズされたアライメントを提示します。これは、推論フェーズ中にLLM出力を多様なパーソナライズされた好みに合わせて設計された新しいフレームワークであり、追加のトレーニングの必要性を排除します。
ユニークなパーソナライズされた報酬モデリング戦略を導入することにより、このフレームワークは、テキスト生成プロセスをパーソナライズされた好みから切り離し、一般化可能なトークンレベルのパーソナライズされた報酬の生成を促進します。
パッドアルゴリズムは、これらの報酬を活用してデコードプロセスをガイドし、ベースモデルの予測をパーソナライズされた好みに合わせて動的に調整します。
広範な実験結果は、PADが多様な好みとの整合性の観点から既存のトレーニングベースのアライメント方法を上回るだけでなく、異なるベースモデルでトレーニング中に目に見えない好みに対する重要な一般化可能性を示していることを示しています。
この作業は、リアルタイムアプリケーションでユーザーのニーズを満たすためにLLMの能力を進め、パーソナライズされたLLMアライメントにおいて大きな前進を示します。

要約(オリジナル)

Aligning with personalized preferences, which vary significantly across cultural, educational, and political differences, poses a significant challenge due to the computational costs and data demands of traditional alignment methods. In response, this paper presents Personalized Alignment at Decoding-time (PAD), a novel framework designed to align LLM outputs with diverse personalized preferences during the inference phase, eliminating the need for additional training. By introducing a unique personalized reward modeling strategy, this framework decouples the text generation process from personalized preferences, facilitating the generation of generalizable token-level personalized rewards. The PAD algorithm leverages these rewards to guide the decoding process, dynamically tailoring the base model’s predictions to personalized preferences. Extensive experimental results demonstrate that PAD not only outperforms existing training-based alignment methods in terms of aligning with diverse preferences but also shows significant generalizability to preferences unseen during training and scalability across different base models. This work advances the capability of LLMs to meet user needs in real-time applications, presenting a substantial step forward in personalized LLM alignment.

arxiv情報

著者 Ruizhe Chen,Xiaotian Zhang,Meng Luo,Wenhao Chai,Zuozhu Liu
発行日 2025-03-04 13:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PAD: Personalized Alignment of LLMs at Decoding-Time はコメントを受け付けていません

Do we still need Human Annotators? Prompting Large Language Models for Aspect Sentiment Quad Prediction

要約

Aspect Sentiment Quadruple Prediction(ASQP)は、各意見の意見用語、アスペクト用語、アスペクトカテゴリ、およびセンチメントの極性を特定することにより、テキストで表明された意見の詳細な理解を促進します。
ただし、ASQPのモデルを微調整するためのトレーニング例の完全なセットに注釈を付けることは、リソース集約型プロセスです。
この研究では、5つの多様なデータセットにわたってASQPタスクでゼロおよび少ないショット学習のための大規模な言語モデル(LLMS)の機能を調査します。
F1スコアは、最先端の微調整モデルで得られたものをわずかに下回っていますが、以前に報告されたゼロおよび少数のショットパフォーマンスを超えています。
REST16レストランドメインデータセットの40ショット設定では、LLMSは52.46のF1スコアを達成しましたが、最高のパフォーマンスの微調整方法MVPによって60.39と比較して達成されました。
さらに、ターゲットアスペクトセンチメント検出(TASD)でのLLMSのパフォーマンスを報告します。F1スコアも微調整されたモデルに近く、MVPの72.76と比較して、40ショット設定でREST 16で66.03を達成しました。
人間のアノテーターは最適なパフォーマンスを達成するために不可欠なままですが、LLMはASQPタスクでの広範な手動注釈の必要性を減らすことができます。

要約(オリジナル)

Aspect sentiment quadruple prediction (ASQP) facilitates a detailed understanding of opinions expressed in a text by identifying the opinion term, aspect term, aspect category and sentiment polarity for each opinion. However, annotating a full set of training examples to fine-tune models for ASQP is a resource-intensive process. In this study, we explore the capabilities of large language models (LLMs) for zero- and few-shot learning on the ASQP task across five diverse datasets. We report F1 scores slightly below those obtained with state-of-the-art fine-tuned models but exceeding previously reported zero- and few-shot performance. In the 40-shot setting on the Rest16 restaurant domain dataset, LLMs achieved an F1 score of 52.46, compared to 60.39 by the best-performing fine-tuned method MVP. Additionally, we report the performance of LLMs in target aspect sentiment detection (TASD), where the F1 scores were also close to fine-tuned models, achieving 66.03 on Rest16 in the 40-shot setting, compared to 72.76 with MVP. While human annotators remain essential for achieving optimal performance, LLMs can reduce the need for extensive manual annotation in ASQP tasks.

arxiv情報

著者 Nils Constantin Hellwig,Jakob Fehle,Udo Kruschwitz,Christian Wolff
発行日 2025-03-04 13:51:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do we still need Human Annotators? Prompting Large Language Models for Aspect Sentiment Quad Prediction はコメントを受け付けていません

Towards Event Extraction with Massive Types: LLM-based Collaborative Annotation and Partitioning Extraction

要約

大規模なタイプでイベントを抽出できる汎用抽出システムを開発することは、イベント抽出(EE)の長年のターゲットです。
そうすることで、課題は2つの側面から来ています。1)効率的で効果的な注釈法がないことです。
2)強力な抽出方法がないと、大規模なタイプを処理できます。
最初の課題のために、大規模な言語モデル(LLMS)に基づいた共同注釈法を提案します。
複数のLLM間のコラボレーションを通じて、最初にトリガーワードの注釈が遠くの監督から洗練され、次に議論の注釈が実行されます。
次に、投票段階では、異なるLLMにわたって注釈設定を統合します。
最後に、これまでで最大のEEデータセットであるEEMTデータセットを作成し、200,000を超えるサンプル、3,465のイベントタイプ、6,297のロールタイプを備えています。
2番目の課題については、LLM-PEEと呼ばれるLLMベースのパーティションEEメソッドを提案します。
LLMSの限られたコンテキストの長さを克服するために、LLM-PEEは最初に候補イベントタイプをリコールし、次にそれらをLLMSの複数のパーティションに分割してイベントを抽出します。
監視された設定の結果は、LLM-PEEがイベント検出で5.4、引数抽出で6.1で最先端の方法を上回ることを示しています。
ゼロショット設定では、LLM-PEEは主流のLLMSと比較して最大12.9の改善を達成し、その強力な一般化能力を実証しています。

要約(オリジナル)

Developing a general-purpose extraction system that can extract events with massive types is a long-standing target in Event Extraction (EE). In doing so, the challenge comes from two aspects: 1) The absence of an efficient and effective annotation method. 2) The absence of a powerful extraction method can handle massive types. For the first challenge, we propose a collaborative annotation method based on Large Language Models (LLMs). Through collaboration among multiple LLMs, it first refines annotations of trigger words from distant supervision and then carries out argument annotation. Next, a voting phase consolidates the annotation preferences across different LLMs. Finally, we create the EEMT dataset, the largest EE dataset to date, featuring over 200,000 samples, 3,465 event types, and 6,297 role types. For the second challenge, we propose an LLM-based Partitioning EE method called LLM-PEE. To overcome the limited context length of LLMs, LLM-PEE first recalls candidate event types and then splits them into multiple partitions for LLMs to extract events. The results in the supervised setting show that LLM-PEE outperforms the state-of-the-art methods by 5.4 in event detection and 6.1 in argument extraction. In the zero-shot setting, LLM-PEE achieves up to 12.9 improvement compared to mainstream LLMs, demonstrating its strong generalization capabilities.

arxiv情報

著者 Wenxuan Liu,Zixuan Li,Long Bai,Yuxin Zuo,Daozhu Xu,Xiaolong Jin,Jiafeng Guo,Xueqi Cheng
発行日 2025-03-04 13:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Event Extraction with Massive Types: LLM-based Collaborative Annotation and Partitioning Extraction はコメントを受け付けていません

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

要約

自動脱出デコードにより、大規模な言語モデル(LLMS)の推論が時間がかかります。
この論文では、投機的なサンプリングを再考し、2つの重要な観察結果を導き出します。
第一に、機能(2番目のレイヤー)レベルでの自己回復は、トークンレベルよりも簡単です。
第二に、特徴(2番目の層)レベルの自己網目上の機能に固有の不確実性がそのパフォーマンスを制約します。
これらの洞察に基づいて、シンプルでありながら効率的な投機的サンプリングフレームワークであるEagle(より大きな言語モデル効率のための外挿アルゴリズム)を紹介します。
ワンタイムステップで進行したトークンシーケンスを組み込むことにより、Eagleは不確実性を効果的に解決し、最小限のオーバーヘッドで2番目のトップレイヤー機能予測を可能にします。
VicunaおよびLlama2-Chatシリーズのすべてのモデル、MOEモデルMixtral 8x7b指示、および対話、コード生成、数学的推論、および指示におけるタスクを含む、イーグルの包括的な評価を実施しました。
Llama2-chat 70bの場合、Eagleは生成されたテキストの分布を維持しながら、2.7x-3.5xの遅延スピードアップ比を達成し、スループットを2倍にしました。

要約(オリジナル)

Autoregressive decoding makes the inference of Large Language Models (LLMs) time-consuming. In this paper, we reconsider speculative sampling and derive two key observations. Firstly, autoregression at the feature (second-to-top-layer) level is more straightforward than at the token level. Secondly, the inherent uncertainty in feature (second-to-top-layer) level autoregression constrains its performance. Based on these insights, we introduce EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), a simple yet highly efficient speculative sampling framework. By incorporating a token sequence advanced by one time step, EAGLE effectively resolves the uncertainty, enabling precise second-to-top-layer feature prediction with minimal overhead. We conducted comprehensive evaluations of EAGLE, including all models from the Vicuna and LLaMA2-Chat series, the MoE model Mixtral 8x7B Instruct, and tasks in dialogue, code generation, mathematical reasoning, and instruction following. For LLaMA2-Chat 70B, EAGLE achieved a latency speedup ratio of 2.7x-3.5x, doubled throughput, while maintaining the distribution of the generated text.

arxiv情報

著者 Yuhui Li,Fangyun Wei,Chao Zhang,Hongyang Zhang
発行日 2025-03-04 13:58:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty はコメントを受け付けていません

The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats

要約

非構造化されたテキストデータの指数関数的な成長は、最新のデータ管理と情報の検索における基本的な課題を提示します。
大規模な言語モデル(LLM)は自然言語処理において顕著な能力を示していますが、非構造化されたテキストを標準化された構造化された形式に変換する可能性はほとんど未開拓のままです。
この研究は、非構造化されたレシピテキストを構造化されたCooklang形式に変換するLLMSの能力を体系的に評価することにより、新境地を破ります。
4つのモデル(GPT-4O、GPT-4O-MINI、LLAMA3.1:70B、およびLLAMA3.1:8B)の包括的なテストを通じて、セマンティック要素識別のための特殊なメトリックと従来のメトリック(wer、rouge-l、ter)を組み合わせた革新的な評価アプローチが導入されます。
私たちの実験では、少数のショットプロンプトを伴うGPT-4Oが画期的なパフォーマンスを達成することが明らかになり(Rouge-L:0.9722、WER:0.0730)、LLMがドメイン固有の非構造化テキストを広範なトレーニングなしで構造化された形式に確実に変換できることを示しています。
モデルのパフォーマンスは一般にサイズのスケーリングですが、ターゲットを絞った微調整を通じて最適化するために、llama3.1:8bのような小さなモデルで驚くべき可能性を明らかにします。
これらの調査結果は、医療記録から技術文書まで、さまざまなドメインにわたって自動化された構造化データ生成の新しい可能性を開き、組織が非構造化されていない情報を処理および利用する方法を潜在的に変換する可能性があります。

要約(オリジナル)

The exponential growth of unstructured text data presents a fundamental challenge in modern data management and information retrieval. While Large Language Models (LLMs) have shown remarkable capabilities in natural language processing, their potential to transform unstructured text into standardized, structured formats remains largely unexplored – a capability that could revolutionize data processing workflows across industries. This study breaks new ground by systematically evaluating LLMs’ ability to convert unstructured recipe text into the structured Cooklang format. Through comprehensive testing of four models (GPT-4o, GPT-4o-mini, Llama3.1:70b, and Llama3.1:8b), an innovative evaluation approach is introduced that combines traditional metrics (WER, ROUGE-L, TER) with specialized metrics for semantic element identification. Our experiments reveal that GPT-4o with few-shot prompting achieves breakthrough performance (ROUGE-L: 0.9722, WER: 0.0730), demonstrating for the first time that LLMs can reliably transform domain-specific unstructured text into structured formats without extensive training. Although model performance generally scales with size, we uncover surprising potential in smaller models like Llama3.1:8b for optimization through targeted fine-tuning. These findings open new possibilities for automated structured data generation across various domains, from medical records to technical documentation, potentially transforming the way organizations process and utilize unstructured information.

arxiv情報

著者 William Brach,Kristián Košťál,Michal Ries
発行日 2025-03-04 14:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats はコメントを受け付けていません

Adapting Decoder-Based Language Models for Diverse Encoder Downstream Tasks

要約

デコーダーベースの変圧器は、言語モデリングとスケーリングに膨大なサイズに革命をもたらしながら、自然言語処理においてエンコーダーが多いアーキテクチャを完全に追い抜かれていません。
具体的には、エンコーダのみのモデルは、分類、回帰、ランキングなどのタスクでは支配的なままです。
これは主に、これらのタスクへの直接的な適用性を制限するデコーダーベースのモデルの固有の構造によるものです。
このペーパーでは、Gemmaエンコーダーを紹介し、強力なGemmaデコーダーモデルをエンコーダーアーキテクチャに適応させ、それにより、より広い範囲の非生成アプリケーションの可能性のロックを解除します。
デコーダーからエンコーダーへの適応を最適化するために、さまざまなプーリング戦略、注意メカニズム、およびハイパーパラメーター(ドロップアウト率など)を体系的に分析します。
さらに、Gemmaエンコーダーは、接着剤ベンチマーク上の確立されたアプローチとMS MARCOランキングベンチマークに対してベンチマークし、その有効性と汎用性を示しています。

要約(オリジナル)

Decoder-based transformers, while revolutionizing language modeling and scaling to immense sizes, have not completely overtaken encoder-heavy architectures in natural language processing. Specifically, encoder-only models remain dominant in tasks like classification, regression, and ranking. This is primarily due to the inherent structure of decoder-based models, which limits their direct applicability to these tasks. In this paper, we introduce Gemma Encoder, adapting the powerful Gemma decoder model to an encoder architecture, thereby unlocking its potential for a wider range of non-generative applications. To optimize the adaptation from decoder to encoder, we systematically analyze various pooling strategies, attention mechanisms, and hyperparameters (e.g., dropout rate). Furthermore, we benchmark Gemma Encoder against established approaches on the GLUE benchmarks, and MS MARCO ranking benchmark, demonstrating its effectiveness and versatility.

arxiv情報

著者 Paul Suganthan,Fedor Moiseev,Le Yan,Junru Wu,Jianmo Ni,Jay Han,Imed Zitouni,Enrique Alfonseca,Xuanhui Wang,Zhe Dong
発行日 2025-03-04 14:17:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Adapting Decoder-Based Language Models for Diverse Encoder Downstream Tasks はコメントを受け付けていません