Non-Determinism of ‘Deterministic’ LLM Settings

要約

LLM(大規模な言語モデル)開業医は、一般に、出力が決定論的と予想される設定の下で同じ入力に対して変化する可能性があることに気づきます。
しかし、これがどれほど広範であるか、そして結果にどのような影響を与えるかについての質問は、私たちの知識に体系的に調査されていません。
ゼロショット設定と少数のショット設定の両方で、10回のランにわたって8つの一般的なタスクに適用されると、決定論的であるように構成された5つのLLMSで非決定論を調査します。
自然に発生するランで最大15%の精度の変動が、可能な限り最高のパフォーマンスのギャップが最大70%までのパフォーマンスを備えていることがわかります。
実際、LLMSのいずれも、すべてのタスクにわたって再現性のある精度を一貫して提供するものではなく、はるかに少ない出力文字列ではありません。
インサイダーと予備的な結果を共有すると、入力バッファーでの共ミングルデータを介して計算リソースの効率的な使用におそらく不可欠ではないことが明らかになったため、この問題はすぐに消えません。
観察をよりよく定量化するために、決定論の定量化に焦点を当てたメトリックを導入し、Nでの合計契約率についてはtarr@nが生の出力を超えており、tara@nは、解決された回答の合計契約率について@nを紹介します。
私たちのコードとデータは、http://github.com/redactedで公開されています。

要約(オリジナル)

LLM (large language model) practitioners commonly notice that outputs can vary for the same inputs under settings expected to be deterministic. Yet the questions of how pervasive this is, and with what impact on results, have not to our knowledge been systematically investigated. We investigate non-determinism in five LLMs configured to be deterministic when applied to eight common tasks in across 10 runs, in both zero-shot and few-shot settings. We see accuracy variations up to 15% across naturally occurring runs with a gap of best possible performance to worst possible performance up to 70%. In fact, none of the LLMs consistently delivers repeatable accuracy across all tasks, much less identical output strings. Sharing preliminary results with insiders has revealed that non-determinism perhaps essential to the efficient use of compute resources via co-mingled data in input buffers so this issue is not going away anytime soon. To better quantify our observations, we introduce metrics focused on quantifying determinism, TARr@N for the total agreement rate at N runs over raw output, and TARa@N for total agreement rate of parsed-out answers. Our code and data are publicly available at http://github.com/REDACTED.

arxiv情報

著者 Berk Atil,Sarp Aykent,Alexa Chittams,Lisheng Fu,Rebecca J. Passonneau,Evan Radcliffe,Guru Rajan Rajagopal,Adam Sloan,Tomasz Tudrej,Ferhan Ture,Zhe Wu,Lixinyu Xu,Breck Baldwin
発行日 2025-04-01 02:20:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | コメントする

CancerLLM: A Large Language Model in Cancer Domain

要約

医療大規模な言語モデル(LLMS)は、さまざまな医療NLPタスクで印象的なパフォーマンスを実証しています。
ただし、がんドメインでの表現型の特定と診断のために特別に設計されたLLMはまだありません。
さらに、これらのLLMには通常、数十億のパラメーターがあるため、医療システムに計算的に高価になります。
したがって、この研究では、70億パラメーターとミストラルスタイルのアーキテクチャを備えたモデルであるCancerllMを提案し、2.7m近くの臨床ノートで事前に訓練され、17のがんタイプをカバーする515Kを超える病理報告が続き、その後、がん表現型抽出とがん診断の生成を含む2つのがん関連タスクで微調整されます。
私たちの評価は、CancerLLMが表現型抽出で91.78%、Disganois生成で86.81%のF1スコアで最先端の結果を達成することを実証しました。
既存のLLMを上回り、平均F1スコア改善は9.23%でした。
さらに、CancerLLMは、時間とGPUの使用効率を示し、他のLLMと比較して堅牢性を示しました。
Cancerllmは、がんの領域での臨床研究と実践を進めるための効果的で堅牢なソリューションを潜在的に提供できることを実証しました。

要約(オリジナル)

Medical Large Language Models (LLMs) have demonstrated impressive performance on a wide variety of medical NLP tasks; however, there still lacks a LLM specifically designed for phenotyping identification and diagnosis in cancer domain. Moreover, these LLMs typically have several billions of parameters, making them computationally expensive for healthcare systems. Thus, in this study, we propose CancerLLM, a model with 7 billion parameters and a Mistral-style architecture, pre-trained on nearly 2.7M clinical notes and over 515K pathology reports covering 17 cancer types, followed by fine-tuning on two cancer-relevant tasks, including cancer phenotypes extraction and cancer diagnosis generation. Our evaluation demonstrated that the CancerLLM achieves state-of-the-art results with F1 score of 91.78% on phenotyping extraction and 86.81% on disganois generation. It outperformed existing LLMs, with an average F1 score improvement of 9.23%. Additionally, the CancerLLM demonstrated its efficiency on time and GPU usage, and robustness comparing with other LLMs. We demonstrated that CancerLLM can potentially provide an effective and robust solution to advance clinical research and practice in cancer domain

arxiv情報

著者 Mingchen Li,Jiatan Huang,Jeremy Yeung,Anne Blaes,Steven Johnson,Hongfang Liu,Hua Xu,Rui Zhang
発行日 2025-04-01 02:23:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

CoRanking: Collaborative Ranking with Small and Large Ranking Agents

要約

大規模な言語モデル(LLMS)は、リストワイズランキングのパフォーマンスを実証しています。
ただし、それらの優れたパフォーマンスは、多くの場合、大規模なパラメーター(\ eg、GPT-4)と、重要な効率の課題をもたらす繰り返しスライドウィンドウプロセスに依存しています。
この論文では、効率的かつ効果的なランキングのために大小のランキングモデルを組み合わせた新しい共同ランキングフレームワークである\ TextBF {Corankking}を提案します。
Corankkingは、最初に小型の再審査員を採用してすべての候補者のパッセージを事前にランク付けし、関連する候補者をリストの上部にもたらします(\ eg、Top-20)。
次に、LLM ListWise Rerankerが適用され、リスト全体の代わりにこれらのトップランクのパッセージのみを再確認し、全体的なランキング効率を大幅に向上させます。
より効率的ですが、以前の研究では、LLMリストワイズリランカーが入力範囲の順序に有意な位置バイアスを持っていることが明らかになりました。
小規模な再発者からトップランクのパッセージを直接供給すると、LLM ListWise Rerankerの最適なパフォーマンスが発生する可能性があります。
この問題を軽減するために、補強学習を介して訓練されたパッセージオーダーアジャスターを導入します。これは、LLMのパッセージ順序の好みに合わせて、小さな再生者からの最上部のパッセージを再配置します。
3つのIRベンチマークでの広範な実験は、CorankingがLLMリストワイズレランカーのみを使用するのと比較してさらに優れた効果を達成しながら、コランティングが効率を大幅に改善することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated superior listwise ranking performance. However, their superior performance often relies on large-scale parameters (\eg, GPT-4) and a repetitive sliding window process, which introduces significant efficiency challenges. In this paper, we propose \textbf{CoRanking}, a novel collaborative ranking framework that combines small and large ranking models for efficient and effective ranking. CoRanking first employs a small-size reranker to pre-rank all the candidate passages, bringing relevant ones to the top part of the list (\eg, top-20). Then, the LLM listwise reranker is applied to only rerank these top-ranked passages instead of the whole list, substantially enhancing overall ranking efficiency. Although more efficient, previous studies have revealed that the LLM listwise reranker have significant positional biases on the order of input passages. Directly feed the top-ranked passages from small reranker may result in the sub-optimal performance of LLM listwise reranker. To alleviate this problem, we introduce a passage order adjuster trained via reinforcement learning, which reorders the top passages from the small reranker to align with the LLM’s preferences of passage order. Extensive experiments on three IR benchmarks demonstrate that CoRanking significantly improves efficiency (reducing ranking latency by about 70\%) while achieving even better effectiveness compared to using only the LLM listwise reranker.

arxiv情報

著者 Wenhan Liu,Xinyu Ma,Yutao Zhu,Lixin Su,Shuaiqiang Wang,Dawei Yin,Zhicheng Dou
発行日 2025-04-01 02:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | コメントする

Lean Formalization of Generalization Error Bound by Rademacher Complexity

要約

Lean 4定理を使用して、Rademacherの複雑さを使用して、一般化エラーバウンドを正式化します。
一般化エラーは、指定されたトレーニングデータと目に見えないテストデータでの学習マシンのパフォーマンスとの間のギャップを定量化し、Rademacherの複雑さは、学習マシンの複雑さまたは仮説クラスの複雑さに基づくこのエラーの推定値として機能します。
PAC学習やVCディメンションなどの従来の方法とは異なり、Rademacherの複雑さは、ディープラーニングやカーネルメソッドなどの多様な機械学習シナリオに適用されます。
経験的および人口のレーデマーの複雑さを含む重要な概念と定理を形式化し、McDiarmidの不平等、HoeffdingのLemma、および対称化の議論の正式な証拠を通じて一般化誤差境界を確立します。

要約(オリジナル)

We formalize the generalization error bound using Rademacher complexity in the Lean 4 theorem prover. Generalization error quantifies the gap between a learning machine’s performance on given training data versus unseen test data, and Rademacher complexity serves as an estimate of this error based on the complexity of learning machines, or hypothesis class. Unlike traditional methods such as PAC learning and VC dimension, Rademacher complexity is applicable across diverse machine learning scenarios including deep learning and kernel methods. We formalize key concepts and theorems, including the empirical and population Rademacher complexities, and establish generalization error bounds through formal proofs of McDiarmid’s inequality, Hoeffding’s lemma, and symmetrization arguments.

arxiv情報

著者 Sho Sonoda,Kazumi Kasaura,Yuma Mizuno,Kei Tsukamoto,Naoto Onda
発行日 2025-04-01 02:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, math.ST, stat.TH | コメントする

Self-Vocabularizing Training for Neural Machine Translation

要約

過去の語彙学習手法は、トレーニング前に関連する語彙を特定し、モデルトレーニングの役割を主に無視する統計的およびエントロピーベースの仮定に依存しています。
経験的には、トレーニングされた翻訳モデルが、元のBPE語彙とは異なるバイトペアエンコード(BPE)の語彙サブセットを使用するように誘導され、誘導された語彙で再試行するとパフォーマンスの改善につながることが観察されます。
この論文では、自己トレーニング中の語彙とエントロピーシフトを調べることにより、神経機械翻訳のこの矛盾を分析します。各反復は、ソース文とモデルの予測をペアリングして新しい語彙を定義することにより、ラベル付きデータセットを生成します。
これらの洞察に基づいて、私たちは自己送電トレーニングを提案します。これは、より小さく、より最適な語彙を自己選択し、最大1.49ブルーの改善をもたらす反復方法です。
さらに、より深いモデルアーキテクチャは、独自のトークン使用量の増加と語彙サイズの6〜8%の減少の両方につながることがわかります。

要約(オリジナル)

Past vocabulary learning techniques identify relevant vocabulary before training, relying on statistical and entropy-based assumptions that largely neglect the role of model training. Empirically, we observe that trained translation models are induced to use a byte-pair encoding (BPE) vocabulary subset distinct from the original BPE vocabulary, leading to performance improvements when retrained with the induced vocabulary. In this paper, we analyze this discrepancy in neural machine translation by examining vocabulary and entropy shifts during self-training–where each iteration generates a labeled dataset by pairing source sentences with the model’s predictions to define a new vocabulary. Building on these insights, we propose self-vocabularizing training, an iterative method that self-selects a smaller, more optimal vocabulary, yielding up to a 1.49 BLEU improvement. Moreover, we find that deeper model architectures lead to both an increase in unique token usage and a 6-8% reduction in vocabulary size.

arxiv情報

著者 Pin-Jie Lin,Ernie Chang,Yangyang Shi,Vikas Chandra
発行日 2025-04-01 02:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする

GENERator: A Long-Context Generative Genomic Foundation Model

要約

DNAシーケンス技術の進歩により、ゲノムシーケンスをデコードする能力が大幅に向上しました。
ただし、これらのシーケンスの予測と解釈は、遺伝物質の複雑な性質のために困難なままです。
大規模な言語モデル(LLM)は、生物学的配列分析の新しい機会を導入しました。
ゲノム言語モデルの最近の開発により、DNA配列の解読におけるLLMの可能性が強調されています。
それにもかかわらず、既存のモデルは、主にモデルの構造とトレーニングデータスケールの制約が原因で、堅牢性とアプリケーションの範囲の制限に直面することがよくあります。
これらの制限に対処するために、98K塩基対(BP)と1.2Bのパラメーターのコンテキスト長を備えた生成ゲノム基礎モデルであるジェネレーターを提示します。
386b bpの真核DNAで構成される広大なデータセットで訓練されたジェネレーターは、確立されたベンチマークと新たに提案されたベンチマークの両方で最先端のパフォーマンスを示しています。
このモデルは、分子生物学の中心的な教義に準拠しており、既知のファミリーに構造的に類似したタンパク質に変換されるタンパク質コーディング配列を正確に生成します。
また、特に特定のアクティビティプロファイルを備えたエンハンサー配列の迅速な応答性生成を通じて、順番の最適化において大きな約束を示しています。
これらの機能は、ジェネレーターをゲノム研究とバイオテクノロジーの進歩のための極めて重要なツールとして配置し、複雑な生物学的システムを解釈および予測する能力を高め、正確なゲノム介入を可能にします。
実装の詳細と補足リソースは、https://github.com/generteam/generatorで入手できます。

要約(オリジナル)

Advancements in DNA sequencing technologies have significantly improved our ability to decode genomic sequences. However, the prediction and interpretation of these sequences remain challenging due to the intricate nature of genetic material. Large language models (LLMs) have introduced new opportunities for biological sequence analysis. Recent developments in genomic language models have underscored the potential of LLMs in deciphering DNA sequences. Nonetheless, existing models often face limitations in robustness and application scope, primarily due to constraints in model structure and training data scale. To address these limitations, we present GENERator, a generative genomic foundation model featuring a context length of 98k base pairs (bp) and 1.2B parameters. Trained on an expansive dataset comprising 386B bp of eukaryotic DNA, the GENERator demonstrates state-of-the-art performance across both established and newly proposed benchmarks. The model adheres to the central dogma of molecular biology, accurately generating protein-coding sequences that translate into proteins structurally analogous to known families. It also shows significant promise in sequence optimization, particularly through the prompt-responsive generation of enhancer sequences with specific activity profiles. These capabilities position the GENERator as a pivotal tool for genomic research and biotechnological advancement, enhancing our ability to interpret and predict complex biological systems and enabling precise genomic interventions. Implementation details and supplementary resources are available at https://github.com/GenerTeam/GENERator.

arxiv情報

著者 Wei Wu,Qiuyi Li,Mingyang Li,Kun Fu,Fuli Feng,Jieping Ye,Hui Xiong,Zheng Wang
発行日 2025-04-01 03:14:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.GN | コメントする

CodingTeachLLM: Empowering LLM’s Coding Ability via AST Prior Knowledge

要約

この論文では、コーディング教育用に設計された大規模な言語モデル(LLM)であるCodingTeachllmを紹介します。
特に、LLMのコーディング能力を高め、教育のコンテキストでより良い教育モードに導くことを目指しています。
したがって、エンドツーエンドの以前のベースの3フェーズ監視された微調整モデルを提案します。これは、従来の微調整方法よりも競争力があることが証明されています。
より具体的には、私たちのモデルは、教育知識の構造分解と増分ガイドの出力を実現します。
この目的のために、サンプラーとオーバーラップの推定ニューラルネットワークを介して3つのタイプのデータ分類を堅牢にし、ロラの微調整のために3つのバッチで事前訓練を受けたモデルに前処理データセットを注入します。
次に、以前のモジュールカップルシステムプロンプト、ベクトルデータベース、および抽象的な構文ツリータスクセグメンテーションを設計します。
最後に、圧縮方法と正則化の制約が以前のベースの微調整モデルに適用され、その後、出力端にテキストフィルターが続き、増分ガイド結果を得ます。
私たちのモデルは、豊富な教育知識、段階的なインクリメンタルな誘導出力、および回答の非開示の特徴を備えた家庭教師の役割を真に具体化する最初の研究努力を表しています。
広範な実験は、私たちのモデルがオープンソースモデルと比較して最先端のコード能力を達成し、Humaneval(@Pass 1)ベンチマークで印象的な75.10%に達することを報告しています。
さらに、我々のモデルは強力な会話機能を維持し、13Bの量子化バージョンはそれぞれMMLU、C-Eval、およびAgieval(5ショット)ダイアログ評価ベンチマークで56.34、50.60、および45.27のスコアを達成します。

要約(オリジナル)

In this paper, we introduce CodingTeachLLM, a large language model (LLM) designed for coding teaching. Specially, we aim to enhance the coding ability of LLM and lead it to better teaching mode in education context. Thus, we propose an end-to-end prior-based three-phases supervised fine-tuned model, which is proved more competitive than traditional fine-tuning method. More specifically, our model realizes the structural disassembly and incremental guided output of educational knowledge. To this end, we robustify data classification of three types via a sampler and overlap estimation neural network, and inject the preprocessing datasets into pre-trained model in three batches for LORA fine-tuning. Then, we design a prior module couples system prompt, vector databases, and abstract syntax tree task segmentation. Finally, the compression method and regularization constraint are applied to the prior-based fine-tuned model, followed by text filter at the output end to obtain incremental guided results. Our model represents the first research effort to truly embody the tutor role with the features of abundant educational knowledge, step-by-step incremental guided outputs and non-disclosure of answers. Extensive experiments report that our model also achieves state-of-the-art in code abilities compared to open-source models, reaching an impressive 75.10% on the HumanEval (@pass 1) benchmark. Additionally, our model maintains strong conversational capabilities, with the 13B quantized version achieving scores of 56.34, 50.60, and 45.27 respectively on the MMLU, C-Eval, and AGIEval (5 shot) dialogue evaluation benchmarks.

arxiv情報

著者 Zhangquan Chen,Chunjiang Liu,Haobin Duan
発行日 2025-04-01 03:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | コメントする

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method

要約

大規模な言語モデル(LLMS)のトレーニングコーパスの規模が増えると、モデル開発者はデータの詳細を開示することにますます消極的になります。
この透明性の欠如は、科学的評価と倫理的展開に課題をもたらします。
最近、特定のテキストがブラックボックスアクセスを介したLLMのトレーニングデータの一部であるかどうかを推測する事前削除データ検出アプローチが調査されています。
最先端の結果を達成したMin-K \%Probメソッドは、非訓練の例には、トークンの確率が低いいくつかの外れ値の単語が含まれている傾向があると想定しています。
ただし、LLMSによって予測される高い確率を持つ多くの一般的な単語を含む非トレーニングテキストを誤分類する傾向があるため、有効性は制限される場合があります。
この問題に対処するために、Divergence-from-Randomnessコンセプトに触発された発散ベースのキャリブレーション方法を紹介し、データ検出前のトークン確率を調整します。
トークン確率分布とトークン頻度分布との間の交差エントロピー(つまり、発散)を計算して、検出スコアを導き出します。
中国語のテキストでのLLMSの検出アプローチのパフォーマンスを評価するために、中国語のベンチマークであるPatentmiaを開発しました。
英語のベンチマークとPatentmiaの実験結果は、提案された方法が既存の方法を大幅に上回ることを示しています。
当社のコードとPatentmiaのベンチマークは、https://github.com/zhang-wei-chao/dc-pddで入手できます。

要約(オリジナル)

As the scale of training corpora for large language models (LLMs) grows, model developers become increasingly reluctant to disclose details on their data. This lack of transparency poses challenges to scientific evaluation and ethical deployment. Recently, pretraining data detection approaches, which infer whether a given text was part of an LLM’s training data through black-box access, have been explored. The Min-K\% Prob method, which has achieved state-of-the-art results, assumes that a non-training example tends to contain a few outlier words with low token probabilities. However, the effectiveness may be limited as it tends to misclassify non-training texts that contain many common words with high probabilities predicted by LLMs. To address this issue, we introduce a divergence-based calibration method, inspired by the divergence-from-randomness concept, to calibrate token probabilities for pretraining data detection. We compute the cross-entropy (i.e., the divergence) between the token probability distribution and the token frequency distribution to derive a detection score. We have developed a Chinese-language benchmark, PatentMIA, to assess the performance of detection approaches for LLMs on Chinese text. Experimental results on English-language benchmarks and PatentMIA demonstrate that our proposed method significantly outperforms existing methods. Our code and PatentMIA benchmark are available at https://github.com/zhang-wei-chao/DC-PDD.

arxiv情報

著者 Weichao Zhang,Ruqing Zhang,Jiafeng Guo,Maarten de Rijke,Yixing Fan,Xueqi Cheng
発行日 2025-04-01 05:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | コメントする

Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service

要約

低リソースの機械翻訳(MT)は、コミュニティのニーズとアプリケーションの課題の多様性を示しています。
回答者の小さなサンプルに依存する傾向のある調査とフォーカスグループを補完するために、Tetun.orgの実際の使用パターンに関する観察研究を提案します。
100,000の翻訳要求の分析により、既存のコーパスに基づいた仮定に挑戦するパターンが明らかになります。
モバイルデバイスの学生の多くは、通常、科学、ヘルスケア、日常生活などの多様なドメインを越えて、高リソースの言語からTetunにテキストを翻訳します。
これは、政府や社会問題をカバーするニュース記事が支配している利用可能なTetun Corporaとは鋭く対照的です。
私たちの結果は、Tetunのような制度化された少数言語のMTシステムは、教育的文脈に関連するドメインの精度を優先する必要があることを示唆しています。

要約(オリジナル)

Low-resource machine translation (MT) presents a diversity of community needs and application challenges that remain poorly understood. To complement surveys and focus groups, which tend to rely on small samples of respondents, we propose an observational study on actual usage patterns of tetun.org, a specialized MT service for the Tetun language, which is the lingua franca in Timor-Leste. Our analysis of 100,000 translation requests reveals patterns that challenge assumptions based on existing corpora. We find that users, many of them students on mobile devices, typically translate text from a high-resource language into Tetun across diverse domains including science, healthcare, and daily life. This contrasts sharply with available Tetun corpora, which are dominated by news articles covering government and social issues. Our results suggest that MT systems for institutionalized minority languages like Tetun should prioritize accuracy on domains relevant to educational contexts, in the high-resource to low-resource direction.More broadly, this study demonstrates how observational analysis can inform low-resource language technology development, by grounding research in practical community needs.

arxiv情報

著者 Raphael Merx,Adérito José Guterres Correia,Hanna Suominen,Ekaterina Vylomova
発行日 2025-04-01 05:19:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

要約

ユニバーサルマルチモーダル検索(UMR)は、クエリと候補者が純粋なテキスト、画像、または両方の組み合わせで構成できる統一モデルを使用して、さまざまなモダリティ全体で検索を可能にすることを目的としています。
以前の研究では、マルチモーダルの大手言語モデル(MLLM)を採用して、テキストデータのみを使用してUMRを実現しようとしました。
ただし、予備的な実験は、より多様なマルチモーダルトレーニングデータがMLLMの可能性をさらにロックすることができることを示しています。
その有効性にもかかわらず、既存のマルチモーダルトレーニングデータは、モダリティの点で非常に不均衡であり、トレーニングデータ合成パイプラインを開発し、大規模で高品質の融合モーダルトレーニングデータセットを構築するように動機付けています。
合成トレーニングデータに基づいて、UMR向けに設計されたMLLMベースの密なレトリバーであるGeneral Multimodal Embedder(GME)を開発します。
さらに、アプローチの有効性を評価するために、包括的なUMRベンチマーク(UMRB)を構築します。
実験結果は、我々の方法が既存のUMRメソッド間で最先端のパフォーマンスを達成することを示しています。
最後に、モデルのスケーリングとトレーニング戦略の詳細な分析を提供し、モデルデータと合成データの両方でアブレーション研究を実行します。

要約(オリジナル)

Universal Multimodal Retrieval (UMR) aims to enable search across various modalities using a unified model, where queries and candidates can consist of pure text, images, or a combination of both. Previous work has attempted to adopt multimodal large language models (MLLMs) to realize UMR using only text data. However, our preliminary experiments demonstrate that more diverse multimodal training data can further unlock the potential of MLLMs. Despite its effectiveness, the existing multimodal training data is highly imbalanced in terms of modality, which motivates us to develop a training data synthesis pipeline and construct a large-scale, high-quality fused-modal training dataset. Based on the synthetic training data, we develop the General Multimodal Embedder (GME), an MLLM-based dense retriever designed for UMR. Furthermore, we construct a comprehensive UMR Benchmark (UMRB) to evaluate the effectiveness of our approach. Experimental results show that our method achieves state-of-the-art performance among existing UMR methods. Last, we provide in-depth analyses of model scaling and training strategies, and perform ablation studies on both the model and synthetic data.

arxiv情報

著者 Xin Zhang,Yanzhao Zhang,Wen Xie,Mingxin Li,Ziqi Dai,Dingkun Long,Pengjun Xie,Meishan Zhang,Wenjie Li,Min Zhang
発行日 2025-04-01 08:48:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | コメントする