O1 Embedder: Let Retrievers Think Before Action

要約

大規模な言語モデル(LLMS)の成長力は、人々が情報にアクセスし、利用する方法に革命をもたらしました。
特に、LLMSは、詳細な情報表現を実行することに優れているため、情報の正確な検索が容易になります。
また、外部参照に基づいて高品質の回答を生成し、有用な知識の生産を可能にします。
Openai O1やDeepseek R1などの推論モデルの最近の導入は、最終的な回答を提供する前に徐々に考えるLLMSの能力を強調していることを強調しています。
このブレークスルーにより、複雑なタスク、たとえばコーディングや数学の証明に対処する機能が大幅に向上します。
この進歩に触発されて、私たちは検索モデルの同様の機能を開発することを目指しています。これは、マルチタスク検索、ゼロショット検索、複雑な関係の集中的な推論を必要とするタスクなど、現場での重要な課題に取り組むことに大きな期待を抱いています。
この動機付けにより、O1 Embedderと呼ばれる新しいアプローチを提案します。これは、ターゲットドキュメントの検索を行う前に、入力クエリに有用な思考を生成します。
この目的を実現するために、2つの技術的な困難を克服します。
まず、データ統合ワークフローを設計し、LLMエンパートから最初の思考を生成し、その後検索委員会を使用して精製することにより、O1埋め込みのトレーニング信号を作成します。
第二に、トレーニングプロセスを最適化し、事前に訓練されたモデルを共同で微調整して、動作のクローニングを介して検索思考を生成し、対照的な学習を通じて密な検索を実行できるようにします。
私たちのアプローチは、ドメイン内とドメイン外のシナリオの両方にまたがる12の一般的なデータセットで大幅な改善が達成される包括的な実験によって評価されます。
これらの結果は、O1 Embedderの顕著な精度と一般化可能性を強調し、次世代IR Foundationモデルの開発への道を開いています。

要約(オリジナル)

The growing power of large language models (LLMs) has revolutionized how people access and utilize information. Notably, the LLMs excel at performing fine-grained data representation, which facilitates precise retrieval of information. They also generate high-quality answers based on external references, enabling the production of useful knowledge. The recent introduction of reasoning models, like OpenAI O1 and DeepSeek R1, marks another leap forward, highlighting LLMs’ ability to think progressively before delivering final answers. This breakthrough significantly improves the ability to address complex tasks, e.g., coding and math proofs. Inspired by this progress, we aim to develop similar capabilities for retrieval models, which hold great promise for tackling critical challenges in the field, including multi-task retrieval, zero-shot retrieval, and tasks requiring intensive reasoning of complex relationships. With this motivation, we propose a novel approach called O1 Embedder, which generates useful thoughts for the input query before making retrieval for the target documents. To realize this objective, we conquer two technical difficulties. First, we design a data synthesis workflow, creating training signals for O1 Embedder by generating initial thoughts from an LLM-expert and subsequently refining them using a retrieval committee. Second, we optimize the training process, enabling a pre-trained model to be jointly fine-tuned to generate retrieval thoughts via behavior cloning and perform dense retrieval through contrastive learning. Our approach is evaluated by comprehensive experiments, where substantial improvements are achieved across 12 popular datasets, spanning both in-domain and out-of-domain scenarios. These results highlight O1 Embedder’s remarkable accuracy and generalizability, paving the way for the development of next-generation IR foundation models.

arxiv情報

著者 Ruin Yan,Zheng Liu,Defu Lian
発行日 2025-02-11 13:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | O1 Embedder: Let Retrievers Think Before Action はコメントを受け付けていません

LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

要約

線形の注意などの線形シーケンスモデリングアプローチは、線形時間トレーニングやシーケンス長にわたる定数メモリ推論などの利点を提供します。
ただし、既存のシーケンス並列性(SP)メソッドは、線形注意の適切な製品ファースト機能に最適化されていないか、リングスタイルの通信戦略を使用するため、計算並列が低くなり、分散システムのより長いシーケンスのスケーラビリティが制限されます。
このホワイトペーパーでは、非常に長い入力シーケンスで線形注意トランスモデルをトレーニングするときに、通信と計算の両方の並列性を強化する新しいSPメソッドであるLASP-2を紹介します。
以前の作業LASPと比較して、LASP-2は、線形注意層上のSPの最小限の通信要件を再考し、LASPのコミュニケーションコンピューションワークフロー全体を再編成します。
このように、サイズはシーケンスの長さとは独立している中間メモリ状態では、1つのAllgather Collective Communicationが必要であり、通信と計算の並列性の両方の大幅な改善、およびそれらの重複をもたらします。
さらに、LASP-2をLASP-2Hに拡張し、同様の通信再設計を標準の注意モジュールに適用し、線形および標準の注意層をブレンドするハイブリッドモデルに効率的なSPソリューションを提供します。
標準的な注意を置き換える線形注意を払ったLLAMA3のバリアントである線形-LLAMA3モデルに関する私たちの評価は、LASP-2とLASP-2Hの有効性を示しています。
具体的には、LASP-2は、LASPよりも15.2%のトレーニング速度の改善、リングの注意よりも36.6%のトレーニング速度の改善を達成し、64 GPUにわたって2048Kのシーケンス長があります。
このコードは、https://github.com/opensparsellms/linear-moeの一部としてリリースされます。

要約(オリジナル)

Linear sequence modeling approaches, such as linear attention, provide advantages like linear-time training and constant-memory inference over sequence lengths. However, existing sequence parallelism (SP) methods are either not optimized for the right-product-first feature of linear attention or use a ring-style communication strategy, which results in lower computation parallelism, limits their scalability for longer sequences in distributed systems. In this paper, we introduce LASP-2, a new SP method to enhance both communication and computation parallelism when training linear attention transformer models with very-long input sequences. Compared to previous work LASP, LASP-2 rethinks the minimal communication requirement for SP on linear attention layers, reorganizes the whole communication-computation workflow of LASP. In this way, only one single AllGather collective communication is needed on intermediate memory states, whose sizes are independent of the sequence length, leading to significant improvements of both communication and computation parallelism, as well as their overlap. Additionally, we extend LASP-2 to LASP-2H by applying similar communication redesign to standard attention modules, offering an efficient SP solution for hybrid models that blend linear and standard attention layers. Our evaluation on a Linear-Llama3 model, a variant of Llama3 with linear attention replacing standard attention, demonstrates the effectiveness of LASP-2 and LASP-2H. Specifically, LASP-2 achieves training speed improvements of 15.2% over LASP and 36.6% over Ring Attention, with a sequence length of 2048K across 64 GPUs. The Code is released as a part of: https://github.com/OpenSparseLLMs/Linear-MoE.

arxiv情報

著者 Weigao Sun,Disen Lan,Yiran Zhong,Xiaoye Qu,Yu Cheng
発行日 2025-02-11 14:01:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid はコメントを受け付けていません

ChameleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters

要約

大規模な言語モデル(LLMS)の最近の進歩により、多様なタスク全体で顕著なパフォーマンスが示されています。
ただし、これらのモデルは通常、固定重量で展開されているため、推論中に実際のデータに固有の変動性に動的に適応する能力が制限されます。
このペーパーでは、Batch-Awareクラスタリングとオンザフライ生成の低ランクアップデートを活用することにより、LLMSの推論時間適応を可能にする新しいフレームワークであるChameleonllmを紹介します。
低ランク適応(LORA)や、前習得前のユニフォーム(変更可能なマスク)の固定セットに依存する方法などの従来の微調整アプローチとは異なり、この方法は、クラスター化された統計統計に基づいてデコーダー重みの適応修正を動的に生成します。
バッチ。
Hyper-Networkを介して同様の入力とコンテキスト対応の低いランク更新をインテリジェントにグループ化することにより、Chameleonllmは大幅なパフォーマンスゲインを達成し、複数の専門家モデルを維持するオーバーヘッドを排除しながら、従来のLORAメソッドを上回ります。
私たちの実験は、言語モデルの推論のための多用途で高度に適応的なソリューションとして機能するアプローチの可能性を強調しています。
ChameLeonllmは、実験の再現性を確保するためにオープンソースを受けています:https://anonymous.4open.science/r/chamaleonllm/

要約(オリジナル)

Recent advances in large language models (LLMs) have shown remarkable performance across diverse tasks. However, these models are typically deployed with fixed weights, which limits their ability to adapt dynamically to the variability inherent in real-world data during inference. This paper introduces ChameleonLLM, a novel framework that enables inference-time adaptation of LLMs by leveraging batch-aware clustering and on-the-fly generation of low-rank updates. Unlike traditional fine-tuning approaches such as Low-Rank Adaptation (LoRA) or methods that rely on a fixed set of pre-learned uniforms (changeable masks), our method dynamically generates adaptive modifications to the decoder weights based on the aggregated statistics of clustered batches. By intelligently grouping similar inputs and computing context-aware low-rank updates via a hyper-network, ChameleonLLM achieves significant performance gains, outperforming conventional LoRA methods while eliminating the overhead of maintaining multiple expert models. Our experiments highlight the potential of our approach to serve as a versatile and highly adaptive solution for language model inference. ChameleonLLM is open-sourced to ensure the reproducibility of our experiments: https://anonymous.4open.science/r/ChamaleonLLM/

arxiv情報

著者 Kamer Ali Yuksel,Hassan Sawaf
発行日 2025-02-11 14:01:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | ChameleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters はコメントを受け付けていません

Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss

要約

コンピューター支援発音トレーニング(CAPT)システムの構築における事前の取り組みは、しばしば自動発音評価(APA)および誤発音検出と診断(MDD)を別々の面として扱います。
代わりに、非ネイティブの言語学習者が行った正確な音声発音エラーの特定に焦点を当てています。
ただし、一般的に、本格的なCAPTシステムは、両方の機能を同時に効率的に実行する必要があることが予想されます。
この急増する需要に応えて、この作業では、最初にhmambaを提案します。これは、APAとMDDのタスクを並行してシームレスに統合する新しいキャプテンアプローチです。
さらに、MDD専用に調整された新しい損失関数、分離されたクロスエントロピー損失(dexent)を導入し、誤った携帯電話を検出するためのより良い監視学習を促進し、それによって全体的なパフォーマンスを向上させます。
Speechocean762ベンチマークデータセットの包括的な経験的結果のセットは、APAに対するアプローチの有効性を示しています。
特に、提案されているアプローチは、強力なベースラインでMDDパフォーマンスの大幅な改善をもたらし、63.85%のF1スコアを達成しています。
私たちのコードはhttps://github.com/fuann/hmambaで入手できます

要約(オリジナル)

Prior efforts in building computer-assisted pronunciation training (CAPT) systems often treat automatic pronunciation assessment (APA) and mispronunciation detection and diagnosis (MDD) as separate fronts: the former aims to provide multiple pronunciation aspect scores across diverse linguistic levels, while the latter focuses instead on pinpointing the precise phonetic pronunciation errors made by non-native language learners. However, it is generally expected that a full-fledged CAPT system should perform both functionalities simultaneously and efficiently. In response to this surging demand, we in this work first propose HMamba, a novel CAPT approach that seamlessly integrates APA and MDD tasks in parallel. In addition, we introduce a novel loss function, decoupled cross-entropy loss (deXent), specifically tailored for MDD to facilitate better-supervised learning for detecting mispronounced phones, thereby enhancing overall performance. A comprehensive set of empirical results on the speechocean762 benchmark dataset demonstrates the effectiveness of our approach on APA. Notably, our proposed approach also yields a considerable improvement in MDD performance over a strong baseline, achieving an F1-score of 63.85%. Our codes are made available at https://github.com/Fuann/hmamba

arxiv情報

著者 Fu-An Chao,Berlin Chen
発行日 2025-02-11 14:17:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss はコメントを受け付けていません

GATEAU: Selecting Influential Samples for Long Context Alignment

要約

非常に長いコンテキストで命令を処理するために大きな言語モデルを調整することは、まだ完全に調査されていません。
以前の研究では、そのようなデータセットを構築することはアノテーターにとって挑戦的である傾向があるため、長い命令に従うサンプルを合成することにより、利用可能なデータボリュームを拡大しようとします。
ただし、データ品質を確保するための明確に定義された戦略がないため、低品質のサンプルが導入され、モデルのパフォーマンスが制限される場合があります。
したがって、長距離依存関係で豊富な影響力のあるサンプルを識別することにより、長いコンテキストアラインメントのユニークな課題に対処するための新しいフレームワークであるGateauを提案します。
具体的には、Gateauは2つの重要な側面から長距離依存関係を測定します。長距離依存関係によるターゲット応答を生成することの難しさと、そのような依存関係による長い入力を理解することの難しさです。
包括的な実験では、Gateauが影響力のあるサンプルを効果的に特定し、これらの選択されたサンプルで訓練されたモデルが、より良い指導に従った長期的理解能力を示すことを示しています。

要約(オリジナル)

Aligning large language models to handle instructions with extremely long contexts has yet to be fully investigated. Previous studies attempt to scale up the available data volume by synthesizing long instruction-following samples, as constructing such a dataset tends to be challenging for annotators. However, a lack of a well-defined strategy for ensuring data quality may introduce low-quality samples and restrict the model performance. Thus, we propose GATEAU, a novel framework to address the unique challenge of long context alignment by identifying the influential samples enriched with long-range dependency relations. Specifically, GATEAU measures the long-range dependencies from two essential aspects: the difficulty of generating target responses due to the long-range dependencies, and the difficulty of understanding long inputs due to such dependencies. Comprehensive experiments indicate that GATEAU effectively identifies influential samples and the model trained on these selected samples exhibits better instruction-following and long-context understanding capabilities.

arxiv情報

著者 Shuzheng Si,Haozhe Zhao,Gang Chen,Yunshui Li,Kangyang Luo,Chuancheng Lv,Kaikai An,Fanchao Qi,Baobao Chang,Maosong Sun
発行日 2025-02-11 14:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | GATEAU: Selecting Influential Samples for Long Context Alignment はコメントを受け付けていません

Automated Capability Discovery via Model Self-Exploration

要約

基礎モデルは汎用アシスタントになり、Webスケールデータのトレーニングを通じて多数のドメインにわたって多様な機能を示しています。
新しいモデルの機能と潜在的なリスクの全範囲のほんの一部を正確に特徴付けることは困難なままです。
既存の評価アプローチは、多くの場合、かなりの人間の努力を必要とし、より能力のあるモデルにもっと困難な課題を設計するためにますます努力を払っています。
科学者として1つの基礎モデルを指定するフレームワークであるAutomated Capability Discovery(ACD)を導入し、主題モデル(潜在的にそれ自体)の能力を調査する自由回答形式のタスクを体系的に提案します。
フロンティアモデルをオープンエンドネスの分野からのアイデアと組み合わせることにより、ACDは、サブジェクトモデルの驚くべき能力と障害の両方を自動的かつ体系的に明らかにします。
さまざまなファンデーションモデル(GPT、Claude、およびLlamaシリーズを含む)にわたってACDを実証し、1つのチームが発見するのが難しい数千の機能を自動的に明らかにしていることを示しています。
さらに、モデル生成と人間の評価との間の高い一致を観察し、広範な人間の調査でメソッドの自動スコアリングを検証します。
ファンデーションモデルのタスクを作成する能力と自己評価の両方を活用することにより、ACDは、新しいAIシステムのスケーラブルで自動化された評価に向けた重要なステップです。
すべてのコードと評価ログは、https://github.com/conglu1997/acdでオープンソースを受けています。

要約(オリジナル)

Foundation models have become general-purpose assistants, exhibiting diverse capabilities across numerous domains through training on web-scale data. It remains challenging to precisely characterize even a fraction of the full spectrum of capabilities and potential risks in any new model. Existing evaluation approaches often require significant human effort, and it is taking increasing effort to design ever harder challenges for more capable models. We introduce Automated Capability Discovery (ACD), a framework that designates one foundation model as a scientist to systematically propose open-ended tasks probing the abilities of a subject model (potentially itself). By combining frontier models with ideas from the field of open-endedness, ACD automatically and systematically uncovers both surprising capabilities and failures in the subject model. We demonstrate ACD across a range of foundation models (including the GPT, Claude, and Llama series), showing that it automatically reveals thousands of capabilities that would be challenging for any single team to uncover. We further validate our method’s automated scoring with extensive human surveys, observing high agreement between model-generated and human evaluations. By leveraging foundation models’ ability to both create tasks and self-evaluate, ACD is a significant step toward scalable, automated evaluation of novel AI systems. All code and evaluation logs are open-sourced at https://github.com/conglu1997/ACD.

arxiv情報

著者 Cong Lu,Shengran Hu,Jeff Clune
発行日 2025-02-11 14:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Automated Capability Discovery via Model Self-Exploration はコメントを受け付けていません

CoCoA: A Generalized Approach to Uncertainty Quantification by Integrating Confidence and Consistency of LLM Outputs

要約

大規模な言語モデル(LLMS)の不確実性定量化(UQ)メソッドにはさまざまなアプローチが含まれ、2つの主要なタイプが特に顕著です。トークン確率として表現されたモデル信頼に焦点を当てた情報ベースと、セマンティックを評価する一貫性ベース
繰り返しサンプリングを使用して生成された複数の出力間の関係。
いくつかの最近の方法がこれらの2つのアプローチを組み合わせて、さまざまなアプリケーションで印象的なパフォーマンスを示しています。
ただし、より単純なベースラインメソッドを上回ることができない場合があります。
私たちの調査では、LLMの特性が確率モデルとしての特徴を明らかにしているため、これらのUQメソッドが特定のタスクでパフォーマンスが低下している理由を説明するのに役立ちます。
これらの調査結果に基づいて、モデルの信頼性と出力の一貫性を合成する新しい方法を提案し、効率的で堅牢なUQメソッドのファミリーにつながります。
質問の回答、抽象的な要約、機械翻訳など、さまざまなタスクにわたってアプローチを評価し、最先端のUQアプローチに関するかなりの改善を実証します。

要約(オリジナル)

Uncertainty quantification (UQ) methods for Large Language Models (LLMs) encompasses a variety of approaches, with two major types being particularly prominent: information-based, which focus on model confidence expressed as token probabilities, and consistency-based, which assess the semantic relationship between multiple outputs generated using repeated sampling. Several recent methods have combined these two approaches and shown impressive performance in various applications. However, they sometimes fail to outperform much simpler baseline methods. Our investigation reveals distinctive characteristics of LLMs as probabilistic models, which help to explain why these UQ methods underperform in certain tasks. Based on these findings, we propose a new way of synthesizing model confidence and output consistency that leads to a family of efficient and robust UQ methods. We evaluate our approach across a variety of tasks such as question answering, abstractive summarization, and machine translation, demonstrating sizable improvements over state-of-the-art UQ approaches.

arxiv情報

著者 Roman Vashurin,Maiya Goloburda,Preslav Nakov,Artem Shelmanov,Maxim Panov
発行日 2025-02-11 14:32:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CoCoA: A Generalized Approach to Uncertainty Quantification by Integrating Confidence and Consistency of LLM Outputs はコメントを受け付けていません

We Can’t Understand AI Using our Existing Vocabulary

要約

このポジションペーパーは、AIを理解するために、既存の人間の言葉の語彙に頼ることはできないと主張しています。
代わりに、私たちは新学習を開発するよう努力する必要があります:機械を教えたい正確な人間の概念、または学習する必要がある機械の概念を表す新しい単語。
私たちは、人間と機械には概念が異なるという前提から始めます。
これは、解釈可能性をコミュニケーションの問題として組み立てることができることを意味します。人間は機械の概念を参照および制御し、人間の概念を機械に伝えることができなければなりません。
ネオロジズムの発展を通じて共有された人間の言語を作成することは、このコミュニケーションの問題を解決できると考えています。
成功した新学者は有用な量の抽象化を達成します。詳細すぎないため、多くのコンテキストで再利用可能であり、高レベルではないため、正確な情報を伝えます。
概念の証明として、「長さのネオロジズム」がLLM応答の長さを制御する方法を実証し、「多様性の新技術」により、より可変の応答をサンプリングすることができます。
まとめると、既存の語彙を使用してAIを理解できず、ネオログ主義を通じてそれを拡張することで、マシンをよりよく制御および理解する機会が生まれます。

要約(オリジナル)

This position paper argues that, in order to understand AI, we cannot rely on our existing vocabulary of human words. Instead, we should strive to develop neologisms: new words that represent precise human concepts that we want to teach machines, or machine concepts that we need to learn. We start from the premise that humans and machines have differing concepts. This means interpretability can be framed as a communication problem: humans must be able to reference and control machine concepts, and communicate human concepts to machines. Creating a shared human-machine language through developing neologisms, we believe, could solve this communication problem. Successful neologisms achieve a useful amount of abstraction: not too detailed, so they’re reusable in many contexts, and not too high-level, so they convey precise information. As a proof of concept, we demonstrate how a ‘length neologism’ enables controlling LLM response length, while a ‘diversity neologism’ allows sampling more variable responses. Taken together, we argue that we cannot understand AI using our existing vocabulary, and expanding it through neologisms creates opportunities for both controlling and understanding machines better.

arxiv情報

著者 John Hewitt,Robert Geirhos,Been Kim
発行日 2025-02-11 14:34:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | We Can’t Understand AI Using our Existing Vocabulary はコメントを受け付けていません

DPO-Shift: Shifting the Distribution of Direct Preference Optimization

要約

直接選好最適化(DPO)とそのバリアントは、言語モデルを人間の好みに合わせてますます一般的になっています。
これらの方法は、選択された(または好み)と拒否(または拒否された)応答をよりよく区別するためのモデルを教えることを目的としています。
しかし、以前の研究では、選択された応答の確率がトレーニング中にしばしば減少することを確認しており、この現象は尤度変位として知られています。
この課題に取り組むために、この作業では、選択した確率の分布を制御できるように\ Methodを導入します。
次に、理論的分析と実験的検証の両方でサポートされているように、\メソッドが選択された確率を改善することと報酬マージンを犠牲にすることとの根本的なトレードオフを示すことを示します。
さらに、MTベンチや設計されたWINレート実験などの下流タスクでのDPOに対する\メソッドの優位性を示します。
この研究は、DPOの尤度変位の問題が、単純な理論的に根拠のあるソリューションで効果的に緩和できることを示していると考えています。
私たちのコードは、https://github.com/meaquadddd/dpo-shiftで入手できます。

要約(オリジナル)

Direct Preference Optimization (DPO) and its variants have become increasingly popular for aligning language models with human preferences. These methods aim to teach models to better distinguish between chosen (or preferred) and rejected (or dispreferred) responses. However, prior research has identified that the probability of chosen responses often decreases during training, and this phenomenon is known as likelihood displacement. To tackle this challenge, in this work we introduce \method to controllably shift the distribution of the chosen probability. Then, we show that \method exhibits a fundamental trade-off between improving the chosen probability and sacrificing the reward margin, as supported by both theoretical analysis and experimental validation. Furthermore, we demonstrate the superiority of \method over DPO on downstream tasks such as MT-Bench and a designed win rate experiment. We believe this study shows that the likelihood displacement issue of DPO can be effectively mitigated with a simple, theoretically grounded solution. Our code is available at https://github.com/Meaquadddd/DPO-Shift.

arxiv情報

著者 Xiliang Yang,Feng Jiang,Qianen Zhang,Lei Zhao,Xiao Li
発行日 2025-02-11 14:49:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DPO-Shift: Shifting the Distribution of Direct Preference Optimization はコメントを受け付けていません

Tractable Transformers for Flexible Conditional Generation

要約

非自動節約(NAR)生成モデルは、シーケンシャル依存性要件によって制約される自己回帰(AR)のカウンターパートよりも、多様な条件付き生成タスクをより原則的な方法で処理できるため、価値があります。
拡散言語モデルなどのNARモデルの最近の進歩は、同様のサイズのARモデル(GPTなど)と比較して、無条件の生成における優れたパフォーマンスを実証しています。
ただし、このような改善により、条件付き生成のパフォーマンスが改善されるとは限りません。
このギャップの重要な理由は、トレーニング中に目にされていない条件付き確率クエリに一般化することが難しいことであることを示します。
その結果、強力な無条件の生成パフォーマンスは、高品質の条件付き生成を保証するものではありません。
このペーパーでは、条件付き生成タスクが異なる方により堅牢な変圧器ベースの生成モデルであるTractable Transformer(Tracformer)を提案します。
完全な入力から派生したグローバルなコンテキスト機能のみに依存する既存のモデルとは異なり、TracFormersはスパーストランスエンコーダーを組み込んでローカルおよびグローバルの両方のコンテキスト情報をキャプチャします。
この情報は、条件付き生成のためにデコーダーを介してルーティングされます。
経験的結果は、Tracformersが最近の拡散およびARモデルのベースラインと比較して、テキストモデリングで最先端の条件付き生成パフォーマンスを達成することを示しています。

要約(オリジナル)

Non-autoregressive (NAR) generative models are valuable because they can handle diverse conditional generation tasks in a more principled way than their autoregressive (AR) counterparts, which are constrained by sequential dependency requirements. Recent advancements in NAR models, such as diffusion language models, have demonstrated superior performance in unconditional generation compared to AR models (e.g., GPTs) of similar sizes. However, such improvements do not always lead to improved conditional generation performance. We show that a key reason for this gap is the difficulty in generalizing to conditional probability queries unseen during training. As a result, strong unconditional generation performance does not guarantee high-quality conditional generation. This paper proposes Tractable Transformers (Tracformer), a Transformer-based generative model that is more robust to different conditional generation tasks. Unlike existing models that rely solely on global contextual features derived from full inputs, Tracformers incorporate a sparse Transformer encoder to capture both local and global contextual information. This information is routed through a decoder for conditional generation. Empirical results demonstrate that Tracformers achieve state-of-the-art conditional generation performance on text modeling compared to recent diffusion and AR model baselines.

arxiv情報

著者 Anji Liu,Xuejie Liu,Dayuan Zhao,Mathias Niepert,Yitao Liang,Guy Van den Broeck
発行日 2025-02-11 15:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Tractable Transformers for Flexible Conditional Generation はコメントを受け付けていません