Long-context Non-factoid Question Answering in Indic Languages

要約

特定のコンテキストから回答を抽出することを含む質問回答(QA)タスクは、コンテキストが短いときに最新の大手言語モデル(LLM)にとって比較的簡単です。
ただし、長いコンテキストは、自己触媒メカニズムの二次的な複雑さのために課題を引き起こします。
この課題は、インド言語で複合されており、多くの場合、リソースが少ないことがよくあります。
この研究では、QAパフォーマンスを改善するために、オープン情報抽出(OIE)、コアレファレンス解像度、回答段落選択(APS)、およびそれらの組み合わせなど、コンテキストの短縮技術を調査します。
未解決の(長い)コンテキストのベースラインと比較して、4つのインド言語(ヒンディー語、タミル語、テルグ語、およびウルドゥー語)での実験は、コンテキストを縮小する技術がセマンティックスコアで4 \%の平均改善をもたらすことを示しています。
さらに、微調整により、セマンティックとトークンレベルのスコアの両方で平均2 \%の増加を達成します。
さらに、コンテキストの短縮により、計算オーバーヘッドが減少します。
LimeやShapなどの説明可能性の手法は、APSモデルが答えを含む段落を自信を持って識別すると、選択したテキスト内のほぼすべてのトークンが高い関連スコアを受信することを明らかにしています。
ただし、この研究では、LLMベースのQAシステムの限界、特に推論や議論が必要な質問に対処する際の制限も強調されています。
さらに、OIEで生成されたトリプルを言葉遣いすることは、システムのパフォーマンスを向上させません。
これらの調査結果は、特に低リソース言語のLLMベースのQAシステムの効率と有効性を改善するためのコンテキストを縮小する技術の可能性を強調しています。
ソースコードとリソースは、https://github.com/ritwikmishra/indicgenqaで入手できます。

要約(オリジナル)

Question Answering (QA) tasks, which involve extracting answers from a given context, are relatively straightforward for modern Large Language Models (LLMs) when the context is short. However, long contexts pose challenges due to the quadratic complexity of the self-attention mechanism. This challenge is compounded in Indic languages, which are often low-resource. This study explores context-shortening techniques, including Open Information Extraction (OIE), coreference resolution, Answer Paragraph Selection (APS), and their combinations, to improve QA performance. Compared to the baseline of unshortened (long) contexts, our experiments on four Indic languages (Hindi, Tamil, Telugu, and Urdu) demonstrate that context-shortening techniques yield an average improvement of 4\% in semantic scores and 47\% in token-level scores when evaluated on three popular LLMs without fine-tuning. Furthermore, with fine-tuning, we achieve an average increase of 2\% in both semantic and token-level scores. Additionally, context-shortening reduces computational overhead. Explainability techniques like LIME and SHAP reveal that when the APS model confidently identifies the paragraph containing the answer, nearly all tokens within the selected text receive high relevance scores. However, the study also highlights the limitations of LLM-based QA systems in addressing non-factoid questions, particularly those requiring reasoning or debate. Moreover, verbalizing OIE-generated triples does not enhance system performance. These findings emphasize the potential of context-shortening techniques to improve the efficiency and effectiveness of LLM-based QA systems, especially for low-resource languages. The source code and resources are available at https://github.com/ritwikmishra/IndicGenQA.

arxiv情報

著者 Ritwik Mishra,Rajiv Ratn Shah,Ponnurangam Kumaraguru
発行日 2025-06-13 15:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Long-context Non-factoid Question Answering in Indic Languages はコメントを受け付けていません

Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache

要約

大規模な言語モデルは、コンテキストの長さが増加するにつれて、成長するキー価値(kV)キャッシュからのメモリの要求に苦しんでいます。
既存の圧縮方法は、頭の寸法を均一にするか、注意誘導トークンの剪定に依存し、多くの場合、精度を犠牲にしたり、計算オーバーヘッドを導入したりします。
ForierAttentionを提案します。これは、トランスヘッド寸法の不均一な役割を活用するトレーニングフリーのフレームワークです。低次元はローカルコンテキストに優先順位を付け、上部が長距離依存関係をキャプチャします。
長いコンテキストに無感覚な寸法を直交フーリエ塩基に投影することにより、フーリエラットは、固定長のスペクトル係数を持つ時間的進化を近似します。
Llamaモデルでの評価は、フーリエラットがロングベンチとヘイスタック(NIAH)で最高の長いコンテストの精度を達成することを示しています。
また、カスタムトリトンカーネルであるFlashFourierAttentionは、合理化された読み取りワイト操作を介してメモリを最適化するように設計されており、パフォーマンスの妥協なしに効率的な展開を可能にします。

要約(オリジナル)

Large Language Models struggle with memory demands from the growing Key-Value (KV) cache as context lengths increase. Existing compression methods homogenize head dimensions or rely on attention-guided token pruning, often sacrificing accuracy or introducing computational overhead. We propose FourierAttention, a training-free framework that exploits the heterogeneous roles of transformer head dimensions: lower dimensions prioritize local context, while upper ones capture long-range dependencies. By projecting the long-context-insensitive dimensions onto orthogonal Fourier bases, FourierAttention approximates their temporal evolution with fixed-length spectral coefficients. Evaluations on LLaMA models show that FourierAttention achieves the best long-context accuracy on LongBench and Needle-In-A-Haystack (NIAH). Besides, a custom Triton kernel, FlashFourierAttention, is designed to optimize memory via streamlined read-write operations, enabling efficient deployment without performance compromise.

arxiv情報

著者 Xiaoran Liu,Siyang He,Qiqi Wang,Ruixiao Li,Yuerong Song,Zhigeng Liu,Linlin Li,Qun Liu,Zengfeng Huang,Qipeng Guo,Ziwei He,Xipeng Qiu
発行日 2025-06-13 15:35:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache はコメントを受け付けていません

TreeRL: LLM Reinforcement Learning with On-Policy Tree Search

要約

ツリー検索を備えた強化学習(RL)は、従来の推論タスクで優れたパフォーマンスを実証しています。
結果の監督を伴う従来の独立したチェーンサンプリング戦略と比較して、ツリー検索により、推論スペースをより適切に調査し、RLトレーニング中に密集したポリックプロセスの報酬を提供しますが、オンポリシーLLM RLでは不足していないままです。
RLトレーニングのポリシーツリー検索を直接組み込んだ強化学習フレームワークであるToreerlを提案します。
私たちのアプローチには、中間の監督が含まれ、別の報酬モデルトレーニングの必要性を排除します。
既存のアプローチは通常、分布の不一致や報酬のハッキングに苦しむ可能性のある個別のプロセス報酬モデルをトレーニングします。
また、ランダムな分岐を使用するのではなく、廃止中間のステップから戦略的に分岐することにより、同じ世代のトークン予算の下でより高い検索効率を達成する費用対効果の高いツリー検索アプローチを導入します。
挑戦的な数学とコードの推論ベンチマークに関する実験は、TREERLが従来のChainRLと比較して優れたパフォーマンスを達成し、LLMのツリー検索の可能性を強調することを示しています。
Treerlはhttps://github.com/thudm/treirelでオープンソーシングされています。

要約(オリジナル)

Reinforcement learning (RL) with tree search has demonstrated superior performance in traditional reasoning tasks. Compared to conventional independent chain sampling strategies with outcome supervision, tree search enables better exploration of the reasoning space and provides dense, on-policy process rewards during RL training but remains under-explored in On-Policy LLM RL. We propose TreeRL, a reinforcement learning framework that directly incorporates on-policy tree search for RL training. Our approach includes intermediate supervision and eliminates the need for a separate reward model training. Existing approaches typically train a separate process reward model, which can suffer from distribution mismatch and reward hacking. We also introduce a cost-effective tree search approach that achieves higher search efficiency under the same generation token budget by strategically branching from high-uncertainty intermediate steps rather than using random branching. Experiments on challenging math and code reasoning benchmarks demonstrate that TreeRL achieves superior performance compared to traditional ChainRL, highlighting the potential of tree search for LLM. TreeRL is open-sourced at https://github.com/THUDM/TreeRL.

arxiv情報

著者 Zhenyu Hou,Ziniu Hu,Yujiang Li,Rui Lu,Jie Tang,Yuxiao Dong
発行日 2025-06-13 15:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | TreeRL: LLM Reinforcement Learning with On-Policy Tree Search はコメントを受け付けていません

GeistBERT: Breathing Life into German NLP

要約

トランスベースの言語モデルの進歩は、高品質のコーパスでの言語固有の事前トレーニングの利点を強調しています。
これに関連して、ドイツのNLPは、ドイツ語の言語特性に合わせた更新されたアーキテクチャと最新のデータセットから得られるようになります。
Geistbertは、さまざまなNLPタスクにわたってモデルパフォーマンスを最適化することにより、ドイツ語処理の改善を目指しています。
標準のハイパーパラメーターを使用してFairSeqを使用して事前に訓練され、Gottbert Weightsから初期化され、Whole Word Masking(WWM)を使用して大規模なドイツのコーパスで訓練されました。
事前に訓練されたモデルに基づいて、最大8KトークンまでのシーケンスをサポートするNystr \ ‘OmformerおよびLongformerアーキテクチャを使用して、拡張入力バリアントを導き出しました。
これらの長いコンテストモデルは、専用の長いコンテキストベンチマークで評価されていませんが、リリースに含まれています。
$ f_1 $スコアと精度を使用して、NER(Conll 2003、Conll 2003、Germeval 2014)およびテキスト分類(Germeval 2018 Fine/Coarse、10kgnad)のすべてのモデルを評価しました。
Geistbertモデルは強力なパフォーマンスを達成し、ベースモデル間のすべてのタスクをリードし、新しい最先端(SOTA)を設定しました。
特に、ベースモデルは、いくつかのタスクで大きなモデルよりも優れていました。
ドイツのNLP研究コミュニティをサポートするために、MITライセンスの下でGeistbertをリリースしています。

要約(オリジナル)

Advances in transformer-based language models have highlighted the benefits of language-specific pre-training on high-quality corpora. In this context, German NLP stands to gain from updated architectures and modern datasets tailored to the linguistic characteristics of the German language. GeistBERT seeks to improve German language processing by incrementally training on a diverse corpus and optimizing model performance across various NLP tasks. It was pre-trained using fairseq with standard hyperparameters, initialized from GottBERT weights, and trained on a large-scale German corpus using Whole Word Masking (WWM). Based on the pre-trained model, we derived extended-input variants using Nystr\’omformer and Longformer architectures with support for sequences up to 8k tokens. While these long-context models were not evaluated on dedicated long-context benchmarks, they are included in our release. We assessed all models on NER (CoNLL 2003, GermEval 2014) and text classification (GermEval 2018 fine/coarse, 10kGNAD) using $F_1$ score and accuracy. The GeistBERT models achieved strong performance, leading all tasks among the base models and setting a new state-of-the-art (SOTA). Notably, the base models outperformed larger models in several tasks. To support the German NLP research community, we are releasing GeistBERT under the MIT license.

arxiv情報

著者 Raphael Scheible-Schmitt,Johann Frei
発行日 2025-06-13 15:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GeistBERT: Breathing Life into German NLP はコメントを受け付けていません

Effectiveness of Counter-Speech against Abusive Content: A Multidimensional Annotation and Classification Study

要約

カウンタースピーチ(CS)は、オンラインヘイトスピーチ(HS)を緩和するための重要な戦略ですが、その有効性を評価するための基準を定義することは未解決の課題です。
社会科学の概念に基づいたCS有効性分類のための新しい計算フレームワークを提案します。
私たちのフレームワークでは、2つのベンチマークデータセットから4,214 CSインスタンスに注釈を付け、コミュニティにリリースされた新しい言語リソースをもたらすために使用するために使用するために使用するために使用するために使用するために使用するために使用する6つのコアディメンションの6つのコアディメンションを定義します。
さらに、マルチタスクと依存関係ベースの2つの分類戦略を提案し、強力な結果(それぞれ専門家およびユーザー作成の両方のCSで平均F1が0.94と0.96のF1)、標準ベースラインを上回り、次元間の強い相互依存性を明らかにします。

要約(オリジナル)

Counter-speech (CS) is a key strategy for mitigating online Hate Speech (HS), yet defining the criteria to assess its effectiveness remains an open challenge. We propose a novel computational framework for CS effectiveness classification, grounded in social science concepts. Our framework defines six core dimensions – Clarity, Evidence, Emotional Appeal, Rebuttal, Audience Adaptation, and Fairness – which we use to annotate 4,214 CS instances from two benchmark datasets, resulting in a novel linguistic resource released to the community. In addition, we propose two classification strategies, multi-task and dependency-based, achieving strong results (0.94 and 0.96 average F1 respectively on both expert- and user-written CS), outperforming standard baselines, and revealing strong interdependence among dimensions.

arxiv情報

著者 Greta Damo,Elena Cabrio,Serena Villata
発行日 2025-06-13 16:11:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Effectiveness of Counter-Speech against Abusive Content: A Multidimensional Annotation and Classification Study はコメントを受け付けていません

T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

要約

大規模な言語モデル(LLMS)は、複雑な推論タスクにおいて顕著な能力を示しています。
ただし、既存のアプローチは主に模倣学習に依存し、効果的なテスト時間スケーリングを達成するために苦労しています。
強化学習(RL)は、自己普及を可能にすることの可能性を保持していますが、最近の試みは複雑な推論にわずかな改善をもたらします。
この論文では、探索を奨励し、推論スケーリングを理解することにより、RLをスケーリングするためにT1を提示します。
最初に、試行錯誤と自己検証を統合する合成されたチェーンデータデータを使用してLLMを初期化します。
RLトレーニングを拡大するために、オーバーサンプリングを通じてサンプリングの多様性の増加を促進します。
私たちは、そのベースとしてのオープンLLMを備えたT1が推論のスケーリング動作を示し、挑戦的な数学の推論ベンチマークで優れたパフォーマンスを達成することを実証します。
さらに重要なことは、推論スケーリングを調べるための簡単な戦略を提示します。これにより、推論予算が増加すると、追加の検証なしでT1のパフォーマンスが向上します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in complex reasoning tasks. However, existing approaches mainly rely on imitation learning and struggle to achieve effective test-time scaling. While reinforcement learning (RL) holds promise for enabling self-exploration, recent attempts yield modest improvements in complex reasoning. In this paper, we present T1 to scale RL by encouraging exploration and understand inference scaling. We first initialize the LLM using synthesized chain-of-thought data that integrates trial-and-error and self-verification. To scale RL training, we promote increased sampling diversity through oversampling. We demonstrate that T1 with open LLMs as its base exhibits inference scaling behavior and achieves superior performance on challenging math reasoning benchmarks. More importantly, we present a simple strategy to examine inference scaling, where increased inference budgets directly lead to T1’s better performance without any additional verification.

arxiv情報

著者 Zhenyu Hou,Xin Lv,Rui Lu,Jiajie Zhang,Yujiang Li,Zijun Yao,Juanzi Li,Jie Tang,Yuxiao Dong
発行日 2025-06-13 16:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling はコメントを受け付けていません

Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback

要約

最近の研究では、LLMが外部フィードバックを与えられたときに応答を改善する能力があることが示されています。
ただし、これらのモデルがどの程度効果的かつ徹底的に、外因性フィードバックを組み込むことができるかは不明のままです。
理想的なシナリオでは、LLMSがほぼ完璧で完全なフィードバックを受け取った場合、フィードバックを完全に統合し、正しい回答を修正して正しい回答を変更することが期待されます。
この論文では、制御された実験環境を設計することにより、フィードバックを組み込むLLMSの能力を体系的に調査します。
各問題について、ソルバーモデルがソリューションを試み、次に、ほぼ完全に完全なグラウンドトゥルース回答にアクセスできるフィードバックジェネレーターがターゲットを絞ったフィードバックを生成し、その後ソルバーが再び試みます。
このパイプラインは、数学の推論、知識の推論、科学的推論、Claude 3.7を含む最先端の言語モデルを使用した一般的なマルチドメイン評価など、さまざまなタスクにわたって評価します(拡張思考の有無にかかわらず)。
驚くべきことに、これらのほぼ理想的な条件下でさえ、ソルバーモデルは常にフィードバックに対する抵抗を示しています。これは、フィードバック摩擦と呼ばれる制限です。
この制限を軽減するために、進行性温度の上昇や以前に試みられた誤った回答の明示的な拒否などのサンプリングベースの戦略を実験します。
また、フィードバック摩擦の潜在的な原因を厳密に探求し、モデルの過度の自信やデータの親しみやすさなどの要因を除外します。
LLMSでこの問題を強調し、いくつかの明らかな原因を除外することが、自己改善の将来の研究に役立つことを願っています。

要約(オリジナル)

Recent studies have shown LLMs possess some ability to improve their responses when given external feedback. However, it remains unclear how effectively and thoroughly these models can incorporate extrinsic feedback. In an ideal scenario, if LLMs receive near-perfect and complete feedback, we would expect them to fully integrate the feedback and change their incorrect answers to correct ones. In this paper, we systematically investigate LLMs’ ability to incorporate feedback by designing a controlled experimental environment. For each problem, a solver model attempts a solution, then a feedback generator with access to near-complete ground-truth answers produces targeted feedback, after which the solver tries again. We evaluate this pipeline across a diverse range of tasks, including math reasoning, knowledge reasoning, scientific reasoning, and general multi-domain evaluations with state-of-the-art language models including Claude 3.7 (with and without extended thinking). Surprisingly, even under these near-ideal conditions, solver models consistently show resistance to feedback, a limitation that we term FEEDBACK FRICTION. To mitigate this limitation, we experiment with sampling-based strategies like progressive temperature increases and explicit rejection of previously attempted incorrect answers, which yield improvements but still fail to help models achieve target performance. We also perform a rigorous exploration of potential causes of FEEDBACK FRICTION, ruling out factors such as model overconfidence and data familiarity. We hope that highlighting this issue in LLMs and ruling out several apparent causes will help future research in self-improvement.

arxiv情報

著者 Dongwei Jiang,Alvin Zhang,Andrew Wang,Nicholas Andrews,Daniel Khashabi
発行日 2025-06-13 16:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback はコメントを受け付けていません

Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations

要約

このペーパーでは、実際の知識の中で、時間的文脈の変動に対する言語モデル(LMS)の堅牢性を探ります。
LMSが、正しいコンテキストと正しいと区別するように依頼することにより、定義された期間にわたって有効な過去の事実と一時的なコンテキストを正しく関連付けることができるかどうかを調べます。
LMSの区別能力は、2つの次元に沿って分析されます。誤ったコンテキストの有効期間からの距離と、コンテキストの粒度です。
この目的のために、TimeStressと呼ばれるデータセットが導入され、18の多様なLMSの評価が可能になります。
結果は、最高のLMは、研究された事実の11%だけで完全な区別を達成し、エラーがあり、確かにまれですが、人間が作らないことが重要であることが明らかになりました。
この作業は、時間表現における現在のLMSの制限を強調しています。

要約(オリジナル)

This paper explores the robustness of language models (LMs) to variations in the temporal context within factual knowledge. It examines whether LMs can correctly associate a temporal context with a past fact valid over a defined period, by asking them to differentiate correct from incorrect contexts. The LMs’ ability to distinguish is analyzed along two dimensions: the distance of the incorrect context from the validity period and the granularity of the context. To this end, a dataset called TimeStress is introduced, enabling the evaluation of 18 diverse LMs. Results reveal that the best LM achieves a perfect distinction for only 11% of the studied facts, with errors, certainly rare, but critical that humans would not make. This work highlights the limitations of current LMs in temporal representation.

arxiv情報

著者 Hichem Ammar Khodja,Frédéric Béchet,Quentin Brabant,Alexis Nasr,Gwénolé Lecorvé
発行日 2025-06-13 16:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations はコメントを受け付けていません

e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs

要約

テスト時間スケーリングは、推論時により多くの計算を利用することにより、LLMの推論を改善するための有望なパスを提供します。
ただし、このパラダイムの真の約束は、外挿にあります(つまり、LLMが訓練された最大トークン予算を超えて、LLMがより長く「考え続ける」ため、困難な問題のパフォーマンスの改善)。
驚くべきことに、ほとんどの既存の推論モデルは十分に外挿していないことがわかります。
外挿を有効にする1つの方法は、LLMをトレーニングしてコンテキスト内探索を実行することであることを示します。LLMをトレーニングして、操作(生成、検証、洗練など)をチェーンすることでテスト時間を効果的に費やすか、回答にコミットする前に複数の仮説をテストすることです。
コンテキスト内探索を有効にするために、レシピE3の一部として3つの重要な成分を特定します。(1)ベースLLMが非対称の能力を持っている、たとえば、生成(ハード)とのチェーン検証(ハード)を、コンテキスト内検索を実装する方法として、チェーンスキルを識別します。
(2)RL中の探査を増幅するために誤ったトレースから「負」の勾配を活用し、追加の非対称性を連鎖させるより長い検索トレースをもたらします。
(3)具体的に設計されたカリキュラムを介したトレーニング中のトークン予算のトレーニングの難しさを結合して、コンテキスト内探査を構築します。
私たちのレシピE3は、AIME’25およびHMMT’25スコアに従って最もよく知られている1.7Bモデルを生成し、トレーニングトークン予算を2倍に挿入します。
E3-1.7Bモデルは、ハイパス@1スコアを達成するだけでなく、ベースモデルでパス@Kを改善します。

要約(オリジナル)

Test-time scaling offers a promising path to improve LLM reasoning by utilizing more compute at inference time; however, the true promise of this paradigm lies in extrapolation (i.e., improvement in performance on hard problems as LLMs keep ‘thinking’ for longer, beyond the maximum token budget they were trained on). Surprisingly, we find that most existing reasoning models do not extrapolate well. We show that one way to enable extrapolation is by training the LLM to perform in-context exploration: training the LLM to effectively spend its test time budget by chaining operations (such as generation, verification, refinement, etc.), or testing multiple hypotheses before it commits to an answer. To enable in-context exploration, we identify three key ingredients as part of our recipe e3: (1) chaining skills that the base LLM has asymmetric competence in, e.g., chaining verification (easy) with generation (hard), as a way to implement in-context search; (2) leveraging ‘negative’ gradients from incorrect traces to amplify exploration during RL, resulting in longer search traces that chains additional asymmetries; and (3) coupling task difficulty with training token budget during training via a specifically-designed curriculum to structure in-context exploration. Our recipe e3 produces the best known 1.7B model according to AIME’25 and HMMT’25 scores, and extrapolates to 2x the training token budget. Our e3-1.7B model not only attains high pass@1 scores, but also improves pass@k over the base model.

arxiv情報

著者 Amrith Setlur,Matthew Y. R. Yang,Charlie Snell,Jeremy Greer,Ian Wu,Virginia Smith,Max Simchowitz,Aviral Kumar
発行日 2025-06-13 17:44:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs はコメントを受け付けていません

Generative Representational Learning of Foundation Models for Recommendation

要約

多様なタスクを越えて優れた能力を備えた単一の基礎モデルを開発することは、人工知能の分野で長年の目標となっています。
汎用の基礎モデルの波がさまざまなドメインを掃除すると、その影響は推奨システムの分野に大きく拡大しました。
最近の努力により、さまざまな生成タスクの推奨ファンデーションモデルが調査されていますが、多くの場合、タスクを埋め込む重要な埋め込みを見落とし、知識の共有と紛争解決、収束速度の矛盾など、マルチタスク学習の複雑さと闘っています。
これらの制限に対処するために、推奨基盤モデルのための生成的表現学習フレームワークであるRecFoundを紹介します。
多様なシナリオ全体に生成タスクと埋め込みタスクの両方をカバーする推奨ファンデーションモデルのための最初の包括的なデータセットを構築します。
このデータセットに基づいて、知識の共有と競合を処理するための低ランクの専門家(TMOLE)のタスクごとの混合物、段階的な収束指向のサンプルスケジューラ(S2Sched)を備えた新しいマルチタスクトレーニングスキームを提案し、一貫性のない収束に対処し、モデルがモジュールをマージしてパフォーマンスをバランスさせます。
実験では、開封がさまざまな推奨タスクにわたって最先端のパフォーマンスを達成し、既存のベースラインを上回ることが示されています。

要約(オリジナル)

Developing a single foundation model with the capability to excel across diverse tasks has been a long-standing objective in the field of artificial intelligence. As the wave of general-purpose foundation models sweeps across various domains, their influence has significantly extended to the field of recommendation systems. While recent efforts have explored recommendation foundation models for various generative tasks, they often overlook crucial embedding tasks and struggle with the complexities of multi-task learning, including knowledge sharing & conflict resolution, and convergence speed inconsistencies. To address these limitations, we introduce RecFound, a generative representational learning framework for recommendation foundation models. We construct the first comprehensive dataset for recommendation foundation models covering both generative and embedding tasks across diverse scenarios. Based on this dataset, we propose a novel multi-task training scheme featuring a Task-wise Mixture of Low-rank Experts (TMoLE) to handle knowledge sharing & conflict, a Step-wise Convergence-oriented Sample Scheduler (S2Sched) to address inconsistent convergence, and a Model Merge module to balance the performance across tasks. Experiments demonstrate that RecFound achieves state-of-the-art performance across various recommendation tasks, outperforming existing baselines.

arxiv情報

著者 Zheli Zhou,Chenxu Zhu,Jianghao Lin,Bo Chen,Ruiming Tang,Weinan Zhang,Yong Yu
発行日 2025-06-13 17:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Generative Representational Learning of Foundation Models for Recommendation はコメントを受け付けていません