DecoupledESC: Enhancing Emotional Support Generation via Strategy-Response Decoupled Preference Optimization

要約

感情的サポート会話(ESC)の最近の進歩により、監視付き微調整(SFT)を介して大規模な言語モデル(LLMS)を微調整することにより、感情的なサポート生成が改善されました。
ただし、一般的な心理的エラーは依然として続いています。
直接選好最適化(DPO)は、ペアワイズ優先学習を通じてこのようなエラーを減らすことに有望ですが、ESCタスクにおけるその有効性は2つの重要な課題によって制限されます。
(2)最適化のあいまいさ:バニラDPOをそのような絡み合ったペアワイズデータに適用すると、曖昧なトレーニング目標につながります。
これらの問題に対処するために、IPM-Prefdial Datasetを形成する高品質の優先データを構築するために、推論優先マイニング(IPM)を導入します。
このデータに基づいて、Grossの感情調節の拡張プロセスモデルに触発された分離されたESCフレームワークを提案します。これにより、ESCタスクが戦略計画と共感対応生成という2つの順次サブタスクに分解されます。
それぞれがSFTを介して訓練され、その後DPOによって強化され、心理的好みに合わせました。
広範な実験は、私たちの分離されたESCフレームワークがジョイント最適化ベースラインよりも優れていることを示しており、好みのバイアスを減らし、応答の品質を改善します。

要約(オリジナル)

Recent advances in Emotional Support Conversation (ESC) have improved emotional support generation by fine-tuning Large Language Models (LLMs) via Supervised Fine-Tuning (SFT). However, common psychological errors still persist. While Direct Preference Optimization (DPO) shows promise in reducing such errors through pairwise preference learning, its effectiveness in ESC tasks is limited by two key challenges: (1) Entangled data structure: Existing ESC data inherently entangles psychological strategies and response content, making it difficult to construct high-quality preference pairs; and (2) Optimization ambiguity: Applying vanilla DPO to such entangled pairwise data leads to ambiguous training objectives. To address these issues, we introduce Inferential Preference Mining (IPM) to construct high-quality preference data, forming the IPM-PrefDial dataset. Building upon this data, we propose a Decoupled ESC framework inspired by Gross’s Extended Process Model of Emotion Regulation, which decomposes the ESC task into two sequential subtasks: strategy planning and empathic response generation. Each was trained via SFT and subsequently enhanced by DPO to align with the psychological preference. Extensive experiments demonstrate that our Decoupled ESC framework outperforms joint optimization baselines, reducing preference bias and improving response quality.

arxiv情報

著者 Chao Zhang,Xin Shi,Xueqiao Zhang,Yifan Zhu,Yi Yang,Yawei Luo
発行日 2025-05-22 17:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DecoupledESC: Enhancing Emotional Support Generation via Strategy-Response Decoupled Preference Optimization はコメントを受け付けていません

From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment

要約

大規模な言語モデル(LLM)は、ユーザーの価値とニーズの多様性を根本的に見落として、均一な人間の好みを想定する1つのサイズのアプローチを通じて伝統的に整合してきました。
このペーパーでは、LLMSのスケーラブルなパーソナライズされたアライメントのための包括的なフレームワークを紹介します。
実際のシナリオで堅牢な優先推論のための多様なペルソナ表現とともに、心理的および行動的側面を特徴付ける体系的な選好空間を確立します。
この基盤の上に構築すると、130万を超えるパーソナライズされた選好例の大規模なデータセットである\ textSc {alignx}を導入し、2つの補完的なアライメントアプローチを開発します。
広範な実験は、既存の方法よりも大幅に改善されており、4つのベンチマークにわたって平均17.06 \%の精度が得られ、新しい好みに対する強力な適応能力、限られたユーザーデータへの堅牢性、および正確な好みの制御可能性を示します。
これらの結果は、ユーザーに適応するAIシステムに対するアプローチを検証します。

要約(オリジナル)

Large language models (LLMs) have traditionally been aligned through one-size-fits-all approaches that assume uniform human preferences, fundamentally overlooking the diversity in user values and needs. This paper introduces a comprehensive framework for scalable personalized alignment of LLMs. We establish a systematic preference space characterizing psychological and behavioral dimensions, alongside diverse persona representations for robust preference inference in real-world scenarios. Building upon this foundation, we introduce \textsc{AlignX}, a large-scale dataset of over 1.3 million personalized preference examples, and develop two complementary alignment approaches: \textit{in-context alignment} directly conditioning on persona representations and \textit{preference-bridged alignment} modeling intermediate preference distributions. Extensive experiments demonstrate substantial improvements over existing methods, with an average 17.06\% accuracy gain across four benchmarks while exhibiting a strong adaptation capability to novel preferences, robustness to limited user data, and precise preference controllability. These results validate our approach toward user-adaptive AI systems.

arxiv情報

著者 Jia-Nan Li,Jian Guan,Songhao Wu,Wei Wu,Rui Yan
発行日 2025-05-22 16:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment はコメントを受け付けていません

GCAL: Adapting Graph Models to Evolving Domain Shifts

要約

このペーパーでは、進化する複数の分散(OOD)グラフに関するグラフドメイン適応の課題について説明します。
従来のグラフドメイン適応方法は、シングルステップの適応に限定されているため、連続ドメインシフトの処理に効果がなく、壊滅的な忘却を受けやすくなります。
このペーパーでは、さまざまなグラフドメインにわたってモデルの持続可能性と適応性を高めるために設計されたグラフ継続的適応学習(GCAL)メソッドを紹介します。
GCALは、バイレベル最適化戦略を採用しています。
「Adapt」フェーズでは、情報の最大化アプローチを使用して、過去の記憶を再適用して忘れを軽減しながら、新しいグラフドメインでモデルを微調整します。
同時に、ボトルネック理論から派生した理論的下限に導かれる「メモリ」フェーズは、元のグラフを記憶に凝縮するための変分メモリグラフ生成モジュールを伴います。
広範な実験的評価は、GCALが適応性と知識保持の観点から既存の方法を大幅に上回ることを示しています。

要約(オリジナル)

This paper addresses the challenge of graph domain adaptation on evolving, multiple out-of-distribution (OOD) graphs. Conventional graph domain adaptation methods are confined to single-step adaptation, making them ineffective in handling continuous domain shifts and prone to catastrophic forgetting. This paper introduces the Graph Continual Adaptive Learning (GCAL) method, designed to enhance model sustainability and adaptability across various graph domains. GCAL employs a bilevel optimization strategy. The ‘adapt’ phase uses an information maximization approach to fine-tune the model with new graph domains while re-adapting past memories to mitigate forgetting. Concurrently, the ‘generate memory’ phase, guided by a theoretical lower bound derived from information bottleneck theory, involves a variational memory graph generation module to condense original graphs into memories. Extensive experimental evaluations demonstrate that GCAL substantially outperforms existing methods in terms of adaptability and knowledge retention.

arxiv情報

著者 Ziyue Qiao,Qianyi Cai,Hao Dong,Jiawei Gu,Pengyang Wang,Meng Xiao,Xiao Luo,Hui Xiong
発行日 2025-05-22 16:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | GCAL: Adapting Graph Models to Evolving Domain Shifts はコメントを受け付けていません

Predicate-Conditional Conformalized Answer Sets for Knowledge Graph Embeddings

要約

知識グラフ埋め込み(KGE)方法の不確実性の定量化は、ダウンストリームアプリケーションの信頼性を確保するために重要です。
最近の研究では、KGEメソッドに適合予測を適用し、事前定義された信頼レベルで真の答えを含めることが保証されている一連の答えを生成することにより、不確実性の推定値を提供します。
ただし、既存の方法は、クエリと回答の参照セットで平均化された確率的保証を提供します(限界カバレッジ保証)。
医療診断などのハイステークスアプリケーションでは、しばしばより強力な保証が必要です。予測セットは、クエリごとに一貫したカバレッジを提供する必要があります(条件付きカバレッジ保証)。
CondkGCPを提案します。これは、コンパクトな予測セットを維持しながら、述語条件のカバレッジ保証を近似する新しい方法です。
CondkGCPは、類似したベクトル表現と述べられていると述べ、ランク情報とキャリブレーションを拡張します。
理論的保証を証明し、包括的な評価によりcondkGCPの経験的有効性を実証します。

要約(オリジナル)

Uncertainty quantification in Knowledge Graph Embedding (KGE) methods is crucial for ensuring the reliability of downstream applications. A recent work applies conformal prediction to KGE methods, providing uncertainty estimates by generating a set of answers that is guaranteed to include the true answer with a predefined confidence level. However, existing methods provide probabilistic guarantees averaged over a reference set of queries and answers (marginal coverage guarantee). In high-stakes applications such as medical diagnosis, a stronger guarantee is often required: the predicted sets must provide consistent coverage per query (conditional coverage guarantee). We propose CondKGCP, a novel method that approximates predicate-conditional coverage guarantees while maintaining compact prediction sets. CondKGCP merges predicates with similar vector representations and augments calibration with rank information. We prove the theoretical guarantees and demonstrate empirical effectiveness of CondKGCP by comprehensive evaluations.

arxiv情報

著者 Yuqicheng Zhu,Daniel Hernández,Yuan He,Zifeng Ding,Bo Xiong,Evgeny Kharlamov,Steffen Staab
発行日 2025-05-22 16:33:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Predicate-Conditional Conformalized Answer Sets for Knowledge Graph Embeddings はコメントを受け付けていません

Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data

要約

多様なデータセットを使用した大規模な言語モデル(LLMS)の微調整は、さまざまなドメインで全体的なパフォーマンスを向上させるために重要です。
実際のシナリオでは、データ構成の混合比率のモデリングに基づく既存の方法は、ドメインラベルが欠落、不正確、または非正規化されているデータと格闘しますが、データの選択に基づく方法は通常、マルチドメインのパフォーマンスのバランスをとるのに困難になります。
これらの課題に対処するために、この作業では、対照的なデータプールを経験的に構築し、理論的に説明する説明を構築することにより、LLMの全体的な能力を高める上でのデータ多様性の役割を調査します。
得られた洞察に基づいて、LLMにデュアルアイデンティティを提供する新しい方法を提案します。多様性報酬に基づいてデータを認知的にプローブおよび選択する出力モデルと、選択したデータで調整する入力モデルです。
広範な実験では、提案された方法が、さまざまな高度なLLMに適用された場合、ドメインが選択したデータと一連の基本的な下流タスク全体のパフォーマンスを顕著に向上させることを示しています。
コードをリリースし、この研究がデータの多様性の理解に光を当てることができることを願っています。

要約(オリジナル)

Fine-tuning large language models (LLMs) using diverse datasets is crucial for enhancing their overall performance across various domains. In practical scenarios, existing methods based on modeling the mixture proportions of data composition often struggle with data whose domain labels are missing, imprecise or non-normalized, while methods based on data selection usually encounter difficulties in balancing multi-domain performance. To address these challenges, in this work, we investigate the role of data diversity in enhancing the overall abilities of LLMs by empirically constructing contrastive data pools and theoretically deriving explanations. Building upon the insights gained, we propose a new method that gives the LLM a dual identity: an output model to cognitively probe and select data based on diversity reward, as well as an input model to be tuned with the selected data. Extensive experiments show that the proposed method notably boosts performance across domain-undetermined data and a series of foundational downstream tasks when applied to various advanced LLMs. We release our code and hope this study can shed light on the understanding of data diversity and advance feedback-driven data-model co-design for LLMs.

arxiv情報

著者 Zhenqing Ling,Daoyuan Chen,Liuyi Yao,Qianli Shen,Yaliang Li,Ying Shen
発行日 2025-05-22 16:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data はコメントを受け付けていません

HyperGraphRAG: Retrieval-Augmented Generation via Hypergraph-Structured Knowledge Representation

要約

GraphRagは、グラフベースの知識表現によってこのアプローチを進めますが、標準の検索成功世代(RAG)はチャンクベースの検索に依存しています。
ただし、通常のグラフの各エッジは2つのエンティティのみを接続し、実際の知識でn ary関係(n> = 2)を表す能力を制限するため、既存のグラフベースのRAGアプローチはバイナリ関係によって制約されます。
この作業では、ハイパーグラフベースのRAGメソッドであるハイパーグラフラグを提案します。これは、ハイページェッジを介したn ary関係の事実を表し、知識のハイパーグラフの構築、検索、および生成で構成されています。
医学、農業、コンピューターサイエンス、および法律にわたる実験は、ハイパーグラフラグが、回答の精度、検索効率、および生成品質の標準的なRAGと以前のグラフベースのRAGメソッドの両方を上回ることを示しています。

要約(オリジナル)

Standard Retrieval-Augmented Generation (RAG) relies on chunk-based retrieval, whereas GraphRAG advances this approach by graph-based knowledge representation. However, existing graph-based RAG approaches are constrained by binary relations, as each edge in an ordinary graph connects only two entities, limiting their ability to represent the n-ary relations (n >= 2) in real-world knowledge. In this work, we propose HyperGraphRAG, a novel hypergraph-based RAG method that represents n-ary relational facts via hyperedges, and consists of knowledge hypergraph construction, retrieval, and generation. Experiments across medicine, agriculture, computer science, and law demonstrate that HyperGraphRAG outperforms both standard RAG and previous graph-based RAG methods in answer accuracy, retrieval efficiency, and generation quality.

arxiv情報

著者 Haoran Luo,Haihong E,Guanting Chen,Yandan Zheng,Xiaobao Wu,Yikai Guo,Qika Lin,Yu Feng,Zemin Kuang,Meina Song,Yifan Zhu,Luu Anh Tuan
発行日 2025-05-22 16:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | HyperGraphRAG: Retrieval-Augmented Generation via Hypergraph-Structured Knowledge Representation はコメントを受け付けていません

CASTILLO: Characterizing Response Length Distributions of Large Language Models

要約

大規模な言語モデル(LLM)推論のコンピューテリソースを効率的に管理することは、本質的に確率的で可変的な長さの自己回帰テキスト生成のために依然として困難です。
応答の長さを事前に正確に推定することにより、プロアクティブなリソース割り当てが可能になりますが、既存のアプローチは、特定の長さに向けてテキスト生成をバイアスするか、モデルおよび迅速な特異的変動を無視する仮定に依存します。
Castilloを紹介します。これは、7つの異なる指導に従うコーパスで評価されている13の広く使用されているオープンソースLLMにわたって応答長分布を特徴付けるデータセットを紹介します。
$ \ langle $プロンプト、モデル$ \ rangle $ sampleペアごとに、固定デコードハイパーパラメーターを使用して10の独立した完了を生成し、各応答のトークン長を記録し、概要統計(平均、std-dev、パーセンタイル)、および最短および最長の完了、および正確な発電設定を公開します。
私たちの分析では、応答長(同一の生成設定下であっても)における重要なモデル間およびモデル内の変動、および応答のサブセットのみにおける部分的なテキスト変性のモデル固有の動作と発生が明らかになります。
Castilloは、プロアクティブなスケジューリングの予測モデルの開発を可能にし、モデル固有の生成行動を分析するための体系的なフレームワークを提供します。
データセットとコードを公開して、生成言語モデリングとシステムの交差点で研究を促進します。

要約(オリジナル)

Efficiently managing compute resources for Large Language Model (LLM) inference remains challenging due to the inherently stochastic and variable lengths of autoregressive text generation. Accurately estimating response lengths in advance enables proactive resource allocation, yet existing approaches either bias text generation towards certain lengths or rely on assumptions that ignore model- and prompt-specific variability. We introduce CASTILLO, a dataset characterizing response length distributions across 13 widely-used open-source LLMs evaluated on seven distinct instruction-following corpora. For each $\langle$prompt, model$\rangle$ sample pair, we generate 10 independent completions using fixed decoding hyper-parameters, record the token length of each response, and publish summary statistics (mean, std-dev, percentiles), along with the shortest and longest completions, and the exact generation settings. Our analysis reveals significant inter- and intra-model variability in response lengths (even under identical generation settings), as well as model-specific behaviors and occurrences of partial text degeneration in only subsets of responses. CASTILLO enables the development of predictive models for proactive scheduling and provides a systematic framework for analyzing model-specific generation behaviors. We publicly release the dataset and code to foster research at the intersection of generative language modeling and systems.

arxiv情報

著者 Daniel F. Perez-Ramirez,Dejan Kostic,Magnus Boman
発行日 2025-05-22 16:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | CASTILLO: Characterizing Response Length Distributions of Large Language Models はコメントを受け付けていません

Don’t ‘Overthink’ Passage Reranking: Is Reasoning Truly Necessary?

要約

複雑な自然言語のタスクにわたる推論モデルの成功により、情報検索(IR)コミュニティの研究者は、大規模な言語モデル(LLM)に基づいて構築された通過再生能力に同様の推論機能を統合できることを調査し始めました。
これらの方法は通常、LLMを使用して、最終的な関連性予測に到達する前に、明示的な段階的な推論プロセスを生成します。
しかし、推論は実際に再ランキングの精度を改善しますか?
この論文では、この質問に深く掘り下げ、推論に基づいたポイントワイズリランカー(REASORR)を同一のトレーニング条件下で標準の非合理的なポイントレランカー(StandardRR)と比較することにより、推論プロセスの影響を研究し、標準が一般にReasonRRを上回ることを観察します。
この観察結果に基づいて、推論プロセス(ReasonRR-Noreason)を無効にすることにより、ReasonRRに対する推論の重要性を研究し、ReasonRR-NoreasonがReasonRRよりも驚くほど効果的であることがわかります。
この結果の原因を調べると、我々の調査結果は、推論に基づく再生者がLLMの推論プロセスによって制限されていることを明らかにしており、それはそれを偏光関連スコアに向けてプッシュし、したがって、PointWise Relankersの精度の重要な要因であるパッセージの部分的な関連性を考慮していません。

要約(オリジナル)

With the growing success of reasoning models across complex natural language tasks, researchers in the Information Retrieval (IR) community have begun exploring how similar reasoning capabilities can be integrated into passage rerankers built on Large Language Models (LLMs). These methods typically employ an LLM to produce an explicit, step-by-step reasoning process before arriving at a final relevance prediction. But, does reasoning actually improve reranking accuracy? In this paper, we dive deeper into this question, studying the impact of the reasoning process by comparing reasoning-based pointwise rerankers (ReasonRR) to standard, non-reasoning pointwise rerankers (StandardRR) under identical training conditions, and observe that StandardRR generally outperforms ReasonRR. Building on this observation, we then study the importance of reasoning to ReasonRR by disabling its reasoning process (ReasonRR-NoReason), and find that ReasonRR-NoReason is surprisingly more effective than ReasonRR. Examining the cause of this result, our findings reveal that reasoning-based rerankers are limited by the LLM’s reasoning process, which pushes it toward polarized relevance scores and thus fails to consider the partial relevance of passages, a key factor for the accuracy of pointwise rerankers.

arxiv情報

著者 Nour Jedidi,Yung-Sung Chuang,James Glass,Jimmy Lin
発行日 2025-05-22 16:41:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | Don’t ‘Overthink’ Passage Reranking: Is Reasoning Truly Necessary? はコメントを受け付けていません

CAIN: Hijacking LLM-Humans Conversations via a Two-Stage Malicious System Prompt Generation and Refining Framework

要約

大規模な言語モデル(LLM)は多くのアプリケーションを進めてきましたが、敵対的な攻撃に対して脆弱であることも知られています。
この作業では、新しいセキュリティの脅威を紹介します。LLMSのシステムを操作することにより、AIと人間の会話をハイジャックして、特定のターゲットの質問に対してのみ悪意のある回答を作成するようにプロンプ​​トします(たとえば、「米国大統領に投票すべきか」、「covidワクチンは安全ですか?」)。
この攻撃は、悪意のある俳優が有害でありながら良心的なシステムプロンプトをオンラインで広めることにより、大規模な情報操作を行使できるため、有害です。
このような攻撃を実証するために、Cainを開発します。Cainは、ブラックボックス設定での特定のターゲット質問のこのような有害なシステムプロンプトを自動的にキュレートすることができるアルゴリズムを開発します。
オープンソースと商業用LLMの両方で評価されたCainは、大きな敵対的な影響を示しています。
ターゲットの攻撃やLLMSに誤った回答を出力するように強制されている場合、Cainはターゲットの質問に対して最大40%のF1分解を達成し、良性の入力の高精度を維持します。
ターゲットを絞った攻撃またはLLMに特定の有害な回答を出力するように強制するために、Cainはこれらのターゲット応答で70%以上のF1スコアを達成し、良性の質問への影響を最小限に抑えます。
私たちの結果は、実際のアプリケーションにおけるLLMの完全性と安全性を保護するための強化された堅牢性測定の重要な必要性を強調しています。
すべてのソースコードが公開されます。

要約(オリジナル)

Large language models (LLMs) have advanced many applications, but are also known to be vulnerable to adversarial attacks. In this work, we introduce a novel security threat: hijacking AI-human conversations by manipulating LLMs’ system prompts to produce malicious answers only to specific targeted questions (e.g., ‘Who should I vote for US President?’, ‘Are Covid vaccines safe?’), while behaving benignly on others. This attack is detrimental as it can enable malicious actors to exercise large-scale information manipulation by spreading harmful but benign-looking system prompts online. To demonstrate such an attack, we develop CAIN, an algorithm that can automatically curate such harmful system prompts for a specific target question in a black-box setting or without the need to access the LLM’s parameters. Evaluated on both open-source and commercial LLMs, CAIN demonstrates significant adversarial impact. In untargeted attacks or forcing LLMs to output incorrect answers, CAIN achieves up to 40% F1 degradation on targeted questions while preserving high accuracy on benign inputs. For targeted attacks or forcing LLMs to output specific harmful answers, CAIN achieves over 70% F1 scores on these targeted responses with minimal impact on benign questions. Our results highlight the critical need for enhanced robustness measures to safeguard the integrity and safety of LLMs in real-world applications. All source code will be publicly available.

arxiv情報

著者 Viet Pham,Thai Le
発行日 2025-05-22 16:47:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | CAIN: Hijacking LLM-Humans Conversations via a Two-Stage Malicious System Prompt Generation and Refining Framework はコメントを受け付けていません

Slamming: Training a Speech Language Model on One GPU in a Day

要約

24時間で単一のアカデミックGPUで高品質の音声言語モデル(SLM)をトレーニングするためのレシピであるSlamを紹介します。
モデルの初期化とアーキテクチャの経験的分析、合成トレーニングデータ、合成データによる優先最適化、および他のすべてのコンポーネントの調整を通じてこれを行います。
このトレーニングレシピは、コンピューティングコストの一部で主要なSLMと同等の結果を得るためにより多くのコンピューティングを獲得し、より多くのスケーリングを実証しています。
これらの洞察がSLMのトレーニングと研究をよりアクセスしやすくすることを願っています。
SLMスケーリング法のコンテキストでは、結果は、SLMの実現可能性を楽観的な見方を提供することを予測することをはるかに上回っています。
コード、データ、モデル、サンプルで – https://pages.cs.huji.ac.il/adiyoss-lab/slammingを参照してください。

要約(オリジナル)

We introduce Slam, a recipe for training high-quality Speech Language Models (SLMs) on a single academic GPU in 24 hours. We do so through empirical analysis of model initialisation and architecture, synthetic training data, preference optimisation with synthetic data and tweaking all other components. We empirically demonstrate that this training recipe also scales well with more compute getting results on par with leading SLMs in a fraction of the compute cost. We hope these insights will make SLM training and research more accessible. In the context of SLM scaling laws, our results far outperform predicted compute optimal performance, giving an optimistic view to SLM feasibility. See code, data, models, samples at – https://pages.cs.huji.ac.il/adiyoss-lab/slamming .

arxiv情報

著者 Gallil Maimon,Avishai Elmakies,Yossi Adi
発行日 2025-05-22 16:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Slamming: Training a Speech Language Model on One GPU in a Day はコメントを受け付けていません