cs.LG」カテゴリーアーカイブ

Efficient Reasoning with Hidden Thinking

要約 チェーンオブテーブ(COT)の推論は、マルチモーダル大手言語モデル(MLL … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Efficient Reasoning with Hidden Thinking はコメントを受け付けていません

Can LLMs Separate Instructions From Data? And What Do We Even Mean By That?

要約 命令チューニングされた大手言語モデル(LLMS)は、多数の実用的なアプリケ … 続きを読む

カテゴリー: cs.CL, cs.LG | Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? はコメントを受け付けていません

mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval

要約 検索システムは一般に、短くて不足しているWebスタイルのクエリに焦点を当て … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.LG | mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval はコメントを受け付けていません

Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment

要約 大規模な言語モデル(LLMS)のパフォーマンスは、その基礎となるサイズに密 … 続きを読む

カテゴリー: cs.CL, cs.LG | Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment はコメントを受け付けていません

FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing

要約 自然言語処理(NLP)における大規模な言語モデル(LLMS)の急速な増殖は … 続きを読む

カテゴリー: cs.CL, cs.LG | FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing はコメントを受け付けていません

GPT-4o as the Gold Standard: A Scalable and General Purpose Approach to Filter Language Model Pretraining Data

要約 大規模な言語モデルには膨大な量の高品質のトレーニングデータが必要ですが、W … 続きを読む

カテゴリー: cs.CL, cs.LG | GPT-4o as the Gold Standard: A Scalable and General Purpose Approach to Filter Language Model Pretraining Data はコメントを受け付けていません

SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions

要約 この作業では、オーディオとテキストを大規模な言語モデル(LLM)に統合する … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions はコメントを受け付けていません

Strassen Attention: Unlocking Compositional Abilities in Transformers Based on a New Lower Bound Method

要約 変圧器の理論的な制限を評価するための新しい方法を提案し、無限の精度で1層ソ … 続きを読む

カテゴリー: cs.AI, cs.LG | Strassen Attention: Unlocking Compositional Abilities in Transformers Based on a New Lower Bound Method はコメントを受け付けていません

Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models

要約 私たちは、大規模な言語モデル(LLMS)の特徴普遍性を調査します。これは、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models はコメントを受け付けていません

Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence

要約 リスクに敏感な強化学習(RL)は、ハイステークスアプリケーションで信頼でき … 続きを読む

カテゴリー: cs.AI, cs.LG, math.OC | Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence はコメントを受け付けていません