cs.LG」カテゴリーアーカイブ

The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

要約 大規模な言語モデル(LLM)は、通常、膨大な量の免許のないテキストで訓練さ … 続きを読む

カテゴリー: cs.CL, cs.LG | コメントする

Diagonal Batching Unlocks Parallelism in Recurrent Memory Transformers for Long Contexts

要約 トランスモデルは、二次時間と線形メモリの複雑さのために、長いコンテキスト推 … 続きを読む

カテゴリー: cs.CL, cs.LG | コメントする

The broader spectrum of in-context learning

要約 文脈のいくつかの例からタスクを学ぶ言語モデルの能力は、大きな関心を生み出し … 続きを読む

カテゴリー: cs.CL, cs.LG | コメントする

Kinetics: Rethinking Test-Time Scaling Laws

要約 実用的な効率の観点からテスト時間のスケーリング法則を再考し、小さなモデルの … 続きを読む

カテゴリー: cs.CL, cs.LG | コメントする

Search Arena: Analyzing Search-Augmented LLMs

要約 検索の高地言語モデルは、Web検索と大規模な言語モデル(LLMS)を組み合 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.LG | コメントする

Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets

要約 大規模な言語モデル(LLMS)の最近の進歩は、特に下流の微調整を受けた場合 … 続きを読む

カテゴリー: cs.CL, cs.CR, cs.LG | コメントする

Inference-Time Hyper-Scaling with KV Cache Compression

要約 より長い並列シーケンスを生成することにより、推論時のスケーリング取引効率を … 続きを読む

カテゴリー: cs.CL, cs.LG | コメントする

GoRA: Gradient-driven Adaptive Low Rank Adaptation

要約 低ランク適応(LORA)は、ランクの選択と重量の初期化という2つの重要な要 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Survey on the Evaluation of Generative Models in Music

要約 音楽における生成システムに関する研究は、近年かなりの注目と成長を遂げていま … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD | コメントする

DiCoRe: Enhancing Zero-shot Event Detection via Divergent-Convergent LLM Reasoning

要約 ゼロショットイベント検出(ED)、トレーニングデータなしで自然言語テキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする