「cs.LG」カテゴリーアーカイブ

Integrating Expert Labels into LLM-based Emission Goal Detection: Example Selection vs Automatic Prompt Design

投稿日: 2024年12月10日作成者: jarxiv

要約私たちは、企業報告書における排出削減目標の検出に取り組みます。これは、企業 … 続きを読む →

カテゴリー: cs.CL, cs.LG, I.2.7 | コメントを受け付けていません

Gated Delta Networks: Improving Mamba2 with Delta Rule

投稿日: 2024年12月10日作成者: jarxiv

要約線形トランスフォーマーは、標準トランスフォーマーの効率的な代替手段として注 … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

LOLA — An Open-Source Massively Multilingual Large Language Model

投稿日: 2024年12月10日作成者: jarxiv

要約この論文では、疎な専門家混合トランスフォーマーアーキテクチャを使用して … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Speech Robust Bench: A Robustness Benchmark For Speech Recognition

投稿日: 2024年12月10日作成者: jarxiv

要約自動音声認識 (ASR) モデルがますます普及するにつれて、物理世界とデジ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Imitating Language via Scalable Inverse Reinforcement Learning

投稿日: 2024年12月10日作成者: jarxiv

要約言語モデルのトレーニングの大部分は模倣学習に基づいています。これは、事前 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | コメントを受け付けていません

Understanding Factual Recall in Transformers via Associative Memories

投稿日: 2024年12月10日作成者: jarxiv

要約大規模な言語モデルは、事実を想起する優れた能力を実証しています。これまで … 続きを読む →

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT, stat.ML | コメントを受け付けていません

Copyright-Protected Language Generation via Adaptive Model Fusion

投稿日: 2024年12月10日作成者: jarxiv

要約言語モデルがトレーニングデータから著作権で保護された素材を再現するリスク … 続きを読む →

カテゴリー: cs.CL, cs.CR, cs.LG | コメントを受け付けていません

How transformers learn structured data: insights from hierarchical filtering

投稿日: 2024年12月10日作成者: jarxiv

要約学習プロセスと変換器に組み込まれた計算を理解することが、解釈可能な AI … 続きを読む →

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.CL, cs.LG | コメントを受け付けていません

I Don’t Know: Explicit Modeling of Uncertainty with an [IDK] Token

投稿日: 2024年12月10日作成者: jarxiv

要約大規模言語モデルは現実世界の知識を捕捉し、多くの下流タスクで優れた能力を発 … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

The broader spectrum of in-context learning

投稿日: 2024年12月10日作成者: jarxiv

要約文脈内のいくつかの例からタスクを学習する言語モデルの機能は、大きな関心を集 … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

「cs.LG」カテゴリーアーカイブ

Integrating Expert Labels into LLM-based Emission Goal Detection: Example Selection vs Automatic Prompt Design

Gated Delta Networks: Improving Mamba2 with Delta Rule

LOLA — An Open-Source Massively Multilingual Large Language Model

Speech Robust Bench: A Robustness Benchmark For Speech Recognition

Imitating Language via Scalable Inverse Reinforcement Learning

Understanding Factual Recall in Transformers via Associative Memories

Copyright-Protected Language Generation via Adaptive Model Fusion

How transformers learn structured data: insights from hierarchical filtering

I Don’t Know: Explicit Modeling of Uncertainty with an [IDK] Token

The broader spectrum of in-context learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー