月別アーカイブ: 2024年5月

Croissant: A Metadata Format for ML-Ready Datasets

投稿日: 2024年5月31日作成者: jarxiv

要約データは機械学習 (ML) にとって重要なリソースですが、データの操作は依 … 続きを読む →

カテゴリー: cs.AI, cs.DB, cs.IR, cs.LG | コメントを受け付けていません

Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models

投稿日: 2024年5月31日作成者: jarxiv

要約大規模言語モデル (LLM) の進歩における極めて重要な進歩は、Mixtu … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof

投稿日: 2024年5月31日作成者: jarxiv

要約深層学習における多くのアルゴリズムと観察された現象は、パラメーターの対称性 … 続きを読む →

カテゴリー: cs.AI, cs.LG, stat.ML | コメントを受け付けていません

Grokfast: Accelerated Grokking by Amplifying Slow Gradients

投稿日: 2024年5月31日作成者: jarxiv

要約機械学習におけるグロッキングと呼ばれる不可解なアーティファクトの 1 つは … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Context Injection Attacks on Large Language Models

投稿日: 2024年5月31日作成者: jarxiv

要約 ChatGPT や Llama-2 などの大規模言語モデル (LLM) は … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

Training-efficient density quantum machine learning

投稿日: 2024年5月31日作成者: jarxiv

要約量子機械学習が困難な問題を解決するには、強力で柔軟で効率的にトレーニング可 … 続きを読む →

カテゴリー: cs.AI, cs.LG, quant-ph | コメントを受け付けていません

Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use

投稿日: 2024年5月31日作成者: jarxiv

要約ビジネス文書情報抽出 (BDIE) は、非構造化情報の塊 (生のテキスト、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Formalizing and Benchmarking Prompt Injection Attacks and Defenses

投稿日: 2024年5月31日作成者: jarxiv

要約プロンプトインジェクション攻撃は、悪意のある命令/データを LLM 統合ア … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | コメントを受け付けていません

OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning

投稿日: 2024年5月31日作成者: jarxiv

要約この論文では、静的なデモンストレーションデータから模倣ポリシーを事前トレ … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Absolute Policy Optimization

投稿日: 2024年5月31日作成者: jarxiv

要約近年、信頼領域のポリシー強化学習は、複雑な制御タスクやゲームシナリオに対 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

月別アーカイブ: 2024年5月

Croissant: A Metadata Format for ML-Ready Datasets

Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models

The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof

Grokfast: Accelerated Grokking by Amplifying Slow Gradients

Context Injection Attacks on Large Language Models

Training-efficient density quantum machine learning

Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use

Formalizing and Benchmarking Prompt Injection Attacks and Defenses

OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning

Absolute Policy Optimization

最近の投稿

最近のコメント

アーカイブ

カテゴリー