「cs.AI」カテゴリーアーカイブ

Analyzing The Language of Visual Tokens

投稿日: 2024年11月8日作成者: jarxiv

要約 LLaVA や Chameleon など、視覚および言語タスク用のトランス … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

投稿日: 2024年11月8日作成者: jarxiv

要約最近、ビデオモデリングの進歩により、生成されたビデオ内でカメラの軌道を制 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

MEG: Medical Knowledge-Augmented Large Language Models for Question Answering

投稿日: 2024年11月8日作成者: jarxiv

要約質問応答は、明示的なコンテキストと、明言されていない関連分野の知識の両方に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

TableGPT2: A Large Multimodal Model with Tabular Data Integration

投稿日: 2024年11月8日作成者: jarxiv

要約 GPT、Claude、LLaMA、Qwen などのモデルの出現により、AI … 続きを読む →

カテゴリー: cs.AI, cs.DB, cs.LG | コメントを受け付けていません

A Collaborative Content Moderation Framework for Toxicity Detection based on Conformalized Estimates of Annotation Disagreement

投稿日: 2024年11月8日作成者: jarxiv

要約コンテンツのモデレーションは通常、人間のモデレーターと機械学習モデルの取り … 続きを読む →

カテゴリー: (Primary), cs.AI, cs.CL, cs.HC, I.2.1 | コメントを受け付けていません

How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis

投稿日: 2024年11月8日作成者: jarxiv

要約大規模言語モデル (LLM) は、計画と推論を必要とするタスクで驚くべきパ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting

投稿日: 2024年11月8日作成者: jarxiv

要約この論文では、GS2Pose と呼ばれる、新しいオブジェクトの正確かつロバ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

投稿日: 2024年11月7日作成者: jarxiv

要約強化学習 (RL) は、複雑なロボット操作スキルの自律的な習得を可能にする … 続きを読む →

カテゴリー: cs.AI, cs.RO | コメントを受け付けていません

Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

投稿日: 2024年11月7日作成者: jarxiv

要約このペーパーでは、Hunyuan-Large について紹介します。これは現 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

投稿日: 2024年11月7日作成者: jarxiv

要約最近、単一の統合モデルを使用してさまざまなオーディオタスクに同時に取り組 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Analyzing The Language of Visual Tokens

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

MEG: Medical Knowledge-Augmented Large Language Models for Question Answering

TableGPT2: A Large Multimodal Model with Tabular Data Integration

A Collaborative Content Moderation Framework for Toxicity Detection based on Conformalized Estimates of Annotation Disagreement

How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis

GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー