cs.AI」カテゴリーアーカイブ

Analyzing The Language of Visual Tokens

要約 LLaVA や Chameleon など、視覚および言語タスク用のトランス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Analyzing The Language of Visual Tokens はコメントを受け付けていません

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

要約 最近、ビデオ モデリングの進歩により、生成されたビデオ内でカメラの軌道を制 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning はコメントを受け付けていません

MEG: Medical Knowledge-Augmented Large Language Models for Question Answering

要約 質問応答は、明示的なコンテキストと、明言されていない関連分野の知識の両方に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | MEG: Medical Knowledge-Augmented Large Language Models for Question Answering はコメントを受け付けていません

TableGPT2: A Large Multimodal Model with Tabular Data Integration

要約 GPT、Claude、LLaMA、Qwen などのモデルの出現により、AI … 続きを読む

カテゴリー: cs.AI, cs.DB, cs.LG | TableGPT2: A Large Multimodal Model with Tabular Data Integration はコメントを受け付けていません

A Collaborative Content Moderation Framework for Toxicity Detection based on Conformalized Estimates of Annotation Disagreement

要約 コンテンツのモデレーションは通常、人間のモデレーターと機械学習モデルの取り … 続きを読む

カテゴリー: (Primary), cs.AI, cs.CL, cs.HC, I.2.1 | A Collaborative Content Moderation Framework for Toxicity Detection based on Conformalized Estimates of Annotation Disagreement はコメントを受け付けていません

How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis

要約 大規模言語モデル (LLM) は、計画と推論を必要とするタスクで驚くべきパ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis はコメントを受け付けていません

GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting

要約 この論文では、GS2Pose と呼ばれる、新しいオブジェクトの正確かつロバ … 続きを読む

カテゴリー: cs.AI, cs.CV | GS2Pose: Two-stage 6D Object Pose Estimation Guided by Gaussian Splatting はコメントを受け付けていません

Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning

要約 強化学習 (RL) は、複雑なロボット操作スキルの自律的な習得を可能にする … 続きを読む

カテゴリー: cs.AI, cs.RO | Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning はコメントを受け付けていません

Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

要約 このペーパーでは、Hunyuan-Large について紹介します。これは現 … 続きを読む

カテゴリー: cs.AI, cs.CL | Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent はコメントを受け付けていません

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models はコメントを受け付けていません