I.2.10」カテゴリーアーカイブ

Memory-Efficient Differentially Private Training with Gradient Random Projection

要約 差動プライバシー(DP)は、ニューラルネットワークトレーニング中に機密デー … 続きを読む

カテゴリー: cs.LG, I.2.10 | コメントする

SuperPoint-SLAM3: Augmenting ORB-SLAM3 with Deep Features, Adaptive NMS, and Learning-Based Loop Closure

要約 視覚的な同時ローカリゼーションとマッピング(SLAM)は、極端な視点、スケ … 続きを読む

カテゴリー: cs.CV, cs.RO, I.2.10 | コメントする

CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models

要約 物理世界での因果関係のモデルの理解をプローブする質問回答ペアで構成されるビ … 続きを読む

カテゴリー: cs.AI, cs.CV, I.2.10 | CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models はコメントを受け付けていません

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

要約 医学的視覚的質問応答(MEDVQA)は、臨床的意思決定支援システムを開発す … 続きを読む

カテゴリー: 68T45, 92C55, cs.CV, cs.LG, I.2.10 | Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy はコメントを受け付けていません

Taking Flight with Dialogue: Enabling Natural Language Control for PX4-based Drone Agent

要約 エージェントおよび物理的人工知能(AI)の最近の進歩は、ヒューマノイドや車 … 続きを読む

カテゴリー: cs.RO, I.2.10 | Taking Flight with Dialogue: Enabling Natural Language Control for PX4-based Drone Agent はコメントを受け付けていません

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

要約 ライティングアシスタント(Grammarly、Microsoft Copi … 続きを読む

カテゴリー: 68T50, cs.AI, cs.CL, cs.CV, I.2.10 | RONA: Pragmatically Diverse Image Captioning with Coherence Relations はコメントを受け付けていません

CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?

要約 マルチモーダル大手言語モデル(MLLM)は、多様な問題ドメイン全体で優れた … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? はコメントを受け付けていません

OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis

要約 ナビゲーション、操作、およびビジョンモデルの急速な進歩により、多くの特殊な … 続きを読む

カテゴリー: cs.AI, cs.RO, I.2.10 | OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis はコメントを受け付けていません

ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving

要約 強力なビジョン言語の推論と一般化能力により、マルチモーダルの大手言語モデル … 続きを読む

カテゴリー: 68T40(Primary), 68T45, 68T50(Secondary), cs.AI, cs.CV, cs.RO, I.2.10 | ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving はコメントを受け付けていません

NFIG: Autoregressive Image Generation with Next-Frequency Prediction

要約 自己回帰モデルは、自然言語処理において有望な結果を達成しています。 ただし … 続きを読む

カテゴリー: 68T07, cs.AI, cs.CV, I.2.10 | NFIG: Autoregressive Image Generation with Next-Frequency Prediction はコメントを受け付けていません