cs.LG」カテゴリーアーカイブ

ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models

要約 画像のシーケンス上の推論は、マルチモーダルの大手言語モデル(MLLMS)に … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models はコメントを受け付けていません

Canonical Latent Representations in Conditional Diffusion Models

要約 条件付き拡散モデル(CDM)は、さまざまな生成タスクで印象的なパフォーマン … 続きを読む

カテゴリー: cs.CV, cs.LG | Canonical Latent Representations in Conditional Diffusion Models はコメントを受け付けていません

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

要約 医学的視覚的質問応答(MEDVQA)は、臨床的意思決定支援システムを開発す … 続きを読む

カテゴリー: 68T45, 92C55, cs.CV, cs.LG, I.2.10 | Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy はコメントを受け付けていません

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

要約 現代のAIの主な課題は、世界を理解し、観察によって主に行動することを学ぶこ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning はコメントを受け付けていません

A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs

要約 ビデオ言語モデルの時空間的理解と推論能力を評価するための既存のベンチマーク … 続きを読む

カテゴリー: cs.CV, cs.LG | A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs はコメントを受け付けていません

EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits

要約 生成AIの最近の進歩に支えられたテキスト誘導画像編集は、ますます広まってい … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits はコメントを受け付けていません

Spectral Image Tokenizer

要約 画像トークナーは、画像を離散トークンのシーケンスにマッピングし、自己回帰ト … 続きを読む

カテゴリー: cs.CV, cs.LG | Spectral Image Tokenizer はコメントを受け付けていません

Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

要約 軌跡の自己回帰モデリングに基づいて構築された新しいVisuo-Motorポ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation はコメントを受け付けていません

Text-Aware Image Restoration with Diffusion Models

要約 画像修復は、劣化した画像を回復することを目的としています。 しかし、既存の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Text-Aware Image Restoration with Diffusion Models はコメントを受け付けていません

DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos

要約 変形可能なガウススプラット大きな再構成モデ​​ル(DGS-LRM)を紹介し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos はコメントを受け付けていません