cs.CV」カテゴリーアーカイブ

VidTwin: Video VAE with Decoupled Structure and Dynamics

要約 ビデオ オートエンコーダ (ビデオ AE) の最近の進歩により、ビデオ生成 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | VidTwin: Video VAE with Decoupled Structure and Dynamics はコメントを受け付けていません

Mimicking-Bench: A Benchmark for Generalizable Humanoid-Scene Interaction Learning via Human Mimicking

要約 人間のデータを模倣して 3D シーンと対話するヒューマノイド ロボットの一 … 続きを読む

カテゴリー: cs.CV, cs.RO | Mimicking-Bench: A Benchmark for Generalizable Humanoid-Scene Interaction Learning via Human Mimicking はコメントを受け付けていません

DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions

要約 3D で自然な手とオブジェクトのインタラクションを生成することは、結果とし … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | DiffH2O: Diffusion-Based Synthesis of Hand-Object Interactions from Textual Descriptions はコメントを受け付けていません

Reasoning to Attend: Try to Understand How Token Works

要約 現在の大規模マルチモーダル モデル (LMM) で強化された視覚的グラウン … 続きを読む

カテゴリー: cs.CV | Reasoning to Attend: Try to Understand How Token Works はコメントを受け付けていません

Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy

要約 人工知能の急速に進化している分野であるマルチモーダル学習は、テキスト、画像 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy はコメントを受け付けていません

ActiveGS: Active Scene Reconstruction using Gaussian Splatting

要約 ロボット工学アプリケーションは多くの場合、下流のタスクを可能にするためにシ … 続きを読む

カテゴリー: cs.CV, cs.RO | ActiveGS: Active Scene Reconstruction using Gaussian Splatting はコメントを受け付けていません

Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective

要約 最近の Large Vision-Language Model (LVLM … 続きを読む

カテゴリー: cs.CL, cs.CV | Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective はコメントを受け付けていません

Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection

要約 モデルが広大なオープンワールド カテゴリを認識できるようにすることは、物体 … 続きを読む

カテゴリー: cs.CV | Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection はコメントを受け付けていません

GauSim: Registering Elastic Objects into Digital World by Gaussian Simulator

要約 この研究では、ガウス カーネルを通じて表現される現実世界の弾性オブジェクト … 続きを読む

カテゴリー: cs.CV, cs.GR | GauSim: Registering Elastic Objects into Digital World by Gaussian Simulator はコメントを受け付けていません

Large Motion Video Autoencoding with Cross-modal Video VAE

要約 ビデオの冗長性を減らし、効率的なビデオ生成を促進するには、堅牢なビデオ変分 … 続きを読む

カテゴリー: cs.CV | Large Motion Video Autoencoding with Cross-modal Video VAE はコメントを受け付けていません