投稿者「jarxiv」のアーカイブ

Understanding Long Videos with Multimodal Language Models

要約 大規模な言語モデル(LLM)により、最近のLLMベースのアプローチが可能に … 続きを読む

カテゴリー: cs.CV | Understanding Long Videos with Multimodal Language Models はコメントを受け付けていません

Efficient Part-level 3D Object Generation via Dual Volume Packing

要約 3Dオブジェクトの生成の最近の進歩により、品質と効率の両方が大幅に改善され … 続きを読む

カテゴリー: cs.CV | Efficient Part-level 3D Object Generation via Dual Volume Packing はコメントを受け付けていません

ReSim: Reliable World Simulation for Autonomous Driving

要約 幅広いエゴ運転行動の下で、将来の運転シナリオをどのように確実にシミュレート … 続きを読む

カテゴリー: cs.CV, cs.RO | ReSim: Reliable World Simulation for Autonomous Driving はコメントを受け付けていません

AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation

要約 4Dコンテンツ生成の最近の進歩により、注目が高まっていますが、高品質のアニ … 続きを読む

カテゴリー: cs.CV | AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation はコメントを受け付けていません

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

要約 現代のAIの主な課題は、世界を理解し、観察によって主に行動することを学ぶこ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning はコメントを受け付けていません

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

要約 豊富なマルチモーダル条件を備えたエンドツーエンドの人間のアニメーション、例 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD | InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions はコメントを受け付けていません

A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs

要約 ビデオ言語モデルの時空間的理解と推論能力を評価するための既存のベンチマーク … 続きを読む

カテゴリー: cs.CV, cs.LG | A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs はコメントを受け付けていません

EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits

要約 生成AIの最近の進歩に支えられたテキスト誘導画像編集は、ますます広まってい … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits はコメントを受け付けていません

Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes

要約 次の質問をすることにより、3Dシーンの再構成をインタラクティブに再構築する … 続きを読む

カテゴリー: cs.CV | Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes はコメントを受け付けていません

Spectral Image Tokenizer

要約 画像トークナーは、画像を離散トークンのシーケンスにマッピングし、自己回帰ト … 続きを読む

カテゴリー: cs.CV, cs.LG | Spectral Image Tokenizer はコメントを受け付けていません