cs.CV」カテゴリーアーカイブ

Towards Real-Time Open-Vocabulary Video Instance Segmentation

要約 このペーパーでは、オープン語彙ビデオ インスタンス セグメンテーション ( … 続きを読む

カテゴリー: cs.CV | Towards Real-Time Open-Vocabulary Video Instance Segmentation はコメントを受け付けていません

Map It Anywhere (MIA): Empowering Bird’s Eye View Mapping using Large-scale Public Data

要約 トップダウンの鳥瞰図 (BEV) マップは、下流タスクの豊富さと柔軟性によ … 続きを読む

カテゴリー: cs.CV | Map It Anywhere (MIA): Empowering Bird’s Eye View Mapping using Large-scale Public Data はコメントを受け付けていません

GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration

要約 テキストからビデオへの生成モデルは、近年大幅な進歩を示しています。 しかし … 続きを読む

カテゴリー: cs.CV | GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration はコメントを受け付けていません

Learning Artistic Signatures: Symmetry Discovery and Style Transfer

要約 スタイルの伝達に関する文献は 10 年近くにもわたって存在していますが、芸 … 続きを読む

カテゴリー: cs.CV | Learning Artistic Signatures: Symmetry Discovery and Style Transfer はコメントを受け付けていません

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

要約 広範なコーパスで事前トレーニングされた大規模言語モデルの最近の開発では、最 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Moto: Latent Motion Token as the Bridging Language for Robot Manipulation はコメントを受け付けていません

DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models

要約 ビデオは、その性質上、本質的に時間的なシーケンスです。 この研究では、自然 … 続きを読む

カテゴリー: cs.CV | DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models はコメントを受け付けていません

EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios

要約 最近、大規模言語モデルの力を活用したマルチモーダル大規模言語モデルの出現に … 続きを読む

カテゴリー: cs.AI, cs.CV | EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios はコメントを受け付けていません

MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation

要約 ビデオ普及モデルの最近の進歩により、リアルなオーディオ主導のトーキングビデ … 続きを読む

カテゴリー: cs.CV | MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation はコメントを受け付けていません

p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay

要約 多様なタスクにわたるマルチモーダル大規模言語モデル (MLLM) の優れた … 続きを読む

カテゴリー: cs.CL, cs.CV | p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay はコメントを受け付けていません

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

要約 この論文は、脚式ロボットによる視覚と言語のナビゲーションの問題を解決するこ … 続きを読む

カテゴリー: cs.CV, cs.RO | NaVILA: Legged Robot Vision-Language-Action Model for Navigation はコメントを受け付けていません