月別アーカイブ: 2024年3月

TC4D: Trajectory-Conditioned Text-to-4D Generation

投稿日: 2024年3月27日作成者: jarxiv

要約テキストから 4D への生成のための最近の技術では、事前トレーニングされた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AID: Attention Interpolation of Text-to-Image Diffusion

投稿日: 2024年3月27日作成者: jarxiv

要約条件付き拡散モデルは、さまざまな設定で目に見えない画像を作成し、画像補間を … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

FastCAR: Fast Classification And Regression Multi-Task Learning via Task Consolidation for Modelling a Continuous Property Variable of Object Classes

投稿日: 2024年3月27日作成者: jarxiv

要約 FastCAR は、相関関係がわずかしかないタスクの異質性にも関わらず、分 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Towards Explaining Hypercomplex Neural Networks

投稿日: 2024年3月27日作成者: jarxiv

要約超複雑ニューラルネットワークは、深層学習コミュニティでますます関心を集め … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Track Everything Everywhere Fast and Robustly

投稿日: 2024年3月27日作成者: jarxiv

要約私たちは、ビデオ内でいつでも効率的かつ確実にピクセルを追跡するための新しい … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SLEDGE: Synthesizing Simulation Environments for Driving Agents with Generative Models

投稿日: 2024年3月27日作成者: jarxiv

要約 SLEDGE は、現実世界の運転ログでトレーニングされた、車両動作計画のた … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation

投稿日: 2024年3月27日作成者: jarxiv

要約表情豊かな人間のポーズと形状の推定 (別名 3D 全身メッシュ回復) には … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OmniVid: A Generative Framework for Universal Video Understanding

投稿日: 2024年3月27日作成者: jarxiv

要約認識、キャプション、追跡などのビデオ理解タスクの中核は、ビデオ内のオブジェ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis

投稿日: 2024年3月27日作成者: jarxiv

要約ジェスチャーは人間のコミュニケーションにおいて重要な役割を果たします。同 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Efficient Video Object Segmentation via Modulated Cross-Attention Memory

投稿日: 2024年3月27日作成者: jarxiv

要約最近、トランスフォーマーベースのアプローチは、半教師ありビデオオブジェクト … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年3月

TC4D: Trajectory-Conditioned Text-to-4D Generation

AID: Attention Interpolation of Text-to-Image Diffusion

FastCAR: Fast Classification And Regression Multi-Task Learning via Task Consolidation for Modelling a Continuous Property Variable of Object Classes

Towards Explaining Hypercomplex Neural Networks

Track Everything Everywhere Fast and Robustly

SLEDGE: Synthesizing Simulation Environments for Driving Agents with Generative Models

AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation

OmniVid: A Generative Framework for Universal Video Understanding

ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis

Efficient Video Object Segmentation via Modulated Cross-Attention Memory

最近の投稿

最近のコメント

アーカイブ

カテゴリー