月別アーカイブ: 2024年3月

Score-Guided Diffusion for 3D Human Recovery

投稿日: 2024年3月15日作成者: jarxiv

要約 3D 人間のポーズと形状の再構成の逆問題を解決するためのアプローチである、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation

投稿日: 2024年3月15日作成者: jarxiv

要約近年、3D 生成モデルの強力なパワーが実証されており、ユーザーが 1 つの … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

投稿日: 2024年3月15日作成者: jarxiv

要約ビデオを理解することはコンピュータービジョン研究の基本的な方向性の 1 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting

投稿日: 2024年3月15日作成者: jarxiv

要約テキストプロンプトからリアルな 3D 人間を生成することは、望ましいこと … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Generalized Predictive Model for Autonomous Driving

投稿日: 2024年3月15日作成者: jarxiv

要約この論文では、自動運転分野における初の大規模ビデオ予測モデルを紹介します。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

3D-VLA: A 3D Vision-Language-Action Generative World Model

投稿日: 2024年3月15日作成者: jarxiv

要約最近のビジョン言語アクション (VLA) モデルは 2D 入力に依存してお … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | コメントを受け付けていません

Holo-Relighting: Controllable Volumetric Portrait Relighting from a Single Image

投稿日: 2024年3月15日作成者: jarxiv

要約ポートレート写真の核心は、理想的な照明と視点の探求です。このプロセスでは … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning

投稿日: 2024年3月15日作成者: jarxiv

要約視覚オブジェクト追跡は、最初のフレームでの最初の出現に基づいて各フレームの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models

投稿日: 2024年3月15日作成者: jarxiv

要約変圧器モデルは大成功を収めているにもかかわらず、依然として詳細に拡張するこ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, I.2.10 | コメントを受け付けていません

A Data Perspective on Enhanced Identity Preservation for Diffusion Personalization

投稿日: 2024年3月15日作成者: jarxiv

要約大規模なテキストから画像へのモデルは、自然言語を使用して画像を生成する機能 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年3月

Score-Guided Diffusion for 3D Human Recovery

Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation

Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding

HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting

Generalized Predictive Model for Autonomous Driving

3D-VLA: A 3D Vision-Language-Action Generative World Model

Holo-Relighting: Controllable Volumetric Portrait Relighting from a Single Image

OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning

Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models

A Data Perspective on Enhanced Identity Preservation for Diffusion Personalization

最近の投稿

最近のコメント

アーカイブ

カテゴリー