月別アーカイブ: 2023年3月

CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition

投稿日: 2023年3月21日作成者: jarxiv

要約 CLIP のようなビジョン言語モデルは、その印象的なゼロショット機能により … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Generative Semantic Segmentation

投稿日: 2023年3月21日作成者: jarxiv

要約セマンティックセグメンテーションの生成的学習アプローチである Gener … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ScribbleSeg: Scribble-based Interactive Image Segmentation

投稿日: 2023年3月21日作成者: jarxiv

要約インタラクティブなセグメンテーションにより、ボックス、クリック、走り書きな … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Open-vocabulary Panoptic Segmentation with Embedding Modulation

投稿日: 2023年3月21日作成者: jarxiv

要約オープンボキャブラリー画像セグメンテーションは、現実世界での重要なアプリケ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Towards Better 3D Knowledge Transfer via Masked Image Modeling for Multi-view 3D Understanding

投稿日: 2023年3月21日作成者: jarxiv

要約マルチビューカメラベースの 3D 検出は、コンピュータービジョンにお … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

3D Concept Learning and Reasoning from Multi-View Images

投稿日: 2023年3月21日作成者: jarxiv

要約人間は、周囲の世界の多視点観察を収集することにより、3D で正確に推論する … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Zero-1-to-3: Zero-shot One Image to 3D Object

投稿日: 2023年3月21日作成者: jarxiv

要約単一の RGB 画像が与えられたときにオブジェクトのカメラ視点を変更するた … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.RO | コメントを受け付けていません

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

投稿日: 2023年3月21日作成者: jarxiv

要約私たちが知覚する画像と音は、頭を回転させると、微妙ではあるが幾何学的に一貫 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Legs as Manipulator: Pushing Quadrupedal Agility Beyond Locomotion

投稿日: 2023年3月21日作成者: jarxiv

要約ロコモーションは、困難な地形を歩いたり走ったりするための劇的な進歩を遂げて … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | コメントを受け付けていません

EVA-02: A Visual Representation for Neon Genesis

投稿日: 2023年3月21日作成者: jarxiv

要約 EVA-02 は次世代の Transformer ベースの視覚的表現であり … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

月別アーカイブ: 2023年3月

CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition

Generative Semantic Segmentation

ScribbleSeg: Scribble-based Interactive Image Segmentation

Open-vocabulary Panoptic Segmentation with Embedding Modulation

Towards Better 3D Knowledge Transfer via Masked Image Modeling for Multi-view 3D Understanding

3D Concept Learning and Reasoning from Multi-View Images

Zero-1-to-3: Zero-shot One Image to 3D Object

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

Legs as Manipulator: Pushing Quadrupedal Agility Beyond Locomotion

EVA-02: A Visual Representation for Neon Genesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー