月別アーカイブ: 2025年1月

ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning

投稿日: 2025年1月27日作成者: jarxiv

要約取得したデータを使用した最近の軽量画像キャプションモデルは、主にテキスト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

3DLabelProp: Geometric-Driven Domain Generalization for LiDAR Semantic Segmentation in Autonomous Driving

投稿日: 2025年1月27日作成者: jarxiv

要約ドメイン一般化の目的は、トレーニングデータセットと推論データセットの間で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations

投稿日: 2025年1月27日作成者: jarxiv

要約参照ビデオオブジェクトセグメンテーション（RVOS）は、テキストの説明に基 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Token Turing Machines are Efficient Vision Models

投稿日: 2025年1月27日作成者: jarxiv

要約私たちは、効率的で低遅延のメモリ拡張型ビジョントランスフォーマー (Vi … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation

投稿日: 2025年1月27日作成者: jarxiv

要約オーディオによって駆動される話すアバターを生成することは、依然として大きな … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

From One to the Power of Many: Invariance to Multi-LiDAR Perception from Single-Sensor Datasets

投稿日: 2025年1月27日作成者: jarxiv

要約最近、ディープニューラルネットワークを活用した自動運転車用の LiDA … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Towards Unified Structured Light Optimization

投稿日: 2025年1月27日作成者: jarxiv

要約ストラクチャードライト (SL) 3D 再構成は、物体の正確な表面形状を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Hierarchical Vector Quantization for Unsupervised Action Segmentation

投稿日: 2025年1月27日作成者: jarxiv

要約この研究では、教師なし時間アクションセグメンテーションに取り組みます。こ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MatAnyone: Stable Video Matting with Consistent Memory Propagation

投稿日: 2025年1月27日作成者: jarxiv

要約入力フレームのみに依存する補助のないヒューマンビデオマッティング手法は … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

投稿日: 2025年1月27日作成者: jarxiv

要約注意ベースの方法は、従来の幾何学的深部学習（GDL）モデルを上回り、球状の … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年1月

ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning

3DLabelProp: Geometric-Driven Domain Generalization for LiDAR Semantic Segmentation in Autonomous Driving

ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations

Token Turing Machines are Efficient Vision Models

SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation

From One to the Power of Many: Invariance to Multi-LiDAR Perception from Single-Sensor Datasets

Towards Unified Structured Light Optimization

Hierarchical Vector Quantization for Unsupervised Action Segmentation

MatAnyone: Stable Video Matting with Consistent Memory Propagation

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

最近の投稿

最近のコメント

アーカイブ

カテゴリー