月別アーカイブ: 2025年1月

ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning

要約 取得したデータを使用した最近の軽量画像キャプション モデルは、主にテキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning はコメントを受け付けていません

3DLabelProp: Geometric-Driven Domain Generalization for LiDAR Semantic Segmentation in Autonomous Driving

要約 ドメイン一般化の目的は、トレーニング データセットと推論データセットの間で … 続きを読む

カテゴリー: cs.CV | 3DLabelProp: Geometric-Driven Domain Generalization for LiDAR Semantic Segmentation in Autonomous Driving はコメントを受け付けていません

ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations

要約 参照ビデオオブジェクトセグメンテーション(RVOS)は、テキストの説明に基 … 続きを読む

カテゴリー: cs.CV | ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations はコメントを受け付けていません

Token Turing Machines are Efficient Vision Models

要約 私たちは、効率的で低遅延のメモリ拡張型ビジョン トランスフォーマー (Vi … 続きを読む

カテゴリー: cs.CV, cs.LG | Token Turing Machines are Efficient Vision Models はコメントを受け付けていません

SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation

要約 オーディオによって駆動される話すアバターを生成することは、依然として大きな … 続きを読む

カテゴリー: cs.CV | SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation はコメントを受け付けていません

From One to the Power of Many: Invariance to Multi-LiDAR Perception from Single-Sensor Datasets

要約 最近、ディープ ニューラル ネットワークを活用した自動運転車用の LiDA … 続きを読む

カテゴリー: cs.CV, cs.RO | From One to the Power of Many: Invariance to Multi-LiDAR Perception from Single-Sensor Datasets はコメントを受け付けていません

Towards Unified Structured Light Optimization

要約 ストラクチャード ライト (SL) 3D 再構成は、物体の正確な表面形状を … 続きを読む

カテゴリー: cs.CV | Towards Unified Structured Light Optimization はコメントを受け付けていません

Hierarchical Vector Quantization for Unsupervised Action Segmentation

要約 この研究では、教師なし時間アクション セグメンテーションに取り組みます。こ … 続きを読む

カテゴリー: cs.CV | Hierarchical Vector Quantization for Unsupervised Action Segmentation はコメントを受け付けていません

MatAnyone: Stable Video Matting with Consistent Memory Propagation

要約 入力フレームのみに依存する補助のないヒューマン ビデオ マッティング手法は … 続きを読む

カテゴリー: cs.CV | MatAnyone: Stable Video Matting with Consistent Memory Propagation はコメントを受け付けていません

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

要約 注意ベースの方法は、従来の幾何学的深部学習(GDL)モデルを上回り、球状の … 続きを読む

カテゴリー: cs.AI, cs.CV | Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation はコメントを受け付けていません