月別アーカイブ: 2025年3月

R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception

投稿日: 2025年3月27日作成者: jarxiv

要約自律運転では、閉塞の課題を克服し、脆弱な道路利用者（VRUS）の安全性を高 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

投稿日: 2025年3月27日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMM）の最近の進歩は、自律運転システム（A … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data

投稿日: 2025年3月27日作成者: jarxiv

要約ビデオからの表情表現認識（FER）は、ヒューマンコンピューターの相互作用や … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

投稿日: 2025年3月27日作成者: jarxiv

要約 Vision-Language-action（VLA）モデルは、視覚的な観 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

投稿日: 2025年3月27日作成者: jarxiv

要約 2Dおよびマルチモーダルモデルの最近の進歩は、広範なデータセットでの大規模 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

BASKET: A Large-Scale Video Dataset for Fine-Grained Skill Estimation

投稿日: 2025年3月27日作成者: jarxiv

要約きめの細かいスキル推定のために、大規模なバスケットボールビデオデータセット … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

投稿日: 2025年3月27日作成者: jarxiv

要約このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

PhysAnimator: Physics-Guided Generative Cartoon Animation

投稿日: 2025年3月27日作成者: jarxiv

要約手描きのアニメーションシーケンスを作成することは労働集約的であり、専門的な … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks

投稿日: 2025年3月27日作成者: jarxiv

要約拡散モデルと3D生成技術の急速な進歩により、動的な3Dコンテンツ生成が重要 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

投稿日: 2025年3月27日作成者: jarxiv

要約単一の画像からの4Dシーン生成のための新しいチューニングフリーのフレームワ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年3月

R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception

ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

BASKET: A Large-Scale Video Dataset for Fine-Grained Skill Estimation

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

PhysAnimator: Physics-Guided Generative Cartoon Animation

FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks

Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency

最近の投稿

最近のコメント

アーカイブ

カテゴリー