投稿者「jarxiv」のアーカイブ

Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning

投稿日: 2025年3月27日作成者: jarxiv

要約視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果た … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception

投稿日: 2025年3月27日作成者: jarxiv

要約自律運転では、閉塞の課題を克服し、脆弱な道路利用者（VRUS）の安全性を高 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

投稿日: 2025年3月27日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMM）の最近の進歩は、自律運転システム（A … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data

投稿日: 2025年3月27日作成者: jarxiv

要約ビデオからの表情表現認識（FER）は、ヒューマンコンピューターの相互作用や … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

投稿日: 2025年3月27日作成者: jarxiv

要約 Vision-Language-action（VLA）モデルは、視覚的な観 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

投稿日: 2025年3月27日作成者: jarxiv

要約 2Dおよびマルチモーダルモデルの最近の進歩は、広範なデータセットでの大規模 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

BASKET: A Large-Scale Video Dataset for Fine-Grained Skill Estimation

投稿日: 2025年3月27日作成者: jarxiv

要約きめの細かいスキル推定のために、大規模なバスケットボールビデオデータセット … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

投稿日: 2025年3月27日作成者: jarxiv

要約このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

PhysAnimator: Physics-Guided Generative Cartoon Animation

投稿日: 2025年3月27日作成者: jarxiv

要約手描きのアニメーションシーケンスを作成することは労働集約的であり、専門的な … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks

投稿日: 2025年3月27日作成者: jarxiv

要約拡散モデルと3D生成技術の急速な進歩により、動的な3Dコンテンツ生成が重要 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning

R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception

ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

BASKET: A Large-Scale Video Dataset for Fine-Grained Skill Estimation

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

PhysAnimator: Physics-Guided Generative Cartoon Animation

FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks

最近の投稿

最近のコメント

アーカイブ

カテゴリー