投稿者「jarxiv」のアーカイブ

Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning

要約 視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果た … 続きを読む

カテゴリー: cs.AI, cs.CV | Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning はコメントを受け付けていません

R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception

要約 自律運転では、閉塞の課題を克服し、脆弱な道路利用者(VRUS)の安全性を高 … 続きを読む

カテゴリー: cs.CV | R-LiViT: A LiDAR-Visual-Thermal Dataset Enabling Vulnerable Road User Focused Roadside Perception はコメントを受け付けていません

ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems

要約 大規模なマルチモーダルモデル(LMM)の最近の進歩は、自律運転システム(A … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems はコメントを受け付けていません

Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data

要約 ビデオからの表情表現認識(FER)は、ヒューマンコンピューターの相互作用や … 続きを読む

カテゴリー: cs.CV | Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data はコメントを受け付けていません

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

要約 Vision-Language-action(VLA)モデルは、視覚的な観 … 続きを読む

カテゴリー: cs.CV, cs.RO | OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction はコメントを受け付けていません

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

要約 2Dおよびマルチモーダルモデルの最近の進歩は、広範なデータセットでの大規模 … 続きを読む

カテゴリー: cs.CV | Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields はコメントを受け付けていません

BASKET: A Large-Scale Video Dataset for Fine-Grained Skill Estimation

要約 きめの細かいスキル推定のために、大規模なバスケットボールビデオデータセット … 続きを読む

カテゴリー: cs.CV | BASKET: A Large-Scale Video Dataset for Fine-Grained Skill Estimation はコメントを受け付けていません

Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising

要約 このペーパーでは、ゼロショットオーディオビデオ編集を紹介します。これは、追 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising はコメントを受け付けていません

PhysAnimator: Physics-Guided Generative Cartoon Animation

要約 手描きのアニメーションシーケンスを作成することは労働集約的であり、専門的な … 続きを読む

カテゴリー: cs.CV, cs.GR | PhysAnimator: Physics-Guided Generative Cartoon Animation はコメントを受け付けていません

FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks

要約 拡散モデルと3D生成技術の急速な進歩により、動的な3Dコンテンツ生成が重要 … 続きを読む

カテゴリー: cs.CV | FB-4D: Spatial-Temporal Coherent Dynamic 3D Content Generation with Feature Banks はコメントを受け付けていません