「cs.CV」カテゴリーアーカイブ

GrowSplat: Constructing Temporal Digital Twins of Plants with Gaussian Splats

投稿日: 2025年5月30日作成者: jarxiv

要約植物の成長の正確な時間的再構成は、植物の表現型と繁殖には不可欠ですが、植物 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes

投稿日: 2025年5月30日作成者: jarxiv

要約モバイル操作タスクにおける全身モーション生成のための新しいベンチマークであ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

TrackVLA: Embodied Visual Tracking in the Wild

投稿日: 2025年5月30日作成者: jarxiv

要約具体化された視覚追跡は、具体化されたAIの基本的なスキルであり、エージェン … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Information Entropy Guided Height-aware Histogram for Quantization-friendly Pillar Feature Encoder

投稿日: 2025年5月30日作成者: jarxiv

要約リアルタイムおよび高性能3Dオブジェクト検出は、自律運転とロボット工学にお … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies

投稿日: 2025年5月30日作成者: jarxiv

要約イベントカメラは、マイクロ秒レベルの時間分解能と非同期操作のおかげで、動的 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding

投稿日: 2025年5月30日作成者: jarxiv

要約 3D Visual Grounding（3DVG）は、拡張現実やロボット工 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

投稿日: 2025年5月30日作成者: jarxiv

要約ルールベースの強化学習（RL）をマルチモーダル大手言語モデル（MLLMS） … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Autoregressive Meta-Actions for Unified Controllable Trajectory Generation

投稿日: 2025年5月30日作成者: jarxiv

要約メタアクションと呼ばれる高レベルのセマンティック決定に導かれた制御可能な軌 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

投稿日: 2025年5月30日作成者: jarxiv

要約効果的なビデオトークン化は、長いビデオのトランスモデルをスケーリングするた … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

ZeroSep: Separate Anything in Audio with Zero Training

投稿日: 2025年5月30日作成者: jarxiv

要約オーディオソースの分離は、マシンが複雑な音響環境を理解し、多数のオーディオ … 続きを読む →

カテゴリー: cs.CV, cs.SD | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

GrowSplat: Constructing Temporal Digital Twins of Plants with Gaussian Splats

M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes

TrackVLA: Embodied Visual Tracking in the Wild

Information Entropy Guided Height-aware Histogram for Quantization-friendly Pillar Feature Encoder

FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies

SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

Autoregressive Meta-Actions for Unified Controllable Trajectory Generation

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

ZeroSep: Separate Anything in Audio with Zero Training

最近の投稿

最近のコメント

アーカイブ

カテゴリー