cs.CV」カテゴリーアーカイブ

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

要約 拡散ベースの画像生成モデルは、高品質の合成含有量の生成に優れていますが、ゆ … 続きを読む

カテゴリー: cs.CV | コメントする

Nabla-R2D3: Effective and Efficient 3D Diffusion Alignment with 2D Rewards

要約 3Dビジョンとコンピューターグラフィックスでは、高品質で光リアリスティック … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | コメントする

YOLOv11-RGBT: Towards a Comprehensive Single-Stage Multispectral Object Detection Framework

要約 複数のバンドからの情報を統合するマルチスペクトルオブジェクトの検出は、検出 … 続きを読む

カテゴリー: cs.CV | コメントする

AMPLIFY: Actionless Motion Priors for Robot Learning from Videos

要約 ロボット工学のアクション標識データは不足して高価であり、学習ポリシーの一般 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | AMPLIFY: Actionless Motion Priors for Robot Learning from Videos はコメントを受け付けていません

SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

要約 継続的な環境でのビジョンと言語のナビゲーション(VLN)には、制約のない3 … 続きを読む

カテゴリー: cs.CV, cs.RO | SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation はコメントを受け付けていません

H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

要約 視覚運動の政策学習は、ロボット操作の大きな進歩を目撃しており、最近のアプロ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning はコメントを受け付けていません

Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection

要約 ワンショットサブセット選択は、情報抽出器(つまり)によって抽出された情報に … 続きを読む

カテゴリー: cs.CV, cs.LG | Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection はコメントを受け付けていません

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

要約 高度なロボット工学にとって、接触豊富な相互作用による器用な操作が重要です。 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation はコメントを受け付けていません

FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing

要約 Floweditなどのフローベースの画像編集方法は、安定した拡散3などの事 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing はコメントを受け付けていません

I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs

要約 既存の3Dビジュアル接地方法は、3Dシーン内でオブジェクトを見つけるために … 続きを読む

カテゴリー: cs.CV | I Speak and You Find: Robust 3D Visual Grounding with Noisy and Ambiguous Speech Inputs はコメントを受け付けていません