cs.CV」カテゴリーアーカイブ

AV-Flow: Transforming Text to Audio-Visual Human-like Interactions

要約 テキスト入力のみが与えられた写真と現実的な4Dトーキングアバターをアニメー … 続きを読む

カテゴリー: cs.CV | AV-Flow: Transforming Text to Audio-Visual Human-like Interactions はコメントを受け付けていません

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

要約 空間インテリジェンスは、具体化されたAIの重要なコンポーネントであり、ロボ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation はコメントを受け付けていません

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

要約 既存のエンドツーエンドの自律運転(AD)アルゴリズムは通常、模倣学習(IL … 続きを読む

カテゴリー: cs.CV, cs.RO | RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning はコメントを受け付けていません

Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization

要約 大型ビジョン言語モデル(VLMS)の出現により、視覚的モダリティを統合する … 続きを読む

カテゴリー: cs.CV, cs.LG | Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization はコメントを受け付けていません

Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation

要約 最近のマルチモーダル大手言語モデル(MLLM)は驚くべきパフォーマンスを達 … 続きを読む

カテゴリー: cs.CV | Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation はコメントを受け付けていません

Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SciCap Challenge 2023

要約 SCICAPデータセットが2021年に開始されて以来、研究コミュニティは学 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SciCap Challenge 2023 はコメントを受け付けていません

MagicArticulate: Make Your 3D Models Articulation-Ready

要約 3Dコンテンツ作成の爆発的な成長により、静的3Dモデルを自動的に現実的なア … 続きを読む

カテゴリー: cs.CV, cs.GR | MagicArticulate: Make Your 3D Models Articulation-Ready はコメントを受け付けていません

Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras

要約 HyperComplex画像処理は、代数および幾何学的原理を含む統一された … 続きを読む

カテゴリー: cs.CV, cs.LG | Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras はコメントを受け付けていません

BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation

要約 実際のシナリオでは、通常、マルチビューカメラが微調整された操作タスクに採用 … 続きを読む

カテゴリー: cs.CV, cs.RO | BFA: Best-Feature-Aware Fusion for Multi-View Fine-grained Manipulation はコメントを受け付けていません

Towards Real-Time Generation of Delay-Compensated Video Feeds for Outdoor Mobile Robot Teleoperation

要約 テレオ操作は、監督者が農業ロボットをリモートで制御できるようにするための重 … 続きを読む

カテゴリー: cs.CV, cs.RO | Towards Real-Time Generation of Delay-Compensated Video Feeds for Outdoor Mobile Robot Teleoperation はコメントを受け付けていません