-
最近の投稿
- A Data-Driven Modeling and Motion Control of Heavy-Load Hydraulic Manipulators via Reversible Transformation
- Data-Driven Multi-step Nonlinear Model Predictive Control for Industrial Heavy Load Hydraulic Robot
- Image Compression Using Novel View Synthesis Priors
- OTO Planner: An Efficient Only Travelling Once Exploration Planner for Complex and Unknown Environments
- t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving
-
最近のコメント
表示できるコメントはありません。 cs.AI (29990) cs.CL (22653) cs.CR (2325) cs.CV (36362) cs.LG (34812) cs.RO (17416) cs.SY (2673) eess.IV (4425) eess.SY (2667) stat.ML (4642)
月別アーカイブ: 2024年5月
Don’t drop your samples! Coherence-aware training benefits Conditional diffusion
要約 条件付き拡散モデルは、クラス ラベル、セグメンテーション マスク、テキスト … 続きを読む
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion
要約 ビデオ属性の変更における拡散ベースのビデオ編集モデルの目覚ましい進歩にもか … 続きを読む
GECO: Generative Image-to-3D within a SECOnd
要約 近年、3D世代の進歩は目覚ましいものがあります。 スコア蒸留法などの既存の … 続きを読む
カテゴリー: cs.CV
GECO: Generative Image-to-3D within a SECOnd はコメントを受け付けていません
4DHands: Reconstructing Interactive Hands in 4D with Transformers
要約 この論文では、インタラクティブなハンド メッシュとその相対的な動きを単眼入 … 続きを読む
SurgiTrack: Fine-Grained Multi-Class Multi-Tool Tracking in Surgical Videos
要約 コンピュータ支援介入を成功させるには、ツールの正確な追跡が不可欠です。 こ … 続きを読む
カテゴリー: cs.CV
SurgiTrack: Fine-Grained Multi-Class Multi-Tool Tracking in Surgical Videos はコメントを受け付けていません
VividDream: Generating 3D Scene with Ambient Dynamics
要約 単一の入力画像またはテキスト プロンプトからアンビエント ダイナミクスを備 … 続きを読む
RapVerse: Coherent Vocals and Whole-Body Motions Generations from Text
要約 この作品では、テキストの歌詞入力から直接 3D の全体的な体の動きを生成し … 続きを読む
OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving
要約 効果的な自動運転には、3D シーンの進化を理解することが重要です。 従来の … 続きを読む
Visual Perception by Large Language Model’s Weights
要約 既存のマルチモーダル大規模言語モデル (MLLM) は、視覚特徴を大規模言 … 続きを読む
カテゴリー: cs.CV
Visual Perception by Large Language Model’s Weights はコメントを受け付けていません
MotionLLM: Understanding Human Behaviors from Human Motions and Videos
要約 この研究では、大規模言語モデル (LLM) の強力な機能を活用して、マルチ … 続きを読む
カテゴリー: cs.CV
MotionLLM: Understanding Human Behaviors from Human Motions and Videos はコメントを受け付けていません