-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models
要約 最も一般的な原発性骨癌である骨肉腫では、効果的な治療計画と予後のために、し … 続きを読む
カテゴリー: cs.CV
Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models はコメントを受け付けていません
VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment
要約 単眼映像から正確な3Dモデルを効率的に再構成することは、コンピュータビジョ … 続きを読む
カテゴリー: cs.CV
VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment はコメントを受け付けていません
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation
要約 テキスト-画像拡散モデルから得られる注意マップにおける視覚-テキスト相関は … 続きを読む
カテゴリー: cs.CV
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation はコメントを受け付けていません
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む
SVFR: A Unified Framework for Generalized Video Face Restoration
要約 顔復元(Face Restoration:FR)は、劣化した入力から高品質 … 続きを読む
Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions
要約 生成されたビデオ内の動的オブジェクトとカメラの動きを制御することは、有意義 … 続きを読む
カテゴリー: cs.CV
Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions はコメントを受け付けていません
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models
要約 近年、2次元視覚言語モデル(VLM)は、画像とテキストの理解タスクにおいて … 続きを読む
カテゴリー: cs.CV
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models はコメントを受け付けていません
TrajLearn: Trajectory Prediction Learning using Deep Generative Models
要約 軌跡予測は、現在位置と過去の移動データを用いてエンティティの将来の経路を推 … 続きを読む
Predicate Invention from Pixels via Pretrained Vision-Language Models
要約 我々の目的は、画像という形の生のセンサー入力が与えられた、変動が激しく、組 … 続きを読む
PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM
要約 連続したビデオデータから3Dシーンの幾何学的、意味的、およびインスタンス情 … 続きを読む