-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年1月
A Multi-task Supervised Compression Model for Split Computing
要約 スプリットコンピューティング(分割学習)は、リソースに制約のあるエッジコン … 続きを読む
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization
要約 シーン座標回帰(SCR)を用いた学習ベースの視覚的定位法は、マップサイズを … 続きを読む
カテゴリー: cs.CV
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization はコメントを受け付けていません
Multi-Modal Video Feature Extraction for Popularity Prediction
要約 この研究は、動画そのものとそれに関連する特徴を用いて、短い動画の人気を予測 … 続きを読む
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
要約 Transformerアーキテクチャを持つ潜在拡散モデルは、忠実度の高い画 … 続きを読む
Object-level Visual Prompts for Compositional Image Generation
要約 我々は、テキストから画像への拡散モデルの中で、オブジェクトレベルの視覚的プ … 続きを読む
Unifying Specialized Visual Encoders for Video Language Models
要約 最近の大規模言語モデル(Large Language Models:LLM … 続きを読む
Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions
要約 生成されたビデオ内の動的オブジェクトとカメラの動きを制御することは、有意義 … 続きを読む
カテゴリー: cs.CV
Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions はコメントを受け付けていません
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control
要約 映像生成における著しい進歩にもかかわらず、与えられたオブジェクトを映像に挿 … 続きを読む
カテゴリー: cs.CV
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control はコメントを受け付けていません
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models
要約 近年、2次元視覚言語モデル(VLM)は、画像とテキストの理解タスクにおいて … 続きを読む
カテゴリー: cs.CV
GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models はコメントを受け付けていません