-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年5月
RACCooN: Remove, Add, and Change Video Content with Auto-Generated Narratives
要約 最近のビデオ生成モデルは主に、修復やスタイル編集などの特定のタスクについて … 続きを読む
Phased Consistency Model
要約 一貫性モデル (CM) は最近、拡散モデルの生成を加速する上で大きな進歩を … 続きを読む
Towards a Sampling Theory for Implicit Neural Representations
要約 暗黙的ニューラル表現 (INR) は、コンピューター ビジョンやコンピュー … 続きを読む
DCT-Based Decorrelated Attention for Vision Transformers
要約 Transformer アーキテクチャの有効性の中心となるのは、セルフ ア … 続きを読む
Why are Visually-Grounded Language Models Bad at Image Classification?
要約 画像分類は、マシン ビジョン インテリジェンスの最も基本的な機能の 1 つ … 続きを読む
3D StreetUnveiler with Semantic-Aware 2DGS
要約 自動運転には、車載カメラで捉えた混雑した観察結果から人のいない街路を明らか … 続きを読む
カテゴリー: cs.CV
3D StreetUnveiler with Semantic-Aware 2DGS はコメントを受け付けていません
Hierarchical World Models as Visual Whole-Body Humanoid Controllers
要約 ヒューマノイドの全身制御は、問題の高次元な性質と、二足歩行の形態に固有の不 … 続きを読む
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting
要約 シーン画像の編集は、エンターテインメント、写真、広告デザインにとって重要で … 続きを読む
カテゴリー: cs.CV
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting はコメントを受け付けていません
ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention
要約 最近、線形複雑性シーケンス モデリング ネットワークは、FLOP とメモリ … 続きを読む
GFlow: Recovering 4D World from Monocular Video
要約 ビデオ入力から 4D シーンを再構築することは、重要かつ困難な作業です。 … 続きを読む