-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年6月
Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems
要約 この研究では、多段階の意思決定タスクに直面したときの変圧器の訓練損失の急速 … 続きを読む
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
要約 ShareGPT4Video シリーズを紹介します。これは、高密度で正確な … 続きを読む
カテゴリー: cs.CV
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions はコメントを受け付けていません
Parameter-Inverted Image Pyramid Networks
要約 画像ピラミッドは、画像を正確に理解するためにマルチスケール特徴を取得するた … 続きを読む
カテゴリー: cs.CV
Parameter-Inverted Image Pyramid Networks はコメントを受け付けていません
BitsFusion: 1.99 bits Weight Quantization of Diffusion Model
要約 拡散ベースの画像生成モデルは、高品質のコンテンツを合成する機能を示すことに … 続きを読む
カテゴリー: cs.CV
BitsFusion: 1.99 bits Weight Quantization of Diffusion Model はコメントを受け付けていません
Coarse-To-Fine Tensor Trains for Compact Visual Representations
要約 ビジュアル データのコンパクトで高品質、最適化が容易な表現を学習する機能は … 続きを読む
DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs
要約 ほとんどの大規模マルチモーダル モデル (LMM) は、ビジュアル トーク … 続きを読む
カテゴリー: cs.CV
DeepStack: Deeply Stacking Visual Tokens is Surprisingly Simple and Effective for LMMs はコメントを受け付けていません
Coherent Zero-Shot Visual Instruction Generation
要約 テキストから画像への合成、特に拡散モデルの進歩にもかかわらず、一連のステッ … 続きを読む
RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation
要約 ロボット操作の基本的な目的は、モデルが視覚的なシーンを理解し、アクションを … 続きを読む
カテゴリー: cs.CV
RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation はコメントを受け付けていません
Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion
要約 近年、3D 生成モデルの開発が急速に進み、3D オブジェクトの動的な動きの … 続きを読む
GLACE: Global Local Accelerated Coordinate Encoding
要約 シーン座標回帰 (SCR) メソッドは、カメラの姿勢推定のために 2D-3 … 続きを読む
カテゴリー: cs.CV
GLACE: Global Local Accelerated Coordinate Encoding はコメントを受け付けていません