-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos
要約 大規模なモデルのマルチステップ推論機能を評価するために作成された最初の長い … 続きを読む
Latent Action Learning Requires Supervision in the Presence of Distractors
要約 最近、Latent Action Policies(LAPO)によって開拓 … 続きを読む
Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment
要約 最近の研究では、マルチモーダルの大手言語モデル(MLLM)が解釈可能な評価 … 続きを読む
AIR: Zero-shot Generative Model Adaptation with Iterative Refinement
要約 ゼロショット生成モデル適応(ZSGM)は、テキストガイダンスのみを使用して … 続きを読む
Object-Centric Latent Action Learning
要約 具体化されたAIの膨大な量の非標識インターネットビデオデータを活用すること … 続きを読む
M4V: Multi-Modal Mamba for Text-to-Video Generation
要約 テキストからビデオへの生成は、コンテンツの作成を大幅に濃縮しており、強力な … 続きを読む
Visually Descriptive Language Model for Vector Graphics Reasoning
要約 大きな進歩にもかかわらず、大規模なマルチモーダルモデル(LMM)は、形状、 … 続きを読む
VINCIE: Unlocking In-context Image Editing from Video
要約 コンテキスト内画像編集は、テキストと以前に生成された画像を含むコンテキスト … 続きを読む
ReGuidance: A Simple Diffusion Wrapper for Boosting Sample Quality on Hard Inverse Problems
要約 逆の問題を解決するための情報に基づいたデータ事前に、より一般的には報酬モデ … 続きを読む
SpectralAR: Spectral Autoregressive Visual Generation
要約 自己回帰視覚生成は、拡散モデルと比較して、そのスケーラビリティと他のモダリ … 続きを読む