-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Towards Real-Time Open-Vocabulary Video Instance Segmentation
要約 このペーパーでは、オープン語彙ビデオ インスタンス セグメンテーション ( … 続きを読む
カテゴリー: cs.CV
Towards Real-Time Open-Vocabulary Video Instance Segmentation はコメントを受け付けていません
Map It Anywhere (MIA): Empowering Bird’s Eye View Mapping using Large-scale Public Data
要約 トップダウンの鳥瞰図 (BEV) マップは、下流タスクの豊富さと柔軟性によ … 続きを読む
カテゴリー: cs.CV
Map It Anywhere (MIA): Empowering Bird’s Eye View Mapping using Large-scale Public Data はコメントを受け付けていません
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration
要約 テキストからビデオへの生成モデルは、近年大幅な進歩を示しています。 しかし … 続きを読む
カテゴリー: cs.CV
GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration はコメントを受け付けていません
Learning Artistic Signatures: Symmetry Discovery and Style Transfer
要約 スタイルの伝達に関する文献は 10 年近くにもわたって存在していますが、芸 … 続きを読む
カテゴリー: cs.CV
Learning Artistic Signatures: Symmetry Discovery and Style Transfer はコメントを受け付けていません
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation
要約 広範なコーパスで事前トレーニングされた大規模言語モデルの最近の開発では、最 … 続きを読む
DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models
要約 ビデオは、その性質上、本質的に時間的なシーケンスです。 この研究では、自然 … 続きを読む
カテゴリー: cs.CV
DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models はコメントを受け付けていません
EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios
要約 最近、大規模言語モデルの力を活用したマルチモーダル大規模言語モデルの出現に … 続きを読む
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation
要約 ビデオ普及モデルの最近の進歩により、リアルなオーディオ主導のトーキングビデ … 続きを読む
カテゴリー: cs.CV
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation はコメントを受け付けていません
p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay
要約 多様なタスクにわたるマルチモーダル大規模言語モデル (MLLM) の優れた … 続きを読む
NaVILA: Legged Robot Vision-Language-Action Model for Navigation
要約 この論文は、脚式ロボットによる視覚と言語のナビゲーションの問題を解決するこ … 続きを読む