-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction
要約 文書解析は、契約書、学術論文、請求書などの非構造化文書および半構造化文書を … 続きを読む
Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework
要約 テキストから画像への (T2I) 拡散モデルは、編集、画像の融合、修復など … 続きを読む
Enhancing Learned Image Compression via Cross Window-based Attention
要約 近年、学習された画像圧縮方法は、従来の画像圧縮方法と比較して優れたレート歪 … 続きを読む
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction
要約 文書解析は、契約書、学術論文、請求書などの非構造化文書および半構造化文書を … 続きを読む
OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup
要約 近年、スケールアップは視覚と言語の分野で大きな成功をもたらしました。 しか … 続きを読む
Evaluation of strategies for efficient rate-distortion NeRF streaming
要約 Neural Radiance Fields (NeRF) は、まばらな画 … 続きを読む
Diverse Sign Language Translation
要約 話し言葉と同様に、単一の手話表現は複数の有効なテキスト解釈に対応する可能性 … 続きを読む
TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning
要約 マルチモーダル大規模言語モデル (MLLM) は、短いビデオの理解において … 続きを読む
Taming Data and Transformers for Audio Generation
要約 環境音の生成は、データ不足とキャプションの品質が不十分なことが多いため、困 … 続きを読む