-
最近の投稿
- Human-Robot Dialogue Annotation for Multi-Modal Common Ground
- Anticipatory Planning for Performant Long-Lived Robot in Large-Scale Home-Like Environments
- SCOUT: A Situated and Multi-Modal Human-Robot Dialogue Corpus
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
- ForestAlign: Automatic Forest Structure-based Alignment for Multi-view TLS and ALS Point Clouds
-
最近のコメント
表示できるコメントはありません。 cs.AI (29925) cs.CL (22599) cs.CR (2321) cs.CV (36300) cs.LG (34746) cs.RO (17366) cs.SY (2670) eess.IV (4416) eess.SY (2664) stat.ML (4635)
「cs.MM」カテゴリーアーカイブ
Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling
要約 音楽 AI の分野では、シンプルなリードシートから豊かで構造化されたマルチ … 続きを読む
Enhancing Learned Image Compression via Cross Window-based Attention
要約 近年、学習された画像圧縮方法は、従来の画像圧縮方法と比較して優れたレート歪 … 続きを読む
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction
要約 文書解析は、契約書、学術論文、請求書などの非構造化文書および半構造化文書を … 続きを読む
Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework
要約 テキストから画像への (T2I) 拡散モデルは、編集、画像の融合、修復など … 続きを読む
Enhancing Learned Image Compression via Cross Window-based Attention
要約 近年、学習された画像圧縮方法は、従来の画像圧縮方法と比較して優れたレート歪 … 続きを読む
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction
要約 文書解析は、契約書、学術論文、請求書などの非構造化文書および半構造化文書を … 続きを読む
OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup
要約 近年、スケールアップは視覚と言語の分野で大きな成功をもたらしました。 しか … 続きを読む
Evaluation of strategies for efficient rate-distortion NeRF streaming
要約 Neural Radiance Fields (NeRF) は、まばらな画 … 続きを読む
Diverse Sign Language Translation
要約 話し言葉と同様に、単一の手話表現は複数の有効なテキスト解釈に対応する可能性 … 続きを読む
TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning
要約 マルチモーダル大規模言語モデル (MLLM) は、短いビデオの理解において … 続きを読む