-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Sound Demixing Challenge 2023 Music Demixing Track Technical Report: TFC-TDF-UNet v3
要約 このレポートでは、サウンド デミキシング チャレンジ 2023 の音楽デミ … 続きを読む
Aligning Large Multi-Modal Model with Robust Instruction Tuning
要約 マルチモーダル タスクにおける有望な進歩にもかかわらず、現在の大規模マルチ … 続きを読む
FunQA: Towards Surprising Video Comprehension
要約 面白いクリップ、創造的なパフォーマンス、視覚的な錯覚など、驚くべきビデオは … 続きを読む
TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition
要約 最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む
On Uni-Modal Feature Learning in Supervised Multi-Modal Learning
要約 マルチモーダル データの特徴 (つまり、学習された表現) を、1) ユニモ … 続きを読む
DiffWA: Diffusion Models for Watermark Attack
要約 ディープ ニューラル ネットワーク (DNN) の急速な発展に伴い、多くの … 続きを読む
Knowledge-based Multimodal Music Similarity
要約 音楽の類似性は、音楽検索、推奨システム、および音楽分析にとって重要な側面で … 続きを読む
RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model
要約 広範な画像とテキストのペアデータを利用した事前トレーニング済みの視覚言語基 … 続きを読む
MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian
要約 ビデオおよびテキスト データのマルチモーダル学習は、テキストからビデオへの … 続きを読む