- 
最近の投稿- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
 
- 
最近のコメント表示できるコメントはありません。
- cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830) 
「cs.MM」カテゴリーアーカイブ
Differentiating Emigration from Return Migration of Scholars Using Name-Based Nationality Detection Models
要約 ほとんどのWebおよびデジタルトレースデータには、プライバシーの懸念による … 続きを読む
Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study
要約 自動化されたヘイトスピーチ検出への関心が高まっているにもかかわらず、既存の … 続きを読む
TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis
要約 マルチモーダル感情分析(MSA)は、言語、視覚、音響のモダリティを活用する … 続きを読む
Does CLIP perceive art the same way we do?
要約 クリップは、関節の埋め込みを介して画像やテキストを接続できる強力なマルチモ … 続きを読む
Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform
要約 自動音楽転写(AMT)は、音楽のオーディオ録音を分析し、再生されているメモ … 続きを読む
Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
要約 オーディオSDSを紹介します。オーディオSDは、テキストコンディショニング … 続きを読む
Question-Answering Dense Video Events
要約 このペーパーでは、密集したビデオイベントに関する質問を提示します。これは、 … 続きを読む
‘I Can See Forever!’: Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments
要約 視覚障害のある人口、特に重度の視覚障害者は現在大きく、日々の活動は彼らにと … 続きを読む
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling
要約 この作業では、ビデオのみで条件付けられた音楽生成を体系的に研究しています。 … 続きを読む
