-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Two-Stage Triplet Loss Training with Curriculum Augmentation for Audio-Visual Retrieval
要約 クロスモーダル検索モデルは、三重損失最適化の可能性を活用して、堅牢な埋め込 … 続きを読む
MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter
要約 言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む
Generating Robust Adversarial Examples against Online Social Networks (OSNs)
要約 オンライン ソーシャル ネットワーク (OSN) は、現代の画像の一般的な … 続きを読む
MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models
要約 AI を活用した音楽処理は、生成タスク (音色合成など) から理解タスク … 続きを読む
VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias
要約 マルチメディア コンテンツがソーシャル メディア プラットフォーム上で遍在 … 続きを読む
Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling
要約 大規模言語モデル (LLM) とビジョン言語モデル (VLM) は、パラメ … 続きを読む
Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification
要約 テキストから画像への人物再識別 (TIReID) は、クエリ テキストに基 … 続きを読む
An empirical study of automatic wildlife detection using drone thermal imaging and object detection
要約 人工知能は、野生動物データの収集と解釈のための費用対効果の高い方法を通じて … 続きを読む
Improving Anomaly Segmentation with Multi-Granularity Cross-Domain Alignment
要約 異常セグメンテーションは、画像内の異常な物体を識別する上で極めて重要な役割 … 続きを読む