-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks
要約 AI生成された合成メディアは、実際のシナリオでますます使用されており、多く … 続きを読む
Advance Fake Video Detection via Vision Transformers
要約 AIベースのマルチメディア生成における最近の進歩により、超現実的な画像とビ … 続きを読む
Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective
要約 Multi-Modal Entity Alignment(MMEA)は、重 … 続きを読む
Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective
要約 Multi-Modal Entity Alignment(MMEA)は、重 … 続きを読む
Kimi-Audio Technical Report
要約 オーディオの理解、生成、会話に優れたオープンソースオーディオファンデーショ … 続きを読む
Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator
要約 最近の視聴覚生成モデルは、オーディオから画像を生成する際に大きな進歩を遂げ … 続きを読む
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark
要約 マルチモーダル言語分析は、複数のモダリティを活用して、人間の会話の発話の根 … 続きを読む
M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction
要約 相互補強効果(MRE)は、情報抽出とモデルの解釈可能性の交差点の新興サブフ … 続きを読む
A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task
要約 知識ベースのビジョン質問応答(KB-VQA)は、視覚的およびテキストの入力 … 続きを読む
FMNV: A Dataset of Media-Published News Videos for Fake News Detection
要約 ニュースメディア、特にビデオベースのプラットフォームは、日常生活に深く組み … 続きを読む