-
最近の投稿
- Learning Decentralized Swarms Using Rotation Equivariant Graph Neural Networks
- SET-PAiREd: Designing for Parental Involvement in Learning with an AI-Assisted Educational Robot
- UASTHN: Uncertainty-Aware Deep Homography Estimation for UAV Satellite-Thermal Geo-localization
- Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
- The Geometry of Optimal Gait Families for Steering Kinematic Locomoting Systems
-
最近のコメント
表示できるコメントはありません。 cs.AI (34242) cs.CL (25887) cs.CR (2632) cs.CV (40143) cs.LG (39245) cs.RO (19992) cs.SY (3038) eess.IV (4777) eess.SY (3032) stat.ML (5176)
「cs.MM」カテゴリーアーカイブ
New Job, New Gender? Measuring the Social Bias in Image Generation Models
要約 画像生成モデルは、指定されたテキストから画像を生成または編集できます。 D … 続きを読む
MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model
要約 LiDAR ベースの移動物体セグメンテーション (MOS) は、以前のスキ … 続きを読む
A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning
要約 この論文は、マルチエージェントの議論をマルチモーダル推論に導入することを目 … 続きを読む
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
要約 大規模なマルチモダリティ データセットは、大規模なビデオ言語モデルの成功を … 続きを読む
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
要約 特定のオーディオを使用してビデオをリップシンクすることは、仮想プレゼンター … 続きを読む
COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark
要約 視覚と言語のコミュニティでは、手順に基づいたビデオの理解が注目を集めていま … 続きを読む
Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs
要約 マルチモーダル大規模言語モデル (MLLM) は、さまざまな視覚言語の理解 … 続きを読む
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
要約 音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可 … 続きを読む
Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework
要約 一般化ゼロショット学習(GZSL)は、見たクラスと見たことのないクラスの両 … 続きを読む
PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval
要約 クロスモーダル検索の領域では、マルチメディア内の多様なモダリティをシームレ … 続きを読む