-
最近の投稿
- Learn With Imagination: Safe Set Guided State-wise Constrained Policy Optimization
- Effects of Muscle Synergy during Overhead Work with a Passive Shoulder Exoskeleton: A Case Study
- Development of a Low-Cost Prosthetic Hand Using Electromyography and Machine Learning
- Teaching Shortest Path Algorithms With a Robot and Overlaid Projections
- Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly
-
最近のコメント
表示できるコメントはありません。 cs.AI (30124) cs.CL (22755) cs.CR (2336) cs.CV (36490) cs.LG (34945) cs.RO (17504) cs.SY (2689) eess.IV (4444) eess.SY (2683) stat.ML (4656)
「cs.MM」カテゴリーアーカイブ
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses
要約 ビデオ グラウンディングは、マルチモーダル コンテンツの理解における基本的 … 続きを読む
New Job, New Gender? Measuring the Social Bias in Image Generation Models
要約 画像生成モデルは、指定されたテキストから画像を生成または編集できます。 D … 続きを読む
MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model
要約 LiDAR ベースの移動物体セグメンテーション (MOS) は、以前のスキ … 続きを読む
A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning
要約 この論文は、マルチエージェントの議論をマルチモーダル推論に導入することを目 … 続きを読む
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
要約 大規模なマルチモダリティ データセットは、大規模なビデオ言語モデルの成功を … 続きを読む
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
要約 特定のオーディオを使用してビデオをリップシンクすることは、仮想プレゼンター … 続きを読む
COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark
要約 視覚と言語のコミュニティでは、手順に基づいたビデオの理解が注目を集めていま … 続きを読む
Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs
要約 マルチモーダル大規模言語モデル (MLLM) は、さまざまな視覚言語の理解 … 続きを読む
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
要約 音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可 … 続きを読む
Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework
要約 一般化ゼロショット学習(GZSL)は、見たクラスと見たことのないクラスの両 … 続きを読む