-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Learning Domain-Invariant Features for Out-of-Context News Detection
要約 文脈を無視したニュースは、オンライン メディア プラットフォームでよく見ら … 続きを読む
MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models
要約 私たちは、大規模な言語モデルを使用したマルチモーダル時間イベント予測という … 続きを読む
Edit As You Wish: Video Caption Editing with Multi-grained User Control
要約 ユーザーのリクエストに応じて自然言語でビデオを自動的にナレーションすること … 続きを読む
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses
要約 ビデオ グラウンディングは、マルチモーダル コンテンツの理解における基本的 … 続きを読む
Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis
要約 テキストから画像へのモデルのカスタマイズは大幅に進歩しましたが、複数のパー … 続きを読む
HiQuE: Hierarchical Question Embedding Network for Multimodal Depression Detection
要約 自動うつ病検出を利用すると、うつ病を経験している人に対する早期介入が大幅に … 続きを読む
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses
要約 ビデオ グラウンディングは、マルチモーダル コンテンツの理解における基本的 … 続きを読む
New Job, New Gender? Measuring the Social Bias in Image Generation Models
要約 画像生成モデルは、指定されたテキストから画像を生成または編集できます。 D … 続きを読む
MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model
要約 LiDAR ベースの移動物体セグメンテーション (MOS) は、以前のスキ … 続きを読む