-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Can’t See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs
要約 マルチモーダル大規模言語モデル(MLLM)は、テキストと画像の両方を介した … 続きを読む
Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step
要約 Stable Diffusion や DALL-E 3 のようなテキストベ … 続きを読む
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query
要約 意味検索は現代のアプリケーションにとって極めて重要であるが、現在の研究では … 続きを読む
IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation
要約 拡散ベースのモデルは、テキストまたは画像入力から高品質で高解像度のビデオシ … 続きを読む
Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval
要約 テキストビデオ検索の最近の進歩は、主に対照的な学習フレームワークによって推 … 続きを読む
I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue
要約 対面の相互作用では、音声やジェスチャーを含む複数のモダリティを使用して、情 … 続きを読む
PixelThink: Towards Efficient Chain-of-Pixel Reasoning
要約 既存の推論セグメンテーションアプローチは、通常、画像テキストペアと対応する … 続きを読む
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis
要約 基礎モデルと大規模な言語モデル(LLMS)の急速な進歩は、ミトリモーダル入 … 続きを読む
Multi-MLLM Knowledge Distillation for Out-of-Context News Detection
要約 マルチモーダルのコンテキスト外ニュースは、元のコンテキストの外で画像が使用 … 続きを読む