「cs.MM」カテゴリーアーカイブ

A Survey on 3D Gaussian Splatting

投稿日: 2025年3月10日作成者: jarxiv

要約 3D Gaussian Splatting（GS）は、明示的な輝きフィール … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | コメントを受け付けていません

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

投稿日: 2025年3月10日作成者: jarxiv

要約破損したビデオコンテンツを復元することを目的としたビデオInpaintin … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram

投稿日: 2025年3月6日作成者: jarxiv

要約ソーシャルメディアでの（オーディオ）視覚データの増加する有病率に対処し、こ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SI | コメントを受け付けていません

A Multimodal Symphony: Integrating Taste and Sound through Generative AI

投稿日: 2025年3月5日作成者: jarxiv

要約ここ数十年で、神経科学的および心理的研究は、味と聴覚認識の間の直接的な関係 … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, I.2.6 | コメントを受け付けていません

A Comprehensive Survey on Composed Image Retrieval

投稿日: 2025年3月5日作成者: jarxiv

要約 Composed Image Retrieval（CIR）は、ユーザーが参 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM | コメントを受け付けていません

FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation

投稿日: 2025年3月4日作成者: jarxiv

要約レシピデータを用いた食品イメージの理解に関する研究は、そのデータの多様性と … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

投稿日: 2025年2月27日作成者: jarxiv

要約ドメイン固有の定理を理解するには、多くの場合、単なるテキストベースの推論以 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Language-Guided Diffusion Model for Visual Grounding

投稿日: 2025年2月26日作成者: jarxiv

要約視覚的に接地（VG）タスクには、明示的に対応する画像領域が提供される言語フ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

投稿日: 2025年2月25日作成者: jarxiv

要約視覚的なストーリーテリングには、キャラクターやシーンの一貫性を維持しながら … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

LightThinker: Thinking Step-by-Step Compression

投稿日: 2025年2月24日作成者: jarxiv

要約大規模な言語モデル（LLM）は、複雑な推論タスクで顕著なパフォーマンスを示 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, cs.MM | コメントを受け付けていません