cs.MM」カテゴリーアーカイブ

A Survey on 3D Gaussian Splatting

要約 3D Gaussian Splatting(GS)は、明示的な輝きフィール … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | A Survey on 3D Gaussian Splatting はコメントを受け付けていません

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

要約 破損したビデオコンテンツを復元することを目的としたビデオInpaintin … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control はコメントを受け付けていません

More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram

要約 ソーシャルメディアでの(オーディオ)視覚データの増加する有病率に対処し、こ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SI | More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram はコメントを受け付けていません

A Multimodal Symphony: Integrating Taste and Sound through Generative AI

要約 ここ数十年で、神経科学的および心理的研究は、味と聴覚認識の間の直接的な関係 … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, I.2.6 | A Multimodal Symphony: Integrating Taste and Sound through Generative AI はコメントを受け付けていません

A Comprehensive Survey on Composed Image Retrieval

要約 Composed Image Retrieval(CIR)は、ユーザーが参 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM | A Comprehensive Survey on Composed Image Retrieval はコメントを受け付けていません

FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation

要約 レシピデータを用いた食品イメージの理解に関する研究は、そのデータの多様性と … 続きを読む

カテゴリー: cs.CV, cs.MM | FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation はコメントを受け付けていません

TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

要約 ドメイン固有の定理を理解するには、多くの場合、単なるテキストベースの推論以 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding はコメントを受け付けていません

Language-Guided Diffusion Model for Visual Grounding

要約 視覚的に接地(VG)タスクには、明示的に対応する画像領域が提供される言語フ … 続きを読む

カテゴリー: cs.CV, cs.MM | Language-Guided Diffusion Model for Visual Grounding はコメントを受け付けていません

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

要約 視覚的なストーリーテリングには、キャラクターやシーンの一貫性を維持しながら … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context はコメントを受け付けていません

LightThinker: Thinking Step-by-Step Compression

要約 大規模な言語モデル(LLM)は、複雑な推論タスクで顕著なパフォーマンスを示 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, cs.MM | LightThinker: Thinking Step-by-Step Compression はコメントを受け付けていません