cs.MM」カテゴリーアーカイブ

GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals

要約 人間のポーズ推定(HPE)は、さまざまな用途の人体関節の位置を検出します。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, eess.SP | GenHPE: Generative Counterfactuals for 3D Human Pose Estimation with Radio Frequency Signals はコメントを受け付けていません

YuE: Scaling Open Foundation Models for Long-Form Music Generation

要約 LLAMA2アーキテクチャに基づいたオープンファンデーションモデルのファミ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | YuE: Scaling Open Foundation Models for Long-Form Music Generation はコメントを受け付けていません

Video-to-Audio Generation with Hidden Alignment

要約 ビデオ入力に従って意味的および一時的に整列したオーディオコンテンツを生成す … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-to-Audio Generation with Hidden Alignment はコメントを受け付けていません

ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding

要約 ビデオ大規模な言語モデル(Videollms)は、ビデオ理解において顕著な … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding はコメントを受け付けていません

A Survey on 3D Gaussian Splatting

要約 3D Gaussian Splatting(GS)は、明示的な輝きフィール … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | A Survey on 3D Gaussian Splatting はコメントを受け付けていません

VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

要約 破損したビデオコンテンツを復元することを目的としたビデオInpaintin … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control はコメントを受け付けていません

More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram

要約 ソーシャルメディアでの(オーディオ)視覚データの増加する有病率に対処し、こ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SI | More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram はコメントを受け付けていません

A Multimodal Symphony: Integrating Taste and Sound through Generative AI

要約 ここ数十年で、神経科学的および心理的研究は、味と聴覚認識の間の直接的な関係 … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, I.2.6 | A Multimodal Symphony: Integrating Taste and Sound through Generative AI はコメントを受け付けていません

A Comprehensive Survey on Composed Image Retrieval

要約 Composed Image Retrieval(CIR)は、ユーザーが参 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM | A Comprehensive Survey on Composed Image Retrieval はコメントを受け付けていません

FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation

要約 レシピデータを用いた食品イメージの理解に関する研究は、そのデータの多様性と … 続きを読む

カテゴリー: cs.CV, cs.MM | FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation はコメントを受け付けていません