「cs.MM」カテゴリーアーカイブ

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

投稿日: 2024年7月25日作成者: jarxiv

要約最近、多くの研究で、OCR から派生したテキストと空間レイアウトを大規模言 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM | コメントを受け付けていません

Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation

投稿日: 2024年7月25日作成者: jarxiv

要約テキストから画像への取得は、意味的に関連するクロスモーダルコンテンツを取 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

投稿日: 2024年7月25日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、ビデオ内の視覚、音響、言 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

投稿日: 2024年7月24日作成者: jarxiv

要約このペーパーでは、特定のポートレート画像の顔の表情とカメラビューを制御でき … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

QPT V2: Masked Image Modeling Advances Visual Scoring

投稿日: 2024年7月24日作成者: jarxiv

要約品質評価と美的評価は、視覚コンテンツの知覚された品質と美的感覚を評価するこ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

投稿日: 2024年7月24日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、ビデオ内の視覚、音響、言 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization

投稿日: 2024年7月24日作成者: jarxiv

要約最近、新しい形式の音声部分偽造がフォレンジックに課題をもたらしており、長時 … 続きを読む →

カテゴリー: 68T07, 68T10, cs.CV, cs.MM, cs.SD, eess.AS, I.2 | コメントを受け付けていません

FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process

投稿日: 2024年7月24日作成者: jarxiv

要約ショートビデオ共有プラットフォームがニュース消費の重要なチャネルになるにつ … 続きを読む →

カテゴリー: cs.CV, cs.CY, cs.MM | コメントを受け付けていません

360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation

投稿日: 2024年7月23日作成者: jarxiv

要約 VR関連技術の発展により、視聴者はヘッドマウントディスプレイを通じてリアル … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM | コメントを受け付けていません

HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning

投稿日: 2024年7月23日作成者: jarxiv

要約幻覚は大規模な言語モデルにとって大きな問題であり、視覚言語モデル (VLM … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

QPT V2: Masked Image Modeling Advances Visual Scoring

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization

FakingRecipe: Detecting Fake News on Short Video Platforms from the Perspective of Creative Process

360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation

HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning

最近の投稿

最近のコメント

アーカイブ

カテゴリー