「cs.MM」カテゴリーアーカイブ

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

投稿日: 2024年4月2日作成者: jarxiv

要約人間の意図に基づく水路の認識は、水環境での自律航行および無人水上車両 (U … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO | コメントを受け付けていません

Rethinking Multi-view Representation Learning via Distilled Disentangling

投稿日: 2024年4月1日作成者: jarxiv

要約マルチビュー表現学習の目的は、多様なデータソースからビューの一貫性とビュ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Language Model Beats Diffusion — Tokenizer is Key to Visual Generation

投稿日: 2024年4月1日作成者: jarxiv

要約大規模言語モデル (LLM) は、言語の生成タスクでは主要なモデルですが、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Evaluating gesture generation in a large-scale open challenge: The GENEA Challenge 2022

投稿日: 2024年3月29日作成者: jarxiv

要約この論文では、データ駆動型自動同時音声ジェスチャ生成のベンチマークを目的と … 続きを読む →

カテゴリー: cs.HC, cs.LG, cs.MM, I.2 | コメントを受け付けていません

MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

投稿日: 2024年3月29日作成者: jarxiv

要約画像検索、つまり参照画像から目的の画像を見つけることには、本質的に豊富で多 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.MM | コメントを受け付けていません

Bringing Textual Prompt to AI-Generated Image Quality Assessment

投稿日: 2024年3月28日作成者: jarxiv

要約 AI 生成画像 (AGI) には、本質的にマルチモーダルな性質があります。 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

投稿日: 2024年3月28日作成者: jarxiv

要約大規模視覚言語モデル (LVLM) は、視覚入力から状況に応じて詳細で一貫 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark

投稿日: 2024年3月28日作成者: jarxiv

要約複数のモダリティから実際の音響室データをキャプチャする Real Acou … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

FastPerson: Enhancing Video Learning through Effective Video Summarization that Preserves Linguistic and Visual Contexts

投稿日: 2024年3月27日作成者: jarxiv

要約時間が限られており、さまざまなトピックに興味がある学習者にとって、学習効率 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.HC, cs.MM | コメントを受け付けていません

GTA-HDR: A Large-Scale Synthetic Dataset for HDR Image Reconstruction

投稿日: 2024年3月27日作成者: jarxiv

要約ハイダイナミックレンジ (HDR) コンテンツ (つまり、画像やビデオ … 続きを読む →

カテゴリー: Computer vision, cs.CV, cs.GR, cs.LG, cs.MM, Deep learning, eess.IV, I.3.3 | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

Rethinking Multi-view Representation Learning via Distilled Disentangling

Language Model Beats Diffusion — Tokenizer is Key to Visual Generation

Evaluating gesture generation in a large-scale open challenge: The GENEA Challenge 2022

MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

Bringing Textual Prompt to AI-Generated Image Quality Assessment

Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark

FastPerson: Enhancing Video Learning through Effective Video Summarization that Preserves Linguistic and Visual Contexts

GTA-HDR: A Large-Scale Synthetic Dataset for HDR Image Reconstruction

最近の投稿

最近のコメント

アーカイブ

カテゴリー