「cs.MM」カテゴリーアーカイブ

Disentangling Aesthetic and Technical Effects for Video Quality Assessment of User Generated Content

投稿日: 2022年11月17日作成者: jarxiv

要約近年、ユーザー生成コンテンツ (UGC) ビデオがインターネットを支配して … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval

投稿日: 2022年11月16日作成者: jarxiv

要約マルチメディア情報検索でますます一般的なタスクとして、ビデオモーメント検 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM | コメントを受け付けていません

FlowGrad: Using Motion for Visual Sound Source Localization

投稿日: 2022年11月16日作成者: jarxiv

要約視覚的な音源定位に関する最新の研究は、自己管理型の方法で学習されたセマンテ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

AI4Food-NutritionDB: Food Image Database, Nutrition Taxonomy, and Recognition Benchmark

投稿日: 2022年11月15日作成者: jarxiv

要約健康的なライフスタイルをリードすることは、座りっぱなしのライフスタイルと貧 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Investigating Modality Bias in Audio Visual Video Parsing

投稿日: 2022年11月14日作成者: jarxiv

要約オーディオとビジュアルのイベントラベルを時間境界で検出することを含むオー … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

DrawMon: A Distributed System for Detection of Atypical Sketch Content in Concurrent Pictionary Games

投稿日: 2022年11月11日作成者: jarxiv

要約人気のあるスケッチベースの推測ゲームである Pictionary は、制 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation

投稿日: 2022年11月11日作成者: jarxiv

要約マルチモーダルコンテンツで応答することは、インテリジェントな会話型エージ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Disentangling Aesthetic and Technical Effects for Video Quality Assessment of User Generated Content

投稿日: 2022年11月10日作成者: jarxiv

要約近年、UGC（User-Generated-Content）動画がインター … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

Using Set Covering to Generate Databases for Holistic Steganalysis

投稿日: 2022年11月8日作成者: jarxiv

要約運用フレームワークの中で、ステガノグラファーが使用するカバーは、研究者がス … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

MarginNCE: Robust Sound Localization with a Negative Margin

投稿日: 2022年11月4日作成者: jarxiv

要約本研究の目的は、自己教師付きアプローチにより、視覚的シーンにおける音源の位 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Disentangling Aesthetic and Technical Effects for Video Quality Assessment of User Generated Content

Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval

FlowGrad: Using Motion for Visual Sound Source Localization

AI4Food-NutritionDB: Food Image Database, Nutrition Taxonomy, and Recognition Benchmark

Investigating Modality Bias in Audio Visual Video Parsing

DrawMon: A Distributed System for Detection of Atypical Sketch Content in Concurrent Pictionary Games

MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation

Disentangling Aesthetic and Technical Effects for Video Quality Assessment of User Generated Content

Using Set Covering to Generate Databases for Holistic Steganalysis

MarginNCE: Robust Sound Localization with a Negative Margin

最近の投稿

最近のコメント

アーカイブ

カテゴリー