「cs.MM」カテゴリーアーカイブ

Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation

投稿日: 2024年1月17日作成者: jarxiv

要約 Opinion-Unaware Blind Image Quality A … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning

投稿日: 2024年1月17日作成者: jarxiv

要約生物からインスピレーションを得たイベントカメラまたはダイナミックビジョ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

End-to-End Optimized Image Compression with the Frequency-Oriented Transform

投稿日: 2024年1月17日作成者: jarxiv

要約画像圧縮は、情報爆発の時代の中で重要な課題となっています。深層学習手法を … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Learning Temporal Resolution in Spectrogram for Audio Classification

投稿日: 2024年1月15日作成者: jarxiv

要約オーディオスペクトログラムは、オーディオの分類に広く使用されている時間と … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Elevating Skeleton-Based Action Recognition with Efficient Multi-Modality Self-Supervision

投稿日: 2024年1月12日作成者: jarxiv

要約人間の行動認識のための自己教師あり表現学習は、近年急速に発展しています。 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | コメントを受け付けていません

Learning Audio Concepts from Counterfactual Natural Language

投稿日: 2024年1月11日作成者: jarxiv

要約従来の音声分類は事前定義されたクラスに依存しており、自由形式のテキストから … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model

投稿日: 2024年1月10日作成者: jarxiv

要約最近、ラージ言語モデル (LLM) の強力なテキスト作成能力により、論文の … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

Optimal Transcoding Resolution Prediction for Efficient Per-Title Bitrate Ladder Estimation

投稿日: 2024年1月10日作成者: jarxiv

要約アダプティブビデオストリーミングでは、異種ネットワークの条件とエンドユ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV | コメントを受け付けていません

VKIE: The Application of Key Information Extraction on Video Text

投稿日: 2024年1月10日作成者: jarxiv

要約ビデオから構造化情報を抽出することは、業界の多数の下流アプリケーションにと … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM | コメントを受け付けていません

Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media

投稿日: 2024年1月9日作成者: jarxiv

要約 Reddit ディスカッションなどのオンラインソーシャルネットワークで … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SI | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation

E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning

End-to-End Optimized Image Compression with the Frequency-Oriented Transform

Learning Temporal Resolution in Spectrogram for Audio Classification

Elevating Skeleton-Based Action Recognition with Efficient Multi-Modality Self-Supervision

Learning Audio Concepts from Counterfactual Natural Language

mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model

Optimal Transcoding Resolution Prediction for Efficient Per-Title Bitrate Ladder Estimation

VKIE: The Application of Key Information Extraction on Video Text

Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media

最近の投稿

最近のコメント

アーカイブ

カテゴリー