cs.MM」カテゴリーアーカイブ

Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

要約 ドキュメント解析は、契約、学術論文、請求書などの非構造化および半構造化され … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction はコメントを受け付けていません

Exploring Self-supervised Skeleton-based Action Recognition in Occluded Environments

要約 アクション認識を自律的なロボットシステムに統合するには、人の閉塞などの課題 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Exploring Self-supervised Skeleton-based Action Recognition in Occluded Environments はコメントを受け付けていません

Towards Realistic Low-Light Image Enhancement via ISP Driven Data Modeling

要約 ディープニューラルネットワーク(DNNS)は、最近、低照度画像強化(LLI … 続きを読む

カテゴリー: cs.CV, cs.MM | Towards Realistic Low-Light Image Enhancement via ISP Driven Data Modeling はコメントを受け付けていません

Taming Data and Transformers for Audio Generation

要約 アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Audio Generation はコメントを受け付けていません

Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis

要約 マルチモーダルアスペクトベースのセンチメント分析(MABSA)は、画像テキ … 続きを読む

カテゴリー: cs.CL, cs.MM | Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis はコメントを受け付けていません

Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset

要約 人間が注目した説明概念を含むデータセットであるMobygazeを使用して、 … 続きを読む

カテゴリー: cs.CV, cs.MM | Leveraging multimodal explanatory annotations for video interpretation with Modality Specific Dataset はコメントを受け付けていません

Multimodal Long Video Modeling Based on Temporal Dynamic Context

要約 大規模な言語モデル(LLMS)の最近の進歩により、ビデオ理解の大きなブレー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Multimodal Long Video Modeling Based on Temporal Dynamic Context はコメントを受け付けていません

Taming Data and Transformers for Scalable Audio Generation

要約 アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | Taming Data and Transformers for Scalable Audio Generation はコメントを受け付けていません

Audio-visual Event Localization on Portrait Mode Short Videos

要約 視聴覚イベントのローカリゼーション(AVEL)は、マルチモーダルシーンの理 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Audio-visual Event Localization on Portrait Mode Short Videos はコメントを受け付けていません

A Multimedia Analytics Model for the Foundation Model Era

要約 基礎モデルとエージェント人工知能の急速な進歩は、人間と分析システムの間のよ … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM | A Multimedia Analytics Model for the Foundation Model Era はコメントを受け付けていません