cs.MM」カテゴリーアーカイブ

Temporal Sentence Grounding in Videos: A Survey and Future Directions

要約 ビデオにおける時間的文のグラウンディング (TSGV)、別名自然言語ビデオ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Temporal Sentence Grounding in Videos: A Survey and Future Directions はコメントを受け付けていません

Leveraging Computer Vision Application in Visual Arts: A Case Study on the Use of Residual Neural Network to Classify and Analyze Baroque Paintings

要約 大規模なデジタル化された美術コレクションの利用可能性が高まるにつれて、絵画 … 続きを読む

カテゴリー: cs.CV, cs.MM | Leveraging Computer Vision Application in Visual Arts: A Case Study on the Use of Residual Neural Network to Classify and Analyze Baroque Paintings はコメントを受け付けていません

TPFNet: A Novel Text In-painting Transformer for Text Removal

要約 画像からのテキスト消去は、画像の編集やプライバシーの保護など、さまざまなタ … 続きを読む

カテゴリー: cs.CV, cs.MM | TPFNet: A Novel Text In-painting Transformer for Text Removal はコメントを受け付けていません

ProContEXT: Exploring Progressive Context Transformer for Tracking

要約 既存のビジュアル オブジェクト トラッキング (VOT) は、最初のフレー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | ProContEXT: Exploring Progressive Context Transformer for Tracking はコメントを受け付けていません

LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception

要約 ストリーミング認識は、自動運転システムの遅延と精度を首尾一貫して考慮する自 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception はコメントを受け付けていません

TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction

要約 人間の意図の予測は、ビデオ内のアクティビティを視覚ベースのシステムで予測す … 続きを読む

カテゴリー: cs.CV, cs.MM | TAMFormer: Multi-Modal Transformer with Learned Attention Mask for Early Intent Prediction はコメントを受け付けていません

Learning Audio-Visual embedding for Person Verification in the Wild

要約 オーディオビジュアルの埋め込みは、個人の検証において単一モダリティの埋め込 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Learning Audio-Visual embedding for Person Verification in the Wild はコメントを受け付けていません

AMPose: Alternatively Mixed Global-Local Attention Model for 3D Human Pose Estimation

要約 グラフ畳み込みネットワーク (GCN) は、3D 人間の姿勢推定 (HPE … 続きを読む

カテゴリー: cs.CV, cs.MM | AMPose: Alternatively Mixed Global-Local Attention Model for 3D Human Pose Estimation はコメントを受け付けていません

End-to-end Transformer for Compressed Video Quality Enhancement

要約 畳み込みニューラル ネットワークは、近年、圧縮ビデオの品質向上タスクで優れ … 続きを読む

カテゴリー: cs.CV, cs.MM | End-to-end Transformer for Compressed Video Quality Enhancement はコメントを受け付けていません

Image-Text Retrieval with Binary and Continuous Label Supervision

要約 ほとんどの画像とテキストの検索作業では、画像とテキストのペアが一致するかど … 続きを読む

カテゴリー: cs.CV, cs.MM | Image-Text Retrieval with Binary and Continuous Label Supervision はコメントを受け付けていません