cs.MM」カテゴリーアーカイブ

LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception

要約 タイトル:LongShortNet:ストリーミング知覚における時間的および … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception はコメントを受け付けていません

DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving

要約 リアルタイム認識、またはストリーミング認識は、自動運転の重要な側面であり、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving はコメントを受け付けていません

WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research

要約 オーディオ言語 (AL) マルチモーダル学習タスクの進歩は、近年重要です。 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research はコメントを受け付けていません

ProContEXT: Exploring Progressive Context Transformer for Tracking

要約 既存のビジュアル オブジェクト トラッキング (VOT) は、最初のフレー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | ProContEXT: Exploring Progressive Context Transformer for Tracking はコメントを受け付けていません

Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features

要約 人間の視覚神経表現を解読することは、視覚処理メカニズムを明らかにし、脳のよ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.NE | Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features はコメントを受け付けていません

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

要約 オーディオは私たちの周りの世界をどのように説明しますか? 本論文では,音か … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment はコメントを受け付けていません

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

要約 最近の研究では、発話による会話の顔の生成が大幅に進歩しましたが、生成された … 続きを読む

カテゴリー: cs.CV, cs.MM | DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder はコメントを受け付けていません

STEFANN: Scene Text Editor using Font Adaptive Neural Network

要約 キャプチャされたシーンのテキスト情報は、シーンの解釈と意思決定において重要 … 続きを読む

カテゴリー: cs.CV, cs.MM | STEFANN: Scene Text Editor using Font Adaptive Neural Network はコメントを受け付けていません

Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization

要約 時間アクション ローカリゼーション (TAL) では、さまざまな期間と複雑 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization はコメントを受け付けていません

From Plate to Prevention: A Dietary Nutrient-aided Platform for Health Promotion in Singapore

要約 シンガポールは、国民への医療サービスの提供を改善するために努力してきました … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.DB, cs.LG, cs.MM | From Plate to Prevention: A Dietary Nutrient-aided Platform for Health Promotion in Singapore はコメントを受け付けていません