要約
この論文は、日中だけでなく暗闇での活動を認識することに努めています。
私たちの最初の貢献として、最先端の活動認識装置は日中は効果的ですが、暗闇では信頼できないことを証明しました。
主な原因は、ラベル付きの暗いビデオの入手が限られていることと、色のコントラストが低いところからの分布のシフトです。
ラベル付きの暗いビデオの欠如を補うために、私たちの 2 番目の貢献は、ラベルなしでタスクに無関係な暗いビデオを利用して、暗い場所でのアクティビティ認識機能を改善する擬似教師あり学習スキームを導入することです。
色のコントラストが低いと視覚情報が失われるため、照明に影響されない補完的なアクティビティ情報を音声内に組み込むことを提案します。
オーディオとビジュアルの機能は照明の量によって有用性が異なるため、3 番目の貢献として「暗闇適応型」オーディオビジュアル認識装置を紹介します。
EPIC-Kitchens、Kinetics-Sound、および Charade での実験では、私たちの提案が画像強調、ドメイン適応、代替の視聴覚融合手法よりも優れており、オクルージョンに対する堅牢性も向上できることが実証されています。
要約(オリジナル)
This paper strives to recognize activities in the dark, as well as in the day. As our first contribution, we establish that state-of-the-art activity recognizers are effective during the day, but not trustworthy in the dark. The main causes are the limited availability of labeled dark videos as well as the distribution shift from the lower color contrast. To compensate for the lack of labeled dark videos, our second contribution is to introduce a pseudo-supervised learning scheme, which utilizes unlabeled and task-irrelevant dark videos to improve an activity recognizer in low light. As the lower color contrast results in visual information loss, we propose to incorporate the complementary activity information within audio, which is invariant to illumination. Since the usefulness of audio and visual features differs depending on the amount of illumination, we introduce our `darkness-adaptive’ audio-visual recognizer as the third contribution. Experiments on EPIC-Kitchens, Kinetics-Sound, and Charades demonstrate our proposals are superior to image enhancement, domain adaptation and alternative audio-visual fusion methods, and can even improve robustness to occlusions.
arxiv情報
著者 | Yunhua Zhang,Hazel Doughty,Cees G. M. Snoek |
発行日 | 2023-06-23 10:37:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google