要約
このタスクは、(1)境界のはっきりしない不定形な形状、(2)周囲との類似性、(3)色の不存在、といった特徴を持つ物体の位置を特定することを目的としている。したがって、1つの静止フレームで実体のない物体を識別することははるかに困難であり、空間情報と時間情報の協調表現が重要である。そこで我々は、様々な距離、大きさ、視認性、異なるスペクトル領域で撮影されたシーンをカバーする600の動画(141,017フレーム)からなるIOD-Videoデータセットを構築する。さらに、IODのための時空間アグリゲーションフレームワークを開発する。このフレームワークでは、異なるバックボーンが配置され、時空間アグリゲーションロス(STAロス)が時間軸に沿った一貫性を活用するように精巧に設計されている。IOD-Videoデータセットを用いた実験により、時空間アグリゲーションがIODの性能を大幅に改善できることが実証された。我々の研究が、この貴重でありながら挑戦的な課題へのさらなる研究を惹きつけることを願っている。コードは以下で入手可能である:\https://github.com/CalayZhou/IOD-Video}。
要約(オリジナル)
We endeavor on a rarely explored task named Insubstantial Object Detection (IOD), which aims to localize the object with following characteristics: (1) amorphous shape with indistinct boundary; (2) similarity to surroundings; (3) absence in color. Accordingly, it is far more challenging to distinguish insubstantial objects in a single static frame and the collaborative representation of spatial and temporal information is crucial. Thus, we construct an IOD-Video dataset comprised of 600 videos (141,017 frames) covering various distances, sizes, visibility, and scenes captured by different spectral ranges. In addition, we develop a spatio-temporal aggregation framework for IOD, in which different backbones are deployed and a spatio-temporal aggregation loss (STAloss) is elaborately designed to leverage the consistency along the time axis. Experiments conducted on IOD-Video dataset demonstrate that spatio-temporal aggregation can significantly improve the performance of IOD. We hope our work will attract further researches into this valuable yet challenging task. The code will be available at: \url{https://github.com/CalayZhou/IOD-Video}.
arxiv情報
著者 | Kailai Zhou,Yibo Wang,Tao Lv,Yunqian Li,Linsen Chen,Qiu Shen,Xun Cao |
発行日 | 2023-08-04 08:43:08+00:00 |
arxivサイト | arxiv_id(pdf) |