要約
視覚的なタスクは、出力形式や関連する内容が大きく異なるため、同一の構造で処理することは困難です。
主な障害の 1 つは、オブジェクト レベルの視覚タスクにおける高次元の出力にあります。
この論文では、オブジェクト中心のビジョン フレームワーク Obj2Seq を提案します。
Obj2Seq はオブジェクトを基本単位として取り、ほとんどのオブジェクト レベルのビジュアル タスクをオブジェクトのシーケンス生成問題と見なします。
したがって、これらの視覚的タスクは 2 つのステップに分離できます。
最初に特定のカテゴリのオブジェクトを認識し、次にこれらのオブジェクトごとにシーケンスを生成します。
出力シーケンスの定義はタスクごとに異なり、モデルはこれらのシーケンスをグラウンド トゥルース ターゲットと照合することによって監視されます。
Obj2Seq は、カスタマイズされた要件を満たすために入力カテゴリを柔軟に決定し、さまざまな視覚タスクに簡単に拡張できます。
MS COCO で実験すると、Obj2Seq はオブジェクト検出で 45.7% の AP、マルチラベル分類で 89.0% の AP、人間の姿勢推定で 65.0% の AP を達成します。
これらの結果は、さまざまな視覚タスクに一般的に適用される可能性を示しています。
コードは https://github.com/CASIA-IVA-Lab/Obj2Seq で入手できます。
要約(オリジナル)
Visual tasks vary a lot in their output formats and concerned contents, therefore it is hard to process them with an identical structure. One main obstacle lies in the high-dimensional outputs in object-level visual tasks. In this paper, we propose an object-centric vision framework, Obj2Seq. Obj2Seq takes objects as basic units, and regards most object-level visual tasks as sequence generation problems of objects. Therefore, these visual tasks can be decoupled into two steps. First recognize objects of given categories, and then generate a sequence for each of these objects. The definition of the output sequences varies for different tasks, and the model is supervised by matching these sequences with ground-truth targets. Obj2Seq is able to flexibly determine input categories to satisfy customized requirements, and be easily extended to different visual tasks. When experimenting on MS COCO, Obj2Seq achieves 45.7% AP on object detection, 89.0% AP on multi-label classification and 65.0% AP on human pose estimation. These results demonstrate its potential to be generally applied to different visual tasks. Code has been made available at: https://github.com/CASIA-IVA-Lab/Obj2Seq.
arxiv情報
著者 | Zhiyang Chen,Yousong Zhu,Zhaowen Li,Fan Yang,Wei Li,Haixin Wang,Chaoyang Zhao,Liwei Wu,Rui Zhao,Jinqiao Wang,Ming Tang |
発行日 | 2022-09-28 09:24:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google