要約
モデルの予測と意図した使用法との不一致は、コンピューター ビジョン モデルの展開に悪影響を及ぼす可能性があります。
タスクに複雑な構造化された出力が含まれる場合、この不整合に対処する手順を設計することが難しくなるため、問題は悪化します。
自然言語処理では、これは多くの場合、モデルをタスク報酬に合わせる強化学習手法を使用して対処されます。
私たちはこのアプローチを採用し、オブジェクト検出、パノプティック セグメンテーション、カラー化、画像キャプションなど、複数のコンピューター ビジョン タスクにわたってその驚くべき有効性を示しています。
このアプローチは、モデルをさまざまなコンピューター ビジョン タスクとより適切に連携させるために広く役立つ可能性があると考えています。
要約(オリジナル)
Misalignment between model predictions and intended usage can be detrimental for the deployment of computer vision models. The issue is exacerbated when the task involves complex structured outputs, as it becomes harder to design procedures which address this misalignment. In natural language processing, this is often addressed using reinforcement learning techniques that align models with a task reward. We adopt this approach and show its surprising effectiveness across multiple computer vision tasks, such as object detection, panoptic segmentation, colorization and image captioning. We believe this approach has the potential to be widely useful for better aligning models with a diverse range of computer vision tasks.
arxiv情報
著者 | André Susano Pinto,Alexander Kolesnikov,Yuge Shi,Lucas Beyer,Xiaohua Zhai |
発行日 | 2023-02-16 11:49:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google