要約
コンピューター ビジョン タスクでの初期の成功に始まり、ディープ ラーニング ベースの技術は、それ以来、多くの領域で最先端のアプローチを追い越してきました。
しかし、これらの手法では意味論的なコンテキストや論理的制約を捉えることができず、代わりに偽の相関関係に頼って答えを導き出すことが多いことが何度も実証されてきました。
深層学習技術を重要なシナリオに適用するには、ドメイン固有の制約を順守する必要があるため、この問題に対処するためにいくつかの試みが行われてきました。
この分野の徹底的な調査を妨げる 1 つの制限は、豊富なルール セットを備えた適切なデータセットが不足していることです。
これに対処するために、進行中の注釈付きチェス ゲームの 200,000 枚以上の画像で構成される ChessVision データセットを提示します。対応する画像からゲームの状態を再作成する必要があります。
これには、一連の予測を「合理的な」ゲーム状態に制限する精選された一連のルールが伴い、ローカリゼーションや列挙などの重要な意味論的能力を調査するように設計されています。
標準メトリックに加えて、論理一貫性に関するパフォーマンスを測定するための追加メトリックが表示されます。
私たちは、このタスクに関していくつかの人気のある最先端の視覚モデルを分析し、標準的な指標でのパフォーマンスは賞賛に値するものの、大量の一貫性のない結果を生成することを示し、このデータセットが将来の研究にとって重大な課題を提示していることを示しています。
要約(オリジナル)
Starting with early successes in computer vision tasks, deep learning based techniques have since overtaken state of the art approaches in a multitude of domains. However, it has been demonstrated time and again that these techniques fail to capture semantic context and logical constraints, instead often relying on spurious correlations to arrive at the answer. Since application of deep learning techniques to critical scenarios are dependent on adherence to domain specific constraints, several attempts have been made to address this issue. One limitation holding back a thorough exploration of this area, is a lack of suitable datasets which feature a rich set of rules. In order to address this, we present the ChessVision Dataset, consisting of 200,000+ images of annotated chess games in progress, requiring recreation of the game state from its corresponding image. This is accompanied by a curated set of rules which constrains the set of predictions to ‘reasonable’ game states, and are designed to probe key semantic abilities like localization and enumeration. Alongside standard metrics, additional metrics to measure performance with regards to logical consistency is presented. We analyze several popular and state of the art vision models on this task, and show that, although their performance on standard metrics are laudable, they produce a plethora of incoherent results, indicating that this dataset presents a significant challenge for future works.
arxiv情報
著者 | Soumadeep Saha,Utpal Garain |
発行日 | 2023-11-21 13:52:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google