FETA: Towards Specializing Foundation Models for Expert Task Applications

要約

ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、領域外汎化など、前例のない能力を発揮している。しかし、本論文で示すように、専門家タスク(例えば、言語クエリから自動車マニュアルのイラストを検索する)において、FMの事前学習に用いた膨大なデータセットのうち、未見のデータやロングテールに属するデータでは、FMは依然として低い性能を示している。このことは、実世界のアプリケーションで最も頻繁に登場するこのようなエキスパートタスクについて、FMを明示的に評価し、微調整することの必要性を示している。本論文では、FMに技術文書を理解させるために、そのグラフィカルなイラストと対応する言語の説明をマッチングさせる学習を行うというタスクに特化した、初のFETAベンチマークを提案する。我々のFETAベンチマークは、一般車のマニュアルと販売カタログのパンフレットにおけるテキストから画像、画像からテキストへの検索に焦点を当てる。FETAは、完全に自動化されたアノテーション抽出のための手順を備えており(受理され次第コードを公開予定)、将来的にFETAをより多くの文書タイプやアプリケーションドメインに容易に拡張することが可能である。我々の自動アノテーションは、人間がキュレーションしたアノテーションで計算されたメトリクス(これもリリース済み)と一致することが示された自動パフォーマンスメトリクスを導き出す。私たちは、FETA上の一般的なFMの複数のベースラインと分析を提供し、FMコミュニティにとって非常に価値があると思われるいくつかの興味深い結果を導き出し、一般的なオブジェクトに焦点を当てた標準ベンチマークによって現在「見過ごされている」実用的な専門家タスクに対するFMの実世界適用への道を開くものである。

要約(オリジナル)

Foundation Models (FMs) have demonstrated unprecedented capabilities including zero-shot learning, high fidelity data synthesis, and out of domain generalization. However, as we show in this paper, FMs still have poor out-of-the-box performance on expert tasks (e.g. retrieval of car manuals technical illustrations from language queries), data for which is either unseen or belonging to a long-tail part of the data distribution of the huge datasets used for FM pre-training. This underlines the necessity to explicitly evaluate and finetune FMs on such expert tasks, arguably ones that appear the most in practical real-world applications. In this paper, we propose a first of its kind FETA benchmark built around the task of teaching FMs to understand technical documentation, via learning to match their graphical illustrations to corresponding language descriptions. Our FETA benchmark focuses on text-to-image and image-to-text retrieval in public car manuals and sales catalogue brochures. FETA is equipped with a procedure for completely automatic annotation extraction (code would be released upon acceptance), allowing easy extension of FETA to more documentation types and application domains in the future. Our automatic annotation leads to an automated performance metric shown to be consistent with metrics computed on human-curated annotations (also released). We provide multiple baselines and analysis of popular FMs on FETA leading to several interesting findings that we believe would be very valuable to the FM community, paving the way towards real-world application of FMs for practical expert tasks currently ‘overlooked’ by standard benchmarks focusing on common objects.

arxiv情報

著者 Amit Alfassy,Assaf Arbelle,Oshri Halimi,Sivan Harary,Roei Herzig,Eli Schwartz,Rameswar Panda,Michele Dolfi,Christoph Auer,Kate Saenko,PeterW. J. Staar,Rogerio Feris,Leonid Karlinsky
発行日 2022-09-08 08:47:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク