Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model Performance and Annotation Cost

要約

現在の基盤モデルは、さまざまなタスクにわたって優れたパフォーマンスを示しています。
ただし、トレーニング プロセスで使用されるデータの地理的および経済的表現が不均衡であるため、これらのモデルは誰にとっても効果的ではないことがいくつかの研究で明らかになりました。
このデータのほとんどは西側諸国からのものであり、過小評価されている国では悪い結果が得られます。
この問題に対処するには、これらの国からさらに多くのデータを収集する必要がありますが、アノテーションのコストが大きなボトルネックになる可能性があります。
この論文では、モデルのパフォーマンスとアノテーションのコストのバランスをとるために、アノテーションを付けるデータを特定する方法を提案します。
私たちのアプローチでは、まず、現在の大規模なビジョン言語基盤モデルで使用されているトレーニング データセットに既に含まれている画像と最も視覚的に異なるトピック (オブジェクトとアクション) の画像を持つ国を見つけることが含まれます。
次に、これらのトピックに関して視覚的な類似性が高い国を特定し、これらの国のデータを使用してトレーニング データを補完することにより、モデルのパフォーマンスが向上し、アノテーションのコストが削減されることを示します。
結果として得られる国と対応するトピックのリストは、https://github.com/MichiganNLP/visual_diversity_budget で入手できます。

要約(オリジナル)

Current foundation models have shown impressive performance across various tasks. However, several studies have revealed that these models are not effective for everyone due to the imbalanced geographical and economic representation of the data used in the training process. Most of this data comes from Western countries, leading to poor results for underrepresented countries. To address this issue, more data needs to be collected from these countries, but the cost of annotation can be a significant bottleneck. In this paper, we propose methods to identify the data to be annotated to balance model performance and annotation costs. Our approach first involves finding the countries with images of topics (objects and actions) most visually distinct from those already in the training datasets used by current large vision-language foundation models. Next, we identify countries with higher visual similarity for these topics and show that using data from these countries to supplement the training data improves model performance and reduces annotation costs. The resulting lists of countries and corresponding topics are made available at https://github.com/MichiganNLP/visual_diversity_budget.

arxiv情報

著者 Oana Ignat,Longju Bai,Joan Nwatu,Rada Mihalcea
発行日 2024-03-12 14:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク