Bridging the Digital Divide: Performance Variation across Socio-Economic Factors in Vision-Language Models

要約

現在の AI モデルの優れたパフォーマンスがさまざまなタスクにわたって報告されているにもかかわらず、パフォーマンス レポートには、これらのテクノロジーの影響を受ける特定のグループに対してこれらのモデルがどのように機能するかについての評価が含まれていないことがよくあります。
AI で過小評価されている少数派グループの中で、低所得世帯からのデータはデータ収集やモデルの評価において見落とされることがよくあります。
私たちは、さまざまな所得値(ダラーストリート)に関連付けられた世帯画像を含む地理的に多様なデータセット上で最先端の視覚言語モデル(CLIP)のパフォーマンスを評価し、さまざまな所得レベルの世帯間にパフォーマンスの不平等が存在することを示します。

私たちの結果は、さまざまなテーマや国において、貧しいグループのパフォーマンスが裕福なグループよりも一貫して低いことを示しています。
これらの問題の軽減に役立つ洞察を強調し、経済レベルの包括的な AI 開発に向けた実行可能なステップを提案します。
コードは https://github.com/MichiganNLP/Bridging_the_Digital_Divide で入手できます。

要約(オリジナル)

Despite the impressive performance of current AI models reported across various tasks, performance reports often do not include evaluations of how these models perform on the specific groups that will be impacted by these technologies. Among the minority groups under-represented in AI, data from low-income households are often overlooked in data collection and model evaluation. We evaluate the performance of a state-of-the-art vision-language model (CLIP) on a geo-diverse dataset containing household images associated with different income values (Dollar Street) and show that performance inequality exists among households of different income levels. Our results indicate that performance for the poorer groups is consistently lower than the wealthier groups across various topics and countries. We highlight insights that can help mitigate these issues and propose actionable steps for economic-level inclusive AI development. Code is available at https://github.com/MichiganNLP/Bridging_the_Digital_Divide.

arxiv情報

著者 Joan Nwatu,Oana Ignat,Rada Mihalcea
発行日 2023-11-09 21:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY パーマリンク