要約
標準的な分類理論では、テスト セットとトレーニング セット内の画像の分布が同一であると仮定しています。
残念ながら、現実のシナリオには通常、トレーニング分布内のデータ (「分布内」) とは異なる、目に見えないデータ (「分布外データ」) が含まれます。
この問題は、過小評価されたグループのデータがトレーニング データの同じ割合を代表せずにテスト データに表示される可能性がある社会正義の問題で最も一般的です。
その結果、モデルが自信を持って間違った決定や予測を返す可能性があります。
私たちは次の質問に興味があります: 分布内データの複数のデータセットで同時にトレーニングされた場合、分布外データの顔画像のニューラル ネットワークのパフォーマンスは向上しますか?
私たちは、Outlier Exposure モデルを組み込むことでこの問題にアプローチし、顔画像の他のデータセットが実装されたときにモデルのパフォーマンスがどのように変化するかを調査します。
Outlier Exposure を適用し、異常値画像に対するマシンの強調を高めるトレーニング可能な重みパラメーターを組み込み、さまざまなクラス ラベルの重要性を再重み付けすることによって、モデルの精度とその他のメトリクスが向上することがわかります。
また、画像を並べ替えて画像の特徴によって外れ値を判断する方が、平均ピクセル値で並べ替えるよりもメトリクスに大きな影響を与えるかどうかも実験しましたが、決定的な結果は見つかりませんでした。
私たちの目標は、より広範囲の画像をスキャンすることで、モデルをより正確にするだけでなく、より公平にすることでした。
Python と Pytorch パッケージを利用すると、外れ値の露出を利用したモデルにより、より公平な分類が可能になることがわかりました。
要約(オリジナル)
Standard classification theory assumes that the distribution of images in the test and training sets are identical. Unfortunately, real-life scenarios typically feature unseen data (“out-of-distribution data’) which is different from data in the training distribution (“in-distribution’). This issue is most prevalent in social justice problems where data from under-represented groups may appear in the test data without representing an equal proportion of the training data. This may result in a model returning confidently wrong decisions and predictions. We are interested in the following question: Can the performance of a neural network improve on facial images of out-of-distribution data when it is trained simultaneously on multiple datasets of in-distribution data? We approach this problem by incorporating the Outlier Exposure model and investigate how the model’s performance changes when other datasets of facial images were implemented. We observe that the accuracy and other metrics of the model can be increased by applying Outlier Exposure, incorporating a trainable weight parameter to increase the machine’s emphasis on outlier images, and by re-weighting the importance of different class labels. We also experimented with whether sorting the images and determining outliers via image features would have more of an effect on the metrics than sorting by average pixel value, and found no conclusive results. Our goal was to make models not only more accurate but also more fair by scanning a more expanded range of images. Utilizing Python and the Pytorch package, we found models utilizing outlier exposure could result in more fair classification.
arxiv情報
著者 | Gianluca Barone,Aashrit Cunchala,Rudy Nunez |
発行日 | 2024-10-11 15:48:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google