Incorporating Crowdsourced Annotator Distributions into Ensemble Modeling to Improve Classification Trustworthiness for Ancient Greek Papyri

要約

ノイズの多いクラウドソースの画像データセットに対して分類を実行することは、最良のニューラル ネットワークであっても困難であることが判明する可能性があります。
このようなデータセットの問題を複雑にする 2 つの問題は、クラスの不均衡とラベル付けにおけるグラウンドトゥルースの不確実性です。
AL-ALL および AL-PUB データセットは、古代ギリシャのパピルスの画像から厳密に切り取られた個々の文字で構成されており、両方の問題の影響を強く受けています。
このようなデータセットにアンサンブル モデリングを適用すると、真実が疑わしい画像を特定し、それらのサンプルの信頼性を定量化するのに役立ちます。
そのため、異なる損失関数を備えたほぼ同一の ResNet で構成されるスタック汎化を適用します。1 つはスパースクロスエントロピー (CXE) を利用し、もう 1 つはカルバック・リーブラーダイバージェンス (KLD) を利用します。
どちらのネットワークも、クラウドソースのコンセンサスから抽出されたラベルを使用します。
このコンセンサスは、データセット内の特定の文字のすべてのアノテーションに基づくアノテーションの正規化分布 (NDA) から得られます。
2 番目のネットワークでは、NDA に基づいて KLD が計算されます。
アンサンブル モデルでは、k 最近傍モデルを CXE および KLD ネットワークの出力に適用します。
個別の ResNet モデルの精度は約 93% ですが、アンサンブル モデルは 95% 以上の精度を達成し、分類の信頼性が高まります。
また、分類の不確実性を測定するために、さまざまなモデルの出力分布のシャノン エントロピーの分析も実行します。
私たちの結果は、エントロピーがモデルの誤分類を予測するのに役立つことを示唆しています。

要約(オリジナル)

Performing classification on noisy, crowdsourced image datasets can prove challenging even for the best neural networks. Two issues which complicate the problem on such datasets are class imbalance and ground-truth uncertainty in labeling. The AL-ALL and AL-PUB datasets – consisting of tightly cropped, individual characters from images of ancient Greek papyri – are strongly affected by both issues. The application of ensemble modeling to such datasets can help identify images where the ground-truth is questionable and quantify the trustworthiness of those samples. As such, we apply stacked generalization consisting of nearly identical ResNets with different loss functions: one utilizing sparse cross-entropy (CXE) and the other Kullback-Liebler Divergence (KLD). Both networks use labels drawn from a crowd-sourced consensus. This consensus is derived from a Normalized Distribution of Annotations (NDA) based on all annotations for a given character in the dataset. For the second network, the KLD is calculated with respect to the NDA. For our ensemble model, we apply a k-nearest neighbors model to the outputs of the CXE and KLD networks. Individually, the ResNet models have approximately 93% accuracy, while the ensemble model achieves an accuracy of > 95%, increasing the classification trustworthiness. We also perform an analysis of the Shannon entropy of the various models’ output distributions to measure classification uncertainty. Our results suggest that entropy is useful for predicting model misclassifications.

arxiv情報

著者 Graham West,Matthew I. Swindall,Ben Keener,Timothy Player,Alex C. Williams,James H. Brusuelas,John F. Wallin
発行日 2023-12-06 18:06:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク