LADDER: Language Driven Slice Discovery and Error Rectification

要約

エラースライスディスカバリーは、構造化されたパターンをモデルのエラーに関連付ける。既存の手法では、エラーが発生しやすいサンプルを類似パターンでクラスタリングするか、ポストホック分析のために各サンプルに離散属性を割り当てることによって、エラースライスを発見します。これらの方法は、再重み付けや再バランシングによって、解釈しやすく、緩和しやすくすることを目的としているが、不完全な属性や欠落した属性のために、エラーパターンの完全な複雑性を捕捉できない可能性がある。既存のアプローチとは逆に、本論文では、複雑なエラーパターンを分析し、検証可能な仮説を生成するために、大規模言語モデル(LLM)の推論機能を利用する。本稿ではLADDERを提案する:LADDER: Language Driven Slice Discovery and Error Rectification)を提案する。LADDERはまず、モデルの表現を言語整合された特徴空間(CLIPなど)に投影し、元のモデルの特徴空間のセマンティクスを保持する。これにより、モデルの誤りを強調する文の正確な検索が保証される。次に、LLMはセンテンスを利用し、エラースライスを発見するための仮説を生成する。最後に、仮説を用いてグループバランスの取れたデータセットを作成し、分類ヘッドを微調整することで誤差を軽減する。我々の方法全体は、明示的または外部のタグ付けモデルによる属性注釈を必要としない。本手法を画像分類データセットで検証する。コードは利用可能である(https://github.com/batmanlab/Ladder)。

要約(オリジナル)

Error slice discovery associates structured patterns with model errors. Existing methods discover error slices by clustering the error-prone samples with similar patterns or assigning discrete attributes to each sample for post-hoc analysis. While these methods aim for interpretability and easier mitigation through reweighting or rebalancing, they may not capture the full complexity of error patterns due to incomplete or missing attributes. Contrary to the existing approach, this paper utilizes the reasoning capabilities of the Large Language Model (LLM) to analyze complex error patterns and generate testable hypotheses. This paper proposes LADDER: Language Driven slice Discovery and Error Rectification. It first projects the model’s representation into a language-aligned feature space (eg CLIP) to preserve semantics in the original model feature space. This ensures the accurate retrieval of sentences that highlight the model’s errors. Next, the LLM utilizes the sentences and generates hypotheses to discover error slices. Finally, we mitigate the error by fine-tuning the classification head by creating a group-balanced dataset using the hypotheses. Our entire method does not require any attribute annotation, either explicitly or through external tagging models. We validate our method with \textbf{five} image classification datasets. The code is available (https://github.com/batmanlab/Ladder).

arxiv情報

著者 Shantanu Ghosh,Rayan Syed,Chenyu Wang,Clare B. Poynton,Shyam Visweswaran,Kayhan Batmanghelich
発行日 2024-11-01 07:41:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク