要約
タイトル:LLM2Loss:理解可能なモデル診断のための言語モデルの活用
要約:
– 大量のデータでトレーニングされた大規模言語モデル(LLMs)は、抽象的な空間で相当複雑なテキスト入力をモデリングすることにおいて前例のない成功と汎用性を発揮し、ゼロショット学習の強力なツールとなっている。
– CLIPのようなクロスモーダル基盤モデルを使用することで、その能力が視覚領域などの他のモダリティに拡張され、視覚的入力から意味のある表現を抽出できるようになった。
– 本研究では、この能力を活用し、モデルの失敗やバイアスのパターンに対する意味論的な洞察を提供するアプローチを提案する。
– 黒箱モデル、トレーニングデータ、タスク定義が与えられた場合、まず各データポイントのタスク関連損失を計算する。
– 次に、各トレーニングデータポイントの意味論的に意味のある表現(視覚エンコーダからのクリップ埋め込みなど)を抽出し、そのデータポイントの意味論的な表現をタスク損失にマップする軽量診断モデルをトレーニングする。
– このような軽量モデルのアンサンブルを使用して、黒箱モデルのパフォーマンスに関する洞察を生成でき、失敗とバイアスのパターンを特定できることを示す。
要約(オリジナル)
Trained on a vast amount of data, Large Language models (LLMs) have achieved unprecedented success and generalization in modeling fairly complex textual inputs in the abstract space, making them powerful tools for zero-shot learning. Such capability is extended to other modalities such as the visual domain using cross-modal foundation models such as CLIP, and as a result, semantically meaningful representation are extractable from visual inputs. In this work, we leverage this capability and propose an approach that can provide semantic insights into a model’s patterns of failures and biases. Given a black box model, its training data, and task definition, we first calculate its task-related loss for each data point. We then extract a semantically meaningful representation for each training data point (such as CLIP embeddings from its visual encoder) and train a lightweight diagnosis model which maps this semantically meaningful representation of a data point to its task loss. We show that an ensemble of such lightweight models can be used to generate insights on the performance of the black-box model, in terms of identifying its patterns of failures and biases.
arxiv情報
著者 | Shervin Ardeshir |
発行日 | 2023-05-04 23:54:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI