要約
生成AIモデルは強力な機能を提供しますが、多くの場合透明性が欠けているため、出力を解釈することが困難になります。
これは、芸術的または著作権で保護されたコンテンツを含む場合に重要です。
この作業では、出力に対するトレーニングデータの影響を分析することにより、これらのモデルの解釈可能性を改善するための検索に触発されたアプローチを紹介します。
私たちの方法は、モデルの内部状態ではなく、モデルの出力に焦点を当てることにより、観察的解釈可能性を提供します。
生成されたコンテンツ内のデータ項目の影響を検索する際に、生データと潜在スペースの埋め込みの両方を検討します。
モデルをローカルで再訓練し、トレーニングデータの影響力のあるサブセットを明らかにする方法の能力を実証することにより、方法を評価します。
この作業は、ドメインの専門家とのユーザーベースの評価を含む、将来の拡張の基礎を築き、観察の解釈性をさらに向上させることが期待されています。
要約(オリジナル)
Generative AI models offer powerful capabilities but often lack transparency, making it difficult to interpret their output. This is critical in cases involving artistic or copyrighted content. This work introduces a search-inspired approach to improve the interpretability of these models by analysing the influence of training data on their outputs. Our method provides observational interpretability by focusing on a model’s output rather than on its internal state. We consider both raw data and latent-space embeddings when searching for the influence of data items in generated content. We evaluate our method by retraining models locally and by demonstrating the method’s ability to uncover influential subsets in the training data. This work lays the groundwork for future extensions, including user-based evaluations with domain experts, which is expected to improve observational interpretability further.
arxiv情報
著者 | Theodoros Aivalis,Iraklis A. Klampanos,Antonis Troumpoukis,Joemon M. Jose |
発行日 | 2025-04-02 14:29:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google