Is Probing All You Need? Indicator Tasks as an Alternative to Probing Embedding Spaces

要約

単語のベクトル表現にエンコードされたさまざまな種類の言語情報を識別して制御する機能には、特に説明可能性とバイアスの除去に多くの使用例があります。
これは通常、プローブと呼ばれる一連の単純な分類タスクを介して行われ、埋め込み空間にエンコードされた情報を評価します。
ただし、トレーニング可能な分類器が関与すると、プローブの結果と分類器の性質の間にもつれが生じます。
その結果、プロービングに関する現代の研究には、補助モデルのトレーニングを含まないタスクが含まれています。
この研究では、特定のプロパティの存在について埋め込み空間をクエリするために使用されるトレーニング不可能なタスクに対してインジケーター タスクという用語を導入し、この種のタスクはプローブとは反対の方向を指す可能性があり、この矛盾が問題を複雑にしていると主張します。
プロパティが埋め込みスペースに存在するかどうかの決定。
我々は 2 つのテスト ケースで私たちの主張を実証します。1 つはジェンダーのバイアス解消を扱い、もう 1 つは埋め込み空間からの形態学的情報の消去を扱います。
適切なインジケーターを適用すると、プローブと比較して、捕捉および削除された情報のより正確な画像が提供されることを示します。
したがって、埋め込み表現から情報を引き出す際には、インジケーター タスクを実装し、考慮する必要があると結論付けます。

要約(オリジナル)

The ability to identify and control different kinds of linguistic information encoded in vector representations of words has many use cases, especially for explainability and bias removal. This is usually done via a set of simple classification tasks, termed probes, to evaluate the information encoded in the embedding space. However, the involvement of a trainable classifier leads to entanglement between the probe’s results and the classifier’s nature. As a result, contemporary works on probing include tasks that do not involve training of auxiliary models. In this work we introduce the term indicator tasks for non-trainable tasks which are used to query embedding spaces for the existence of certain properties, and claim that this kind of tasks may point to a direction opposite to probes, and that this contradiction complicates the decision on whether a property exists in an embedding space. We demonstrate our claims with two test cases, one dealing with gender debiasing and another with the erasure of morphological information from embedding spaces. We show that the application of a suitable indicator provides a more accurate picture of the information captured and removed compared to probes. We thus conclude that indicator tasks should be implemented and taken into consideration when eliciting information from embedded representations.

arxiv情報

著者 Tal Levy,Omer Goldman,Reut Tsarfaty
発行日 2023-10-24 15:08:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク