要約
2 つのドキュメント間のコサイン類似度は、GPT-4 などの大規模言語モデル (LLM) によって形成されたトークン埋め込みを使用して計算でき、これらのドキュメントをさまざまな用途にわたって分類するために使用されます。
ただし、これらの類似性は最終的には、これらの LLM のトレーニングに使用されるコーパスに依存し、個人の主観的な類似性や、個人のバイアスや制約が類似性メトリックにどのように影響するかを反映していない可能性があります。
この類似性指標の認知を意識したパーソナライゼーションの欠如は、カテゴリや好みに関する個人の判断の数が限られており、偏見が特に関係する可能性がある教育および推奨の設定において特に問題となる可能性があります。
これに対処するために、インスタンスベース学習 (IBL) 認知モデルと LLM 埋め込みの統合に依存して、インスタンスベース個別類似性 (IBIS) メトリクスを開発します。
この類似性メトリクスは、意思決定の認知メカニズムに基づいた方法で個人のバイアスと制約を考慮に入れるという点で有益です。
IBIS メトリクスを評価するために、人間が電子メールを危険 (フィッシング) または安全 (ハム) として分類したデータセットも導入します。
このデータセットは、教育現場における人間の参加者の主観的な類似性を測定するために認知モデルを活用する利点を実証するために使用されます。
要約(オリジナル)
Cosine similarity between two documents can be computed using token embeddings formed by Large Language Models (LLMs) such as GPT-4, and used to categorize those documents across a range of uses. However, these similarities are ultimately dependent on the corpora used to train these LLMs, and may not reflect subjective similarity of individuals or how their biases and constraints impact similarity metrics. This lack of cognitively-aware personalization of similarity metrics can be particularly problematic in educational and recommendation settings where there is a limited number of individual judgements of category or preference, and biases can be particularly relevant. To address this, we rely on an integration of an Instance-Based Learning (IBL) cognitive model with LLM embeddings to develop the Instance-Based Individualized Similarity (IBIS) metric. This similarity metric is beneficial in that it takes into account individual biases and constraints in a manner that is grounded in the cognitive mechanisms of decision making. To evaluate the IBIS metric, we also introduce a dataset of human categorizations of emails as being either dangerous (phishing) or safe (ham). This dataset is used to demonstrate the benefits of leveraging a cognitive model to measure the subjective similarity of human participants in an educational setting.
arxiv情報
著者 | Tyler Malloy,Maria José Ferreira,Fei Fang,Cleotilde Gonzalez |
発行日 | 2024-10-10 14:51:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google