AnomaLLMy — Detecting anomalous tokens in black-box LLMs through low-confidence single-token predictions

要約

このペーパーでは、API のみのアクセスを備えたブラックボックス大規模言語モデル (LLM) 内の異常トークンを自動検出するための新しい技術である AnomaLLMy を紹介します。
AnomaLLMy は、信頼性の低い単一トークン予測を費用対効果の高い指標として利用して、モデルの動作の不規則性を特定し、モデルの品質と信頼性を低下させる異常なトークンの問題に対処します。
GPT-4 のトークン セットである cl100k_base データセットで検証された AnomaLLMy は、413 件の重大な異常と 65 件の軽微な異常を検出し、API クレジットに費やしたわずか \24.39 でメソッドの効率性を実証しました。
この研究からの洞察は、特にトークナイザーの開発と評価において、LLM の堅牢性と精度の向上に有益であることが期待されます。

要約(オリジナル)

This paper introduces AnomaLLMy, a novel technique for the automatic detection of anomalous tokens in black-box Large Language Models (LLMs) with API-only access. Utilizing low-confidence single-token predictions as a cost-effective indicator, AnomaLLMy identifies irregularities in model behavior, addressing the issue of anomalous tokens degrading the quality and reliability of models. Validated on the cl100k_base dataset, the token set of GPT-4, AnomaLLMy detected 413 major and 65 minor anomalies, demonstrating the method’s efficiency with just \$24.39 spent in API credits. The insights from this research are expected to be beneficial for enhancing the robustness of and accuracy of LLMs, particularly in the development and assessment of tokenizers.

arxiv情報

著者 Waligóra Witold
発行日 2024-06-28 11:28:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク