Increasing Trust in Language Models through the Reuse of Verified Circuits

要約

言語モデル (LM) は、幅広い予測タスクにますます使用されていますが、そのトレーニングではまれなエッジケースが無視されることが多く、信頼性が低下します。
ここでは、信頼性の厳格な基準を定義します。これにより、タスク アルゴリズムと回路の実装は、既知の障害モードがない状態で、エッジ ケースを考慮して検証される必要があります。
数学的および論理的に指定されたフレームワークを使用して構築された場合、変圧器モデルがこの標準を満たすようにトレーニングできることを示します。
この論文では、n 桁の整数加算のモデルを完全に検証します。
検証済みモジュールの再利用性を示すために、トレーニング済みの整数加算モデルを未トレーニングのモデルに挿入し、加算と減算の両方を実行するように結合モデルをトレーニングします。
両方のタスクで加算回路が広範囲に再利用されており、より複雑な減算器モデルの検証が容易になっていることがわかりました。
検証済みのタスク モジュールを LM に挿入することでモデルの再利用を活用し、それらを使用して構築された言語モデルの検証可能性と信頼性を向上させる方法について説明します。
検証済みの回路を再利用することで、より複雑な複合モデルを検証する労力が軽減され、これは言語モデルの安全性への重要な一歩となると考えられます。

要約(オリジナル)

Language Models (LMs) are increasingly used for a wide range of prediction tasks, but their training can often neglect rare edge cases, reducing their reliability. Here, we define a stringent standard of trustworthiness whereby the task algorithm and circuit implementation must be verified, accounting for edge cases, with no known failure modes. We show that a transformer model can be trained to meet this standard if built using mathematically and logically specified frameworks. In this paper, we fully verify a model for n-digit integer addition. To exhibit the reusability of verified modules, we insert the trained integer addition model into an untrained model and train the combined model to perform both addition and subtraction. We find extensive reuse of the addition circuits for both tasks, easing verification of the more complex subtractor model. We discuss how inserting verified task modules into LMs can leverage model reuse to improve verifiability and trustworthiness of language models built using them. The reuse of verified circuits reduces the effort to verify more complex composite models which we believe to be a significant step towards safety of language models.

arxiv情報

著者 Philip Quirke,Clement Neo,Fazl Barez
発行日 2024-04-12 03:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク