要約
大規模言語モデル (LLM) が安全に使用されるようにするには、LLM が幻覚を起こしたり、受け入れがたい答えを生成したりする傾向を軽減する必要があります。
シンプルでよく使用される戦略は、まず LLM に複数の仮説を生成させ、次にリランカーを使用して最適な仮説を選択することです。
この論文では、この戦略と、ノイズの多い通信チャネルでのエラー率を低減するための冗長性の使用との類似点を示します。
ジェネレーターは、ノイズの多いチャネルを介してメッセージの複数の記述を送信する送信者として概念化されます。
受信者は、(破損している可能性のある) 説明をランク付けし、最も信頼できると判断されたものを選択することによってメッセージをデコードします。
リランカーが不完全で (Mallows モデルまたは Zipf-Mandelbrot モデルによって支配されている)、チャネル分布が統計的に依存しているシナリオでも、このプロトコルが漸近的にエラーがなくなる (つまり、ほぼ確実に許容可能な答えが得られる) 条件を提供します。
当社のフレームワークを使用して再ランキングの法則を取得し、LLM を使用した 2 つの現実世界のタスク (DeepSeek-Coder 7B によるテキストからコードの生成と TowerInstruct 13B による医療データの機械翻訳) で経験的に検証しました。
要約(オリジナル)
To ensure large language models (LLMs) are used safely, one must reduce their propensity to hallucinate or to generate unacceptable answers. A simple and often used strategy is to first let the LLM generate multiple hypotheses and then employ a reranker to choose the best one. In this paper, we draw a parallel between this strategy and the use of redundancy to decrease the error rate in noisy communication channels. We conceptualize the generator as a sender transmitting multiple descriptions of a message through parallel noisy channels. The receiver decodes the message by ranking the (potentially corrupted) descriptions and selecting the one found to be most reliable. We provide conditions under which this protocol is asymptotically error-free (i.e., yields an acceptable answer almost surely) even in scenarios where the reranker is imperfect (governed by Mallows or Zipf-Mandelbrot models) and the channel distributions are statistically dependent. We use our framework to obtain reranking laws which we validate empirically on two real-world tasks using LLMs: text-to-code generation with DeepSeek-Coder 7B and machine translation of medical data with TowerInstruct 13B.
arxiv情報
著者 | António Farinhas,Haau-Sing Li,André F. T. Martins |
発行日 | 2024-09-11 09:27:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google