Towards Verifiable Text Generation with Symbolic References

要約

大規模言語モデル (LLM) は、もっともらしく流暢なテキストを合成する優れた能力を実証しています。
ただし、依然として幻覚に対して脆弱であるため、一般に、その出力は、一か八かのアプリケーションについては人間による手動検証が必要であり、これは時間がかかり、困難な場合があります。
この文書では、LLM の出力を簡単に検証できるようにするためのシンプルなアプローチとして、シンボリック グラウンド生成 (SymGen) を提案します。
SymGen は、LLM に対して、通常の出力テキストに、一部の条件付けデータ (JSON 形式のテーブルなど) に存在するフィールドへの明示的なシンボリック参照をインターリーブするように要求します。
参照を使用すると、生成されたテキストのさまざまな範囲の出所を表示できるため、手動による検証に必要な労力が軽減されます。
データからテキストへの変換および質問応答の実験を通じて、LLM は流暢さと正確さを維持しながら、記号参照を利用するテキストを直接出力できることがわかりました。

要約(オリジナル)

Large language models (LLMs) have demonstrated an impressive ability to synthesize plausible and fluent text. However they remain vulnerable to hallucinations, and thus their outputs generally require manual human verification for high-stakes applications, which can be time-consuming and difficult. This paper proposes symbolically grounded generation (SymGen) as a simple approach for enabling easier validation of an LLM’s output. SymGen prompts an LLM to interleave its regular output text with explicit symbolic references to fields present in some conditioning data (e.g., a table in JSON format). The references can be used to display the provenance of different spans of text in the generation, reducing the effort required for manual verification. Across data-to-text and question answering experiments, we find that LLMs are able to directly output text that makes use of symbolic references while maintaining fluency and accuracy.

arxiv情報

著者 Lucas Torroba Hennigen,Shannon Shen,Aniruddha Nrusimha,Bernhard Gapp,David Sontag,Yoon Kim
発行日 2023-11-15 18:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク