要約
コンテキスト外の LLM 出力をリアルタイムで検出することは、RAG アプリケーションを安全に導入しようとしている企業にとって非常に重要です。
この研究では、軽量モデルをトレーニングして、意味的にコンテキストを逸脱した LLM 生成テキストを、取得されたテキスト ドキュメントから識別します。
要約データセットと意味論的なテキスト類似性データセットの組み合わせを前処理して、最小限のリソースを使用してトレーニング データを構築します。
DeBERTa は、このパイプラインで最もパフォーマンスの高いモデルであるだけでなく、高速であり、追加のテキスト前処理や特徴エンジニアリングを必要としないことがわかりました。
新しい研究では、生成 LLM を微調整して複雑なデータ パイプラインで使用して最先端のパフォーマンスを実現できることが実証されていますが、オンプレミス展開では速度とリソースの制限が重要な考慮事項であることに注意してください。
要約(オリジナル)
Real-time detection of out-of-context LLM outputs is crucial for enterprises looking to safely adopt RAG applications. In this work, we train lightweight models to discriminate LLM-generated text that is semantically out-of-context from retrieved text documents. We preprocess a combination of summarisation and semantic textual similarity datasets to construct training data using minimal resources. We find that DeBERTa is not only the best-performing model under this pipeline, but it is also fast and does not require additional text preprocessing or feature engineering. While emerging work demonstrates that generative LLMs can also be fine-tuned and used in complex data pipelines to achieve state-of-the-art performance, we note that speed and resource limits are important considerations for on-premise deployment.
arxiv情報
著者 | Ian Poey,Jiajun Liu,Qishuai Zhong,Adrien Chenailler |
発行日 | 2024-11-06 13:51:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google