Fine-tuning and aligning question answering models for complex information extraction tasks

要約

Large Language Model (LLM) の出現により、さまざまな NLP タスクのパフォーマンスと可能性が向上しました。
ChatGPT のような生成 AI モデルの使用は、いくつかのビジネス ユース ケースに新たな機会をもたらしますが、偽のコンテンツを幻覚させる現在の傾向により、文書からの情報検索などの文書分析への適用が大幅に制限されています。
対照的に、質問応答 (QA) モデルやパッセージ検索モデルなどの抽出言語モデルは、クエリ結果が対応するコンテキスト ドキュメントの境界内で見つかることを保証するため、企業の生産環境でより信頼性の高い情報抽出の候補となります。
この研究では、保険報告書や医療リーフレットなどのドイツのビジネス文書の特徴抽出を改善するための抽出 QA モデルを使用し、文書分析ソリューションに統合するアプローチを提案します。
さらに、既存のドイツの QA モデルを微調整すると、たとえ少数の注釈付きデータのみを使用した場合でも、損傷原因の説明や薬剤の外観の説明など、複雑な言語的特徴のカスタマイズされた抽出タスクのパフォーマンスが向上することを示します。
最後に、情報抽出タスクを評価するためのスコアリング指標の関連性について議論し、レーベンシュタイン距離、F1 スコア、完全一致、ROUGE-L から組み合わせた指標を導き出し、人間の専門家による評価基準を模倣します。

要約(オリジナル)

The emergence of Large Language Models (LLMs) has boosted performance and possibilities in various NLP tasks. While the usage of generative AI models like ChatGPT opens up new opportunities for several business use cases, their current tendency to hallucinate fake content strongly limits their applicability to document analysis, such as information retrieval from documents. In contrast, extractive language models like question answering (QA) or passage retrieval models guarantee query results to be found within the boundaries of an according context document, which makes them candidates for more reliable information extraction in productive environments of companies. In this work we propose an approach that uses and integrates extractive QA models for improved feature extraction of German business documents such as insurance reports or medical leaflets into a document analysis solution. We further show that fine-tuning existing German QA models boosts performance for tailored extraction tasks of complex linguistic features like damage cause explanations or descriptions of medication appearance, even with using only a small set of annotated data. Finally, we discuss the relevance of scoring metrics for evaluating information extraction tasks and deduce a combined metric from Levenshtein distance, F1-Score, Exact Match and ROUGE-L to mimic the assessment criteria from human experts.

arxiv情報

著者 Matthias Engelbach,Dennis Klau,Felix Scheerer,Jens Drawehn,Maximilien Kintz
発行日 2023-09-26 10:02:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク