Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction

要約

大規模言語モデル (LLM) に関する既存の研究では、LLM が複数段階の計画を通じて情報抽出タスクを解決できることが示されています。
ただし、複雑な文やタスクの抽出動作は不安定で、誤検知や要素の欠落などの問題が新たに発生しています。
複雑な抽出タスクを分解して段階的に抽出すると、LLM のパフォーマンスが効果的に向上し、エンティティの抽出順序が LLM の最終結果に大きく影響することがわかりました。
本論文では,LLMベースの情報抽出のための2段階マルチステップ法を提案し,マルチステップ計画を実行するためにRLフレームワークを採用した。
私たちは逐次抽出をマルコフ決定プロセスとみなして、LLM ベースの抽出環境を構築し、さまざまな文に対する逐次エンティティ抽出に最適な順序を適応的に提供する決定モジュールを設計し、DDQN アルゴリズムを利用して決定モデルをトレーニングします。
また、LLMの抽出結果に応じた報酬や評価指標の設計も行います。
私たちは、LLM の情報抽出能力の向上における私たちの方法の有効性を実証するために、複数の公開データセットに対して広範な実験を実施しています。

要約(オリジナル)

Existing research on large language models (LLMs) shows that they can solve information extraction tasks through multi-step planning. However, their extraction behavior on complex sentences and tasks is unstable, emerging issues such as false positives and missing elements. We observe that decomposing complex extraction tasks and extracting them step by step can effectively improve LLMs’ performance, and the extraction orders of entities significantly affect the final results of LLMs. This paper proposes a two-stage multi-step method for LLM-based information extraction and adopts the RL framework to execute the multi-step planning. We regard sequential extraction as a Markov decision process, build an LLM-based extraction environment, design a decision module to adaptively provide the optimal order for sequential entity extraction on different sentences, and utilize the DDQN algorithm to train the decision model. We also design the rewards and evaluation metrics suitable for the extraction results of LLMs. We conduct extensive experiments on multiple public datasets to demonstrate the effectiveness of our method in improving the information extraction capabilities of LLMs.

arxiv情報

著者 Zepeng Ding,Ruiyang Ke,Wenhao Huang,Guochao Jiang,Yanda Li,Deqing Yang,Jiaqing Liang
発行日 2024-08-29 14:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク