AIstorian lets AI be a historian: A KG-powered multi-agent system for accurate biography generation

要約

Huaweiは、歴史的研究におけるAIアプリケーションの調査に常に取り組んできました。
抽象的な要約の専門的な形態としての伝記生成は、歴史的研究で重要な役割を果たしていますが、既存の大規模な言語モデル(LLM)が対処するのに苦労するユニークな課題に直面しています。
これらの課題には、歴史的執筆慣習への文体的な順守の維持、事実上の忠実度の確保、複数の文書にわたって断片化された情報の処理が含まれます。
Aistorianは、知識グラフ(KG)を搭載した検索された検索(RAG)および抗自発性マルチエージェントを備えた新しいエンドツーエンドエージェントシステムであるAistorianを紹介します。
具体的には、Aistorianは、正確で効率的な参照検索のためのコンテキスト学習ベースのチャンキング戦略とKGベースのインデックスを導入します。
一方、エイストリアンは、マルチエージェントを組織して、飛行中の幻覚検出とエラータイプアウェア修正を実施します。
さらに、LLMSに特定の言語スタイルを教えるために、データ増強強化された監視された微調整とスタイルの好みの最適化を組み合わせた2段階のトレーニングアプローチに基づいてLLMSを獲得します。
実際の歴史的なジンシデータセットでの広範な実験は、Aistorianが実際に3.8倍の改善を達成し、既存のベースラインと比較して幻覚率が47.6%減少することを示しています。
データとコードは、https://github.com/zju-daily/aistorianで入手できます。

要約(オリジナル)

Huawei has always been committed to exploring the AI application in historical research. Biography generation, as a specialized form of abstractive summarization, plays a crucial role in historical research but faces unique challenges that existing large language models (LLMs) struggle to address. These challenges include maintaining stylistic adherence to historical writing conventions, ensuring factual fidelity, and handling fragmented information across multiple documents. We present AIstorian, a novel end-to-end agentic system featured with a knowledge graph (KG)-powered retrieval-augmented generation (RAG) and anti-hallucination multi-agents. Specifically, AIstorian introduces an in-context learning based chunking strategy and a KG-based index for accurate and efficient reference retrieval. Meanwhile, AIstorian orchestrates multi-agents to conduct on-the-fly hallucination detection and error-type-aware correction. Additionally, to teach LLMs a certain language style, we finetune LLMs based on a two-step training approach combining data augmentation-enhanced supervised fine-tuning with stylistic preference optimization. Extensive experiments on a real-life historical Jinshi dataset demonstrate that AIstorian achieves a 3.8x improvement in factual accuracy and a 47.6% reduction in hallucination rate compared to existing baselines. The data and code are available at: https://github.com/ZJU-DAILY/AIstorian.

arxiv情報

著者 Fengyu Li,Yilin Li,Junhao Zhu,Lu Chen,Yanfei Zhang,Jia Zhou,Hui Zu,Jingwen Zhao,Yunjun Gao
発行日 2025-03-14 12:23:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク