ArcGPT: A Large Language Model Tailored for Real-world Archival Applications


アーカイブ アプリケーションには、処理と分析が困難な大量のデータの管理が含まれます。
LLM はさまざまな分野で目覚ましい進歩を遂げていますが、LLM に合わせた公開されたアーカイブはありません。
このギャップに対処するために、私たちの知る限りでは、アーカイブ分野に合わせて調整された初の汎用 LLM である ArcGPT を導入します。
実際のアーカイブ タスクでのモデルのパフォーマンスを向上させるために、ArcGPT は大規模かつ広範なアーカイブ ドメイン データで事前トレーニングされています。
ArcGPT と並行して、4 つの現実世界のアーカイブ タスクで構成されるベンチマークである AMBLE をリリースします。
AMBLE での評価では、ArcGPT が既存の最先端モデルを上回っており、効果的なアーカイブ データ管理において大幅な前進を示していることが示されています。
最終的に、ArcGPT はアーカイブ コミュニティにより良いサービスを提供し、私たちの集合的な情報と知識を保存し活用するという重要な役割を担うアーキビストを支援することを目指しています。


Archives play a crucial role in preserving information and knowledge, and the exponential growth of such data necessitates efficient and automated tools for managing and utilizing archive information resources. Archival applications involve managing massive data that are challenging to process and analyze. Although LLMs have made remarkable progress in diverse domains, there are no publicly available archives tailored LLM. Addressing this gap, we introduce ArcGPT, to our knowledge, the first general-purpose LLM tailored to the archival field. To enhance model performance on real-world archival tasks, ArcGPT has been pre-trained on massive and extensive archival domain data. Alongside ArcGPT, we release AMBLE, a benchmark comprising four real-world archival tasks. Evaluation on AMBLE shows that ArcGPT outperforms existing state-of-the-art models, marking a substantial step forward in effective archival data management. Ultimately, ArcGPT aims to better serve the archival community, aiding archivists in their crucial role of preserving and harnessing our collective information and knowledge.


著者 Shitou Zhang,Jingrui Hou,Siyuan Peng,Zuchao Li,Qibiao Hu,Ping Wang
発行日 2023-07-27 13:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク