Enhancing LLM’s Cognition via Structurization

要約

長い形式のテキストを読むとき、人間の認識は複雑で構造化されています。
大規模言語モデル (LLM) は、因果的かつ逐次的な観点を通じて入力コンテキストを処理しますが、このアプローチでは、複雑で複雑な入力を効果的に処理する能力が制限される可能性があります。
LLM の認知能力を強化するために、この論文ではコンテキスト構造化の新しい概念を紹介します。
具体的には、単純で順序のない文脈上の文を、順序が正しく階層的に構造化された要素に変換します。
そうすることで、LLM は、組織化された構造に沿った正確な注意と情報探索を通じて、複雑で拡張されたコンテキストをより適切に把握できるようになります。
広範な評価は、さまざまなモデル アーキテクチャとサイズ (いくつかの 7B ~ 72B サイズの自動回帰 LLM および BERT のようなマスキング モデルを含む) にわたって、多様な NLP タスク (コンテキストベースの質問応答、網羅的タスクなど) に対して実行されます。
幻覚評価、および通過レベルの密検索)。
経験的な結果は、単一ラウンドの構造化によって一貫した大幅なパフォーマンスの向上が得られることを示しています。
特に、72B パラメータのオープンソース モデルを強化して、幻覚評価器としての GPT-3.5-Turbo と同等のパフォーマンスを達成します。
さらに、高度な LLM の言語処理能力をより小型で効果的な StruXGPT-7B に抽出して構造化を実行する実現可能性を示し、アプローチの実用性に取り組みます。
コードは近々公開される予定です。

要約(オリジナル)

When reading long-form text, human cognition is complex and structurized. While large language models (LLMs) process input contexts through a causal and sequential perspective, this approach can potentially limit their ability to handle intricate and complex inputs effectively. To enhance LLM’s cognition capability, this paper presents a novel concept of context structurization. Specifically, we transform the plain, unordered contextual sentences into well-ordered and hierarchically structurized elements. By doing so, LLMs can better grasp intricate and extended contexts through precise attention and information-seeking along the organized structures. Extensive evaluations are conducted across various model architectures and sizes (including several 7B- to 72B-size auto-regressive LLMs as well as BERT-like masking models) on a diverse set of NLP tasks (e.g., context-based question-answering, exhaustive hallucination evaluation, and passage-level dense retrieval). Empirical results show consistent and significant performance gains afforded by a single-round structurization. In particular, we boost a 72B-parameter open-source model to achieve comparable performance against GPT-3.5-Turbo as the hallucination evaluator. Besides, we show the feasibility of distilling advanced LLMs’ language processing abilities to a smaller yet effective StruXGPT-7B to execute structurization, addressing the practicality of our approach. Code will be made public soon.

arxiv情報

著者 Kai Liu,Zhihang Fu,Chao Chen,Wei Zhang,Rongxin Jiang,Fan Zhou,Yaowu Chen,Yue Wu,Jieping Ye
発行日 2024-07-23 12:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク