要約
言語モデルの論理的推論能力を向上させるための既存の取り組みは、主に教師付き微調整に依存しており、新しいドメインやタスクへの一般化を妨げています。
大規模言語モデル (LLM) の開発により、豊富な知識を 1 つのプロキシに圧縮して、複数のタスクに効果的に取り組むことができることが実証されました。
それにもかかわらず、私たちの予備実験では、LLM が論理的推論の能力を示さないことが示されています。
論理的推論ベンチマークにおける LLM のパフォーマンスは、既存の最先端のベースラインを大きく下回っています。
この論文では、自己教師ありの事後トレーニングを通じて論理知識を組み込み、LogicLLM と名付けたコンテキスト内学習を通じて論理知識を活性化する実現可能性を調査する最初の試みを行います。
具体的には、MERIt の自己回帰目標バリアントを考案し、それを 30 億から 130 億の範囲のパラメーター サイズを持つ 2 つの LLM シリーズ、つまり FLAN-T5 と LLaMA と統合します。
2 つの困難な論理推論ベンチマークの結果は、LogicLLM の有効性を示しています。
さらに、ロジック指向のプロキシ タスクを設計する際の重要な要素を分析するために、広範なアブレーション研究を実施しています。
要約(オリジナル)
Existing efforts to improve logical reasoning ability of language models have predominantly relied on supervised fine-tuning, hindering generalization to new domains and/or tasks. The development of Large Langauge Models (LLMs) has demonstrated the capacity of compressing abundant knowledge into a single proxy, enabling them to tackle multiple tasks effectively. Our preliminary experiments, nevertheless, show that LLMs do not show capability on logical reasoning. The performance of LLMs on logical reasoning benchmarks is far behind the existing state-of-the-art baselines. In this paper, we make the first attempt to investigate the feasibility of incorporating logical knowledge through self-supervised post-training, and activating it via in-context learning, which we termed as LogicLLM. Specifically, we devise an auto-regressive objective variant of MERIt and integrate it with two LLM series, i.e., FLAN-T5 and LLaMA, with parameter size ranging from 3 billion to 13 billion. The results on two challenging logical reasoning benchmarks demonstrate the effectiveness of LogicLLM. Besides, we conduct extensive ablation studies to analyze the key factors in designing logic-oriented proxy tasks.
arxiv情報
著者 | Fangkai Jiao,Zhiyang Teng,Bosheng Ding,Zhengyuan Liu,Nancy F. Chen,Shafiq Joty |
発行日 | 2024-03-14 15:05:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google