要約
大規模言語モデル (LLM) の機能における最近の進歩により、LLM の評価が新たに急増しています。
最近の評価作業では、一連のタスクにわたって LLM の総合的な能力を評価する傾向があります。
しかし、自然言語の深い構造の理解はほとんど研究されていません。
この研究では、人間が構築した形式言語の助けを借りて、質問応答のタスクで構造化されたセマンティクスを処理する LLM の能力を検証します。
具体的には、LLM のコンテキスト内学習を通じて自然言語と形式言語の相互変換を実装し、構造化された論理形式を理解して生成する能力を検証します。
さまざまなサイズとさまざまな形式言語のモデルを使用した広範な実験により、今日の最先端の LLM による論理形式の理解は全体的に人間のレベルに近づくことができるが、正しい論理形式を生成するにはまだ多くの余地があることが示されています。
LLM を使用して質問に直接答えるよりも、LLM を使用してより多くの自然言語トレーニング データを生成し、小規模なモデルを強化する方が効果的であるということです。
さらに、私たちの結果は、モデルがさまざまな形式言語に対してかなりの感度を示すことも示しています。
一般に、形式化レベルが低い形式言語、つまり自然言語に近い形式言語ほど、LLM に適しています。
要約(オリジナル)
Recent advancement in the capabilities of large language models (LLMs) has triggered a new surge in LLMs’ evaluation. Most recent evaluation works tends to evaluate the comprehensive ability of LLMs over series of tasks. However, the deep structure understanding of natural language is rarely explored. In this work, we examine the ability of LLMs to deal with structured semantics on the tasks of question answering with the help of the human-constructed formal language. Specifically, we implement the inter-conversion of natural and formal language through in-context learning of LLMs to verify their ability to understand and generate the structured logical forms. Extensive experiments with models of different sizes and in different formal languages show that today’s state-of-the-art LLMs’ understanding of the logical forms can approach human level overall, but there still are plenty of room in generating correct logical forms, which suggest that it is more effective to use LLMs to generate more natural language training data to reinforce a small model than directly answering questions with LLMs. Moreover, our results also indicate that models exhibit considerable sensitivity to different formal languages. In general, the formal language with the lower the formalization level, i.e. the more similar it is to natural language, is more LLMs-friendly.
arxiv情報
著者 | Jinxin Liu,Shulin Cao,Jiaxin Shi,Tingjian Zhang,Lei Hou,Juanzi Li |
発行日 | 2024-01-11 09:27:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google