Transformers in the Service of Description Logic-based Contexts

要約

変圧器ベースのモデルの最近の進歩により、推論タスクの実行を学習する能力を調査するという研究の関心が高まっています。
ただし、この目的で使用されるコンテキストのほとんどは、実際には非常に単純です。少数の論理演算子と数量詞のみを含む短い一次論理文 (の断片) から生成されます。
この作業では、記述論理言語 $\mathcal{ALCQ}$ を使用して、自然言語データセット DELTA$_D$ を構築します。
DELTA$_D$ には 384K の例が含まれており、i) 推論の深さ、ii) 言語の複雑さの 2 つの次元で増加します。
このようにして、教師あり微調整 DeBERTa ベースのモデルと、少数ショット プロンプトを備えた 2 つの大きな言語モデル (GPT-3.5、GPT-4) の推論能力を体系的に調査します。
私たちの結果は、DeBERTa ベースのモデルが推論タスクを習得できること、および提供されるサンプル数が少ない場合 (9 ショット) であっても GPT のパフォーマンスが大幅に向上できることを示しています。
私たちはコードとデータセットをオープンソースにしています。

要約(オリジナル)

Recent advancements in transformer-based models have initiated research interests in investigating their ability to learn to perform reasoning tasks. However, most of the contexts used for this purpose are in practice very simple: generated from short (fragments of) first-order logic sentences with only a few logical operators and quantifiers. In this work, we construct the natural language dataset, DELTA$_D$, using the description logic language $\mathcal{ALCQ}$. DELTA$_D$ contains 384K examples, and increases in two dimensions: i) reasoning depth, and ii) linguistic complexity. In this way, we systematically investigate the reasoning ability of a supervised fine-tuned DeBERTa-based model and of two large language models (GPT-3.5, GPT-4) with few-shot prompting. Our results demonstrate that the DeBERTa-based model can master the reasoning task and that the performance of GPTs can improve significantly even when a small number of samples is provided (9 shots). We open-source our code and datasets.

arxiv情報

著者 Angelos Poulis,Eleni Tsalapati,Manolis Koubarakis
発行日 2024-04-26 16:32:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク