要約
類推は人間の認知にとって中心的なものであり、新しい状況に適応することを可能にしている。今日、ほとんどの類推データセットは単純な類推(例えば、単語の類推)に焦点を当てており、複雑なタイプの類推を含むデータセットは一般的に手作業でキュレーションされており、非常に小さい。このことが計算論的類推の進歩を妨げていると我々は考えている。本研究では、最新の大規模言語モデル(LLM)を活用したデータ生成パイプラインParallelPARC (Parallel Paragraph Creator)を設計し、複雑な段落ベースの類推や、単純なものから難易度の高いものまでのディストラクタを作成する。我々はパイプラインのデモを行い、ProPara-Logyという科学的プロセス間のアナロジーのデータセットを作成する。人間によって検証されたゴールドセットと、自動生成されたシルバーセットを公開する。LLMと人間のアナロジー認識を二者択一と多肢選択でテストし、軽いスーパービジョンの後、人間が最高のモデルを上回る(~13%のギャップ)ことを発見した。我々は、我々のシルバーセットがモデルの学習に有用であることを示す。最後に、LLMは注意散漫になるが、人間はそうではないことを示す。我々のパイプラインが、この新しい分野の研究を後押しすることを期待している。
要約(オリジナル)
Analogy-making is central to human cognition, allowing us to adapt to novel situations — an ability that current AI systems still lack. Most analogy datasets today focus on simple analogies (e.g., word analogies); datasets including complex types of analogies are typically manually curated and very small. We believe that this holds back progress in computational analogy. In this work, we design a data generation pipeline, ParallelPARC (Parallel Paragraph Creator) leveraging state-of-the-art Large Language Models (LLMs) to create complex, paragraph-based analogies, as well as distractors, both simple and challenging. We demonstrate our pipeline and create ProPara-Logy, a dataset of analogies between scientific processes. We publish a gold-set, validated by humans, and a silver-set, generated automatically. We test LLMs’ and humans’ analogy recognition in binary and multiple-choice settings, and found that humans outperform the best models (~13% gap) after a light supervision. We demonstrate that our silver-set is useful for training models. Lastly, we show challenging distractors confuse LLMs, but not humans. We hope our pipeline will encourage research in this emerging field.
arxiv情報
著者 | Oren Sultan,Yonatan Bitton,Ron Yosef,Dafna Shahaf |
発行日 | 2024-03-02 08:53:40+00:00 |
arxivサイト | arxiv_id(pdf) |