AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies

要約

人間は定期的に類推思考を行い、個人の経験を現在の状況に関連付けます ($Z$ があるため、$X$ は $Y$ に似ています)。
類推的思考により、人間は創造的な方法で問題を解決し、難しい概念を理解し、アイデアをより効果的に表現できるようになります。
言語モデル (LM) でも同じことができますか?
この質問に答えるために、LM の類推能力を判断するためのベンチマークである ANALOBENCH を提案します。
私たちのベンチマーク アプローチは、人間に共通するこの能力の側面に焦点を当てています。(i) 大量の情報から関連する経験を思い出すこと、(ii) 複雑で長いシナリオに類推を適用すること。
当社では、独自のモデル (GPT ファミリ、Claude V2 など) と LLaMA2 などのオープンソース モデルの幅広いコレクションをテストします。
以前の結果と同様に、LM をスケールアップすると、パフォーマンスがある程度向上します。
驚くべきことに、(i) アナロジーに長いシナリオが含まれる場合、または (ii) 大量の情報プールから関連するシナリオを呼び出す場合、これは干し草の山から針を見つけることに似たプロセスであり、スケールによる利点は最小限です。
これらの観察がこの分野のさらなる研究を促進することを願っています。

要約(オリジナル)

Humans regularly engage in analogical thinking, relating personal experiences to current situations ($X$ is analogous to $Y$ because of $Z$). Analogical thinking allows humans to solve problems in creative ways, grasp difficult concepts, and articulate ideas more effectively. Can language models (LMs) do the same? To answer this question, we propose ANALOBENCH, a benchmark to determine analogical reasoning ability in LMs. Our benchmarking approach focuses on aspects of this ability that are common among humans: (i) recalling related experiences from a large amount of information, and (ii) applying analogical reasoning to complex and lengthy scenarios. We test a broad collection of proprietary models (e.g., GPT family, Claude V2) and open source models such as LLaMA2. As in prior results, scaling up LMs results in some performance boosts. Surprisingly, scale offers minimal gains when, (i) analogies involve lengthy scenarios, or (ii) recalling relevant scenarios from a large pool of information, a process analogous to finding a needle in a haystack. We hope these observations encourage further research in this field.

arxiv情報

著者 Xiao Ye,Andrew Wang,Jacob Choi,Yining Lu,Shreya Sharma,Lingfeng Shen,Vijay Tiyyala,Nicholas Andrews,Daniel Khashabi
発行日 2024-02-19 18:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク