Can LLM find the green circle? Investigation and Human-guided tool manipulation for compositional generalization

要約

自然言語における複雑なフレーズの意味は、個々のコンポーネントから構成されます。
構成的一般化のタスクでは、コンポーネントの新しい組み合わせを理解するモデルの能力を評価します。
以前の研究では、より小規模なタスク固有のモデルをトレーニングしていましたが、一般化が不十分でした。
大規模言語モデル (LLM) は、コンテキスト内学習 (ICL) を通じて多くのタスクで優れた一般化能力を示しますが、構成的な一般化の可能性はまだ解明されていません。
この論文では、まず、一般的な組成の ICL 手法を経験的に調査します。
長い推論ステップやツール作成に必要な複雑なロジックでの累積的なエラーにより、彼らは複雑な構成問題に苦戦していることがわかりました。
そこで、我々は、サブ質問用のツールを生成し、複数のツールを統合する人間ガイド型ツール操作フレームワーク(HTM)を提案します。
私たちの方法は、最小限の人的労力でツールの作成と使用の効率を高めます。
実験では、私たちの手法が 2 つの構成一般化ベンチマークで最先端のパフォーマンスを達成し、最も困難なテストで既存の手法を 70% 上回るパフォーマンスを示していることが示されています。

要約(オリジナル)

The meaning of complex phrases in natural language is composed of their individual components. The task of compositional generalization evaluates a model’s ability to understand new combinations of components. Previous studies trained smaller, task-specific models, which exhibited poor generalization. While large language models (LLMs) exhibit impressive generalization abilities on many tasks through in-context learning (ICL), their potential for compositional generalization remains unexplored. In this paper, we first empirically investigate prevailing ICL methods in compositional generalization. We find that they struggle with complex compositional questions due to cumulative errors in long reasoning steps and intricate logic required for tool-making. Consequently, we propose a human-guided tool manipulation framework (HTM) that generates tools for sub-questions and integrates multiple tools. Our method enhances the effectiveness of tool creation and usage with minimal human effort. Experiments show that our method achieves state-of-the-art performance on two compositional generalization benchmarks and outperforms existing methods on the most challenging test split by 70%.

arxiv情報

著者 Min Zhang,Jianfeng He,Shuo Lei,Murong Yue,Linhang Wang,Chang-Tien Lu
発行日 2023-12-12 22:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク