要約
この文書では、SemEval 2024 タスク 9、BRAINTEASER: 常識を覆す新しいタスクに対する私たちのアプローチの概要を説明します。
このタスクは、言語モデルが創造的に考える能力を評価することを目的としています。
このデータセットは、モデルに「既成概念にとらわれない」思考を求める多肢選択の質問で構成されています。
BERTとRoBERTa Largeの2モデルを微調整しました。
次に、GPT-3.5、Mixtral、Llama2 などの 6 つの大きな言語モデルを使用して、思考連鎖 (CoT) ゼロショット プロンプト アプローチを採用します。
最後に、ゼロショット学習のために複数のエージェントによる「円卓会議」アプローチを採用する手法である ReConcile を利用して、選択した 3 つの言語モデル間でコンセンサスのある回答を生成します。
私たちの最良の方法では、センテンス パズルのサブタスクで全体の精度が 85% に達しました。
要約(オリジナル)
This paper outlines our approach to SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Sense. The task aims to evaluate the ability of language models to think creatively. The dataset comprises multi-choice questions that challenge models to think ‘outside of the box’. We fine-tune 2 models, BERT and RoBERTa Large. Next, we employ a Chain of Thought (CoT) zero-shot prompting approach with 6 large language models, such as GPT-3.5, Mixtral, and Llama2. Finally, we utilize ReConcile, a technique that employs a ‘round table conference’ approach with multiple agents for zero-shot learning, to generate consensus answers among 3 selected language models. Our best method achieves an overall accuracy of 85 percent on the sentence puzzles subtask.
arxiv情報
著者 | Baktash Ansari,Mohammadmostafa Rostamkhani,Sauleh Eetemadi |
発行日 | 2024-06-07 14:01:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google