Empirical Study of Symmetrical Reasoning in Conversational Chatbots

要約

この研究では、大規模言語モデル (LLM) を利用した会話型チャットボットが、人間の固有の特性であると伝統的に考えられている認知言語機能である述語の対称性を理解し、特徴付ける能力を調査しています。
チャットボットが再トレーニングせずにプロンプ​​トから新しいタスクを学習できるようにするパラダイム シフトであるインコンテキスト学習 (ICL) を活用して、ChatGPT 4、Huggingface チャット AI、Microsoft の Copilot AI、LLaMA through Perplexity、および
ジェミニアドバンス。
Tanchip らによる Symmetry Inference Sentence (SIS) データセットの使用
(2020) では、チャットボットの応答を人間の評価と比較して、述語の対称性に対する人間の理解を評価しています。
実験の結果、チャットボットのパフォーマンスにはばらつきがあり、一部は人間のような推論能力に近づいていることが明らかになりました。
たとえば、Gemini は人間のスコアとの相関が 0.85 に達し、各対称性の評価に妥当な正当性を与えています。
この研究は、複雑な認知プロセスを対称推論として反映する際の LLM の可能性と限界を強調しています。

要約(オリジナル)

This work explores the capability of conversational chatbots powered by large language models (LLMs), to understand and characterize predicate symmetry, a cognitive linguistic function traditionally believed to be an inherent human trait. Leveraging in-context learning (ICL), a paradigm shift enabling chatbots to learn new tasks from prompts without re-training, we assess the symmetrical reasoning of five chatbots: ChatGPT 4, Huggingface chat AI, Microsoft’s Copilot AI, LLaMA through Perplexity, and Gemini Advanced. Using the Symmetry Inference Sentence (SIS) dataset by Tanchip et al. (2020), we compare chatbot responses against human evaluations to gauge their understanding of predicate symmetry. Experiment results reveal varied performance among chatbots, with some approaching human-like reasoning capabilities. Gemini, for example, reaches a correlation of 0.85 with human scores, while providing a sounding justification for each symmetry evaluation. This study underscores the potential and limitations of LLMs in mirroring complex cognitive processes as symmetrical reasoning.

arxiv情報

著者 Daniela N. Rim,Heeyoul Choi
発行日 2024-07-08 08:38:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク