Spoken Language Intelligence of Large Language Models for Language Learning

要約

人々は長い間、実生活の状況を支援できる会話システムを望んできましたが、大規模言語モデル (LLM) の最近の進歩により、このアイデアが現実に近づきつつあります。
LLM のパフォーマンスは優れていることが多いですが、専門知識が必要な現実のシナリオにおける LLM の有効性は依然として不明です。
LLM は、教育、特に言語学習を促進できる人工知能 (AI) ベースの仮想教師の開発において、最も可能性と価値を秘めていると考えられています。
私たちは、教育の分野、特に音声学、音韻論、第二言語習得を含む音声言語学習の分野における LLM の有効性を評価することに重点を置いています。
音声言語知識の理解と応用を含む、前述のシナリオにおける LLM の有効性を評価するために、新しい多肢選択式質問データセットを導入します。
さらに、ゼロショットおよび少数ショット法(質問の前に質問と回答の例を追加する)、思考連鎖(CoT、ステップバイステップで考える)、ドメイン内などのさまざまなプロンプト手法の影響を調査します。
例と外部ツール (Google、Wikipedia)。
これらの方法を使用して、人気のある LLM (20 の異なるモデル) に対して大規模な評価を実施しました。
実践的な質問推論では、ゼロショット ベースラインと比較して大幅なパフォーマンスの向上を達成しました (GPT-3.5、49.1% -> 63.1%、LLaMA2-70B-Chat、42.2% -> 48.6%)。
さまざまなサイズのモデルは音声学、音韻論、第二言語習得の概念をよく理解していますが、現実世界の問題に対する推論には限界があることがわかりました。
さらに、会話コミュニケーションに関する予備的な調査結果も調査します。

要約(オリジナル)

People have long hoped for a conversational system that can assist in real-life situations, and recent progress on large language models (LLMs) is bringing this idea closer to reality. While LLMs are often impressive in performance, their efficacy in real-world scenarios that demand expert knowledge remains unclear. LLMs are believed to hold the most potential and value in education, especially in the development of Artificial intelligence (AI) based virtual teachers capable of facilitating language learning. Our focus is centered on evaluating the efficacy of LLMs in the realm of education, specifically in the areas of spoken language learning which encompass phonetics, phonology, and second language acquisition. We introduce a new multiple-choice question dataset to evaluate the effectiveness of LLMs in the aforementioned scenarios, including understanding and application of spoken language knowledge. In addition, we investigate the influence of various prompting techniques such as zero- and few-shot method (prepending the question with question-answer exemplars), chain-of-thought (CoT, think step-by-step), in-domain exampler and external tools (Google, Wikipedia). We conducted large-scale evaluation on popular LLMs (20 distinct models) using these methods. We achieved significant performance improvements compared to the zero-shot baseline in the practical questions reasoning (GPT-3.5, 49.1% -> 63.1%; LLaMA2-70B-Chat, 42.2% -> 48.6%). We found that models of different sizes have good understanding of concepts in phonetics, phonology, and second language acquisition, but show limitations in reasoning for real-world problems. Additionally, we also explore preliminary findings on conversational communication.

arxiv情報

著者 Linkai Peng,Baorian Nuchged,Yingming Gao
発行日 2023-08-28 12:47:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS パーマリンク