要約
LLM は人間のような対話を生成できますが、幼少期の子供と大人の相互作用をシミュレートする能力はほとんど解明されていません。
この論文では、静的ベンチマーク方法とインタラクティブなベンチマーク方法の両方を使用して、LLM がインタラクションにおける保育者の言語の特有の特徴をどのように効果的に捕捉できるかを検証しました。
Llama 3 や GPT-4o のような最先端の LLM は、単語や発話レベルで保育者の対話を近似できるものの、子どもと保育者の談話パターンを再現するのに苦労し、一致が誇張され、到達することができないことがわかりました。
人間が示す多様性のレベル。
この作業の広範な目標は、子供向けアプリケーションにおける LLM の包括的なベンチマークの開発を開始することです。
要約(オリジナル)
LLMs can generate human-like dialogues, yet their ability to simulate early child-adult interactions remains largely unexplored. In this paper, we examined how effectively LLMs can capture the distinctive features of child-caregiver language in interaction, using both static and interactive benchmarking methods. We found that state-of-the-art LLMs like Llama 3 and GPT-4o can approximate child-caregiver dialogues at the word and utterance level, but they struggle to reproduce the child and caregiver’s discursive patterns, exaggerate alignment, and fail to reach the level of diversity shown by humans. The broader goal of this work is to initiate the development of a comprehensive benchmark for LLMs in child-oriented applications.
arxiv情報
著者 | Jing Liu,Abdellah Fourtassi |
発行日 | 2024-12-13 09:30:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google