要約
人間の参加者からのデータの引き出しは、経験的言語研究で使用されるコアデータ収集戦略の1つです。
このような研究の参加者の量は、ほんの一握りからクラウドソーシングの次元までの範囲で異なる場合があります。
彼らが機知に富んだ広範なデータを提供したとしても、これらの設定は両方とも、タスクの完了時の参加者の注意の低い制御、クラウドソーシング環境での不安定な労働条件、時間のかかる実験設計など、多くの欠点と並行しています。
これらの理由により、この研究は、経験的な言語パイプラインに含まれる場合、大規模な言語モデル(LLM)がそれらの障害を克服できるかどうかの問題に答えることを目的としています。
この問題を明確にするために、2つの繁殖ケーススタディが実施されています。Cruz(2023)とLombard et al。
(2021)。
もともと人間の参加者向けに設計された2つの強制誘発タスクは、OpenAIのGPT-4O-MINIモデルの助けを借りて提案されたフレームワークで再現されています。
ゼロショットプロンプトのベースラインでのパフォーマンスは、LLMSの有効性と高い汎用性を示しています。これは、言語タスクで人間の情報提供者よりも優れている傾向があります。
2番目の複製の結果は、2回目のフォローアップ実験では、クリティカルアイテムとフィラーアイテムの両方の人間のパフォーマンスに対するより高い整合性を示している、チェーンオブ思考(COT)プロンプトなど、追加のプロンプト技術を探索する必要性をさらに強調しています。
。
この研究の規模が限られていることを考えると、経験的言語学および人文科学の他の将来のアプリケーションでのLLMのパフォーマンスをさらに調査する価値があります。
要約(オリジナル)
Data elicitation from human participants is one of the core data collection strategies used in empirical linguistic research. The amount of participants in such studies may vary considerably, ranging from a handful to crowdsourcing dimensions. Even if they provide resourceful extensive data, both of these settings come alongside many disadvantages, such as low control of participants’ attention during task completion, precarious working conditions in crowdsourcing environments, and time-consuming experimental designs. For these reasons, this research aims to answer the question of whether Large Language Models (LLMs) may overcome those obstacles if included in empirical linguistic pipelines. Two reproduction case studies are conducted to gain clarity into this matter: Cruz (2023) and Lombard et al. (2021). The two forced elicitation tasks, originally designed for human participants, are reproduced in the proposed framework with the help of OpenAI’s GPT-4o-mini model. Its performance with our zero-shot prompting baseline shows the effectiveness and high versatility of LLMs, that tend to outperform human informants in linguistic tasks. The findings of the second replication further highlight the need to explore additional prompting techniques, such as Chain-of-Thought (CoT) prompting, which, in a second follow-up experiment, demonstrates higher alignment to human performance on both critical and filler items. Given the limited scale of this study, it is worthwhile to further explore the performance of LLMs in empirical Linguistics and in other future applications in the humanities.
arxiv情報
著者 | Iris Ferrazzo |
発行日 | 2025-02-14 16:23:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google