LLM-Assisted Automated Deductive Coding of Dialogue Data: Leveraging Dialogue-Specific Characteristics to Enhance Contextual Understanding

要約

対話データは、学習プロセスを理解するための重要なソースであり、学生が共同で議論する方法と、これらの相互作用が知識構築をどのように形成するかについての重要な洞察を提供します。
大規模な言語モデル(LLMS)の出現により、特に対話データの自動コーディングにおいて、定性的研究を進めるための有望な機会が導入されました。
ただし、対話の固有のコンテキストの複雑さは、特に複雑なコンテキスト情報の理解と解釈において、これらのモデルに独自の課題を提示します。
この研究では、対話データのための新しいLLM支援自動コーディングアプローチを開発することにより、これらの課題に対処します。
提案されたフレームワークの斬新さは3つあります。1)対話固有の特性(コミュニケーション行為とコミュニケーションイベント)に基づいて発話のコードを予測します – ロールプロンプトとチェーンオブサボテンの方法に従って個別のプロンプトを使用します。
2)GPT-4-Turbo、GPT-4O、DeepSeekを含む複数のLLMを共同コード予測に従事させました。
3)GPT-4Oを使用して一貫性チェックを実装するために、イベントと行為の間の相互関係を活用しました。
特に、私たちのコンテキストの一貫性チェックは、実質的な精度の向上をもたらしました。
また、ACT予測の精度は、イベント予測の精度よりも一貫して高いことがわかりました。
この研究では、対話データの自動コーディングの精度を強化するための新しい方法論的フレームワークと、ダイアログ分析に固有のコンテキスト課題に対処するためのスケーラブルなソリューションを提供します。

要約(オリジナル)

Dialogue data has been a key source for understanding learning processes, offering critical insights into how students engage in collaborative discussions and how these interactions shape their knowledge construction. The advent of Large Language Models (LLMs) has introduced promising opportunities for advancing qualitative research, particularly in the automated coding of dialogue data. However, the inherent contextual complexity of dialogue presents unique challenges for these models, especially in understanding and interpreting complex contextual information. This study addresses these challenges by developing a novel LLM-assisted automated coding approach for dialogue data. The novelty of our proposed framework is threefold: 1) We predict the code for an utterance based on dialogue-specific characteristics — communicative acts and communicative events — using separate prompts following the role prompts and chain-of-thoughts methods; 2) We engaged multiple LLMs including GPT-4-turbo, GPT-4o, DeepSeek in collaborative code prediction; 3) We leveraged the interrelation between events and acts to implement consistency checking using GPT-4o. In particular, our contextual consistency checking provided a substantial accuracy improvement. We also found the accuracy of act predictions was consistently higher than that of event predictions. This study contributes a new methodological framework for enhancing the precision of automated coding of dialogue data as well as offers a scalable solution for addressing the contextual challenges inherent in dialogue analysis.

arxiv情報

著者 Ying Na,Shihui Feng
発行日 2025-04-28 12:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI パーマリンク