Problem-Oriented Segmentation and Retrieval: Case Study on Tutoring Conversations

要約

自由形式の会話 (家庭教師のレッスンやビジネス会議など) の多くは、ワークシートや会議の箇条書きなど、事前に定義された参考資料を中心に展開します。
このような会話構造を研究するためのフレームワークを提供するために、問題指向セグメンテーション & 検索 (POSR) を導入します。これは、会話を共同でセグメントに分割し、各セグメントを関連する参照項目にリンクするタスクです。
ケーススタディとして、問題に沿った効果的な授業の構築が重要であるにもかかわらず難しい教育に POSR を適用します。
私たちは、現実世界の個別指導レッスンの最初のデータセットである LessonLink を紹介します。これは、24,300 分の指導に及ぶ 3,500 のセグメントを特徴とし、116 の SAT 数学の問題にリンクされています。
私たちは、セグメンテーション (TextTiling など)、検索 (ColBERT など)、および大規模言語モデル (LLM) メソッドを含む、POSR 用のいくつかの共同および独立したアプローチを定義し、評価します。
私たちの結果は、POSR を 1 つの共同タスクとしてモデル化することが不可欠であることを強調しています。POSR 手法は、独立したセグメンテーションおよび取得パイプラインよりも共同メトリクスで最大 +76% 優れており、セグメンテーション メトリクスでは従来のセグメンテーション手法を最大 +78% 上回っています。
私たちは、下流の教育アプリケーションに対する POSR の実際的な影響を実証し、現実世界の授業構造における言語と時間の使用に関する新たな洞察を導き出します。

要約(オリジナル)

Many open-ended conversations (e.g., tutoring lessons or business meetings) revolve around pre-defined reference materials, like worksheets or meeting bullets. To provide a framework for studying such conversation structure, we introduce Problem-Oriented Segmentation & Retrieval (POSR), the task of jointly breaking down conversations into segments and linking each segment to the relevant reference item. As a case study, we apply POSR to education where effectively structuring lessons around problems is critical yet difficult. We present LessonLink, the first dataset of real-world tutoring lessons, featuring 3,500 segments, spanning 24,300 minutes of instruction and linked to 116 SAT math problems. We define and evaluate several joint and independent approaches for POSR, including segmentation (e.g., TextTiling), retrieval (e.g., ColBERT), and large language models (LLMs) methods. Our results highlight that modeling POSR as one joint task is essential: POSR methods outperform independent segmentation and retrieval pipelines by up to +76% on joint metrics and surpass traditional segmentation methods by up to +78% on segmentation metrics. We demonstrate POSR’s practical impact on downstream education applications, deriving new insights on the language and time use in real-world lesson structures.

arxiv情報

著者 Rose E. Wang,Pawan Wirawarn,Kenny Lam,Omar Khattab,Dorottya Demszky
発行日 2024-11-12 07:16:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク