Training LLMs to Recognize Hedges in Spontaneous Narratives

要約

ヘッジを使用すると、話者は、非原型性または「あいまいさ」を示すかどうか、発話に対するコミットメントの欠如を示すか、発言の責任を他の誰かに帰すか、パートナーからの意見を求めるか、または和らげるために、発話を暫定的なものとしてマークすることができます。
顔管理のニーズに応える重要なフィードバック。
ここでは、21 人の話者が共同出席者に向けて記憶から自発的に生成し、テキストに転写した 63 の『ロードランナー』の漫画の物語を実験的にパラメータ化したコーパス内の生け垣に焦点を当てます (Galati and Brennan、2010)。
私たちは、人間のプログラマーによって注釈が付けられたヘッジのゴールド スタンダード (Roadrunner-Hedge コーパス) を作成し、ヘッジ検出のための 3 つの LLM ベースのアプローチ (BERT の微調整、GPT-4o および LLaMA-3 によるゼロショットおよび少数ショット プロンプト) を比較しました。
最もパフォーマンスの高いアプローチは微調整された BERT モデルで、次に数ショットの GPT-4o が続きました。
最もパフォーマンスの高いアプローチのエラー分析を行った後、LLM-in-the-Loop アプローチを使用してゴールド スタンダード コーディングを改善するとともに、将来の研究に役立つ言語学的に興味深い方法でヘッジがあいまいなケースを強調しました。
これは、会話の中で付随信号を適切かつ有意義に解釈して生成できるように LLM を訓練するための研究プログラムの最初のステップです。

要約(オリジナル)

Hedges allow speakers to mark utterances as provisional, whether to signal non-prototypicality or ‘fuzziness’, to indicate a lack of commitment to an utterance, to attribute responsibility for a statement to someone else, to invite input from a partner, or to soften critical feedback in the service of face-management needs. Here we focus on hedges in an experimentally parameterized corpus of 63 Roadrunner cartoon narratives spontaneously produced from memory by 21 speakers for co-present addressees, transcribed to text (Galati and Brennan, 2010). We created a gold standard of hedges annotated by human coders (the Roadrunner-Hedge corpus) and compared three LLM-based approaches for hedge detection: fine-tuning BERT, and zero and few-shot prompting with GPT-4o and LLaMA-3. The best-performing approach was a fine-tuned BERT model, followed by few-shot GPT-4o. After an error analysis on the top performing approaches, we used an LLM-in-the-Loop approach to improve the gold standard coding, as well as to highlight cases in which hedges are ambiguous in linguistically interesting ways that will guide future research. This is the first step in our research program to train LLMs to interpret and generate collateral signals appropriately and meaningfully in conversation.

arxiv情報

著者 Amie J. Paige,Adil Soubki,John Murzaku,Owen Rambow,Susan E. Brennan
発行日 2024-08-06 17:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク