Active Learning for Natural Language Generation

要約

自然言語生成 (NLG) の分野は、手動によるアノテーションのプロセスに非常に費用と時間がかかるため、ラベル付きデータの深刻な不足に悩まされています。
この問題に対処するための自然なアプローチは、ラベル付けする最も有益な例を選択することによってアノテーションの効率を向上させるよく知られた機械学習技術であるアクティブ ラーニング (AL) です。
ただし、AL はテキスト分類の文脈では十分に研究されていますが、NLG への適用はほとんど研究されていないままです。
この論文では、多様なタスクと複数の主要な選択戦略を考慮し、強力な命令調整モデルを活用した、NLG のアクティブ ラーニングに関する最初の体系的な研究を紹介します。
私たちの結果は、既存の AL 戦略のパフォーマンスに一貫性がなく、ランダムなサンプル選択のベースラインを超える場合もあれば、超えない場合もあるということを示しています。
分類シナリオと生成シナリオの間のいくつかの顕著な違いを強調し、既存の AL 戦略の選択動作を分析します。
私たちの発見は、AL を生成タスクに適用するための新しいアプローチを探索する動機付けとなります。

要約(オリジナル)

The field of Natural Language Generation (NLG) suffers from a severe shortage of labeled data due to the extremely expensive and time-consuming process involved in manual annotation. A natural approach for coping with this problem is active learning (AL), a well-known machine learning technique for improving annotation efficiency by selectively choosing the most informative examples to label. However, while AL has been well-researched in the context of text classification, its application to NLG remains largely unexplored. In this paper, we present a first systematic study of active learning for NLG, considering a diverse set of tasks and multiple leading selection strategies, and harnessing a strong instruction-tuned model. Our results indicate that the performance of existing AL strategies is inconsistent, surpassing the baseline of random example selection in some cases but not in others. We highlight some notable differences between the classification and generation scenarios, and analyze the selection behaviors of existing AL strategies. Our findings motivate exploring novel approaches for applying AL to generation tasks.

arxiv情報

著者 Yotam Perlitz,Ariel Gera,Michal Shmueli-Scheuer,Dafna Sheinwald,Noam Slonim,Liat Ein-Dor
発行日 2023-10-17 14:37:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク