On Degrees of Freedom in Defining and Testing Natural Language Understanding

要約

自然言語理解 (NLU) 研究では、システムの機能が誇張または過小評価されることが多く、その結果、研究結果の再現性が制限されます。
これらの誤った評価は、NLU を適切に定義してテストすることが難しいことが原因である可能性があります。
この意見書では、研究者の 2 つのタイプの自由度を特定することで、この課題を再考します。
チューリング テストのチューリングのオリジナルの解釈を再検討し、NLU テストは操作上の定義を提供しないことを示します。
それは、被験者が利害関係者の目的を達成するのに十分に言語を理解しているという帰納的な証拠を提供するだけです。
言い換えれば、利害関係者は目的を通じて自由に NLU を定義できます。
テスト結果を帰納的証拠として使用するには、関係者はテストスコアの解釈が有効かどうかを慎重に評価する必要があります。
ただし、NLU テストの設計と使用には、ターゲット スキルの指定や評価指標の定義など、他の自由度が伴います。
その結果、ステークホルダー間の合意形成が困難になります。
この問題を解決するために、テスト コンポーネントにわたる一連の検証基準で構成されるフレームワークである妥当性引数を提案します。
NLU 研究における現在の実践がこれらの基準と関連付けられ、それらを包括的なチェックリストに整理できることを実証することで、妥当性の議論が信頼できるテストセットを設計し、科学的コミュニケーションを促進するための一貫したガイドラインとして機能できることを証明します。

要約(オリジナル)

Natural language understanding (NLU) studies often exaggerate or underestimate the capabilities of systems, thereby limiting the reproducibility of their findings. These erroneous evaluations can be attributed to the difficulty of defining and testing NLU adequately. In this position paper, we reconsider this challenge by identifying two types of researcher degrees of freedom. We revisit Turing’s original interpretation of the Turing test and indicate that an NLU test does not provide an operational definition; it merely provides inductive evidence that the test subject understands the language sufficiently well to meet stakeholder objectives. In other words, stakeholders are free to arbitrarily define NLU through their objectives. To use the test results as inductive evidence, stakeholders must carefully assess if the interpretation of test scores is valid or not. However, designing and using NLU tests involve other degrees of freedom, such as specifying target skills and defining evaluation metrics. As a result, achieving consensus among stakeholders becomes difficult. To resolve this issue, we propose a validity argument, which is a framework comprising a series of validation criteria across test components. By demonstrating that current practices in NLU studies can be associated with those criteria and organizing them into a comprehensive checklist, we prove that the validity argument can serve as a coherent guideline for designing credible test sets and facilitating scientific communication.

arxiv情報

著者 Saku Sugawara,Shun Tsugita
発行日 2023-05-24 13:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク