要約
タイトル:言語理解のベンチマークテストのための対話ゲーム:動機、分類、戦略
要約:
– 言語理解の能力を測定する方法は何ですか?人の能力が測定される場合、この質問はほとんど常に無資格形式のままです。どのフォーマルテストが適用されても、それは人の日常社会実践の言語使用の背景に沿って行われ、測定されるのは言語理解の専門的なバラエティ(例えば、第二言語、技術的な言語)です。コンピュータプログラムにはこの背景がありません。言語理解の形式的なテストの適用に関しては、どういう意味ですか?こうしたテストをシステマティックに行うために、言語使用が埋め込まれた実践的なテストを補完する必要があると主張しています。こうしたテストを行うために、「対話ゲーム」と呼ばれる構成された活動を使用することを提案します。私は、対話ゲームのタクソノミー、テストされる基盤能力のモデルにリンクされた対話ゲームタイプの説明を行い、テストの「構成妥当性」を示すことによって、議論を行っています。最後に、タクソノミーの内部構造が、より専門的で一般的な状況言語理解への順序を示唆し、この分野の開発に戦略的な指導を提供できる可能性があることを示します。
要約(オリジナル)
How does one measure ‘ability to understand language’? If it is a person’s ability that is being measured, this is a question that almost never poses itself in an unqualified manner: Whatever formal test is applied, it takes place on the background of the person’s language use in daily social practice, and what is measured is a specialised variety of language understanding (e.g., of a second language; or of written, technical language). Computer programs do not have this background. What does that mean for the applicability of formal tests of language understanding? I argue that such tests need to be complemented with tests of language use embedded in a practice, to arrive at a more comprehensive evaluation of ‘artificial language understanding’. To do such tests systematically, I propose to use ‘Dialogue Games’ — constructed activities that provide a situational embedding for language use. I describe a taxonomy of Dialogue Game types, linked to a model of underlying capabilites that are tested, and thereby giving an argument for the \emph{construct validity} of the test. I close with showing how the internal structure of the taxonomy suggests an ordering from more specialised to more general situational language understanding, which potentially can provide some strategic guidance for development in this field.
arxiv情報
著者 | David Schlangen |
発行日 | 2023-04-14 09:11:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI