要約
タイトル:言語モデルが曖昧さをモデル化していないことに懸念がある
要約:
– 曖昧さは自然言語の固有の特徴です。曖昧さを処理することは、コミュニケーターとしての誤解を予期し、受け取り手としての解釈を修正するための人間の言語理解の重要な部分です。
– 言語モデルがダイアログインタフェースやライティング支援としてますます採用されるにつれ、曖昧な言語を扱うことが成功の鍵となります。
– 他の文との暗示関係に対するその文の曖昧さを特徴づけ、様々な種類の曖昧さを持つ1,645の例を収集した言語学者によるベンチマークAmbiEntを作成しました。
– AmbiEntを基にした一連のテストを設計し、事前学習された言語モデルが曖昧さを認識し、可能な意味を切り離す最初の評価を提示します。最近のGPT-4も、人間の評価で生成された曖昧さの解決策が正しいとされる確率が32%であり、当データセットの曖昧さ解決策は90%であることが判明し、非常に難しいタスクであることがわかりました。
– 最後に、曖昧さに敏感なツールの価値を示すために、多ラベルNLIモデルが、曖昧さのために誤解を招く政治的主張を野生で検出できることを示します。
– 著者たちは、NLPにおいて曖昧さの重要性を再発見することを奨励しています。
要約(オリジナル)
Ambiguity is an intrinsic feature of natural language. Managing ambiguity is a key part of human language understanding, allowing us to anticipate misunderstanding as communicators and revise our interpretations as listeners. As language models (LMs) are increasingly employed as dialogue interfaces and writing aids, handling ambiguous language is critical to their success. We characterize ambiguity in a sentence by its effect on entailment relations with another sentence, and collect AmbiEnt, a linguist-annotated benchmark of 1,645 examples with diverse kinds of ambiguity. We design a suite of tests based on AmbiEnt, presenting the first evaluation of pretrained LMs to recognize ambiguity and disentangle possible meanings. We find that the task remains extremely challenging, including for the recent GPT-4, whose generated disambiguations are considered correct only 32% of the time in human evaluation, compared to 90% for disambiguations in our dataset. Finally, to illustrate the value of ambiguity-sensitive tools, we show that a multilabel NLI model can flag political claims in the wild that are misleading due to ambiguity. We encourage the field to rediscover the importance of ambiguity for NLP.
arxiv情報
著者 | Alisa Liu,Zhaofeng Wu,Julian Michael,Alane Suhr,Peter West,Alexander Koller,Swabha Swayamdipta,Noah A. Smith,Yejin Choi |
発行日 | 2023-04-27 17:57:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI