要約
タイトル:LINGO:タスク多様性をサポートする自然言語命令の視覚的な偏りを補正する方法
要約:
– ハムズショーが自然言語の定義と少数の例でタスクを解決できるように、プレトレーニングされた言語モデルを使った最近の研究も同様の学習スタイルを模倣する。
– プロンプトのアプローチは、従来の教師あり学習に比べて、クロスタスクの汎化が高くなっている。
– しかし、モデルに与えられたタスク指示の「バイアス」を分析することは困難であり、あまり研究されていない問題である。
– 調査を支援するために、LINGOという新しい視覚的アナリティクスインターフェースを開発する。
– LINGOは、課題指示の偏見を特定し、特定の課題指示を修正し(または作成し)、デバイスされたタスク指示でプレトレーニングされたモデルの性能を評価するための効果的なタスク駆動型ワークフローをサポートする。
– LINGOに加えて、1556の言語的タスクと自然言語指示を超える55の異なる言語にまたがるデータセットで、初心者と専門家の指示作成者によるユーザースタディも実施され、LINGOは両方のユーザーグループに高い言語的多様性と低い指示バイアスを含むプレトレーニングされたモデルのより困難なタスクの作成を促進します。
– さらに、LINGOを展開するためのインサイトが、複数のドメインでのプロンプト作成の努力を最小限にするための将来のダッシュボードの設計に役立つかもしれない。
要約(オリジナル)
Cross-task generalization is a significant outcome that defines mastery in natural language understanding. Humans show a remarkable aptitude for this, and can solve many different types of tasks, given definitions in the form of textual instructions and a small set of examples. Recent work with pre-trained language models mimics this learning style: users can define and exemplify a task for the model to attempt as a series of natural language prompts or instructions. While prompting approaches have led to higher cross-task generalization compared to traditional supervised learning, analyzing ‘bias’ in the task instructions given to the model is a difficult problem, and has thus been relatively unexplored. For instance, are we truly modeling a task, or are we modeling a user’s instructions? To help investigate this, we develop LINGO, a novel visual analytics interface that supports an effective, task-driven workflow to (1) help identify bias in natural language task instructions, (2) alter (or create) task instructions to reduce bias, and (3) evaluate pre-trained model performance on debiased task instructions. To robustly evaluate LINGO, we conduct a user study with both novice and expert instruction creators, over a dataset of 1,616 linguistic tasks and their natural language instructions, spanning 55 different languages. For both user groups, LINGO promotes the creation of more difficult tasks for pre-trained models, that contain higher linguistic diversity and lower instruction bias. We additionally discuss how the insights learned in developing and evaluating LINGO can aid in the design of future dashboards that aim to minimize the effort involved in prompt creation across multiple domains.
arxiv情報
著者 | Anjana Arunkumar,Shubham Sharma,Rakhi Agrawal,Sriram Chandrasekaran,Chris Bryan |
発行日 | 2023-04-12 22:55:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI