要約
さまざまな分野の専門家は、業務を計画、整理、報告するための体系的な執筆タスクを日常的に実行しています。
患者の鑑別診断を作成する臨床医から、生徒の指導計画を作成する教師に至るまで、これらのタスクは広範囲にわたり、特定の入力に対して体系的に構造化された長形式の出力を生成する必要があります。
私たちは、タスクの目的、手順、入力、出力の形式で構造化された系統的タスクの類型を開発し、25 分野にわたる何百人もの専門家から抽出された 519 のそのようなタスクの仕様を備えた新しいベンチマークである DoLoMiTes を紹介します。
さらに、私たちのベンチマークには、各タスクの最大 10 個のモデル生成例の専門家によるリビジョンを収集することによって得られる、具体的な入力および出力の例 (合計 1,857) を含む系統的タスクの具体的なインスタンス化が含まれています。
これらの例を使用して現代の言語モデルを評価し、系統的なタスクの自動化は、特定のコンテキストとドメイン知識を利用しながら複雑な推論を実行する必要があるため、困難な長文生成問題であることを強調します。
要約(オリジナル)
Experts in various fields routinely perform methodical writing tasks to plan, organize, and report their work. From a clinician writing a differential diagnosis for a patient, to a teacher writing a lesson plan for students, these tasks are pervasive, requiring to methodically generate structured long-form output for a given input. We develop a typology of methodical tasks structured in the form of a task objective, procedure, input, and output, and introduce DoLoMiTes, a novel benchmark with specifications for 519 such tasks elicited from hundreds of experts from across 25 fields. Our benchmark further contains specific instantiations of methodical tasks with concrete input and output examples (1,857 in total) which we obtain by collecting expert revisions of up to 10 model-generated examples of each task. We use these examples to evaluate contemporary language models highlighting that automating methodical tasks is a challenging long-form generation problem, as it requires performing complex inferences, while drawing upon the given context as well as domain knowledge.
arxiv情報
著者 | Chaitanya Malaviya,Priyanka Agrawal,Kuzman Ganchev,Pranesh Srinivasan,Fantine Huot,Jonathan Berant,Mark Yatskar,Dipanjan Das,Mirella Lapata,Chris Alberti |
発行日 | 2024-05-28 17:53:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google