AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

要約

具体化されたエージェントの一部として、ユーザーからの自然言語の指示を考慮して、大規模な言語モデル(LLM)が行動計画に使用されます。
ただし、実際の環境でのあいまいな指示に対処することは、LLMSにとって課題です。
タスクのあいまいさの検出のためのさまざまな方法が提案されています。
ただし、異なるデータセットでテストされており、普遍的なベンチマークがないため、それらを比較することは困難です。
このため、キッチン環境のロボットに宛てられた曖昧な指示の完全なテキストデータセットであるAmbik(キッチン環境での曖昧なタスク)を提案します。
AmbikはLLMSの支援を受けて収集され、人間が検証されています。
曖昧さのタイプ(人間の好み、常識の知識、安全性、安全性)、環境の説明、質問と回答、ユーザーの意図、タスクプラン、合計2000のタスクで、曖昧なタスクとその明確な対応物で構成されています。
Ambikが研究者が曖昧さ検出方法の統一された比較を実行できるようになることを願っています。
Ambikはhttps://github.com/cog-model/ambik-datasetで入手できます。

要約(オリジナル)

As a part of an embodied agent, Large Language Models (LLMs) are typically used for behavior planning given natural language instructions from the user. However, dealing with ambiguous instructions in real-world environments remains a challenge for LLMs. Various methods for task ambiguity detection have been proposed. However, it is difficult to compare them because they are tested on different datasets and there is no universal benchmark. For this reason, we propose AmbiK (Ambiguous Tasks in Kitchen Environment), the fully textual dataset of ambiguous instructions addressed to a robot in a kitchen environment. AmbiK was collected with the assistance of LLMs and is human-validated. It comprises 1000 pairs of ambiguous tasks and their unambiguous counterparts, categorized by ambiguity type (Human Preferences, Common Sense Knowledge, Safety), with environment descriptions, clarifying questions and answers, user intents, and task plans, for a total of 2000 tasks. We hope that AmbiK will enable researchers to perform a unified comparison of ambiguity detection methods. AmbiK is available at https://github.com/cog-model/AmbiK-dataset.

arxiv情報

著者 Anastasiia Ivanova,Eva Bakaeva,Zoya Volovikova,Alexey K. Kovalev,Aleksandr I. Panov
発行日 2025-06-04 15:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO パーマリンク