要約
この研究では、製造タスクガイダンスシステムのデータ補強にLLMを利用することを検討する。データセットは、先進的な製造現場で働く技術者との対話の代表的なサンプルで構成される。本研究の目的は、タスクの探索、サポートされるタスクのデータ補強、および既存のLLMの性能評価である。我々は、タスクは、手順仕様書、行動、時間的に連続したオブジェクトからの理解を必要とする複雑なものであることを観察した。データセットは20万以上の質問と答えのペアで構成され、それらは仕様書を参照し、ナレーションやビデオデモで構成されている。各LLMを使ってベースラインを開発し、LLM-as-a-judgeを使ってリファレンスのない設定で回答を比較し、専門家による評価を検証しながらクラウドワーカーとの評価を比較することで、いくつかの人気のあるオープンソースのLLMのパフォーマンスを比較した。
要約(オリジナル)
In this work we explore utilizing LLMs for data augmentation for manufacturing task guidance system. The dataset consists of representative samples of interactions with technicians working in an advanced manufacturing setting. The purpose of this work to explore the task, data augmentation for the supported tasks and evaluating the performance of the existing LLMs. We observe that that task is complex requiring understanding from procedure specification documents, actions and objects sequenced temporally. The dataset consists of 200,000+ question/answer pairs that refer to the spec document and are grounded in narrations and/or video demonstrations. We compared the performance of several popular open-sourced LLMs by developing a baseline using each LLM and then compared the responses in a reference-free setting using LLM-as-a-judge and compared the ratings with crowd-workers whilst validating the ratings with experts.
arxiv情報
著者 | Ramesh Manuvinakurike,Elizabeth Watkins,Celal Savur,Anthony Rhodes,Sovan Biswas,Gesem Gudino Mejia,Richard Beckwith,Saurav Sahay,Giuseppe Raffa,Lama Nachman |
発行日 | 2024-12-03 18:10:31+00:00 |
arxivサイト | arxiv_id(pdf) |