ChatPipe: Orchestrating Data Preparation Program by Optimizing Human-ChatGPT Interactions


タイトル: ChatPipe: 人間との自然言語対話を最適化してデータ準備プログラムを組み立てる

– 機械学習の成功には高品質なデータ準備プログラムを組み立てることが必要
– しかし、これは時間と労力がかかることが知られている
– ChatGPTのような大規模な言語モデルは自然言語プロンプトを介してユーザーと相互作用することでプログラムを生成する能力を持っているが、まだ限界がある
– 特にユーザーはChatGPTをイテレーション的に導くための具体的なプロンプトを提供する必要があり、これはプログラミング、使用されるデータセット、および機械学習タスクのある程度の専門知識が必要
– この論文では、ChatPipeという、ユーザーとChatGPTの無縁な相互作用を円滑にするための新しいシステムを提案している
– ChatPipeは次のデータ準備操作に関する効果的な推奨事項をユーザーに提供し、ChatGPTにプログラムを生成するようにガイドする
– ChatPipeはまた、プログラムの以前のバージョンに簡単に戻ることができるため、より効率的な実験とテストを促進する
– ChatPipeにはWebアプリケーションがあり、Kaggleからいくつかのリアルワールドの機械学習タスクを準備している。これらのタスクはChatPipeの能力を示し、VLDB出席者が当社の新しい機能を素早く実験して高品質なデータ準備プログラムを組み立てることができるようにする。


Orchestrating a high-quality data preparation program is essential for successful machine learning (ML), but it is known to be time and effort consuming. Despite the impressive capabilities of large language models like ChatGPT in generating programs by interacting with users through natural language prompts, there are still limitations. Specifically, a user must provide specific prompts to iteratively guide ChatGPT in improving data preparation programs, which requires a certain level of expertise in programming, the dataset used and the ML task. Moreover, once a program has been generated, it is non-trivial to revisit a previous version or make changes to the program without starting the process over again. In this paper, we present ChatPipe, a novel system designed to facilitate seamless interaction between users and ChatGPT. ChatPipe provides users with effective recommendation on next data preparation operations, and guides ChatGPT to generate program for the operations. Also, ChatPipe enables users to easily roll back to previous versions of the program, which facilitates more efficient experimentation and testing. We have developed a web application for ChatPipe and prepared several real-world ML tasks from Kaggle. These tasks can showcase the capabilities of ChatPipe and enable VLDB attendees to easily experiment with our novel features to rapidly orchestrate a high-quality data preparation program.


