要約
研究資料の整理、レポートの下書き、明日に必要なプレゼンテーションの作成など、眠っている間に AI があなたの仕事を処理できる世界を想像してみてください。
ただし、現在のデジタル エージェントは単純なタスクを実行できますが、人間が日常的に実行する複雑な現実世界の作業を処理する能力には程遠いです。
私たちは、人間の認知伝達を通じてこのビジョンに向けた重要な一歩を実証する AI システムである PC Agent を紹介します。
私たちの重要な洞察は、単純な「タスク」の実行から複雑な「作業」の処理への道は、コンピューター使用中の人間の認知プロセスを効率的にキャプチャして学習することにあるということです。
この仮説を検証するために、次の 3 つの主要なイノベーションを紹介します。(1) PC Tracker は、完全な認知コンテキストを含む高品質の人間とコンピューターの相互作用の軌跡を効率的に収集する軽量のインフラストラクチャです。
(2) アクションのセマンティクスと思考プロセスを完了することで、生のインタラクション データを豊富な認知軌跡に変換する 2 段階の認知完了パイプライン。
(3) 意思決定のための計画エージェントと、堅牢な視覚的グラウンディングのためのグラウンディング エージェントを組み合わせたマルチエージェント システム。
PowerPoint プレゼンテーション作成における予備実験では、複雑なデジタル作業機能が少量の高品質の認知データで実現できることが明らかになりました。わずか 133 の認知軌跡でトレーニングされた PC Agent は、複数のアプリケーションにわたって最大 50 のステップを含む高度な作業シナリオを処理できます。
。
これは私たちのアプローチのデータ効率を示しており、有能なデジタル エージェントをトレーニングする鍵は人間の認知データの収集にあることが強調されています。
データ収集インフラストラクチャや認知補完方法を含む完全なフレームワークをオープンソース化することで、研究コミュニティが真に有能なデジタル エージェントを開発するための障壁を下げることを目指しています。
要約(オリジナル)
Imagine a world where AI can handle your work while you sleep – organizing your research materials, drafting a report, or creating a presentation you need for tomorrow. However, while current digital agents can perform simple tasks, they are far from capable of handling the complex real-world work that humans routinely perform. We present PC Agent, an AI system that demonstrates a crucial step toward this vision through human cognition transfer. Our key insight is that the path from executing simple ‘tasks’ to handling complex ‘work’ lies in efficiently capturing and learning from human cognitive processes during computer use. To validate this hypothesis, we introduce three key innovations: (1) PC Tracker, a lightweight infrastructure that efficiently collects high-quality human-computer interaction trajectories with complete cognitive context; (2) a two-stage cognition completion pipeline that transforms raw interaction data into rich cognitive trajectories by completing action semantics and thought processes; and (3) a multi-agent system combining a planning agent for decision-making with a grounding agent for robust visual grounding. Our preliminary experiments in PowerPoint presentation creation reveal that complex digital work capabilities can be achieved with a small amount of high-quality cognitive data – PC Agent, trained on just 133 cognitive trajectories, can handle sophisticated work scenarios involving up to 50 steps across multiple applications. This demonstrates the data efficiency of our approach, highlighting that the key to training capable digital agents lies in collecting human cognitive data. By open-sourcing our complete framework, including the data collection infrastructure and cognition completion methods, we aim to lower the barriers for the research community to develop truly capable digital agents.
arxiv情報
著者 | Yanheng He,Jiahe Jin,Shijie Xia,Jiadi Su,Runze Fan,Haoyang Zou,Xiangkun Hu,Pengfei Liu |
発行日 | 2024-12-23 14:02:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google