Towards a Benchmark for Causal Business Process Reasoning with LLMs

要約

大規模言語モデル (LLM) は、組織の効率を高め、タスクを自動化するためにますます使用されています。
元々は複雑な認知プロセス向けに設計されたものではありませんでしたが、最近の取り組みでは推論、計画、意思決定などの活動に LLM を採用するようにさらに拡張されています。
ビジネス プロセスでは、このような能力は、LLM がそのようなプロセスを深く理解するために訓練されてきた膨大なコーパスを活用するのに非常に貴重である可能性があります。
この作業では、事業運営の因果関係とプロセスの観点について推論する LLM の能力を評価するベンチマーク開発の種をまきます。
このビューを因果的に拡張されたビジネス プロセス (BP^C) と呼びます。
ベンチマークの中核は、BP^C 関連の一連の状況、これらの状況に関する一連の質問、およびこれらの質問に対するグラウンド トゥルースの答えを体系的に解決するために使用される一連の演繹的ルールで構成されます。
また、LLM の力を利用して、シードはドメイン固有の状況と質問の大規模なセットにインスタンス化されます。
BP^C に関する推論は、プロセス介入とプロセス改善にとって非常に重要です。
https://huggingface.co/datasets/ibm/BPC からアクセスできるベンチマークは、ターゲット LLM のパフォーマンスをテストすることと、LLM をトレーニングして BP^C を推論する能力を向上させることの 2 つの可能な方法のいずれかで使用できます。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used for boosting organizational efficiency and automating tasks. While not originally designed for complex cognitive processes, recent efforts have further extended to employ LLMs in activities such as reasoning, planning, and decision-making. In business processes, such abilities could be invaluable for leveraging on the massive corpora LLMs have been trained on for gaining deep understanding of such processes. In this work, we plant the seeds for the development of a benchmark to assess the ability of LLMs to reason about causal and process perspectives of business operations. We refer to this view as Causally-augmented Business Processes (BP^C). The core of the benchmark comprises a set of BP^C related situations, a set of questions about these situations, and a set of deductive rules employed to systematically resolve the ground truth answers to these questions. Also with the power of LLMs, the seed is then instantiated into a larger-scale set of domain-specific situations and questions. Reasoning on BP^C is of crucial importance for process interventions and process improvement. Our benchmark, accessible at https://huggingface.co/datasets/ibm/BPC, can be used in one of two possible modalities: testing the performance of any target LLM and training an LLM to advance its capability to reason about BP^C.

arxiv情報

著者 Fabiana Fournier,Lior Limonad,Inna Skarbovsky
発行日 2024-07-16 15:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク