Assessing Generative AI value in a public sector context: evidence from a field experiment

要約

生成AI(GEN AI)の出現は、さまざまなタスクにわたって生産性を向上させるためにそれをどのように使用できるかを理解することに興味をそそられています。
公共部門の設定における複雑な知識ベースのタスクに対するGen AIのパフォーマンスへの影響に関する研究結果に追加されます。
事前に登録された実験では、ベースラインレベルのパフォーマンスを確立した後、ドキュメントの理解とデータ分析に関連する2種類の複合タスクの複雑な証拠が見つかります。
ドキュメントタスクの場合、GEN AIを使用した治療グループは、対照群と比較して、回答品質スコア(人間の評価者が判断)の17%改善とタスク完了時間の34%改善を示しました。
データタスクでは、GEN AI治療グループが品質スコアが12%減少し、対照群と比較して平均完了時間に有意差はないことがわかります。
これらの結果は、Gen AIの利点がタスクであり、潜在的に回答者に依存する可能性があることを示唆しています。
また、学んだフィールドノートとレッスン、および参加者との裁判後の調査やフィードバックワークショップからの補足的な洞察についても説明します。

要約(オリジナル)

The emergence of Generative AI (Gen AI) has motivated an interest in understanding how it could be used to enhance productivity across various tasks. We add to research results for the performance impact of Gen AI on complex knowledge-based tasks in a public sector setting. In a pre-registered experiment, after establishing a baseline level of performance, we find mixed evidence for two types of composite tasks related to document understanding and data analysis. For the Documents task, the treatment group using Gen AI had a 17% improvement in answer quality scores (as judged by human evaluators) and a 34% improvement in task completion time compared to a control group. For the Data task, we find the Gen AI treatment group experienced a 12% reduction in quality scores and no significant difference in mean completion time compared to the control group. These results suggest that the benefits of Gen AI may be task and potentially respondent dependent. We also discuss field notes and lessons learned, as well as supplementary insights from a post-trial survey and feedback workshop with participants.

arxiv情報

著者 Trevor Fitzpatrick,Seamus Kelly,Patrick Carey,David Walsh,Ruairi Nugent
発行日 2025-02-13 16:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.GN, q-fin.EC, q-fin.GN パーマリンク