要約
GUISからの意図抽出を評価するには、正確で微調整されたメトリックが必要です。
このペーパーでは、意図を原子の事実に分解し、精度とリコールを評価するために双方向の比較を実行する双末の方法を紹介します。
実験は、既存のメトリックと比較して人間の判断との双末の優れた相関を示しており、UI駆動型の意図の理解のためのより堅牢な評価フレームワークを確立します。
要約(オリジナル)
Evaluating intent extraction from GUIs demands accurate, fine-grained metrics. This paper introduces Bi-Fact, a novel method that decomposes intents into atomic facts and performs bidirectional comparisons to assess precision and recall. Experiments demonstrate Bi-Fact’s superior correlation with human judgments compared to existing metrics, establishing a more robust evaluation framework for UI-driven intent understanding.
arxiv情報
著者 | Sapir Caduri |
発行日 | 2025-02-20 18:17:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google