要約
重要なテキスト評価は、ファクトチェック、ピアレビュー、エッセイグレーディングなど、多くの専門家活動の中心にあります。
しかし、既存の作業は、重要なテキスト評価をブラックボックスの問題として扱い、解釈可能性と人間とのコラボレーションを制限しています。
このギャップを埋めるために、テキスト評価を明示的で段階的な推論プロセスとしてモデル化するための新しい仕様フレームワークである重要なテキスト評価(Stricta)に構造化された推論を導入します。
Strictaは、評価を因果関係の理論に関する相互接続された推論ステップのグラフに分解します(Pearl、1995)。
このグラフは、専門家の相互作用データに基づいて入力されており、評価プロセスを研究し、人間とのコラボレーションを促進するために使用されます。
私たちは正式にStrictaを定義し、生物医学の紙評価に関する研究に適用し、20を超える論文で約40人の生物医学の専門家から4000を超える推論ステップのデータセットをもたらします。
このデータセットを使用して、重要なテキスト評価における専門家の推論を経験的に研究し、LLMがこれらのワークフロー内で専門家を模倣してサポートできるかどうかを調査します。
結果のツールとデータセットは、テキスト評価、ピアレビュー、それ以降の共同専門家の推論を研究する方法を開きます。
要約(オリジナル)
Critical text assessment is at the core of many expert activities, such as fact-checking, peer review, and essay grading. Yet, existing work treats critical text assessment as a black box problem, limiting interpretability and human-AI collaboration. To close this gap, we introduce Structured Reasoning In Critical Text Assessment (STRICTA), a novel specification framework to model text assessment as an explicit, step-wise reasoning process. STRICTA breaks down the assessment into a graph of interconnected reasoning steps drawing on causality theory (Pearl, 1995). This graph is populated based on expert interaction data and used to study the assessment process and facilitate human-AI collaboration. We formally define STRICTA and apply it in a study on biomedical paper assessment, resulting in a dataset of over 4000 reasoning steps from roughly 40 biomedical experts on more than 20 papers. We use this dataset to empirically study expert reasoning in critical text assessment, and investigate if LLMs are able to imitate and support experts within these workflows. The resulting tools and datasets pave the way for studying collaborative expert-AI reasoning in text assessment, in peer review and beyond.
arxiv情報
著者 | Nils Dycke,Matej Zečević,Ilia Kuznetsov,Beatrix Suess,Kristian Kersting,Iryna Gurevych |
発行日 | 2025-06-02 08:18:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google