要約
戦略的な洞察や研究ポートフォリオ管理のために、助成金や出版物の要約などの短い科学文書を大まかに分類することが望ましい。
これらのテキストは、解釈を助けるための豊富な知識を有する専門家に密度の高い情報を効率的に伝達します。
しかし、このタスクは、簡潔でコンテキストがないため、自動化するのが非常に困難です。
このギャップに対処するために、私たちは、大まかなドメイン固有のラベルを生成し、適切に割り当てる新しいアプローチを開発しました。
私たちは、大規模言語モデル (LLM) が、人間の直観を表す補足的な知識の増強に似たプロセスで、タスクに不可欠なメタデータを提供できることを示し、ワークフローを提案します。
パイロット研究として、米国航空宇宙局 (NASA) からの賞の要約のコーパスを使用します。
私たちは確立されたパフォーマンス指標に合わせて新しい評価ツールを開発します。
要約(オリジナル)
It is desirable to coarsely classify short scientific texts, such as grant or publication abstracts, for strategic insight or research portfolio management. These texts efficiently transmit dense information to experts possessing a rich body of knowledge to aid interpretation. Yet this task is remarkably difficult to automate because of brevity and the absence of context. To address this gap, we have developed a novel approach to generate and appropriately assign coarse domain-specific labels. We show that a Large Language Model (LLM) can provide metadata essential to the task, in a process akin to the augmentation of supplemental knowledge representing human intuition, and propose a workflow. As a pilot study, we use a corpus of award abstracts from the National Aeronautics and Space Administration (NASA). We develop new assessment tools in concert with established performance metrics.
arxiv情報
| 著者 | Harsh Sakhrani,Naseela Pervez,Anirudh Ravi Kumar,Fred Morstatter,Alexandra Graddy Reed,Andrea Belz | 
| 発行日 | 2024-07-08 16:34:47+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
