要約
埋め込みやバッグオブワードなどの既存のテキスト表現は、その高次元性と機能レベルの解釈可能性が存在しないか疑わしいため、ルール学習には適していません。
この記事では、大規模言語モデル (LLM) がテキストから少数の解釈可能な特徴を抽出することでこの問題に対処できるかどうかを検討します。
このプロセスを、複数の分野からの数千の科学論文を含む 2 つのデータセット (CORD-19 および M17+) と、研究への影響の代用となるターゲットで実証します。
研究への影響との統計的に有意な相関関係のテストに基づいた評価により、LLama 2 で生成された特徴が意味論的に意味があることが示されました。
その結果、生成されたこれらの特徴をテキスト分類に使用して、CORD-19 データセットの引用率を表すバイナリ ターゲット変数と、M17+ データセットの専門家が授与したグレードを表す順序 5 クラス ターゲットを予測しました。
LLM で生成された特徴に基づいてトレーニングされた機械学習モデルは、科学文書用の最先端の埋め込みモデル SciBERT と同様の予測パフォーマンスを提供しました。
SciBERT の埋め込みでは 768 個の特徴が使用されていたのに対し、LLM では 62 個の特徴のみが使用され、これらの特徴は記事の方法論的な厳密さ、新規性、文法の正しさなどの概念に対応して直接解釈可能でした。
最後のステップとして、適切に解釈可能なアクション ルールを少数抽出します。
両方のテーマ的に多様なデータセットにわたって同じ LLM 特徴セットを使用して得られた一貫した競合結果は、このアプローチがドメイン間で一般化できることを示しています。
要約(オリジナル)
Existing text representations such as embeddings and bag-of-words are not suitable for rule learning due to their high dimensionality and absent or questionable feature-level interpretability. This article explores whether large language models (LLMs) could address this by extracting a small number of interpretable features from text. We demonstrate this process on two datasets (CORD-19 and M17+) containing several thousand scientific articles from multiple disciplines and a target being a proxy for research impact. An evaluation based on testing for the statistically significant correlation with research impact has shown that LLama 2-generated features are semantically meaningful. We consequently used these generated features in text classification to predict the binary target variable representing the citation rate for the CORD-19 dataset and the ordinal 5-class target representing an expert-awarded grade in the M17+ dataset. Machine-learning models trained on the LLM-generated features provided similar predictive performance to the state-of-the-art embedding model SciBERT for scientific text. The LLM used only 62 features compared to 768 features in SciBERT embeddings, and these features were directly interpretable, corresponding to notions such as article methodological rigor, novelty, or grammatical correctness. As the final step, we extract a small number of well-interpretable action rules. Consistently competitive results obtained with the same LLM feature set across both thematically diverse datasets show that this approach generalizes across domains.
arxiv情報
著者 | Vojtěch Balek,Lukáš Sýkora,Vilém Sklenák,Tomáš Kliegr |
発行日 | 2024-09-11 09:29:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google