Beyond Scaling: Predicting Patent Approval with Domain-specific Fine-grained Claim Dependency Graph

要約

大規模言語モデル (LLM) の成功により、モデル スケーリングは多くの言語タスクのデフォルトの選択肢になりつつあります。
ただし、単純なカスタマイズされた方法が優れている特定のシナリオでは不十分になる可能性があります。
この論文では、特許承認予測タスクを詳しく掘り下げ、特許データ内の固有の依存関係を使用して、単純なドメイン固有のグラフ手法がモデルの拡大よりも優れたパフォーマンスを発揮することを明らかにします。
具体的には、まず、さまざまなサイズのオープンソース LLM を使用してバックボーン モデルをスケールアップすることで、組み込みベースの最先端 (SOTA) を拡張し、次にプロプライエタリな LLM の可能性を活用するためのプロンプトベースの方法を探索します。
最良の結果はランダムな推測に近く、モデルのスケールアップの非効率性を強調しています。
したがって、私たちは、綿密な特許データ分析を通じて、特許テキストのセグメント全体にわたる固有の依存関係を捕捉する、新しい細粒度の cLAim 依存関係 (FLAN) グラフを提案します。
モデルに依存しないため、費用対効果の高いグラフ モデルを FLAN グラフに適用して、承認予測の表現を取得します。
広範な実験と詳細な分析により、さまざまなグラフ モデルを介して FLAN グラフを組み込むと、一貫してすべての LLM ベースラインを大幅に上回るパフォーマンスが得られることが証明されました。
この論文での観察と分析によって、この困難な課題にさらに注目が集まり、LLM の限界についてのさらなる研究が促進されることを願っています。
ソース コードとデータセットは http://github.com/ShangDataLab/FLAN-Graph から入手できます。

要約(オリジナル)

Model scaling is becoming the default choice for many language tasks due to the success of large language models (LLMs). However, it can fall short in specific scenarios where simple customized methods excel. In this paper, we delve into the patent approval pre-diction task and unveil that simple domain-specific graph methods outperform enlarging the model, using the intrinsic dependencies within the patent data. Specifically, we first extend the embedding-based state-of-the-art (SOTA) by scaling up its backbone model with various sizes of open-source LLMs, then explore prompt-based methods to harness proprietary LLMs’ potential, but find the best results close to random guessing, underlining the ineffectiveness of model scaling-up. Hence, we propose a novel Fine-grained cLAim depeNdency (FLAN) Graph through meticulous patent data analyses, capturing the inherent dependencies across segments of the patent text. As it is model-agnostic, we apply cost-effective graph models to our FLAN Graph to obtain representations for approval prediction. Extensive experiments and detailed analyses prove that incorporating FLAN Graph via various graph models consistently outperforms all LLM baselines significantly. We hope that our observations and analyses in this paper can bring more attention to this challenging task and prompt further research into the limitations of LLMs. Our source code and dataset can be obtained from http://github.com/ShangDataLab/FLAN-Graph.

arxiv情報

著者 Xiaochen Kev Gao,Feng Yao,Kewen Zhao,Beilei He,Animesh Kumar,Vish Krishnan,Jingbo Shang
発行日 2024-04-22 17:22:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク