要約
テキスト分類は、データマイニングの基本的なタスクであり、表形式の理解や推奨など、さまざまなアプリケーションに極めて重要です。
CNNやBertなどのニューラルネットワークベースのモデルは、テキスト分類の顕著なパフォーマンスを実証していますが、その有効性は豊富なラベルのあるトレーニングデータに大きく依存しています。
この依存関係により、これらのモデルは、ラベル付きデータが不足している動的な少数のテキスト分類では効果が低くなり、アプリケーションのニーズに基づいて新しいターゲットラベルが頻繁に表示されます。
最近、大規模な言語モデル(LLM)は、広範な前採用と文脈的理解能力のために有望を示しています。
現在のアプローチは、テキストを分類するためのテキスト入力、候補ラベル、および追加の副情報(例:説明)をLLMSに提供します。
ただし、それらの有効性は、入力サイズの増加と側面情報処理を通じて導入されるノイズによって妨げられます。
これらの制限に対処するために、ダイナミックな少数のテキスト分類のために、グラフベースのオンライン検索された選択フレームワーク、つまりGoragを提案します。
各入力を独立して処理するのではなく、Goragはすべてのターゲットテキストでサイド情報を抽出することにより、加重グラフを構築および維持します。
このグラフでは、テキストキーワードとラベルはノードとして表され、エッジはそれらの間の相関を示しています。
これらの相関をモデル化するために、GORAGは抽出された情報の重要性と信頼性を優先するためにエッジの重み付けメカニズムを採用し、各テキスト入力に合わせた最小コストのスパニングツリーを使用して関連するコンテキストを動的に取得します。
経験的評価は、Goragがより包括的で正確なコンテキスト情報を提供することにより、既存のアプローチを上回ることを示しています。
要約(オリジナル)
Text classification is a fundamental task in data mining, pivotal to various applications such as tabular understanding and recommendation. Although neural network-based models, such as CNN and BERT, have demonstrated remarkable performance in text classification, their effectiveness heavily relies on abundant labeled training data. This dependency makes these models less effective in dynamic few-shot text classification, where labeled data is scarce, and new target labels frequently appear based on application needs. Recently, large language models (LLMs) have shown promise due to their extensive pretraining and contextual understanding ability. Current approaches provide LLMs with text inputs, candidate labels, and additional side information (e.g., descriptions) to classify texts. However, their effectiveness is hindered by the increased input size and the noise introduced through side information processing. To address these limitations, we propose a graph-based online retrieval-augmented generation framework, namely GORAG, for dynamic few-shot text classification. Rather than treating each input independently, GORAG constructs and maintains a weighted graph by extracting side information across all target texts. In this graph, text keywords and labels are represented as nodes, with edges indicating the correlations between them. To model these correlations, GORAG employs an edge weighting mechanism to prioritize the importance and reliability of extracted information and dynamically retrieves relevant context using a minimum-cost spanning tree tailored for each text input. Empirical evaluations demonstrate that GORAG outperforms existing approaches by providing more comprehensive and precise contextual information.
arxiv情報
著者 | Yubo Wang,Haoyang Li,Fei Teng,Lei Chen |
発行日 | 2025-02-14 15:32:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google