PicPersona-TOD : A Dataset for Personalizing Utterance Style in Task-Oriented Dialogue with Image Persona

要約

タスク指向のダイアログ(TOD)システムは、自然言語の相互作用を通じてユーザー要求を満たすように設計されていますが、既存のシステムは、個性を欠いてユーザーの個人属性に適応できない一般的な単調な応答を生成することがよくあります。
これに対処するために、ペルソナの一部としてユーザー画像を組み込んだ新しいデータセットであるPicpersona-Todを紹介し、年齢や感情的なコンテキストなどのユーザー固有の要因に合わせたパーソナライズされた応答を可能にします。
これは、第一印象、対話の政策誘導プロンプト、および幻覚を減らすための外部知識の使用によって促進されます。
人間の評価は、データセットがユーザーエクスペリエンスを向上させ、より魅力的な相互作用に貢献するパーソナライズされた応答があることを確認しています。
さらに、応答をパーソナライズするだけでなく、目に見えないドメインhttps://github.com/jihyunlee1/picpersonaで堅牢なパフォーマンスを実証する新しいNLGモデルであるPictorを紹介します。

要約(オリジナル)

Task-Oriented Dialogue (TOD) systems are designed to fulfill user requests through natural language interactions, yet existing systems often produce generic, monotonic responses that lack individuality and fail to adapt to users’ personal attributes. To address this, we introduce PicPersona-TOD, a novel dataset that incorporates user images as part of the persona, enabling personalized responses tailored to user-specific factors such as age or emotional context. This is facilitated by first impressions, dialogue policy-guided prompting, and the use of external knowledge to reduce hallucinations. Human evaluations confirm that our dataset enhances user experience, with personalized responses contributing to a more engaging interaction. Additionally, we introduce a new NLG model, Pictor, which not only personalizes responses, but also demonstrates robust performance across unseen domains https://github.com/JihyunLee1/PicPersona.

arxiv情報

著者 Jihyun Lee,Yejin Jeon,Seungyeon Seo,Gary Geunbae Lee
発行日 2025-04-24 09:15:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PicPersona-TOD : A Dataset for Personalizing Utterance Style in Task-Oriented Dialogue with Image Persona はコメントを受け付けていません

Can LLMs Really Learn to Translate a Low-Resource Language from One Grammar Book?

要約

非常に低リソース(XLR)言語には、NLPモデルのトレーニングにはかなりのコーパスがあり、辞書や文法書などの利用可能なすべてのリソースの使用を動機づけます。
1つの本(Tanzer et al。、2024)からの機械翻訳は、1つの文法書で長いコンテキストLLMSを促すことにより、LLMSが目にしないXLR言語である英語とカラマンの翻訳を可能にすることを示唆しています。
この翻訳能力の原因を調査し、ほとんどすべての改善が、文法的な説明ではなく、本の並行した例に起因することを発見します。
リソースの低い言語を見たネパールとグアラニについても同様の結果が見つかりました。エンコーダーデコーダー翻訳モデルを微調整するだけで、文法の本でLLMに匹敵するパフォーマンスを実現します。
次に、2つの言語タスク、文法の判断と光沢の予測をテストすることで、文法の本がどこに役立つかを調査し、これらのより関連性の高いタスクで主要な結果を達成する類型的な特徴プロンプトを導入することで、どのような文法的知識が役立つかを探ります。
したがって、XLR言語のタスクに適したデータの重要性を強調します:翻訳の並行例、および言語タスクの文法データ。
長いコンテキストLLMがXLR翻訳の文法的説明を効果的に使用できるという証拠が見つからないため、翻訳などの多言語XLRタスクのデータ収集は、言語の説明よりも並列データに最もよく焦点を当てています。

要約(オリジナル)

Extremely low-resource (XLR) languages lack substantial corpora for training NLP models, motivating the use of all available resources such as dictionaries and grammar books. Machine Translation from One Book (Tanzer et al., 2024) suggests that prompting long-context LLMs with one grammar book enables English-Kalamang translation, an XLR language unseen by LLMs – a noteworthy case of linguistics helping an NLP task. We investigate the source of this translation ability, finding almost all improvements stem from the book’s parallel examples rather than its grammatical explanations. We find similar results for Nepali and Guarani, seen low-resource languages, and we achieve performance comparable to an LLM with a grammar book by simply fine-tuning an encoder-decoder translation model. We then investigate where grammar books help by testing two linguistic tasks, grammaticality judgment and gloss prediction, and we explore what kind of grammatical knowledge helps by introducing a typological feature prompt that achieves leading results on these more relevant tasks. We thus emphasise the importance of task-appropriate data for XLR languages: parallel examples for translation, and grammatical data for linguistic tasks. As we find no evidence that long-context LLMs can make effective use of grammatical explanations for XLR translation, we conclude data collection for multilingual XLR tasks such as translation is best focused on parallel data over linguistic description.

arxiv情報

著者 Seth Aycock,David Stap,Di Wu,Christof Monz,Khalil Sima’an
発行日 2025-04-24 09:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can LLMs Really Learn to Translate a Low-Resource Language from One Grammar Book? はコメントを受け付けていません

Creating Targeted, Interpretable Topic Models with LLM-Generated Text Augmentation

要約

トピックモデリングやクラスタリングなどの監視されていない機械学習手法は、政治学や社会学などの分野の構造化されていないテキストデータの潜在パターンを特定するためによく使用されます。
これらの方法は、人間の定性分析の労働集約的なプロセスに関与する再現性とコスト感に関する一般的な懸念を克服します。
ただし、トピックモデルの2つの主要な制限は、その解釈可能性と、ターゲットを絞ったドメイン固有の社会科学研究の質問に答えるための実用性です。
この作業では、LLMで生成されたテキスト増強を使用して、トピックモデリング出力の有用性を改善する機会を調査します。
政治学のケーススタディを使用して、結果をドメイン固有のアプリケーションで評価し、GPT-4の増強を使用したトピックモデリングは、最小限の人間のガイダンスでドメイン固有の研究質問を調査するために使用できる非常に解釈可能なカテゴリを作成することがわかります。

要約(オリジナル)

Unsupervised machine learning techniques, such as topic modeling and clustering, are often used to identify latent patterns in unstructured text data in fields such as political science and sociology. These methods overcome common concerns about reproducibility and costliness involved in the labor-intensive process of human qualitative analysis. However, two major limitations of topic models are their interpretability and their practicality for answering targeted, domain-specific social science research questions. In this work, we investigate opportunities for using LLM-generated text augmentation to improve the usefulness of topic modeling output. We use a political science case study to evaluate our results in a domain-specific application, and find that topic modeling using GPT-4 augmentations creates highly interpretable categories that can be used to investigate domain-specific research questions with minimal human guidance.

arxiv情報

著者 Anna Lieb,Maneesh Arora,Eni Mustafaraj
発行日 2025-04-24 11:14:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Creating Targeted, Interpretable Topic Models with LLM-Generated Text Augmentation はコメントを受け付けていません

Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation

要約

透かしは、大規模な言語モデル(LLM)で誤った情報と闘い、知的財産を保護するための重要なテクニックとして浮上しています。
透かしの放射能と呼ばれる最近の発見は、教師モデルに埋め込まれた透かしが知識の蒸留を通じて生徒モデルによって継承される可能性があることを明らかにしています。
プラス面では、この継承により、学生モデルの透かし痕跡を特定することにより、不正な知識の蒸留を検出できます。
しかし、不正な知識の蒸留下でのスプーフィング攻撃に直面した攻撃に対するスクラブ攻撃に対する透かしの堅牢性と、それらの容赦のない性能は、ほとんど説明されていません。
既存の透かし攻撃方法は、モデルの内部へのアクセスを想定するか、攻撃とスプーフィングの両方の攻撃の両方を同時にサポートできません。
この作業では、不正な知識の蒸留下で双方向攻撃を可能にする統一されたフレームワークである、コントラストのデコードガイド付き知識蒸留(CDG-KD)を提案します。
私たちのアプローチでは、学生モデルからの出力と弱い透かしの参照を比較することにより、破損したまたは増幅された透かしテキストを抽出するためのコントラストデコードを採用しています。
広範な実験では、CDG-KDが蒸留モデルの一般的なパフォーマンスを維持しながら、攻撃を効果的に実行することが示されています。
私たちの調査結果は、堅牢で許されない透かしスキームを開発するための重要なニーズを強調しています。

要約(オリジナル)

Watermarking has emerged as a critical technique for combating misinformation and protecting intellectual property in large language models (LLMs). A recent discovery, termed watermark radioactivity, reveals that watermarks embedded in teacher models can be inherited by student models through knowledge distillation. On the positive side, this inheritance allows for the detection of unauthorized knowledge distillation by identifying watermark traces in student models. However, the robustness of watermarks against scrubbing attacks and their unforgeability in the face of spoofing attacks under unauthorized knowledge distillation remain largely unexplored. Existing watermark attack methods either assume access to model internals or fail to simultaneously support both scrubbing and spoofing attacks. In this work, we propose Contrastive Decoding-Guided Knowledge Distillation (CDG-KD), a unified framework that enables bidirectional attacks under unauthorized knowledge distillation. Our approach employs contrastive decoding to extract corrupted or amplified watermark texts via comparing outputs from the student model and weakly watermarked references, followed by bidirectional distillation to train new student models capable of watermark removal and watermark forgery, respectively. Extensive experiments show that CDG-KD effectively performs attacks while preserving the general performance of the distilled model. Our findings underscore critical need for developing watermarking schemes that are robust and unforgeable.

arxiv情報

著者 Xin Yi,Shunfan Zhengc,Linlin Wanga,Xiaoling Wang,Liang He
発行日 2025-04-24 12:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unified Attacks to Large Language Model Watermarks: Spoofing and Scrubbing in Unauthorized Knowledge Distillation はコメントを受け付けていません

Transferable text data distillation by trajectory matching

要約

大規模な言語モデル(LLM)の領域では、大規模なモデルのサイズが大きくなると、トレーニングコストも高くなります。
LLMトレーニングのデータサイズを最小限に抑える必要があります。
データ選択方法と比較して、データ蒸留方法は、少数のデータサンプルを合成して、完全なデータセットのトレーニング効果を実現することを目的としており、柔軟性が向上します。
コンピュータービジョンの成功にもかかわらず、テキストデータの離散性は、これまで自然言語処理(NLP)での調査を妨げてきました。
この作業では、軌跡の一致に基づいて擬似プロンプトデータを学習し、横断的な隣接IDを見つけて横断的な移転を達成する方法を含む方法を提案しました。
蒸留プロセス中に、蒸留データの堅牢性を改善するために正則化損失を導入します。
私たちの最善の知識のために、これは、命令チューニングなどのテキスト生成タスクに適した最初のデータ蒸留作業です。
ARC-EASYおよびMMLU命令チューニングデータセットを含む2つのベンチマークの評価により、SOTAデータ選択方法よりも蒸留アプローチの優位性が少なくなりました。
さらに、私たちの方法は、LLM構造を介した適切な移動性を示しています(つまり、LLAMAへの選択)。

要約(オリジナル)

In the realm of large language model (LLM), as the size of large models increases, it also brings higher training costs. There is a urgent need to minimize the data size in LLM training. Compared with data selection method, the data distillation method aims to synthesize a small number of data samples to achieve the training effect of the full data set and has better flexibility. Despite its successes in computer vision, the discreteness of text data has hitherto stymied its exploration in natural language processing (NLP). In this work, we proposed a method that involves learning pseudo prompt data based on trajectory matching and finding its nearest neighbor ID to achieve cross-architecture transfer. During the distillation process, we introduce a regularization loss to improve the robustness of our distilled data. To our best knowledge, this is the first data distillation work suitable for text generation tasks such as instruction tuning. Evaluations on two benchmarks, including ARC-Easy and MMLU instruction tuning datasets, established the superiority of our distillation approach over the SOTA data selection method LESS. Furthermore, our method demonstrates a good transferability over LLM structures (i.e., OPT to Llama).

arxiv情報

著者 Rong Yao,Hailin Hu,Yifei Fu,Hanting Chen,Wenyi Fang,Fanyi Du,Kai Han,Yunhe Wang
発行日 2025-04-24 12:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Transferable text data distillation by trajectory matching はコメントを受け付けていません

Probabilistic Subspace Manifolds for Contextual Inference in Large Language Models

要約

トークンの埋め込みを学習した多様体にわたって確率分布として表すことで、より柔軟なコンテキストの推論が可能になり、意味の粒度が向上しながら表現の剛性が低下します。
比較評価は、確率的埋め込みが近隣の一貫性を改善し、冗長性を低下させ、トークンの関係が微調整された反復全体でより構造的に一貫性のあるままであることを示しています。
注意メカニズム内の確率的部分空間の統合により、より適応的なコンテキスト重み付けが促進され、モデルが従来の埋め込みで不明瞭になる潜在的な依存関係をキャプチャできるようにします。
実験結果は、敵対的な修正に対する堅牢性の増加を強調しており、摂動ベースの評価シナリオの下でもコンテキストの完全性を維持する確率的な埋め込みを備えています。
パフォーマンス評価は、確率論的表現がドメイン固有のアプリケーションでより大きな適応性を達成し、言語ドメインを横切る際の広範な再訓練の必要性を軽減することを示しています。
計算トレードオフは、運用上実行可能な制限内であり、表現の安定性とコンテキスト表現力の強化の利点とバランスが取れている推論レイテンシのわずかな増加があります。
構造化された不確実性をエンコードする能力は、特に拡張されたシーケンス全体でコヒーレンスを維持するには、曖昧またはコンテキスト依存の言語構造を処理できる表現フレームワークが必要な場合に、生成モデリングタスクの利点を提供します。

要約(オリジナル)

Representing token embeddings as probability distributions over learned manifolds allows for more flexible contextual inference, reducing representational rigidity while enhancing semantic granularity. Comparative evaluations demonstrate that probabilistic embeddings improve neighborhood consistency and decrease redundancy, ensuring that token relationships remain more structurally coherent across fine-tuning iterations. The integration of probabilistic subspaces within attention mechanisms facilitates more adaptive contextual weighting, enabling models to capture latent dependencies that would otherwise be obscured in conventional embeddings. Experimental results highlight increased robustness against adversarial modifications, with probabilistic embeddings preserving contextual integrity even under perturbation-based evaluation scenarios. Performance assessments indicate that probabilistic representations achieve greater adaptability in domain-specific applications, mitigating the need for extensive retraining when shifting across linguistic domains. Computational trade-offs remain within operationally feasible limits, with marginal increases in inference latency balanced against the benefits of enhanced representation stability and contextual expressiveness. The capacity to encode structured uncertainty provides advantages in generative modeling tasks, particularly where maintaining coherence across extended sequences requires a representation framework capable of handling ambiguous or context-dependent linguistic constructs.

arxiv情報

著者 Christopher Nightingale,Dominic Lavington,Jonathan Thistlethwaite,Sebastian Penhaligon,Thomas Belinski,David Boldo
発行日 2025-04-24 12:48:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Probabilistic Subspace Manifolds for Contextual Inference in Large Language Models はコメントを受け付けていません

Not All Data Are Unlearned Equally

要約

Machine Ulearningは、訓練されたモデルから特定のデータポイントから学んだ知識を削除するタスクに関係しています。
大規模な言語モデル(LLMS)のコンテキストでは、特にプライバシー目的のためにモデルから指定されたエンティティに関する知識を削除するために、最近、学習が注目を集めています。
未学習の問題に対処するためにさまざまなアプローチが提案されていますが、既存のアプローチのほとんどは、すべてのデータポイントを均等に扱うように扱います。つまり、モントリオールがカナダの都市であることを学習することは、この論文の最初の著者の電話番号を学ぶこととまったく同じ扱いになっています。
この作業では、このすべてのデータが等しい仮定がLLMの学習には当てはまらないことを示しています。
私たちは、学習の成功が、モデルのトレーニング前のデータで学習したい知識の頻度にどのように依存し、頻度が学習を強く影響することを発見する方法を調べます。
さらに、確率と生成に基づく評価の不整合の不整合を明らかにし、モデルが大きくなるにつれてこの問題が悪化することを示します。
全体として、私たちの実験は、モデルのトレーニングデータを考慮に入れるためのLLM学習のためのより良い評価慣行と新しい方法の必要性を強調しています。

要約(オリジナル)

Machine unlearning is concerned with the task of removing knowledge learned from particular data points from a trained model. In the context of large language models (LLMs), unlearning has recently received increased attention, particularly for removing knowledge about named entities from models for privacy purposes. While various approaches have been proposed to address the unlearning problem, most existing approaches treat all data points to be unlearned equally, i.e., unlearning that Montreal is a city in Canada is treated exactly the same as unlearning the phone number of the first author of this paper. In this work, we show that this all data is equal assumption does not hold for LLM unlearning. We study how the success of unlearning depends on the frequency of the knowledge we want to unlearn in the pre-training data of a model and find that frequency strongly affects unlearning, i.e., more frequent knowledge is harder to unlearn. Additionally, we uncover a misalignment between probability and generation-based evaluations of unlearning and show that this problem worsens as models become larger. Overall, our experiments highlight the need for better evaluation practices and novel methods for LLM unlearning that take the training data of models into account.

arxiv情報

著者 Aravind Krishnan,Siva Reddy,Marius Mosbach
発行日 2025-04-24 13:16:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Not All Data Are Unlearned Equally はコメントを受け付けていません

When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars

要約

潜在的なセマンティクスを獲得する機能は、言語モデルのパフォーマンスを決定する重要な特性の1つです。
この機能を呼び出すための便利なアプローチの1つは、トレーニング前のデータのテキストの先頭でメタデータ(URL、ドメイン、スタイルなど)を準備することです。これにより、テキスト全体を観察する前にモデルが潜在セマンティクスに簡単にアクセスできます。
以前の研究では、この手法が実際にダウンストリームタスクでの訓練されたモデルのパフォーマンスを改善することが報告されています。
ただし、この改善は、特定の下流タスクでのみ観察されており、平均的な次のトークン予測損失の一貫した強化はありません。
この現象を理解するために、トレーニング前にメタデータを準備することが、人工データを使用してその動作を調べることにより、モデルのパフォーマンスにどのように影響するかを綿密に調査します。
興味深いことに、このアプローチは、下流タスクにプラスとマイナスの両方の効果をもたらすことがわかりました。
アプローチの有効性は、潜在的なセマンティクスがダウンストリームタスクのプロンプトから推測できるかどうかに依存することを実証します。
具体的には、確率的コンテキストのない文法によって生成されたデータを使用した調査を通じて、メタデータを使用したトレーニングは、与えられたコンテキストが潜在的なセマンティクスを推測するのに十分な長さである場合、モデルのパフォーマンスを改善するのに役立つことを示しています。
対照的に、この手法は、コンテキストに正確な事後推論を行うために必要な情報が欠けている場合、パフォーマンスに悪影響を与えます。

要約(オリジナル)

The ability to acquire latent semantics is one of the key properties that determines the performance of language models. One convenient approach to invoke this ability is to prepend metadata (e.g. URLs, domains, and styles) at the beginning of texts in the pre-training data, making it easier for the model to access latent semantics before observing the entire text. Previous studies have reported that this technique actually improves the performance of trained models in downstream tasks; however, this improvement has been observed only in specific downstream tasks, without consistent enhancement in average next-token prediction loss. To understand this phenomenon, we closely investigate how prepending metadata during pre-training affects model performance by examining its behavior using artificial data. Interestingly, we found that this approach produces both positive and negative effects on the downstream tasks. We demonstrate that the effectiveness of the approach depends on whether latent semantics can be inferred from the downstream task’s prompt. Specifically, through investigations using data generated by probabilistic context-free grammars, we show that training with metadata helps improve model’s performance when the given context is long enough to infer the latent semantics. In contrast, the technique negatively impacts performance when the context lacks the necessary information to make an accurate posterior inference.

arxiv情報

著者 Rei Higuchi,Ryotaro Kawata,Naoki Nishikawa,Kazusato Oko,Shoichiro Yamaguchi,Sosuke Kobayashi,Seiya Tokui,Kohei Hayashi,Daisuke Okanohara,Taiji Suzuki
発行日 2025-04-24 13:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | When Does Metadata Conditioning (NOT) Work for Language Model Pre-Training? A Study with Context-Free Grammars はコメントを受け付けていません

DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training

要約

大規模な言語モデル(LLM)は最近、さまざまな複雑な推論ベンチマークで顕著なパフォーマンスを達成しましたが、学術コミュニティには基本モデルトレーニングプロセスとデータ品質の詳細な理解がまだありません。
これに対処するために、さまざまな難易度レベルの約334万の一意のクエリと、複数のパスで複数のモデルによって生成される約4,000万件の蒸留応答を含む大規模で難易度の推論データセットを構築します。
合格率と変動係数(CV)を活用すると、推論機能を強化するために最も価値のあるトレーニングデータを正確に選択します。
特に、ベースモデルに基づいた推論に焦点を合わせたトレーニングには、効果的なトレーニングのためにより高い学習率が必要であることを示すトレーニングパターンシフトが観察されます。
この慎重に選択されたデータを使用して、基本モデルの推論機能を大幅に改善し、AIME2024数学的推論ベンチマークで79.2 \%の合格率を達成しました。
この結果は、現在の蒸留モデルのほとんどを上回り、最先端のパフォーマンスに密接に近づいています。
データ処理、難易度評価、およびトレーニング方法の詳細な説明を提供し、オープンソースの長期的なLLMの急速な進歩を促進するために、すべてのデータセットと方法を公開しています。
データセットは、https://huggingface.co/datasets/am-team/am-deepseek-distill-40mで入手できます

要約(オリジナル)

Although large language models (LLMs) have recently achieved remarkable performance on various complex reasoning benchmarks, the academic community still lacks an in-depth understanding of base model training processes and data quality. To address this, we construct a large-scale, difficulty-graded reasoning dataset containing approximately 3.34 million unique queries of varying difficulty levels and about 40 million distilled responses generated by multiple models over several passes. Leveraging pass rate and Coefficient of Variation (CV), we precisely select the most valuable training data to enhance reasoning capability. Notably, we observe a training pattern shift, indicating that reasoning-focused training based on base models requires higher learning rates for effective training. Using this carefully selected data, we significantly improve the reasoning capabilities of the base model, achieving a pass rate of 79.2\% on the AIME2024 mathematical reasoning benchmark. This result surpasses most current distilled models and closely approaches state-of-the-art performance. We provide detailed descriptions of our data processing, difficulty assessment, and training methodology, and have publicly released all datasets and methods to promote rapid progress in open-source long-reasoning LLMs. The dataset is available at: https://huggingface.co/datasets/a-m-team/AM-DeepSeek-Distilled-40M

arxiv情報

著者 Xiaoyu Tian,Sitong Zhao,Haotian Wang,Shuaiting Chen,Yiping Peng,Yunjie Ji,Han Zhao,Xiangang Li
発行日 2025-04-24 13:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training はコメントを受け付けていません

RAGAT-Mind: A Multi-Granular Modeling Approach for Rumor Detection Based on MindSpore

要約

誤った情報がソーシャルメディアプラットフォーム全体で増殖し続けているため、自然言語処理の緊急の課題として効果的な噂の検出が浮上しています。
このペーパーでは、MindSpore Deep Learning Frameworkに基づいて構築された中国の噂検出のための多顆粒モデリングアプローチであるRagat-Mindを提案します。
このモデルは、ローカルセマンティック抽出のためにTextCNN、シーケンシャルコンテキスト学習のための双方向GRU、グローバル依存関係の焦点のマルチヘッド自己触媒、および単語共起グラフの構造表現のための双方向グラフ畳み込みネットワーク(BIGCN)を統合します。
Weibo1-Rumorデータセットの実験は、Ragat-Mindが優れた分類パフォーマンスを達成し、99.2%の精度とMacro-F1スコアが0.9919を達成することを示しています。
結果は、階層的な言語機能をグラフベースのセマンティック構造と組み合わせることの有効性を検証します。
さらに、このモデルは強力な一般化と解釈可能性を示し、実際の噂検出アプリケーションの実用的な価値を強調しています。

要約(オリジナル)

As false information continues to proliferate across social media platforms, effective rumor detection has emerged as a pressing challenge in natural language processing. This paper proposes RAGAT-Mind, a multi-granular modeling approach for Chinese rumor detection, built upon the MindSpore deep learning framework. The model integrates TextCNN for local semantic extraction, bidirectional GRU for sequential context learning, Multi-Head Self-Attention for global dependency focusing, and Bidirectional Graph Convolutional Networks (BiGCN) for structural representation of word co-occurrence graphs. Experiments on the Weibo1-Rumor dataset demonstrate that RAGAT-Mind achieves superior classification performance, attaining 99.2% accuracy and a macro-F1 score of 0.9919. The results validate the effectiveness of combining hierarchical linguistic features with graph-based semantic structures. Furthermore, the model exhibits strong generalization and interpretability, highlighting its practical value for real-world rumor detection applications.

arxiv情報

著者 Zhenkai Qin,Guifang Yang,Dongze Wu
発行日 2025-04-24 14:03:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | RAGAT-Mind: A Multi-Granular Modeling Approach for Rumor Detection Based on MindSpore はコメントを受け付けていません