Investigating Length Issues in Document-level Machine Translation

要約

トランスアーキテクチャは、非常に長いテキストの処理と生成にますます効果的になり、ドキュメントレベルの機械翻訳(MT)の新しい視点を開きます。
この作業では、MTシステムが最大数千のトークンを含むテキストを処理する能力に挑戦します。
MT出力に対する長さの増分の効果を正確に測定するように設計された新しいアプローチを設計および実装します。
2つの代表的なアーキテクチャを使用した実験は、(a)〜翻訳のパフォーマンスが入力テキストの長さとともに減少することを明確に示しています。
(b)〜ドキュメント内の文の位置が重要であり、翻訳の品質は文書の前半で発生した文でより高くなります。
さらに、ドキュメントの長さと位置埋め込みの分布を操作することは、そのような問題をわずかに軽減するだけであることを示します。
我々の結果は、ドキュメントレベルのMTが計算可能に実行可能であるにもかかわらず、文ベースのMTのパフォーマンスとまだ一致していないことを示唆しています。

要約(オリジナル)

Transformer architectures are increasingly effective at processing and generating very long chunks of texts, opening new perspectives for document-level machine translation (MT). In this work, we challenge the ability of MT systems to handle texts comprising up to several thousands of tokens. We design and implement a new approach designed to precisely measure the effect of length increments on MT outputs. Our experiments with two representative architectures unambiguously show that (a)~translation performance decreases with the length of the input text; (b)~the position of sentences within the document matters, and translation quality is higher for sentences occurring earlier in a document. We further show that manipulating the distribution of document lengths and of positional embeddings only marginally mitigates such problems. Our results suggest that even though document-level MT is computationally feasible, it does not yet match the performance of sentence-based MT.

arxiv情報

著者 Ziqian Peng,Rachel Bawden,François Yvon
発行日 2025-04-28 13:52:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Investigating Length Issues in Document-level Machine Translation はコメントを受け付けていません

Can a Crow Hatch a Falcon? Lineage Matters in Predicting Large Language Model Performance

要約

大規模な微調整またはマージの前に、大規模な言語モデル(LLM)のパフォーマンスを正確に予測すると、計算費用と開発時間の両方を大幅に短縮できます。
スケーリング法のような以前のアプローチは、パラメーターサイズやトレーニングトークンなどのグローバル要因を説明していますが、しばしば明示的な系統関係を見落としています。
この作業では、グラフLaplacian Reglemalizerを介してLLMの祖先のつながりをコードする新しい系統正規化マトリックス因数分解(LRMF)フレームワークを提案します。
マルチホップの親子接続を活用することにより、LRMFは、インスタンスレベルとベンチマークレベルのパフォーマンス予測の両方で、従来のマトリックスの因数分解と共同フィルタリング方法を一貫して上回ります。
私たちの大規模な研究には、6つの主要なベンチマークにわたって2,934の公的に利用可能なハグの顔モデルと21,000以上のインスタンスが含まれており、系統の制約により、ベースラインと比較して実際のパフォーマンスと最大7〜10パーセントポイント高い相関が得られます。
さらに、LRMFはコールドスタートの問題に効果的に対処し、データを最小限に抑えても新たに派生またはマージされたモデルの正確な推定値を提供します。
したがって、この系統誘導戦略は、最新のLLM開発におけるハイパーパラメーターのチューニング、データ選択、およびモデルの組み合わせを通知するためのリソース効率の高い方法を提供します。

要約(オリジナル)

Accurately forecasting the performance of Large Language Models (LLMs) before extensive fine-tuning or merging can substantially reduce both computational expense and development time. Although prior approaches like scaling laws account for global factors such as parameter size or training tokens, they often overlook explicit lineage relationships – i.e., which models are derived or merged from which parents. In this work, we propose a novel Lineage-Regularized Matrix Factorization (LRMF) framework that encodes ancestral ties among LLMs via a graph Laplacian regularizer. By leveraging multi-hop parent-child connections, LRMF consistently outperforms conventional matrix factorization and collaborative filtering methods in both instance-level and benchmark-level performance prediction. Our large-scale study includes 2,934 publicly available Hugging Face models and 21,000+ instances across 6 major benchmarks, showing that lineage constraints yield up to 7-10 percentage points higher correlation with actual performance compared to baselines. Moreover, LRMF effectively addresses the cold-start problem, providing accurate estimates for newly derived or merged models even with minimal data. This lineage-guided strategy thus offers a resource-efficient way to inform hyperparameter tuning, data selection, and model combination in modern LLM development.

arxiv情報

著者 Takuya Tamura,Taro Yano,Masafumi Enomoto,Masafumi Oyamada
発行日 2025-04-28 14:08:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can a Crow Hatch a Falcon? Lineage Matters in Predicting Large Language Model Performance はコメントを受け付けていません

GraphEx: A Graph-based Extraction Method for Advertiser Keyphrase Recommendation

要約

オンライン販売者と広告主は、リストされた製品のキーフレーズを推奨しており、販売を強化するために入札します。
このような推奨事項を生成する一般的なパラダイムの1つは、アイテムへのキーフレーズのタグ付け/マッピングを含む極端なマルチラベル分類(XMC)です。
eコマースプラットフォームでのキーフレーズの推奨事項に、従来のアイテムクエリベースのタグ付けまたはマッピング手法を使用することの制限を概説します。
Graphexを紹介します。これは、アイテムタイトルからトークン順列の抽出を使用して、売り手にキーフレーズを推奨する革新的なグラフベースのアプローチです。
さらに、精度/リコールなどの従来のメトリックに依存することは、実際のアプリケーションでは誤解を招く可能性があることを実証し、それにより、現実世界のシナリオでのパフォーマンスを評価するためにメトリックの組み合わせを必要とすることを実証します。
これらのメトリックは、アイテムとのキーフレーズの関連性とバイヤーアウトリーチの可能性を評価するように設計されています。
Graphexは、eBayの生産モデルを上回り、上記の目的を達成します。
これは、数十億のアイテムに対して、リソースが制約されている生産環境とスケールにおけるほぼリアルタイムの推論をサポートします。

要約(オリジナル)

Online sellers and advertisers are recommended keyphrases for their listed products, which they bid on to enhance their sales. One popular paradigm that generates such recommendations is Extreme Multi-Label Classification (XMC), which involves tagging/mapping keyphrases to items. We outline the limitations of using traditional item-query based tagging or mapping techniques for keyphrase recommendations on E-Commerce platforms. We introduce GraphEx, an innovative graph-based approach that recommends keyphrases to sellers using extraction of token permutations from item titles. Additionally, we demonstrate that relying on traditional metrics such as precision/recall can be misleading in practical applications, thereby necessitating a combination of metrics to evaluate performance in real-world scenarios. These metrics are designed to assess the relevance of keyphrases to items and the potential for buyer outreach. GraphEx outperforms production models at eBay, achieving the objectives mentioned above. It supports near real-time inferencing in resource-constrained production environments and scales effectively for billions of items.

arxiv情報

著者 Ashirbad Mishra,Soumik Dey,Marshall Wu,Jinyu Zhao,He Yu,Kaichen Ni,Binbin Li,Kamesh Madduri
発行日 2025-04-28 14:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | GraphEx: A Graph-based Extraction Method for Advertiser Keyphrase Recommendation はコメントを受け付けていません

To MT or not to MT: An eye-tracking study on the reception by Dutch readers of different translation and creativity levels

要約

この記事では、4つの条件の下で英語からオランダ語に翻訳された架空の短編小説の受容を含むパイロット研究の結果を紹介します:機械翻訳(MT)、編集後(PE)、人間の翻訳(HT)、元のソーステキスト(ST)。
目的は、異なる翻訳モダリティの創造性とエラーが読者にどのように影響するか、特に認知負荷に関してどのように影響するかを理解することです。
8人の参加者がアンケートに記入し、目を見張るものを使用してストーリーを読み、レトロスペクティブなThink-Aloud(RTA)インタビューを実施しました。
結果は、クリエイティブポテンシャル(UCP)の単位が認知負荷を増加させ、この効果がHTで最も高く、MTで最も低いことを示しています。
エラーの影響は観察されませんでした。
RTASでデータを三角測量することで、UCPの認知負荷が高いほど、読者の楽しみと没入の増加に関連しているという仮説につながります。
単語レベルのさまざまな翻訳モダリティにおける認知負荷に対する翻訳の創造性の効果は斬新であり、さらなる研究のための新しい道を開きます。
すべてのコードとデータはhttps://github.com/increc/pilot_to_mt_or_not_to_mtで入手できます

要約(オリジナル)

This article presents the results of a pilot study involving the reception of a fictional short story translated from English into Dutch under four conditions: machine translation (MT), post-editing (PE), human translation (HT) and original source text (ST). The aim is to understand how creativity and errors in different translation modalities affect readers, specifically regarding cognitive load. Eight participants filled in a questionnaire, read a story using an eye-tracker, and conducted a retrospective think-aloud (RTA) interview. The results show that units of creative potential (UCP) increase cognitive load and that this effect is highest for HT and lowest for MT; no effect of error was observed. Triangulating the data with RTAs leads us to hypothesize that the higher cognitive load in UCPs is linked to increases in reader enjoyment and immersion. The effect of translation creativity on cognitive load in different translation modalities at word-level is novel and opens up new avenues for further research. All the code and data are available at https://github.com/INCREC/Pilot_to_MT_or_not_to_MT

arxiv情報

著者 Kyo Gerrits,Ana Guerberof-Arenas
発行日 2025-04-28 14:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | To MT or not to MT: An eye-tracking study on the reception by Dutch readers of different translation and creativity levels はコメントを受け付けていません

Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language

要約

ドメイン適応継続事前トレーニング(DAPT)は、例えば言語マスキングなどの前登録タスクで言語モデル(LM)をさらに訓練する最先端の手法です。
人気がありますが、ドメイン関連データの重要なコーパスが必要です。これは、ドイツ語のプロセス業界など、英語以外の言語で特定のドメインを取得することが困難です。
このホワイトペーパーでは、コンテキスト内学習(ICL)およびk-nearest Neighbors(KNN)を活用するICLの高級前削除またはICL-PAPTと呼ばれる効率的なアプローチを紹介し、ドメイン関連のテキストとドメイン内のテキストでターゲットデータを増強し、GPU時間を大幅に短縮しながら、モデルのパフォーマンスを維持します。
我々の結果は、このアプローチが平均IRメトリックの3.5(MAP、MRR、NDCGなど)の3.5よりも優れたパフォーマンスを発揮し、計算時間のほぼ4倍を必要とすることを示しており、計算能力が限られている産業に費用対効果の高いソリューションを提供します。
この調査結果は、このフレームワークの他の低リソース産業へのより広範な適用性を強調しており、NLPベースのソリューションを生産環境でよりアクセスしやすく実現可能にしています。

要約(オリジナル)

Domain-adaptive continual pretraining (DAPT) is a state-of-the-art technique that further trains a language model (LM) on its pretraining task, e.g., language masking. Although popular, it requires a significant corpus of domain-related data, which is difficult to obtain for specific domains in languages other than English, such as the process industry in the German language. This paper introduces an efficient approach called ICL-augmented pretraining or ICL-APT that leverages in-context learning (ICL) and k-nearest neighbors (kNN) to augment target data with domain-related and in-domain texts, significantly reducing GPU time while maintaining strong model performance. Our results show that this approach performs better than traditional DAPT by 3.5 of the average IR metrics (e.g., mAP, MRR, and nDCG) and requires almost 4 times less computing time, providing a cost-effective solution for industries with limited computational capacity. The findings highlight the broader applicability of this framework to other low-resource industries, making NLP-based solutions more accessible and feasible in production environments.

arxiv情報

著者 Anastasia Zhukova,Christian E. Matt,Terry Ruas,Bela Gipp
発行日 2025-04-28 14:49:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language はコメントを受け付けていません

semi-PD: Towards Efficient LLM Serving via Phase-Wise Disaggregated Computation and Unified Storage

要約

既存の大規模な言語モデル(LLM)サービングシステムは、2つのカテゴリに分類されます。1)Prefillフェーズとデコードフェーズが同じGPUで共同配置され、統一された計算リソースとストレージを共有する統一システム、および2)2つのフェーズが異なるGPUに異議を唱える分解システム。
分解システムの設計は、統一システムのレイテンシ干渉と洗練されたスケジューリングの問題に対処しますが、1)柔軟な展開を防ぐ両方のフェーズの複製された重みにつながります。
このようなストレージの非効率性は、高いリクエストレートの下で不十分なサービスパフォーマンスを提供します。
この論文では、分解されたシステムの利点が分解された計算、つまり計算リソースを分割して2つのフェーズの非同期計算を有効にすることにあることを特定します。
したがって、分解された計算と統一されたストレージを特徴とする新しいLLMサービングシステム、SEMI-PDを提案します。
SEMI-PDでは、ストリーミングマルチプロセッサ(SM)レベルでの分解計算を実現するための計算リソースコントローラーと、両方のフェーズからの非同期メモリアクセスを管理する統一メモリマネージャーを導入します。
SEMI-PDには、2つのフェーズ間の低オーバーヘッドリソース調整メカニズムと、SLO達成を最適化するためのサービスレベルの目的(SLO)認識動的パーティションアルゴリズムがあります。
最先端のシステムと比較して、SEMI-PDは、より高い要求レートでより低いレイテンシを維持し、DeepSeekシリーズモデルで1.27-2.58Xによる平均エンドツーエンドのレイテンシを削減し、Llamaシリーズモデルのレイテンシー制約に準拠した1.55-1.72Xを提供します。

要約(オリジナル)

Existing large language model (LLM) serving systems fall into two categories: 1) a unified system where prefill phase and decode phase are co-located on the same GPU, sharing the unified computational resource and storage, and 2) a disaggregated system where the two phases are disaggregated to different GPUs. The design of the disaggregated system addresses the latency interference and sophisticated scheduling issues in the unified system but leads to storage challenges including 1) replicated weights for both phases that prevent flexible deployment, 2) KV cache transfer overhead between the two phases, 3) storage imbalance that causes substantial wasted space of the GPU capacity, and 4) suboptimal resource adjustment arising from the difficulties in migrating KV cache. Such storage inefficiency delivers poor serving performance under high request rates. In this paper, we identify that the advantage of the disaggregated system lies in the disaggregated computation, i.e., partitioning the computational resource to enable the asynchronous computation of two phases. Thus, we propose a novel LLM serving system, semi-PD, characterized by disaggregated computation and unified storage. In semi-PD, we introduce a computation resource controller to achieve disaggregated computation at the streaming multi-processor (SM) level, and a unified memory manager to manage the asynchronous memory access from both phases. semi-PD has a low-overhead resource adjustment mechanism between the two phases, and a service-level objective (SLO) aware dynamic partitioning algorithm to optimize the SLO attainment. Compared to state-of-the-art systems, semi-PD maintains lower latency at higher request rates, reducing the average end-to-end latency per request by 1.27-2.58x on DeepSeek series models, and serves 1.55-1.72x more requests adhering to latency constraints on Llama series models.

arxiv情報

著者 Ke Hong,Lufang Chen,Zhong Wang,Xiuhong Li,Qiuli Mao,Jianping Ma,Chao Xiong,Guanyu Wu,Buhe Han,Guohao Dai,Yun Liang,Yu Wang
発行日 2025-04-28 15:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG | semi-PD: Towards Efficient LLM Serving via Phase-Wise Disaggregated Computation and Unified Storage はコメントを受け付けていません

GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets

要約

機械学習の基本的なタスクとして、テキスト分類は多くの分野で重要な役割を果たします。
特に強化学習(RL)を通じて、大規模な言語モデル(LLMS)の迅速なスケーリングにより、より能力のある識別器の必要性が高まっています。
その結果、分類の進歩は、LLMSの全体的な機能を強化するためにますます重要になっています。
従来の識別方法は、テキストをラベルにマッピングしますが、LLMの本質的な生成強度を見落としています。
生成分類は、モデルにラベルを直接出力するように促すことにより、これに対処します。
ただし、既存の研究は依然として単純なSFTだけに依存しており、トレーニングと推論プロンプトの間の相互作用をめったに調査することはめったになく、1つのフレームワークで生成テキスト分類子と統一されたSFT、RL、および推論時間プロンプトのRLを体系的に活用していません。
このギャップは、SFTとRLを共同で最適化しながら5つの高レベルの戦略ディメンションの学習バリアント、カテゴリ定義、明示的な不確実性ラベル、意味的に無関係な数値ラベル、トレーニングと困惑を妨げるトレーニングとinの両方をdecodingすることを体系的に調査するフレームワークであるGENCLS ++に橋渡しします。
SFT「ポリシーウォームアップ」の後、RLを単純なルールベースの報酬で適用し、かなりの余分な利益をもたらします。
7つのデータセットで、GENCLS ++は、ナイーブSFTベースラインと比較して3.46%の平均精度改善を達成します。
パブリックデータセットでは、この改善は4.00%に上昇します。
特に、明示的な思考プロセスの恩恵を受ける合理的な集中タスクとは異なり、分類タスクはそのような推論ステップなしでパフォーマンスが向上していることがわかります。
明示的な推論の役割に関するこれらの洞察は、将来のLLMアプリケーションに貴重なガイダンスを提供します。

要約(オリジナル)

As a fundamental task in machine learning, text classification plays a crucial role in many areas. With the rapid scaling of Large Language Models (LLMs), particularly through reinforcement learning (RL), there is a growing need for more capable discriminators. Consequently, advances in classification are becoming increasingly vital for enhancing the overall capabilities of LLMs. Traditional discriminative methods map text to labels but overlook LLMs’ intrinsic generative strengths. Generative classification addresses this by prompting the model to directly output labels. However, existing studies still rely on simple SFT alone, seldom probing the interplay between training and inference prompts, and no work has systematically leveraged RL for generative text classifiers and unified SFT, RL, and inference-time prompting in one framework. We bridge this gap with GenCLS++, a framework that jointly optimizes SFT and RL while systematically exploring five high-level strategy dimensions-in-context learning variants, category definitions, explicit uncertainty labels, semantically irrelevant numeric labels, and perplexity-based decoding-during both training and inference. After an SFT ‘policy warm-up,’ we apply RL with a simple rule-based reward, yielding sizable extra gains. Across seven datasets, GenCLS++ achieves an average accuracy improvement of 3.46% relative to the naive SFT baseline; on public datasets, this improvement rises to 4.00%. Notably, unlike reasoning-intensive tasks that benefit from explicit thinking processes, we find that classification tasks perform better without such reasoning steps. These insights into the role of explicit reasoning provide valuable guidance for future LLM applications.

arxiv情報

著者 Mingqian He,Fei Zhao,Chonggang Lu,Ziyan Liu,Yue Wang,Haofu Qian
発行日 2025-04-28 15:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets はコメントを受け付けていません

Knowledge Distillation of Domain-adapted LLMs for Question-Answering in Telecom

要約

知識蒸留(KD)は、大規模な言語モデル(LLM)のサイズを縮小するアプローチの1つです。
モデルパラメーターの数が少ないLLM(生徒)は、特定のタスクでより大きなサイズ(教師モデル)のLLMのパフォーマンスを模倣するように訓練されています。
ドメイン固有のタスクの場合、ドメイン適応のために教師または生徒のモデルを考慮する必要があるかどうかは明らかではありません。
この作業では、この問題をテレコムドメイン質問(QA)タスクの観点から研究します。
教師のみの監視された微調整(SFT)、学生のみのSFT、およびKDの前に両方のSFTを体系的に実験します。
蒸留モデルに対する語彙(同じか異なる)およびKDアルゴリズム(バニラKDおよびデュアルスペースKD、DSKD)の影響を研究するための実験を設計します。
14の異なるメトリック(N-Gram、埋め込み、LLMベースのメトリック)を使用した蒸留の多面的な評価が考慮されます。
実験結果は、アルゴリズムやメトリックに関係なく、両方のモデルが同じ語彙を持っている場合、教師のSFTが蒸留モデルのパフォーマンスを改善することを示しています。
全体として、教師と生徒の両方のSFTは、すべてのメトリックでパフォーマンスが向上しますが、同じことの統計的有意性は教師モデルの語彙に依存します。

要約(オリジナル)

Knowledge Distillation (KD) is one of the approaches to reduce the size of Large Language Models (LLMs). A LLM with smaller number of model parameters (student) is trained to mimic the performance of a LLM of a larger size (teacher model) on a specific task. For domain-specific tasks, it is not clear if teacher or student model, or both, must be considered for domain adaptation. In this work, we study this problem from perspective of telecom domain Question-Answering (QA) task. We systematically experiment with Supervised Fine-tuning (SFT) of teacher only, SFT of student only and SFT of both prior to KD. We design experiments to study the impact of vocabulary (same and different) and KD algorithms (vanilla KD and Dual Space KD, DSKD) on the distilled model. Multi-faceted evaluation of the distillation using 14 different metrics (N-gram, embedding and LLM-based metrics) is considered. Experimental results show that SFT of teacher improves performance of distilled model when both models have same vocabulary, irrespective of algorithm and metrics. Overall, SFT of both teacher and student results in better performance across all metrics, although the statistical significance of the same depends on the vocabulary of the teacher models.

arxiv情報

著者 Rishika Sen,Sujoy Roychowdhury,Sumit Soman,H. G. Ranjani,Srikhetra Mohanty
発行日 2025-04-28 17:19:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.IR, cs.LG, I.2.7 | Knowledge Distillation of Domain-adapted LLMs for Question-Answering in Telecom はコメントを受け付けていません

Pula: Training Large Language Models for Setswana

要約

この作業では、セツワナと英語の両方に熟練したバイリンガル言語モデルのスイートであるプラを提示します。
データの可用性と効率的な微調整の最近の進歩を活用して、Pula 8BおよびPula 14Bは、英語セチャナ翻訳タスクでGPT-4OおよびGEMINI 1.5 Proを上回り、セットワナの推論タスクで最先端のパフォーマンスを達成します。
Pula 1B、3B、8B、および14Bの重みと、トレーニングログとトレーニングと評価コードをリリースします。
Pulaと並んで、史上最大のSetswana Text Corpus、Marothodi、および最初の包括的なSetswana命令調整データセットであるMedupiをリリースしました。
このデータに付随するために、データセットの構築、フォーマット、フィルタリング、およびスクレイピングに使用されるコードをリリースします。
最後に、セットワナの知識と推論能力を測定するために、2つのSetswana LLM翻訳ベンチマーク、MMLU-TSNとGSM8K-TSNをリリースしました。

要約(オリジナル)

In this work we present Pula, a suite of bilingual language models proficient in both Setswana and English. Leveraging recent advancements in data availability and efficient fine-tuning, Pula 8B and Pula 14B outperform GPT-4o and Gemini 1.5 Pro on English-Setswana translation tasks and achieve state-of-the-art performance on Setswana reasoning tasks for their size. We release the weights for Pula 1B, 3B, 8B, and 14B as well as training logs and training and evaluation code. Alongside Pula, we release the largest-ever Setswana text corpus, Marothodi, and the first comprehensive Setswana instruction-tuning dataset, Medupi, consisting of reformatted datasets, translated corpora, and synthetic LLM-generated text. To accompany this data, we release the code used for dataset construction, formatting, filtering, and scraping. Last, we release two Setswana LLM-translated benchmarks, MMLU-tsn and GSM8K-tsn, to measure Setswana knowledge and reasoning capabilities.

arxiv情報

著者 Nathan Brown,Vukosi Marivate
発行日 2025-04-28 17:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Pula: Training Large Language Models for Setswana はコメントを受け付けていません

LLM-Generated Fake News Induces Truth Decay in News Ecosystem: A Case Study on Neural News Recommendation

要約

オンラインの偽のニュースモデレートは、偽のニュース制作における大規模な言語モデル(LLMS)の悪意のある使用によってもたらされる新しい課題に直面しています。
既存の作品は、LLMが生成した偽のニュースを個々の側面から検出するのが難しいことを示していますが、その大規模なリリースがニュースエコシステムにどのように影響するかは依然として不足しています。
この研究では、ニューラルニュース推奨システム内のLLMで生成された偽のニュースの効果を調査するために、多様な種類の〜56K生成ニュースを備えたシミュレーションパイプラインとデータセットを開発します。
私たちの調査結果は、LLMが生成したニュースがニュースの推奨に関与しているため、偽のニュースに対するニュースランキングで徐々に有利な立場を失っている真実の崩壊現象を明らかにしています。
さらに、真実の崩壊が親しみやすさから発生する理由について説明し、困惑とニュースランキングの間の正の相関関係を示します。
最後に、LLMが生成した偽のニュースの脅威について議論し、可能な対策を提供します。
利害関係者に、ニュースエコシステムの完全性を維持するために、この新たな課題に対処するよう促します。

要約(オリジナル)

Online fake news moderation now faces a new challenge brought by the malicious use of large language models (LLMs) in fake news production. Though existing works have shown LLM-generated fake news is hard to detect from an individual aspect, it remains underexplored how its large-scale release will impact the news ecosystem. In this study, we develop a simulation pipeline and a dataset with ~56k generated news of diverse types to investigate the effects of LLM-generated fake news within neural news recommendation systems. Our findings expose a truth decay phenomenon, where real news is gradually losing its advantageous position in news ranking against fake news as LLM-generated news is involved in news recommendation. We further provide an explanation about why truth decay occurs from a familiarity perspective and show the positive correlation between perplexity and news ranking. Finally, we discuss the threats of LLM-generated fake news and provide possible countermeasures. We urge stakeholders to address this emerging challenge to preserve the integrity of news ecosystems.

arxiv情報

著者 Beizhe Hu,Qiang Sheng,Juan Cao,Yang Li,Danding Wang
発行日 2025-04-28 17:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.IR | LLM-Generated Fake News Induces Truth Decay in News Ecosystem: A Case Study on Neural News Recommendation はコメントを受け付けていません