Radar: Fast Long-Context Decoding for Any Transformer

要約

トランスモデルは、幅広いアプリケーションで並外れたパフォーマンスを実証しています。
変圧器モデルの基礎を形成しますが、DOT製品の注意は、その時間要件がコンテキストの長さとともに2次に成長するため、長いコンテキストデータにうまく拡張しません。
この作業では、最も重要なコンテキストトークンを動的に検索することで推論を加速するトレーニングなしのアプローチであるレーダーを提案します。
事前に訓練された変圧器の場合、レーダーはトレーニングやヒューリスティックなトークンを追跡することなく、デコード時間の複雑さを減らすことができます。
さらに、私たちはアプローチの理論的正当化を提供し、レーダーが高い確率で最も重要なトークンを確実に識別できることを実証します。
幅広いタスクで以前の方法と大規模な比較を実施します。
結果は、レーダーが時間が短縮されたさまざまなアーキテクチャで最先端のパフォーマンスを達成し、変圧器の効率的な長いコンテキスト処理のための実用的なソリューションを提供することを示しています。

要約(オリジナル)

Transformer models have demonstrated exceptional performance across a wide range of applications. Though forming the foundation of Transformer models, the dot-product attention does not scale well to long-context data since its time requirement grows quadratically with context length. In this work, we propose Radar, a training-free approach that accelerates inference by dynamically searching for the most important context tokens. For any pre-trained Transformer, Radar can reduce the decoding time complexity without training or heuristically evicting tokens. Moreover, we provide theoretical justification for our approach, demonstrating that Radar can reliably identify the most important tokens with high probability. We conduct extensive comparisons with the previous methods on a wide range of tasks. The results demonstrate that Radar achieves the state-of-the-art performance across different architectures with reduced time complexity, offering a practical solution for efficient long-context processing of Transformers.

arxiv情報

著者 Yongchang Hao,Mengyao Zhai,Hossein Hajimirsadeghi,Sepidehsadat Hosseini,Frederick Tung
発行日 2025-03-13 17:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Radar: Fast Long-Context Decoding for Any Transformer はコメントを受け付けていません

Unveiling the Mathematical Reasoning in DeepSeek Models: A Comparative Study of Large Language Models

要約

人工知能(AI)の急速な進化により、大規模な言語モデル(LLMS)は、ヘルスケア、公衆衛生、工学、科学、農業、教育、芸術、人文科学、数学的推論にまたがるさまざまな分野のフロンティアを再形成しました。
これらの進歩の中で、Deepseekモデルは注目に値する候補として浮上しており、仲間とは一線を画す有望な能力を示しています。
以前の研究では、LLMの比較分析を実施していますが、幅広いLLMSにわたって数学的推論の包括的な評価を提供した人はほとんどいません。
この作業では、このギャップを埋めることを目指しています。詳細な比較研究を実施し、主要なカウンターパートに関連するディープシークモデルの強みと制限に焦点を当てています。
特に、我々の研究は、3つの独立したベンチマークデータセットにまたがる5つの顕著なLLMとともに、2つのDeepSeekモデルの数学的推論パフォーマンスを体系的に評価します。
調査結果は、いくつかの重要な洞察を明らかにしています:1)。
DeepSeek-R1は、3つのデータセットのうち2つで最高の精度を一貫して達成し、強力な数学的推論能力を示しました。
2)。
LLMSの蒸留型バリアントは、同業他社と比較して大幅にパフォーマンスが低く、蒸留技術を使用する際の潜在的な欠点を強調しています。
3)。
応答時間の観点から、Gemini 2.0 Flashは最速の処理速度を実証し、リアルタイムアプリケーションの重要な要因である効率の他のモデルを上回りました。
これらの定量的評価を超えて、アーキテクチャ、トレーニング、および最適化がLLMSの数学的推論にどのように影響するかを掘り下げます。
さらに、私たちの研究は、LLM主導の数学的推論における将来の進歩のための重要な領域を特定することにより、単なるパフォーマンス比較を超えています。
この研究は、LLMSの数学的推論の理解を高め、将来の進歩の基礎を築きます

要約(オリジナル)

With the rapid evolution of Artificial Intelligence (AI), Large Language Models (LLMs) have reshaped the frontiers of various fields, spanning healthcare, public health, engineering, science, agriculture, education, arts, humanities, and mathematical reasoning. Among these advancements, DeepSeek models have emerged as noteworthy contenders, demonstrating promising capabilities that set them apart from their peers. While previous studies have conducted comparative analyses of LLMs, few have delivered a comprehensive evaluation of mathematical reasoning across a broad spectrum of LLMs. In this work, we aim to bridge this gap by conducting an in-depth comparative study, focusing on the strengths and limitations of DeepSeek models in relation to their leading counterparts. In particular, our study systematically evaluates the mathematical reasoning performance of two DeepSeek models alongside five prominent LLMs across three independent benchmark datasets. The findings reveal several key insights: 1). DeepSeek-R1 consistently achieved the highest accuracy on two of the three datasets, demonstrating strong mathematical reasoning capabilities. 2). The distilled variant of LLMs significantly underperformed compared to its peers, highlighting potential drawbacks in using distillation techniques. 3). In terms of response time, Gemini 2.0 Flash demonstrated the fastest processing speed, outperforming other models in efficiency, which is a crucial factor for real-time applications. Beyond these quantitative assessments, we delve into how architecture, training, and optimization impact LLMs’ mathematical reasoning. Moreover, our study goes beyond mere performance comparison by identifying key areas for future advancements in LLM-driven mathematical reasoning. This research enhances our understanding of LLMs’ mathematical reasoning and lays the groundwork for future advancements

arxiv情報

著者 Afrar Jahin,Arif Hassan Zidan,Yu Bao,Shizhe Liang,Tianming Liu,Wei Zhang
発行日 2025-03-13 17:23:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Unveiling the Mathematical Reasoning in DeepSeek Models: A Comparative Study of Large Language Models はコメントを受け付けていません

Sample and Map from a Single Convex Potential: Generation using Conjugate Moment Measures

要約

生成モデリングへの一般的なアプローチは、モデルフィッティングを2つのブロックに分割することです。最初にノイズをサンプリングする方法(ガウス)をサンプリングする方法を定義し、次に対処する方法(単一のマップまたはフローの使用)を選択します。
この作業では、サンプリングとマッピングを結び付ける代替ルートを探ります。
モーメントメジャーにインスピレーションが見られます。これは、$ \ mathbb {r}^d $のコンパクトな凸セットでサポートされている任意の測定値のために、$ \ rho = \ nabla u \、\ sharp \、e^{u} $などの一意の凸電位$ u $が存在することを示しています。
これは効果的にサンプリング(ログコンケーブ分布$ e^{-u} $)とアクション($ \ nabla u $を介して粒子をプッシュする)から結びついているように見えますが、この選択肢が実用的なタスクに適していない簡単な例(例えば、ガウスまたは1D分布)で観察します。
$ \ rho $が$ \ nabla w^*\、\ sharp \、e^{ – w} $として因数分解される別の要因を研究します。ここで、$ w^*$は$ w $の凸共役です。
このアプローチの共役モーメント測定と呼び、これらの例ではるかに直感的な結果を示します。
$ \ nabla w^*$は、ログコンセーブ分布$ e^{-w} $と$ \ rho $の間のモンゲマップであるため、最適なトランスポートソルバーに依存してアルゴリズムを提案して$ \ rho $のサンプルから$ w $を回収し、入力convex neuralネットワークとして$ w $をパラメーター化します。

要約(オリジナル)

A common approach to generative modeling is to split model-fitting into two blocks: define first how to sample noise (e.g. Gaussian) and choose next what to do with it (e.g. using a single map or flows). We explore in this work an alternative route that ties sampling and mapping. We find inspiration in moment measures, a result that states that for any measure $\rho$ supported on a compact convex set of $\mathbb{R}^d$, there exists a unique convex potential $u$ such that $\rho=\nabla u\,\sharp\,e^{-u}$. While this does seem to tie effectively sampling (from log-concave distribution $e^{-u}$) and action (pushing particles through $\nabla u$), we observe on simple examples (e.g., Gaussians or 1D distributions) that this choice is ill-suited for practical tasks. We study an alternative factorization, where $\rho$ is factorized as $\nabla w^*\,\sharp\,e^{-w}$, where $w^*$ is the convex conjugate of $w$. We call this approach conjugate moment measures, and show far more intuitive results on these examples. Because $\nabla w^*$ is the Monge map between the log-concave distribution $e^{-w}$ and $\rho$, we rely on optimal transport solvers to propose an algorithm to recover $w$ from samples of $\rho$, and parameterize $w$ as an input-convex neural network.

arxiv情報

著者 Nina Vesseron,Louis Béthune,Marco Cuturi
発行日 2025-03-13 17:28:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Sample and Map from a Single Convex Potential: Generation using Conjugate Moment Measures はコメントを受け付けていません

On the Injective Norm of Sums of Random Tensors and the Moments of Gaussian Chaoses

要約

予想される$ \ ell_p $のインジェクティブノルムのサブガウスランダムテンソルの標準の上限を証明します。
私たちの証拠は単純であり、明示的な幾何学またはチェーンの議論に依存していません。
代わりに、近年の特定の「スムーズな」経験的プロセスの至高を制御するのに効果的であることが証明されたツールであるPACベイジアン補題の単純なアプリケーションから続きます。
私たちの縛られた私たちは、バンデイラ、ゴピ、江、ルッカ、ロスボスのごく最近の結果を厳密に改善します。
ユークリッドケース($ p = 2 $)では、ガウスの混osの瞬間に関する彼の推定値を証明するための中心であったラタ{\ l} aの結果を磨き上げました。
結果として、この根本的な結果の基本的な証拠を取得します。

要約(オリジナル)

We prove an upper bound on the expected $\ell_p$ injective norm of sums of subgaussian random tensors. Our proof is simple and does not rely on any explicit geometric or chaining arguments. Instead, it follows from a simple application of the PAC-Bayesian lemma, a tool that has proven effective at controlling the suprema of certain “smooth” empirical processes in recent years. Our bound strictly improves a very recent result of Bandeira, Gopi, Jiang, Lucca, and Rothvoss. In the Euclidean case ($p=2$), our bound sharpens a result of Lata{\l}a that was central to proving his estimates on the moments of Gaussian chaoses. As a consequence, we obtain an elementary proof of this fundamental result.

arxiv情報

著者 Ishaq Aden-Ali
発行日 2025-03-13 17:31:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, math.ST, stat.TH | On the Injective Norm of Sums of Random Tensors and the Moments of Gaussian Chaoses はコメントを受け付けていません

ARLED: Leveraging LED-based ARMAN Model for Abstractive Summarization of Persian Long Documents

要約

テキストデータの増加は、特に研究記事から有用な情報を抽出する必要がある学者にとって、大きな文書の読み取りと理解に課題をもたらします。
自動テキストの要約は、長い文書を簡潔で有益な要約に凝縮するための強力なツールとして浮上しています。
使用されるアプローチに応じて、テキストの要約は抽出または抽象的なものとして分類できます。
抽出方法は単純さのために一般的に使用されますが、多くの場合、重要な情報を見逃しています。
一方、抽象的な要約は、テキストの根本的な意味を理解することにより、より一貫性のある有益な要約を生み出すことができます。
抽象的な手法はさまざまな言語で注目を集めており、Bert、Bart、T5などのトレーニング前モデルを通じて最近の進歩が達成されています。
ただし、長い文書を要約するという課題は残っており、この制限に対処するためにLongFormerのような代替モデルが導入されています。
これに関連して、このペーパーでは、ペルシャ語の抽象的な要約に焦点を当てています。
著者は、Ensani Webサイトから入手した300,000のフルテキストペルシャペルシャンの新しいデータセットを紹介し、概要を生成するためにロングフォーカーアーキテクチャに基づいてArmanモデルを適用します。
実験結果は、ペルシャのテキスト要約における有望なパフォーマンスを示しています。
このペーパーでは、関連する研究の包括的な概要を提供し、方法論について説明し、実験結果を提示し、将来の研究の方向性を示しています。

要約(オリジナル)

The increasing volume of textual data poses challenges in reading and comprehending large documents, particularly for scholars who need to extract useful information from research articles. Automatic text summarization has emerged as a powerful tool to condense lengthy documents into concise and informative summaries. Depending on the approach used, text summarization can be categorized as either extractive or abstractive. While extractive methods are commonly used due to their simplicity, they often miss important information. On the other hand, Abstractive Summarization can generate more coherent and informative summaries by understanding the underlying meaning of the text. Abstractive techniques have gained attention in various languages, and recent advancements have been achieved through pre-training models such as BERT, BART, and T5. However, the challenge of summarizing long documents remains, and alternative models like Longformer have been introduced to address this limitation. In this context, this paper focuses on abstractive summarization in the Persian language. The authors introduce a new dataset of 300,000 full-text Persian papers obtained from the Ensani website and apply the ARMAN model, based on the Longformer architecture, to generate summaries. The experimental results demonstrate promising performance in Persian text summarization. The paper provides a comprehensive overview of related work, discusses the methodology, presents the experimental results, and concludes with future research directions.

arxiv情報

著者 Samira Zangooei,Amirhossein Darmani,Hossein Farahmand Nezhad,Laya Mahmoudi
発行日 2025-03-13 10:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ARLED: Leveraging LED-based ARMAN Model for Abstractive Summarization of Persian Long Documents はコメントを受け付けていません

MinorBench: A hand-built benchmark for content-based risks for children

要約

大規模な言語モデル(LLM)は、親主導の養子縁組、学校、およびピアネットワークを通じて、子供の生活に急速に入り込んでいますが、現在のAI倫理と安全性の研究は、未成年者に固有のコンテンツ関連のリスクに適切に対処していません。
この論文では、中学校の環境に展開されたLLMベースのチャットボットの実際のケーススタディでこれらのギャップを強調し、生徒がシステムをどのように使用し、時には誤用したかを明らかにします。
これらの調査結果に基づいて、私たちは未成年者のコンテンツベースのリスクの新しい分類法を提案し、MinorBenchを導入します。これは、子供から安全で不適切なクエリを拒否する能力についてLLMSを評価するために設計されたオープンソースのベンチマークです。
さまざまなシステムプロンプトの下で6つの顕著なLLMを評価し、子どもの安全性のコンプライアンスに大きなばらつきが示されています。
私たちの結果は、より堅牢で子供に焦点を当てた安全メカニズムのための実用的な手順に情報を提供し、若いユーザーを保護するためにAIシステムを調整する緊急性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) are rapidly entering children’s lives – through parent-driven adoption, schools, and peer networks – yet current AI ethics and safety research do not adequately address content-related risks specific to minors. In this paper, we highlight these gaps with a real-world case study of an LLM-based chatbot deployed in a middle school setting, revealing how students used and sometimes misused the system. Building on these findings, we propose a new taxonomy of content-based risks for minors and introduce MinorBench, an open-source benchmark designed to evaluate LLMs on their ability to refuse unsafe or inappropriate queries from children. We evaluate six prominent LLMs under different system prompts, demonstrating substantial variability in their child-safety compliance. Our results inform practical steps for more robust, child-focused safety mechanisms and underscore the urgency of tailoring AI systems to safeguard young users.

arxiv情報

著者 Shaun Khoo,Gabriel Chua,Rachel Shong
発行日 2025-03-13 10:34:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MinorBench: A hand-built benchmark for content-based risks for children はコメントを受け付けていません

DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs

要約

大規模な言語モデルが拡大し続けるにつれて、計算コストとリソースの消費が重要な課題として浮上しています。
剪定のような既存のスパース化方法は、計算オーバーヘッドを減らしますが、パラメーターの削除によりモデルの知識を失う危険があります。
このホワイトペーパーでは、事前に訓練されたFFN層を計算ブロックに分割することによりスパースを達成する新しいアプローチであるDSMOE(動的スパース混合物)を提案します。
シグモイドの活性化とストレートスルー推定器を使用して適応エキスパートルーティングを実装し、トークンが入力の複雑さに基づいてモデル知識のさまざまな側面に柔軟にアクセスできるようにします。
さらに、パフォーマンスと計算効率のバランスをとるために、スパースリス項を導入します。
LLAMAモデルでの広範な実験は、同等の計算上の制約の下で、DSMOEが言語モデリングと下流タスク、特に世代のタスクに優れている既存の剪定およびMOEアプローチと比較して優れたパフォーマンスを達成することを示しています。
分析により、DSMOEは特徴的な層状のアクティベーションパターンを学習し、将来のMOEアーキテクチャデザインの新しい洞察を提供することが明らかになりました。

要約(オリジナル)

As large language models continue to scale, computational costs and resource consumption have emerged as significant challenges. While existing sparsification methods like pruning reduce computational overhead, they risk losing model knowledge through parameter removal. This paper proposes DSMoE (Dynamic Sparse Mixture-of-Experts), a novel approach that achieves sparsification by partitioning pre-trained FFN layers into computational blocks. We implement adaptive expert routing using sigmoid activation and straight-through estimators, enabling tokens to flexibly access different aspects of model knowledge based on input complexity. Additionally, we introduce a sparsity loss term to balance performance and computational efficiency. Extensive experiments on LLaMA models demonstrate that under equivalent computational constraints, DSMoE achieves superior performance compared to existing pruning and MoE approaches across language modeling and downstream tasks, particularly excelling in generation tasks. Analysis reveals that DSMoE learns distinctive layerwise activation patterns, providing new insights for future MoE architecture design.

arxiv情報

著者 Minxuan Lv,Zhenpeng Su,Leiyu Pan,Yizhe Xiong,Zijia Lin,Hui Chen,Wei Zhou,Jungong Han,Guiguang Ding,Cheng Luo,Di Zhang,Kun Gai,Songlin Hu
発行日 2025-03-13 10:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs はコメントを受け付けていません

An Expanded Massive Multilingual Dataset for High-Performance Language Technologies

要約

最先端の大規模な言語モデルのトレーニングには、膨大な量のクリーンで多様なテキストデータが必要です。
ただし、適切な多言語データセットの構築は依然として課題です。
この作業では、高品質の多言語の単一言語および並列コーパスのコレクションであるHPLT V2を紹介します。
データの単一言語部分には、193の言語をカバーする8Tトークンが含まれていますが、並列データには51の言語をカバーする380mの文のペアが含まれています。
データパイプライン全体を文書化し、コードをリリースして再現します。
データの品質と特性の広範な分析を提供します。
最後に、HPLT V2でトレーニングされた言語モデルと機械翻訳システムのパフォーマンスを評価し、その価値を示します。

要約(オリジナル)

Training state-of-the-art large language models requires vast amounts of clean and diverse textual data. However, building suitable multilingual datasets remains a challenge. In this work, we present HPLT v2, a collection of high-quality multilingual monolingual and parallel corpora. The monolingual portion of the data contains 8T tokens covering 193 languages, while the parallel data contains 380M sentence pairs covering 51 languages. We document the entire data pipeline and release the code to reproduce it. We provide extensive analysis of the quality and characteristics of our data. Finally, we evaluate the performance of language models and machine translation systems trained on HPLT v2, demonstrating its value.

arxiv情報

著者 Laurie Burchell,Ona de Gibert,Nikolay Arefyev,Mikko Aulamo,Marta Bañón,and Pinzhen Chen,Mariia Fedorova,Liane Guillou,Barry Haddow,Jan Hajič,and Jindřich Helcl,Erik Henriksson,Mateusz Klimaszewski,Ville Komulainen,and Andrey Kutuzov,Joona Kytöniemi,Veronika Laippala,Petter Mæhlum,and Bhavitvya Malik,Farrokh Mehryary,Vladislav Mikhailov,Nikita Moghe,and Amanda Myntti,Dayyán O’Brien,Stephan Oepen,Proyag Pal,Jousia Piha,and Sampo Pyysalo,Gema Ramírez-Sánchez,David Samuel,Pavel Stepachev,and Jörg Tiedemann,Dušan Variš,Tereza Vojtěchová,Jaume Zaragoza-Bernabeu
発行日 2025-03-13 11:24:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An Expanded Massive Multilingual Dataset for High-Performance Language Technologies はコメントを受け付けていません

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

要約

8Bパラメーターを備えた高度なマルチモーダルプロセス報酬モデル(PRM)であるVisualPRMを紹介します。これにより、さまざまなモデルスケールとBest-of-n(Bon)評価戦略を持つファミリで既存のマルチモーダル大手言語モデル(MLLM)の推論能力が向上します。
具体的には、私たちのモデルは、3種類のMLLMと4つの異なるモデルスケールの推論パフォーマンスを改善します。
非常に有能なInternVL2.5-78Bに適用された場合でも、7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を達成します。
実験結果は、私たちのモデルが、結果の報酬モデルとbon評価中の自己整合性と比較して優れたパフォーマンスを示すことを示しています。
マルチモーダルPRMSのトレーニングを容易にするために、自動データパイプラインを使用してマルチモーダルプロセス監督データセットVisualPRM400Kを構築します。
マルチモーダルPRMSの評価のために、マルチモーダル推論タスクの誤ったステップを検出するPRMSの能力を測定するために、人間が発表した段階的な正確さラベルを使用したベンチマークであるVisualProcessbenchを提案します。
私たちの仕事が、より多くの将来の研究を刺激し、MLLMSの発展に貢献できることを願っています。
モデル、データ、およびベンチマークは、https://internvl.github.io/blog/2025-03-13-visualprm/でリリースされています。

要約(オリジナル)

We introduce VisualPRM, an advanced multimodal Process Reward Model (PRM) with 8B parameters, which improves the reasoning abilities of existing Multimodal Large Language Models (MLLMs) across different model scales and families with Best-of-N (BoN) evaluation strategies. Specifically, our model improves the reasoning performance of three types of MLLMs and four different model scales. Even when applied to the highly capable InternVL2.5-78B, it achieves a 5.9-point improvement across seven multimodal reasoning benchmarks. Experimental results show that our model exhibits superior performance compared to Outcome Reward Models and Self-Consistency during BoN evaluation. To facilitate the training of multimodal PRMs, we construct a multimodal process supervision dataset VisualPRM400K using an automated data pipeline. For the evaluation of multimodal PRMs, we propose VisualProcessBench, a benchmark with human-annotated step-wise correctness labels, to measure the abilities of PRMs to detect erroneous steps in multimodal reasoning tasks. We hope that our work can inspire more future research and contribute to the development of MLLMs. Our model, data, and benchmark are released in https://internvl.github.io/blog/2025-03-13-VisualPRM/.

arxiv情報

著者 Weiyun Wang,Zhangwei Gao,Lianjie Chen,Zhe Chen,Jinguo Zhu,Xiangyu Zhao,Yangzhou Liu,Yue Cao,Shenglong Ye,Xizhou Zhu,Lewei Lu,Haodong Duan,Yu Qiao,Jifeng Dai,Wenhai Wang
発行日 2025-03-13 12:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VisualPRM: An Effective Process Reward Model for Multimodal Reasoning はコメントを受け付けていません

Wikipedia is Not a Dictionary, Delete! Text Classification as a Proxy for Analysing Wiki Deletion Discussions

要約

WikipediaやWikidataなどの共同知識ハブの自動コンテンツモデレートは、複数の要因により重要でありながら挑戦的な作業です。
このホワイトペーパーでは、いくつかのWikiと3つの言語で削除がマークされた記事を中心に行われる議論のデータベースを作成し、それを使用して、さまざまなタスクのさまざまなLMSを評価します(議論の結果を予測することから、個々のコメントが指摘している可能性がある)。
私たちの結果は、とりわけ、削除につながる議論が予測が容易であり、驚くべきことに、自己生産されたタグ(キープ、削除、またはリダイレクト)は、おそらくユーザーのためらいやコメント内の審議のために、常に分類子をガイドするのに役立つとは限らないことを明らかにしています。

要約(オリジナル)

Automated content moderation for collaborative knowledge hubs like Wikipedia or Wikidata is an important yet challenging task due to multiple factors. In this paper, we construct a database of discussions happening around articles marked for deletion in several Wikis and in three languages, which we then use to evaluate a range of LMs on different tasks (from predicting the outcome of the discussion to identifying the implicit policy an individual comment might be pointing to). Our results reveal, among others, that discussions leading to deletion are easier to predict, and that, surprisingly, self-produced tags (keep, delete or redirect) don’t always help guiding the classifiers, presumably because of users’ hesitation or deliberation within comments.

arxiv情報

著者 Hsuvas Borkakoty,Luis Espinosa-Anke
発行日 2025-03-13 12:07:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Wikipedia is Not a Dictionary, Delete! Text Classification as a Proxy for Analysing Wiki Deletion Discussions はコメントを受け付けていません