DiSHA: Dimension-Sharding Adaptation of Large Language Models with Fast Convergence and Fast Computation

要約

パラメーター効率の高い微調整(PEFT)のフレームワーク内で顕著な手法である低ランク適応(LORA)は、大規模な言語モデル(LLMS)をダウンストリームタスクに適応させることに関連する計算負担を効率的に減らし、それによりリソースに制約のある微細を有効にします。
チューニング。
しかし、既存の研究では、Loraが収束が遅いことを示しています。
この制限に対処するために、Dimension-Sharding適応(Disha)を導入します。これにより、PEFT設計スペースをさらに少ないトレーニング可能なパラメーターとより速い収束に拡大します。
Dishaの設計スペース内で、Block Affine Efficient Computation(Bone)を提案します。これは、高性能と効率の両方を提供する計算効率の高い構造です。
特定のDishaの構成により、重量シャードが共同更新される可能性がありますが、Dishaの非線形バリアントであるBlock Affine Transformation(BAT)でこれに対処します。
BATは、トレーニング可能なマトリックスと元の重量シャードと非線形的な方法で組み合わせることにより、非線形性を導入し、追加のパラメーターを導入せずにマトリックス更新に非線形性を誘導します。
経験的な結果は、Dishaフレームワークの下で骨が自然言語の理解と自然言語生成の両方のタスクのロラ変異体を一貫して上回り、計算効率を大幅に改善することを示しています。
さらなる分析により、BATは非線形設計を活用することによりモデル機能を強化することが示されています。

要約(オリジナル)

Low-Rank Adaptation (LoRA), a prominent technique within the framework of Parameter-Efficient Fine-Tuning (PEFT), efficiently reduces the computational burden associated with adapting Large Language Models (LLMs) to downstream tasks, thereby enabling resource-constrained fine-tuning. However, existing researches have shown that LoRA suffers from slow convergence. To address this limitation, we introduce Dimension-Sharding Adaptation (DiSHA), which expands the PEFT design space to even fewer trainable parameters and faster convergence. Within DiSHA’s design space, we propose Block Affine Efficient Computation (Bone), a computationally efficient structure that delivers both high performance and efficiency. While certain DiSHA configurations may result in colinear updates to weight shards, we address this with Block Affine Transformation (Bat), a nonlinear variant of DiSHA. Bat introduces nonlinearity by combining trainable matrices with original weight shards in a nonlinear manner, inducing nonlinearity in matrix updates without introducing additional parameters. Empirical results show that Bone, under the DiSHA framework, consistently outperforms LoRA variants in both Natural Language Understanding and Natural Language Generation tasks, with significantly improved computational efficiency. Further analysis demonstrates that BAT enhances model capabilities by leveraging its nonlinear design.

arxiv情報

著者 Jiale Kang
発行日 2025-02-06 13:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DiSHA: Dimension-Sharding Adaptation of Large Language Models with Fast Convergence and Fast Computation はコメントを受け付けていません

TourRank: Utilizing Large Language Models for Documents Ranking with a Tournament-Inspired Strategy

要約

大規模な言語モデル(LLM)は、ゼロショットドキュメントのランキングでますます採用されており、称賛に値する結果が得られます。
ただし、ランキングのためにLLMSには依然としていくつかの重要な課題が続きます。(1)LLMは、入力長が限られており、多数のドキュメントを同時に処理することを妨げています。
(2)出力ドキュメントシーケンスは、ドキュメントの入力順序の影響を受け、一貫性のないランキング結果をもたらします。
(3)コストとランキングのパフォーマンスのバランスをとることは困難です。
これらの問題に取り組むために、FIFAワールドカップなどのスポーツトーナメントに触発されたTourrankと呼ばれる新しいドキュメントランキング方法を紹介します。
具体的には、1)入力長の制限を克服し、スポーツトーナメントの並列グループステージと同様のマルチステージグループ戦略を組み込むことにより、ランキングレイテンシを削減します。
2)ポイントシステムを使用して複数のランキング結果をアンサンブルすることにより、ランキングのパフォーマンスと堅牢性を入力するためのrobust性を改善します。
TREC DLデータセットとBeirベンチマークで異なるLLMを使用してTourrankをテストします。
実験結果は、Tourrankが適度なコストで最先端のパフォーマンスを提供することを示しています。
Tourrankのコードは、https://github.com/chenyiqun/tourrankで見ることができます。

要約(オリジナル)

Large Language Models (LLMs) are increasingly employed in zero-shot documents ranking, yielding commendable results. However, several significant challenges still persist in LLMs for ranking: (1) LLMs are constrained by limited input length, precluding them from processing a large number of documents simultaneously; (2) The output document sequence is influenced by the input order of documents, resulting in inconsistent ranking outcomes; (3) Achieving a balance between cost and ranking performance is challenging. To tackle these issues, we introduce a novel documents ranking method called TourRank, which is inspired by the sport tournaments, such as FIFA World Cup. Specifically, we 1) overcome the limitation in input length and reduce the ranking latency by incorporating a multi-stage grouping strategy similar to the parallel group stage of sport tournaments; 2) improve the ranking performance and robustness to input orders by using a points system to ensemble multiple ranking results. We test TourRank with different LLMs on the TREC DL datasets and the BEIR benchmark. The experimental results demonstrate that TourRank delivers state-of-the-art performance at a modest cost. The code of TourRank can be seen on https://github.com/chenyiqun/TourRank.

arxiv情報

著者 Yiqun Chen,Qi Liu,Yi Zhang,Weiwei Sun,Xinyu Ma,Wei Yang,Daiting Shi,Jiaxin Mao,Dawei Yin
発行日 2025-02-06 14:40:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | TourRank: Utilizing Large Language Models for Documents Ranking with a Tournament-Inspired Strategy はコメントを受け付けていません

PACE: Abstractions for Communicating Efficiently

要約

AIでの問題解決の中心的ではあるが未解決の側面は、人間が優れたものである抽象化を導入して使用する能力です。
認知科学の仕事は、共同のタスク指向のコミュニケーションに従事し、徐々に短く、より情報効率の良い発話を可能にするとき、人間はより高いレベルの抽象化を目的とする傾向があることを実証しています。
いくつかの計算方法がこの現象を再現しようとしましたが、すべてが抽象化がどのように導入され、学習されるかについて非現実的な単純化された仮定を行っています。
私たちの方法である効率的に(PACE)コミュニケーションのための手続き上の抽象化は、これらの制限をニューロ – シンボリックアプローチを通じて克服します。
象徴的な側面では、抽象化を提案するためのライブラリラーニングからの仕事を利用します。
これを、新しい抽象化を導入する際に探査と搾取のトレードオフを制御するための盗賊アルゴリズムの新規使用を介して、コミュニケーションおよび強化学習のためのニューラル方法と組み合わせます。
ペースは、認知科学文献からの共同建設タスクに関する人間と同様の傾向を示します。1つのエージェント(アーキテクト)が他のエージェント(建築業者)にブロック構築のシーンを再構築するよう指示します。
ペースでは、共同コミュニケーションの副産物として効率的な言語が出現します。
人間のコミュニケーションに対する機械的な洞察を提供するだけでなく、私たちの仕事は、人間のようなコミュニケーションの抽象化の能力を会話エージェントに提供するための最初のステップとして機能します。

要約(オリジナル)

A central but unresolved aspect of problem-solving in AI is the capability to introduce and use abstractions, something humans excel at. Work in cognitive science has demonstrated that humans tend towards higher levels of abstraction when engaged in collaborative task-oriented communication, enabling gradually shorter and more information-efficient utterances. Several computational methods have attempted to replicate this phenomenon, but all make unrealistic simplifying assumptions about how abstractions are introduced and learned. Our method, Procedural Abstractions for Communicating Efficiently (PACE), overcomes these limitations through a neuro-symbolic approach. On the symbolic side, we draw on work from library learning for proposing abstractions. We combine this with neural methods for communication and reinforcement learning, via a novel use of bandit algorithms for controlling the exploration and exploitation trade-off in introducing new abstractions. PACE exhibits similar tendencies to humans on a collaborative construction task from the cognitive science literature, where one agent (the architect) instructs the other (the builder) to reconstruct a scene of block-buildings. PACE results in the emergence of an efficient language as a by-product of collaborative communication. Beyond providing mechanistic insights into human communication, our work serves as a first step to providing conversational agents with the ability for human-like communicative abstractions.

arxiv情報

著者 Jonathan D. Thomas,Andrea Silvi,Devdatt Dubhashi,Moa Johansson
発行日 2025-02-06 15:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PACE: Abstractions for Communicating Efficiently はコメントを受け付けていません

The Order Effect: Investigating Prompt Sensitivity in Closed-Source LLMs

要約

大規模な言語モデル(LLM)が多様なアプリケーションに不可欠になるため、さまざまな入力条件下での信頼性が重要であることを保証します。
この信頼性に影響を与える重要な問題の1つは、注文感度であり、入力配置のわずかな変動が一貫性のない出力または偏りのある出力につながる可能性があります。
最近の進歩はこの感度を低下させましたが、問題は未解決のままです。
このペーパーでは、言い換え、関連性の判断、複数選択の質問を含む複数のタスクで実験を実施することにより、閉鎖源LLMSの秩序感度の程度を調査します。
私たちの結果は、入力順序がタスク全体のパフォーマンスに大きく影響し、シャッフルされた入力が出力の精度の測定可能な低下につながることを示しています。
少ないショットプロンプトは、混合効果を示し、部分的な緩和を提供しますが、問題を完全に解決できません。
これらの調査結果は、特にハイステークスアプリケーションでの持続的なリスクを強調し、将来の開発におけるより堅牢なLLMSまたは改善された入力手法の必要性を示しています。

要約(オリジナル)

As large language models (LLMs) become integral to diverse applications, ensuring their reliability under varying input conditions is crucial. One key issue affecting this reliability is order sensitivity, wherein slight variations in input arrangement can lead to inconsistent or biased outputs. Although recent advances have reduced this sensitivity, the problem remains unresolved. This paper investigates the extent of order sensitivity in closed-source LLMs by conducting experiments across multiple tasks, including paraphrasing, relevance judgment, and multiple-choice questions. Our results show that input order significantly affects performance across tasks, with shuffled inputs leading to measurable declines in output accuracy. Few-shot prompting demonstrates mixed effectiveness and offers partial mitigation, however, fails to fully resolve the problem. These findings highlight persistent risks, particularly in high-stakes applications, and point to the need for more robust LLMs or improved input-handling techniques in future development.

arxiv情報

著者 Bryan Guan,Tanya Roosta,Peyman Passban,Mehdi Rezagholizadeh
発行日 2025-02-06 15:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Order Effect: Investigating Prompt Sensitivity in Closed-Source LLMs はコメントを受け付けていません

Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge

要約

最近の研究では、大規模な言語モデル(LLMS)における文化的偏見の存在が強調されていますが、これらの現象を包括的に分析するための堅牢な方法論がしばしば欠けています。
私たちの仕事の目的は、普遍的に関連するが文化的に多様な人間の生活の側面である食物領域を掘り下げることにより、このギャップを埋めることを目指しています。
食品関連の文化的事実と食品慣行のバリエーションを中心とした多言語データセットであるFMLAMAを紹介します。
さまざまなアーキテクチャと構成にわたってLLMを分析し、単一言語と多言語の両方の設定でのパフォーマンスを評価します。
6つの異なる言語でテンプレートを活用することにより、LLMSが言語固有の文化的知識とどのように相互作用するかを調査します。
私たちの調査結果は、(1)LLMが米国で一般的な食物知識に対する顕著な偏見を示していることを明らかにしています。
(2)関連する文化的文脈を組み込むことで、文化的知識にアクセスするLLMの能力が大幅に向上します。
(3)文化的ニュアンスのキャプチャをキャプチャするLLMSの有効性は、プローブ言語、特定のモデルアーキテクチャ、および問題の文化的文脈との相互作用に大きく依存しています。
この研究は、文化的理解をLLMに統合することの複雑さを強調し、バイアスを軽減し、さまざまな文化的領域でモデルのパフォーマンスを強化するために、文化的に多様なデータセットの重要性を強調しています。

要約(オリジナル)

Recent studies have highlighted the presence of cultural biases in Large Language Models (LLMs), yet often lack a robust methodology to dissect these phenomena comprehensively. Our work aims to bridge this gap by delving into the Food domain, a universally relevant yet culturally diverse aspect of human life. We introduce FmLAMA, a multilingual dataset centered on food-related cultural facts and variations in food practices. We analyze LLMs across various architectures and configurations, evaluating their performance in both monolingual and multilingual settings. By leveraging templates in six different languages, we investigate how LLMs interact with language-specific and cultural knowledge. Our findings reveal that (1) LLMs demonstrate a pronounced bias towards food knowledge prevalent in the United States; (2) Incorporating relevant cultural context significantly improves LLMs’ ability to access cultural knowledge; (3) The efficacy of LLMs in capturing cultural nuances is highly dependent on the interplay between the probing language, the specific model architecture, and the cultural context in question. This research underscores the complexity of integrating cultural understanding into LLMs and emphasizes the importance of culturally diverse datasets to mitigate biases and enhance model performance across different cultural domains.

arxiv情報

著者 Li Zhou,Taelin Karidi,Wanlong Liu,Nicolas Garneau,Yong Cao,Wenyu Chen,Haizhou Li,Daniel Hershcovich
発行日 2025-02-06 15:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge はコメントを受け付けていません

Lexical Substitution is not Synonym Substitution: On the Importance of Producing Contextually Relevant Word Substitutes

要約

語彙置換は、文の一語を同様のものに置き換えるタスクです。
これは理想的には、必ずしも同義語だけでなく、文の文法構造を保存しながら、ターゲットワードの周囲のコンテキストによく適合する必要があります。
語彙置換における最近の進歩により、事前に訓練された言語モデルのマスクされたトークン予測タスクを活用して、文の特定の単語の代替品を生成しました。
この手法を使用して、元の文を使用してモデルに送信されるコンテキスト情報を強化する単純な拡張アプローチであるConcatを紹介します。
既存のアプローチと比較して、ターゲットワードのコンテキストに関連する予測を行うようにモデルを導くのに非常に効果的であることが証明されています。
私たちの研究には、文の類似性とタスクのパフォーマンスを介して測定される定量的評価が含まれています。
さらに、以前の方法とは対照的に、ユーザーが私たちの方法によって提案された代替を好むことを検証するために、定性的な人間分析を実施します。
最後に、語彙置換のための一般的なベンチマークであるCONICOでアプローチをテストし、ベンチマークの潜在的な落とし穴を明らかにします。
これらの洞察は、語彙置換が評価される方法に関する批判的な議論の基盤として機能します。

要約(オリジナル)

Lexical Substitution is the task of replacing a single word in a sentence with a similar one. This should ideally be one that is not necessarily only synonymous, but also fits well into the surrounding context of the target word, while preserving the sentence’s grammatical structure. Recent advances in Lexical Substitution have leveraged the masked token prediction task of Pre-trained Language Models to generate replacements for a given word in a sentence. With this technique, we introduce ConCat, a simple augmented approach which utilizes the original sentence to bolster contextual information sent to the model. Compared to existing approaches, it proves to be very effective in guiding the model to make contextually relevant predictions for the target word. Our study includes a quantitative evaluation, measured via sentence similarity and task performance. In addition, we conduct a qualitative human analysis to validate that users prefer the substitutions proposed by our method, as opposed to previous methods. Finally, we test our approach on the prevailing benchmark for Lexical Substitution, CoInCo, revealing potential pitfalls of the benchmark. These insights serve as the foundation for a critical discussion on the way in which Lexical Substitution is evaluated.

arxiv情報

著者 Juraj Vladika,Stephen Meisenbacher,Florian Matthes
発行日 2025-02-06 16:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Lexical Substitution is not Synonym Substitution: On the Importance of Producing Contextually Relevant Word Substitutes はコメントを受け付けていません

Multi-agent Architecture Search via Agentic Supernet

要約

大規模な言語モデル(LLM)により、規律のあるコラボレーションと相互作用を通じて、個々のエージェントの認知境界を拡張しますが、これらのシステムを構築するには、労働集約的なマニュアル設計が必要になることがよくあります。
エージェントワークフローの設計を自動化する方法が可用性にもかかわらず、彼らは通常、静的で複雑なワンサイズのすべてのシステムを識別しようとしますが、それはそれぞれの難易度とドメインに基づいて推論リソースを動的に割り当てることができません。
クエリ。
この課題に対処するために、私たちはモノリシックなエージェントシステムの追求から離れ、代わりにエージェントアーキテクチャの確率的かつ継続的な分布である\ textBF {Agent SuperNet}を最適化します。
スーパーネットからクエリ依存のエージェントシステムをサンプリングする自動化されたフレームワークであるMAASを紹介し、高品質のソリューションとカスタマイズされたリソース割り当て(\ textIT {e.g。}、LLMコール、ツールコール、トークンコスト)を提供します。
6つのベンチマークにわたる包括的な評価は、Maas \ TextBf {(i)}が既存の手作りまたは自動化されたマルチエージェントシステムの推論コストの$ 6 \ sim45 \%$のみを必要とすることを示しています。
\ sim11.82 \%$、および\ textbf {(iii)}は、優れたクロスダタセットとクロスバックボーンの伝達可能性を享受します。

要約(オリジナル)

Large Language Model (LLM)-empowered multi-agent systems extend the cognitive boundaries of individual agents through disciplined collaboration and interaction, while constructing these systems often requires labor-intensive manual designs. Despite the availability of methods to automate the design of agentic workflows, they typically seek to identify a static, complex, one-size-fits-all system, which, however, fails to dynamically allocate inference resources based on the difficulty and domain of each query. To address this challenge, we shift away from the pursuit of a monolithic agentic system, instead optimizing the \textbf{agentic supernet}, a probabilistic and continuous distribution of agentic architectures. We introduce MaAS, an automated framework that samples query-dependent agentic systems from the supernet, delivering high-quality solutions and tailored resource allocation (\textit{e.g.}, LLM calls, tool calls, token cost). Comprehensive evaluation across six benchmarks demonstrates that MaAS \textbf{(I)} requires only $6\sim45\%$ of the inference costs of existing handcrafted or automated multi-agent systems, \textbf{(II)} surpasses them by $0.54\%\sim11.82\%$, and \textbf{(III)} enjoys superior cross-dataset and cross-LLM-backbone transferability.

arxiv情報

著者 Guibin Zhang,Luyang Niu,Junfeng Fang,Kun Wang,Lei Bai,Xiang Wang
発行日 2025-02-06 16:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.MA | Multi-agent Architecture Search via Agentic Supernet はコメントを受け付けていません

CAST: Corpus-Aware Self-similarity Enhanced Topic modelling

要約

トピックモデリングは、大規模なドキュメントコレクションから貴重な洞察を抽出するための重要な監視されていない機械学習技術です。
既存のニューラルトピックモデリング方法は、ドキュメントのコンテキスト情報をエンコードすることがよくありますが、候補の重心単語のコンテキストの詳細を無視し、コンテキスト化のギャップによりトピック単語の不正確な選択につながります。
並行して、機能的な単語は局所的な単語よりも頻繁に選択されることがわかります。
これらの制限に対処するために、CAST:Corpus-Awareの自己相似性強化トピックモデリング、データセットにコンテキスト化された候補の重心ワード埋め込みに基づいた新しいトピックモデリング方法、およびそれほど意味のない除外する新しい自己相似ベースの方法を紹介します。
トークン。
異なるコンテキストでの機能的トークンの埋め込みの自己類似性は、局所トークンよりもはるかに低いという対照的な学習の調査結果に触発されました。我々は、機能的な単語が候補のトピック単語として作用するのを防ぐための効果的なメトリックであることを発見します。
私たちのアプローチは、生成されたトピックの一貫性と多様性、およびノイズの多いデータを処理するトピックモデルの能力を大幅に向上させます。
ニュースベンチマークデータセットと1つのTwitterデータセットでの実験は、コヒーレントで多様なトピックを生成し、ノイズの多いデータを処理し、強力なベースラインを上回る方法の優位性を示しています。

要約(オリジナル)

Topic modelling is a pivotal unsupervised machine learning technique for extracting valuable insights from large document collections. Existing neural topic modelling methods often encode contextual information of documents, while ignoring contextual details of candidate centroid words, leading to the inaccurate selection of topic words due to the contextualization gap. In parallel, it is found that functional words are frequently selected over topical words. To address these limitations, we introduce CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling method that builds upon candidate centroid word embeddings contextualized on the dataset, and a novel self-similarity-based method to filter out less meaningful tokens. Inspired by findings in contrastive learning that self-similarities of functional token embeddings in different contexts are much lower than topical tokens, we find self-similarity to be an effective metric to prevent functional words from acting as candidate topic words. Our approach significantly enhances the coherence and diversity of generated topics, as well as the topic model’s ability to handle noisy data. Experiments on news benchmark datasets and one Twitter dataset demonstrate the method’s superiority in generating coherent, diverse topics, and handling noisy data, outperforming strong baselines.

arxiv情報

著者 Yanan Ma,Chenghao Xiao,Chenhan Yuan,Sabine N van der Veer,Lamiece Hassan,Chenghua Lin,Goran Nenadic
発行日 2025-02-06 16:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CAST: Corpus-Aware Self-similarity Enhanced Topic modelling はコメントを受け付けていません

Sports and Women’s Sports: Gender Bias in Text Generation with Olympic Data

要約

大規模な言語モデル(LLM)は、世界のステレオタイプの見解に沿ったテキストを生成したり、歴史的に疎外された人口統計グループの視点と価値を表していないテキストを生成するため、以前の研究で偏っていることが示されています。
この作業では、オリンピックでの並行男性と女性のイベントからのデータを使用して、言語モデルのさまざまな形態の性別バイアスを調査することを提案します。
バイアスを測定するために3つのメトリックを定義し、性別がプロンプトであいまいである場合、モデルが女性に対して一貫して偏っていることがわかります。
この場合、モデルは頻繁に男性のイベントの結果のみをそのように認めずに取得し、陸上競技の文脈でLLMSの広範な性別バイアスを明らかにします。

要約(オリジナル)

Large Language Models (LLMs) have been shown to be biased in prior work, as they generate text that is in line with stereotypical views of the world or that is not representative of the viewpoints and values of historically marginalized demographic groups. In this work, we propose using data from parallel men’s and women’s events at the Olympic Games to investigate different forms of gender bias in language models. We define three metrics to measure bias, and find that models are consistently biased against women when the gender is ambiguous in the prompt. In this case, the model frequently retrieves only the results of the men’s event with or without acknowledging them as such, revealing pervasive gender bias in LLMs in the context of athletics.

arxiv情報

著者 Laura Biester
発行日 2025-02-06 17:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Sports and Women’s Sports: Gender Bias in Text Generation with Olympic Data はコメントを受け付けていません

A Classification System Approach in Predicting Chinese Censorship

要約

この論文は、分類器を使用して、Weiboの投稿が中国のインターネットで検閲されるかどうかを予測することに専念しています。
\ citeauthor {fu2021}からのランダム化サンプリングと中国のトークン化戦略を通じて、バイナリ検閲マークを備えたクリーンな中国のフレーズデータセットを作成しました。
データ上のさまざまな確率ベースの情報検索方法を利用して、分類のために4つのロジスティック回帰モデルを導出することができました。
さらに、事前に訓練されたトランスを実験して、同様の分類タスクを実行しました。
Macro-F1とROC-AUCメトリックの両方を評価した後、罰金を科されたBertモデルはパフォーマンスの他の戦略を超えていると結論付けました。

要約(オリジナル)

This paper is dedicated to using a classifier to predict whether a Weibo post would be censored under the Chinese internet. Through randomized sampling from \citeauthor{Fu2021} and Chinese tokenizing strategies, we constructed a cleaned Chinese phrase dataset with binary censorship markings. Utilizing various probability-based information retrieval methods on the data, we were able to derive 4 logistic regression models for classification. Furthermore, we experimented with pre-trained transformers to perform similar classification tasks. After evaluating both the macro-F1 and ROC-AUC metrics, we concluded that the Fined-Tuned BERT model exceeds other strategies in performance.

arxiv情報

著者 Matt Prodani,Tianchu Ze,Yushen Hu
発行日 2025-02-06 17:19:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SI | A Classification System Approach in Predicting Chinese Censorship はコメントを受け付けていません