A Comprehensive Analysis of Large Language Model Outputs: Similarity, Diversity, and Bias

要約

大規模な言語モデル(LLMS)は、人工的な一般情報への主要なステップを表し、テクノロジーと相互作用する能力を大幅に向上させます。
LLMは、翻訳、生成、コードライティング、要約などの自然言語処理タスクでうまく機能しますが、その出力の類似性、変動性、倫理的意味についての質問は残ります。
たとえば、同じモデルによってテキストが生成されるテキストはどの程度似ていますか?
これは異なるモデルでどのように比較されますか?
そして、どのモデルが倫理基準を最もよく維持しますか?
調査するために、生成、説明、書き換えなどの多様なタスクにまたがる5 {、} 000プロンプトを使用しました。
これにより、Openai、Google、Microsoft、Meta、Mistralの独自およびオープンソースシステムを含む、12 LLMから約300万個のテキストが生まれました。
重要な調査結果には、次のものが含まれます。(1)同じLLMからの出力は、人間が作成したテキストよりも互いに類似しています。
(2)WizardLM-2-8x22Bのようなモデルは非常に類似した出力を生成し、GPT-4はより多様な応答を生成します。
(3)LLMのライティングスタイルは大きく異なり、Llama 3とMistralはより高い類似性を示し、GPT-4は独特のために際立っています。
(4)語彙とトーンの違いは、LLM生成コンテンツの言語の一意性を強調しています。
(5)一部のLLMは、性別バランスの向上とバイアスの減少を示しています。
これらの結果は、LLM出力の行動と多様性に関する新しい洞察を提供し、将来の開発と倫理的評価を導くのに役立ちます。

要約(オリジナル)

Large Language Models (LLMs) represent a major step toward artificial general intelligence, significantly advancing our ability to interact with technology. While LLMs perform well on Natural Language Processing tasks — such as translation, generation, code writing, and summarization — questions remain about their output similarity, variability, and ethical implications. For instance, how similar are texts generated by the same model? How does this compare across different models? And which models best uphold ethical standards? To investigate, we used 5{,}000 prompts spanning diverse tasks like generation, explanation, and rewriting. This resulted in approximately 3 million texts from 12 LLMs, including proprietary and open-source systems from OpenAI, Google, Microsoft, Meta, and Mistral. Key findings include: (1) outputs from the same LLM are more similar to each other than to human-written texts; (2) models like WizardLM-2-8x22b generate highly similar outputs, while GPT-4 produces more varied responses; (3) LLM writing styles differ significantly, with Llama 3 and Mistral showing higher similarity, and GPT-4 standing out for distinctiveness; (4) differences in vocabulary and tone underscore the linguistic uniqueness of LLM-generated content; (5) some LLMs demonstrate greater gender balance and reduced bias. These results offer new insights into the behavior and diversity of LLM outputs, helping guide future development and ethical evaluation.

arxiv情報

著者 Brandon Smith,Mohamed Reda Bouadjenek,Tahsin Alamgir Kheya,Phillip Dawson,Sunil Aryal
発行日 2025-05-14 01:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Comprehensive Analysis of Large Language Model Outputs: Similarity, Diversity, and Bias はコメントを受け付けていません

Fusing Bidirectional Chains of Thought and Reward Mechanisms A Method for Enhancing Question-Answering Capabilities of Large Language Models for Chinese Intangible Cultural Heritage

要約

大規模な言語モデル(LLMS)の急速な発展は、ドメイン固有のLLMの進歩の大きなサポートと機会を提供しています。
ただし、無形の文化遺産(ICH)データを使用してこれらの大規模なモデルを微調整すると、バイアス、誤った知識の継承、壊滅的な忘却などの課題に必然的に直面しています。
これらの問題に対処するために、双方向の思考チェーンと報酬メカニズムを統合する新しいトレーニング方法を提案します。
この方法は、無形の文化遺産の分野向けに特別に設計された大規模な言語モデルであるIch-Qwenに基づいて構築されています。
提案された方法により、モデルは前向きな推論を実行するだけでなく、逆の質問と逆の推論を利用してモデルの潜在的な知識をアクティブにすることにより、生成された回答の精度を高めることができます。
さらに、意思決定プロセスを最適化するためのトレーニング中に報酬メカニズムが導入されます。
このメカニズムは、さまざまな重み付けスキームを使用した構造およびコンテンツ評価を通じて、モデルの出力の品質を改善します。
私たちは、ICH-QWENで比較実験を実施し、結果が質問を回答するタスクで、精度、BLE-4、およびRouge-Lスコアの観点から、私たちの方法が0ショット、ステップバイステップの推論、知識の蒸留、および質問の増強方法を上回ることを実証します。
さらに、この論文は、アブレーション実験を通じて思考の双方向と報酬メカニズムを組み合わせることの有効性を強調しています。
さらに、一連の一般化可能性実験が行われ、提案された方法が金融、ウィキダタ、戦略QAなどの分野でさまざまなドメイン固有のデータセットと高度なモデルの改善をもたらすことを示しています。
これは、この方法が複数のドメインに適応できることを示しており、多様な分野での将来のアプリケーションでのモデルトレーニングに貴重なアプローチを提供します。

要約(オリジナル)

The rapid development of large language models (LLMs) has provided significant support and opportunities for the advancement of domain-specific LLMs. However, fine-tuning these large models using Intangible Cultural Heritage (ICH) data inevitably faces challenges such as bias, incorrect knowledge inheritance, and catastrophic forgetting. To address these issues, we propose a novel training method that integrates a bidirectional chains of thought and a reward mechanism. This method is built upon ICH-Qwen, a large language model specifically designed for the field of intangible cultural heritage. The proposed method enables the model to not only perform forward reasoning but also enhances the accuracy of the generated answers by utilizing reverse questioning and reverse reasoning to activate the model’s latent knowledge. Additionally, a reward mechanism is introduced during training to optimize the decision-making process. This mechanism improves the quality of the model’s outputs through structural and content evaluations with different weighting schemes. We conduct comparative experiments on ICH-Qwen, with results demonstrating that our method outperforms 0-shot, step-by-step reasoning, knowledge distillation, and question augmentation methods in terms of accuracy, Bleu-4, and Rouge-L scores on the question-answering task. Furthermore, the paper highlights the effectiveness of combining the bidirectional chains of thought and reward mechanism through ablation experiments. In addition, a series of generalizability experiments are conducted, with results showing that the proposed method yields improvements on various domain-specific datasets and advanced models in areas such as Finance, Wikidata, and StrategyQA. This demonstrates that the method is adaptable to multiple domains and provides a valuable approach for model training in future applications across diverse fields.

arxiv情報

著者 Ruilin Liu,Zhixiao Zhao,Jieqiong Li,Chang Liu,Dongbo Wang
発行日 2025-05-14 01:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Fusing Bidirectional Chains of Thought and Reward Mechanisms A Method for Enhancing Question-Answering Capabilities of Large Language Models for Chinese Intangible Cultural Heritage はコメントを受け付けていません

S-DAT: A Multilingual, GenAI-Driven Framework for Automated Divergent Thinking Assessment

要約

このペーパーでは、人間の創造性のコアコンポーネントであるDivergent Thinking(DT)である自動化された評価のためのスケーラブルで多言語のフレームワークであるS-DAT(Synthetic-Divergent Association Task)を紹介します。
従来の創造性評価は、多くの場合、労働集約的、言語固有であり、主観的な人間の評価に依存しており、そのスケーラビリティと異文化の適用性を制限します。
対照的に、S-DATは、大規模な言語モデルと高度な多言語埋め込みを活用してセマンティック距離を計算します。
英語、スペイン語、ドイツ語、ロシア語、ヒンディー語、日本語(漢字、hiragana、katakana)を含む11の多様な言語でS-datを評価し、言語の文脈全体で堅牢で一貫したスコアリングを実証します。
以前のDATアプローチとは異なり、S-DATは他のDT測定値との収束妥当性を示し、収束思考で判別妥当性を正しく示します。
この言語間の柔軟性により、より包括的でグローバルな規模の創造性研究が可能になり、以前のアプローチの重要な制限に対処します。
S-DATは、多様な集団における認知的柔軟性のより公平で包括的な評価のための強力なツールを提供し、オンラインで自由に評価できます:https://sdat.iol.zib.de/。

要約(オリジナル)

This paper introduces S-DAT (Synthetic-Divergent Association Task), a scalable, multilingual framework for automated assessment of divergent thinking (DT) -a core component of human creativity. Traditional creativity assessments are often labor-intensive, language-specific, and reliant on subjective human ratings, limiting their scalability and cross-cultural applicability. In contrast, S-DAT leverages large language models and advanced multilingual embeddings to compute semantic distance — a language-agnostic proxy for DT. We evaluate S-DAT across eleven diverse languages, including English, Spanish, German, Russian, Hindi, and Japanese (Kanji, Hiragana, Katakana), demonstrating robust and consistent scoring across linguistic contexts. Unlike prior DAT approaches, the S-DAT shows convergent validity with other DT measures and correct discriminant validity with convergent thinking. This cross-linguistic flexibility allows for more inclusive, global-scale creativity research, addressing key limitations of earlier approaches. S-DAT provides a powerful tool for fairer, more comprehensive evaluation of cognitive flexibility in diverse populations and can be freely assessed online: https://sdat.iol.zib.de/.

arxiv情報

著者 Jennifer Haase,Paul H. P. Hanel,Sebastian Pokutta
発行日 2025-05-14 02:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | S-DAT: A Multilingual, GenAI-Driven Framework for Automated Divergent Thinking Assessment はコメントを受け付けていません

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

要約

最近、強化学習(RL)は、大規模な言語モデル(LLM)の推論能力を大幅に強化することが示されており、RLベースのアプローチは視覚的なマルチモーダルタスクに徐々に適用されています。
ただし、これらの開発では、オーディオモダリティはほとんど見落とされています。
したがって、オーディオの理解と推論で一連のRL探索を実施し、特にオーディオ質問応答(AQA)タスクに焦点を当てています。
グループ相対ポリシー最適化(GRPO)アルゴリズムをQWEN2-AUDIO-7B-Instructに活用し、私たちの実験では、MMAUテストMINIベンチマークで最先端のパフォーマンスを実証し、64.5%の精度を達成しました。
この技術レポートの主な調査結果は次のとおりです。1)GRPOアルゴリズムは、モデルに8.2Bパラメーターしかない場合でも、大規模なオーディオ言語モデル(LALMS)に効果的に適用できます。
2)トレーニング後のサンプルはわずか38kで、RLは監視された微調整(SFT)を大幅に上回り、RLベースのアプローチが大規模なデータセットなしでは効果的であることを示しています。
3)明示的な推論プロセスは、AQAタスクに大きな利点を示していません。また、深い思考を効率的に利用する方法は、さらなる研究のための未解決の問題のままです。
4)ラームはまだ人間の聴覚言語の推論にはるかに遅れており、RLベースのアプローチがさらなる調査が必要であることを示唆しています。
当社のプロジェクトは、https://github.com/xiaomi-research/r1-aqaおよびhttps://huggingface.co/mispeech/r1-aqaで入手できます。

要約(オリジナル)

Recently, reinforcement learning (RL) has been shown to greatly enhance the reasoning capabilities of large language models (LLMs), and RL-based approaches have been progressively applied to visual multimodal tasks. However, the audio modality has largely been overlooked in these developments. Thus, we conduct a series of RL explorations in audio understanding and reasoning, specifically focusing on the audio question answering (AQA) task. We leverage the group relative policy optimization (GRPO) algorithm to Qwen2-Audio-7B-Instruct, and our experiments demonstrated state-of-the-art performance on the MMAU Test-mini benchmark, achieving an accuracy rate of 64.5%. The main findings in this technical report are as follows: 1) The GRPO algorithm can be effectively applied to large audio language models (LALMs), even when the model has only 8.2B parameters; 2) With only 38k post-training samples, RL significantly outperforms supervised fine-tuning (SFT), indicating that RL-based approaches can be effective without large datasets; 3) The explicit reasoning process has not shown significant benefits for AQA tasks, and how to efficiently utilize deep thinking remains an open question for further research; 4) LALMs still lag far behind humans auditory-language reasoning, suggesting that the RL-based approaches warrant further exploration. Our project is available at https://github.com/xiaomi-research/r1-aqa and https://huggingface.co/mispeech/r1-aqa.

arxiv情報

著者 Gang Li,Jizhong Liu,Heinrich Dinkel,Yadong Niu,Junbo Zhang,Jian Luan
発行日 2025-05-14 02:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering はコメントを受け付けていません

P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs

要約

大規模な言語モデル(LLMS)の最近の進歩は、翻訳、コード生成、推論などのタスク全体でさまざまな多言語機能を紹介します。
以前の評価では、範囲が基本的な自然言語処理(NLP)または孤立した能力固有のタスクに制限されていることがよくありました。
この欠点を軽減するために、包括的な多言語マルチタスクベンチマークを提示することを目指しています。
まず、効果的な基本的および能力専門化されたデータセットをカバーする大規模なベンチマークであるP-Mmevalを紹介します。
さらに、P-Mmevalは、さまざまなデータセットで一貫した言語カバレッジを提供し、並列サンプルを提供します。
最後に、代表的な多言語モデルシリーズで広範な実験を実施して、モデルとタスクのパフォーマンスを比較し、多言語のパフォーマンスとタスク、モデルサイズ、言語、プロンプトなどの要因との関係を調査し、英語から他の言語への知識移転の有効性を調べます。
結果として生じる洞察は、将来の研究に貴重なガイダンスを提供することを目的としています。
データセットは、https://huggingface.co/datasets/qwen/p-mmevalで入手できます。

要約(オリジナル)

Recent advancements in large language models (LLMs) showcase varied multilingual capabilities across tasks like translation, code generation, and reasoning. Previous assessments often limited their scope to fundamental natural language processing (NLP) or isolated capability-specific tasks. To alleviate this drawback, we aim to present a comprehensive multilingual multitask benchmark. First, we introduce P-MMEval, a large-scale benchmark covering effective fundamental and capability-specialized datasets. Furthermore, P-MMEval delivers consistent language coverage across various datasets and provides parallel samples. Finally, we conduct extensive experiments on representative multilingual model series to compare performances across models and tasks, explore the relationship between multilingual performances and factors such as tasks, model sizes, languages, and prompts, and examine the effectiveness of knowledge transfer from English to other languages. The resulting insights are intended to offer valuable guidance for future research. The dataset is available at https://huggingface.co/datasets/Qwen/P-MMEval.

arxiv情報

著者 Yidan Zhang,Yu Wan,Boyi Deng,Baosong Yang,Haoran Wei,Fei Huang,Bowen Yu,Junyang Lin,Fei Huang,Jingren Zhou
発行日 2025-05-14 02:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs はコメントを受け付けていません

CEC-Zero: Chinese Error Correction Solution Based on LLM

要約

大規模な言語モデル(LLMS)の最近の進歩は、特に中国の綴り補正(CSC)において、例外的な中国のテキスト処理能力を示しています。
LLMSは、正確さと堅牢性の従来のBertベースのモデルよりも優れていますが、信頼性と一般化に課題が持続します。
このペーパーでは、外部の監督なしで自律的なエラー戦略学習を通じてLLMが自己修正できるようにする新しい強化学習(RL)フレームワークであるCEC-Zeroを提案します。
RLとLLMSの生成力を統合することにより、この方法は注釈付きデータまたは補助モデルへの依存性を排除します。
実験により、RLが強化したLLMは、業界での実行可能な精度と優れたクロスドメインの一般化を達成し、中国のNLPアプリケーションでの信頼性の最適化のためのスケーラブルなソリューションを提供します。
このブレークスルーは、自己改善言語モデルの新しいパラダイムを確立しながら、実際の中国のテキスト修正シナリオでのLLM展開を促進します。

要約(オリジナル)

Recent advancements in large language models (LLMs) demonstrate exceptional Chinese text processing capabilities, particularly in Chinese Spelling Correction (CSC). While LLMs outperform traditional BERT-based models in accuracy and robustness, challenges persist in reliability and generalization. This paper proposes CEC-Zero, a novel reinforcement learning (RL) framework enabling LLMs to self-correct through autonomous error strategy learning without external supervision. By integrating RL with LLMs’ generative power, the method eliminates dependency on annotated data or auxiliary models. Experiments reveal RL-enhanced LLMs achieve industry-viable accuracy and superior cross-domain generalization, offering a scalable solution for reliability optimization in Chinese NLP applications. This breakthrough facilitates LLM deployment in practical Chinese text correction scenarios while establishing a new paradigm for self-improving language models.

arxiv情報

著者 Sophie Zhang,Zhiming Lin
発行日 2025-05-14 02:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | CEC-Zero: Chinese Error Correction Solution Based on LLM はコメントを受け付けていません

Ornithologist: Towards Trustworthy ‘Reasoning’ about Central Bank Communications

要約

私は、弱く監視されているテキスト分類システムである鳥類学者を開発し、中央銀行のテキストのタキシュとダイシュネスを測定します。
Ornithologistは、「分類誘導推論」を使用し、人間が執筆した決定ツリーを使用して大規模な言語モデルを導きます。
これにより、システムの透明性と説明可能性が向上し、非専門家がアクセスしやすくなります。
また、幻覚のリスクを減らします。
従来の分類システムよりも監督が少ないため、あまり変更せずに他の問題やテキストソース(ニュースなど)に簡単に適用できます。
RBAコミュニケーションのタキシュとダイシュネスの監督学者の測定値は、現金料金の経路と市場の期待の将来に関する情報を伝えています。

要約(オリジナル)

I develop Ornithologist, a weakly-supervised textual classification system and measure the hawkishness and dovishness of central bank text. Ornithologist uses “taxonomy-guided reasoning”, guiding a large language model with human-authored decision trees. This increases the transparency and explainability of the system and makes it accessible to non-experts. It also reduces hallucination risk. Since it requires less supervision than traditional classification systems, it can more easily be applied to other problems or sources of text (e.g. news) without much modification. Ornithologist measurements of hawkishness and dovishness of RBA communication carry information about the future of the cash rate path and of market expectations.

arxiv情報

著者 Dominic Zaun Eu Jones
発行日 2025-05-14 02:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, econ.GN, I.2.7, q-fin.EC | Ornithologist: Towards Trustworthy ‘Reasoning’ about Central Bank Communications はコメントを受け付けていません

TiSpell: A Semi-Masked Methodology for Tibetan Spelling Correction covering Multi-Level Error with Data Augmentation

要約

マルチレベルのチベットのスペル補正は、統一されたモデル内の文字レベルと音節レベルの両方でエラーに対処します。
既存の方法は、主に単一レベルの補正に焦点を当てており、両方のレベルの効果的な統合が欠けています。
さらに、チベット語でこのタスクに合わせたオープンソースデータセットまたは増強方法はありません。
これに取り組むために、マルチレベルの腐敗を生成するために、ラベル付けされていないテキストを使用してデータ増強アプローチを提案し、文字と音節レベルの両方のエラーを修正できる半マスクモデルであるTispellを導入します。
音節レベルの修正は、グローバルなコンテキストへの依存のためにより困難ですが、半マスクされた戦略はこのプロセスを簡素化します。
堅牢なトレーニングセットを作成するために、クリーンな文で9種類の腐敗を統合します。
シミュレートされたデータと実世界の両方のデータの実験は、データセットで訓練されたTispellがベースラインモデルを上回り、最先端のアプローチのパフォーマンスを一致させ、その有効性を確認することを示しています。

要約(オリジナル)

Multi-level Tibetan spelling correction addresses errors at both the character and syllable levels within a unified model. Existing methods focus mainly on single-level correction and lack effective integration of both levels. Moreover, there are no open-source datasets or augmentation methods tailored for this task in Tibetan. To tackle this, we propose a data augmentation approach using unlabeled text to generate multi-level corruptions, and introduce TiSpell, a semi-masked model capable of correcting both character- and syllable-level errors. Although syllable-level correction is more challenging due to its reliance on global context, our semi-masked strategy simplifies this process. We synthesize nine types of corruptions on clean sentences to create a robust training set. Experiments on both simulated and real-world data demonstrate that TiSpell, trained on our dataset, outperforms baseline models and matches the performance of state-of-the-art approaches, confirming its effectiveness.

arxiv情報

著者 Yutong Liu,Feng Xiao,Ziyue Zhang,Yongbin Yu,Cheng Huang,Fan Gao,Xiangxiang Wang,Ma-bao Ban,Manping Fan,Thupten Tsering,Cheng Huang,Gadeng Luosang,Renzeng Duojie,Nyima Tashi
発行日 2025-05-14 04:04:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | TiSpell: A Semi-Masked Methodology for Tibetan Spelling Correction covering Multi-Level Error with Data Augmentation はコメントを受け付けていません

Reliably Bounding False Positives: A Zero-Shot Machine-Generated Text Detection Framework via Multiscaled Conformal Prediction

要約

大規模な言語モデルの急速な進歩は、悪意のある俳優による潜在的な誤用に関する大きな懸念を提起しました。
その結果、これらのリスクを軽減するための効果的な検出器を開発することが重要な優先事項になりました。
ただし、ほとんどの既存の検出方法は、検出精度に過度に焦点を当てており、多くの場合、高い偽陽性率(FPR)によってもたらされる社会的リスクを無視します。
このペーパーでは、FPRの上限を効果的に制約するコンフォーマル予測(CP)を活用することにより、この問題に対処します。
CP制約FPRSを直接適用する一方で、検出性能の大幅な減少にもつながります。
このトレードオフを克服するために、このペーパーでは、Multiscaled Conformal Plediction(MCP)を介してゼロショットマシンで生成されたテキスト検出フレームワークを提案します。
このペーパーでは、幅広いドメインにまたがる高品質のデータセットであるRealdetも紹介し、現実的なキャリブレーションを確保し、MCPと組み合わせると優れた検出性能を可能にします。
経験的評価は、MCPがFPRを効果的に制約し、検出性能を大幅に向上させ、複数の検出器とデータセットにわたる敵対的攻撃に対する堅牢性を高めることを示しています。

要約(オリジナル)

The rapid advancement of large language models has raised significant concerns regarding their potential misuse by malicious actors. As a result, developing effective detectors to mitigate these risks has become a critical priority. However, most existing detection methods focus excessively on detection accuracy, often neglecting the societal risks posed by high false positive rates (FPRs). This paper addresses this issue by leveraging Conformal Prediction (CP), which effectively constrains the upper bound of FPRs. While directly applying CP constrains FPRs, it also leads to a significant reduction in detection performance. To overcome this trade-off, this paper proposes a Zero-Shot Machine-Generated Text Detection Framework via Multiscaled Conformal Prediction (MCP), which both enforces the FPR constraint and improves detection performance. This paper also introduces RealDet, a high-quality dataset that spans a wide range of domains, ensuring realistic calibration and enabling superior detection performance when combined with MCP. Empirical evaluations demonstrate that MCP effectively constrains FPRs, significantly enhances detection performance, and increases robustness against adversarial attacks across multiple detectors and datasets.

arxiv情報

著者 Xiaowei Zhu,Yubing Ren,Yanan Cao,Xixun Lin,Fang Fang,Yangxi Li
発行日 2025-05-14 04:38:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reliably Bounding False Positives: A Zero-Shot Machine-Generated Text Detection Framework via Multiscaled Conformal Prediction はコメントを受け付けていません

FAS: Fast ANN-SNN Conversion for Spiking Large Language Models

要約

大規模な言語モデルをスパイクすることは、さまざまなシナリオでLLMの優れた代替手段として示されています。
スパイクLLMを作成するための既存の方法、つまり直接トレーニングとANN-SNN変換は、パフォーマンスの劣化と比較的高い計算コストに苦しむことがよくあります。
これらの問題に対処するために、LLMを2段階でスパイクLLMに変換する新しい高速ANN-SNN変換戦略(FAS)を提案します。
最初の段階では、事前に訓練されたモデルのフルパラメーターの微調整を採用するため、ゼロから直接トレーニングする必要はありません。
第2段階では、変換エラーを減らし、精度を向上させるために、粗からファインのキャリブレーション方法を導入します。
LLMSの4つの異なるスケールにわたる言語および視覚言語の両方のタスクに関する実験は、FASが推論の遅延と計算コストを大幅に削減して、最先端のパフォーマンスを達成できることを示しています。
特に、FASは8つのタイムステップのみを使用して、OPT-7Bモデルの精度よりも3 \%の精度を達成し、エネルギー消費量を96.63 \%削減します。
ソースコードは、https://github.com/lc783/fasで入手できます

要約(オリジナル)

Spiking Large Language Models have been shown as a good alternative to LLMs in various scenarios. Existing methods for creating Spiking LLMs, i.e., direct training and ANN-SNN conversion, often suffer from performance degradation and relatively high computational costs. To address these issues, we propose a novel Fast ANN-SNN conversion strategy (FAS) that transforms LLMs into spiking LLMs in two stages. The first stage employs a full-parameter fine-tuning of pre-trained models, so it does not need any direct training from scratch. The second stage introduces a coarse-to-fine calibration method to reduce conversion errors and improve accuracy. Experiments on both language and vision-language tasks across four different scales of LLMs demonstrate that FAS can achieve state-of-the-art performance yet with significantly reduced inference latency and computational costs. Notably, FAS only takes eight timesteps to achieve an accuracy of 3\% higher than that of the OPT-7B model, while reducing energy consumption by 96.63\%. The source code is available at https://github.com/lc783/FAS

arxiv情報

著者 Long Chen,Xiaotian Song,Andy Song,BaDong Chen,Jiancheng Lv,Yanan Sun
発行日 2025-05-14 05:23:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | FAS: Fast ANN-SNN Conversion for Spiking Large Language Models はコメントを受け付けていません