TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Model Bring? — A Case Study on Korea Financial Texts

要約

埋め込みモデルのドメイン特異性は、効果的なパフォーマンスに重要です。
ただし、Finmtebなどの既存のベンチマークは、主に高リソース言語向けに設計されており、韓国語などの低リソース設定が不足していることを残しています。
確立された英語のベンチマークを直接翻訳すると、低リソースのドメインに存在する言語的および文化的ニュアンスをキャプチャできないことがよくあります。
この論文では、2回のタイトル:低リソースのドメイン固有の埋め込みモデルがもたらす利点は何ですか?
韓国の金融テキストに関する事例研究では、韓国の金融領域の新しいベンチマークであるKorfinmtebを紹介します。特に、低資源言語での独自の文化的特徴を反映するように調整されています。
私たちの実験結果は、ModelsがFinmtebの翻訳バージョンで堅牢に機能する一方で、Korfinmtebでのパフォーマンスは、特により深い意味的理解を必要とするタスクで、直接的な翻訳の限界を強調する微妙でありながら重大な矛盾を明らかにすることを明らかにしています。
この矛盾は、言語固有の特異性と文化的ニュアンスを組み込んだベンチマークの必要性を強調しています。
私たちの研究からの洞察は、低リソースの設定での埋め込みモデルの進捗をより正確に評価および促進できるドメイン固有の評価フレームワークの開発を提唱しています。

要約(オリジナル)

Domain specificity of embedding models is critical for effective performance. However, existing benchmarks, such as FinMTEB, are primarily designed for high-resource languages, leaving low-resource settings, such as Korean, under-explored. Directly translating established English benchmarks often fails to capture the linguistic and cultural nuances present in low-resource domains. In this paper, titled TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Models Bring? A Case Study on Korea Financial Texts, we introduce KorFinMTEB, a novel benchmark for the Korean financial domain, specifically tailored to reflect its unique cultural characteristics in low-resource languages. Our experimental results reveal that while the models perform robustly on a translated version of FinMTEB, their performance on KorFinMTEB uncovers subtle yet critical discrepancies, especially in tasks requiring deeper semantic understanding, that underscore the limitations of direct translation. This discrepancy highlights the necessity of benchmarks that incorporate language-specific idiosyncrasies and cultural nuances. The insights from our study advocate for the development of domain-specific evaluation frameworks that can more accurately assess and drive the progress of embedding models in low-resource settings.

arxiv情報

著者 Yewon Hwang,Sungbum Jung,Hanwool Lee,Sara Yu
発行日 2025-04-01 12:39:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-fin.CP | TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Model Bring? — A Case Study on Korea Financial Texts はコメントを受け付けていません

Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs

要約

大規模な言語モデル(LLMS)は、大規模なテキストコーパスを事前に移動することにより、強力な推論と暗記能力を実証しています。
ただし、これはプライバシーと著作権違反のリスクをもたらし、ゼロから再訓練せずに敏感なデータを削除する効率的なマシンを解除する方法の必要性を強調しています。
Gradient Ascent(GA)は一般に、不要なコンテンツを生成する可能性を減らすことで学習するために使用されますが、不安定な最適化と壊滅的な再訓練の知識の忘却につながります。
GAと低ランクの適応を組み合わせることで、計算コストと生成パフォーマンスの間のトレードオフが不十分であることがわかります。
これらの課題に対処するために、LLMSの堅牢で効率的な学習を可能にする新しいフレームワークである、低ランクの知識Unlarning(LOKU)を提案します。
まず、逆ヒンジの損失を導入します。これは、次に最も可能性の高いトークンの確率を高めることで流encyさを維持しながら、不要なトークンを抑制します。
第二に、相対的なフィッシャー情報に加重された低ランク近似を介してLORAアダプターのデータ適応初期化を開発し、それにより、ターゲットの知識を削除するために重要なパラメーターに更新を集中させることができます。
GPT-NEOモデルを使用したトレーニングデータ抽出チャレンジデータセットと、PHI-1.5BおよびLLAMA2-7Bモデルを使用した豆腐ベンチマークを使用した実験は、最小限の影響で推論と生成機能を維持しながら、我々のアプローチが機密情報を効果的に削除することを示しています。
私たちの実装は、https://github.com/csm9493/efficient-llm-unlearningにあります。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated strong reasoning and memorization capabilities via pretraining on massive textual corpora. However, this poses risk of privacy and copyright violations, highlighting the need for efficient machine unlearning methods that remove sensitive data without retraining from scratch. While Gradient Ascent (GA) is commonly used to unlearn by reducing the likelihood of generating unwanted content, it leads to unstable optimization and catastrophic forgetting of retrained knowledge. We find that combining GA with low-rank adaptation results in poor trade-offs between computational cost and generative performance. To address these challenges, we propose Low-rank Knowledge Unlearning (LoKU), a novel framework that enables robust and efficient unlearning for LLMs. First, we introduce Inverted Hinge Loss, which suppresses unwanted tokens while maintaining fluency by boosting the probability of the next most likely token. Second, we develop a data-adaptive initialization for LoRA adapters via low-rank approximation weighted with relative Fisher information, thereby focusing updates on parameters critical for removing targeted knowledge. Experiments on the Training Data Extraction Challenge dataset using GPT-Neo models as well as on the TOFU benchmark with Phi-1.5B and Llama2-7B models demonstrate that our approach effectively removes sensitive information while maintaining reasoning and generative capabilities with minimal impact. Our implementation can be found in https://github.com/csm9493/efficient-llm-unlearning.

arxiv情報

著者 Sungmin Cha,Sungjun Cho,Dasol Hwang,Moontae Lee
発行日 2025-04-01 12:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs はコメントを受け付けていません

LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps

要約

安全なアクセスと言語の多様性の両方を確保するためには、複数の言語にわたって安全な大規模な言語モデル(LLM)を構築することが不可欠です。
この目的のために、英語、フランス語、ドイツ語、イタリア語、スペイン語の5つの言語でLLMの安全性を評価する多言語ベンチマークであるM-Alertを紹介します。
M-Alertには、詳細なアラート分類法に続いて、言語ごとに15kの高品質のプロンプトが含​​まれており、合計75Kです。
10の最先端のLLMに関する当社の広範な実験は、言語固有の安全分析の重要性を強調しており、モデルが言語とカテゴリ全体で安全性に重要な矛盾を示すことが多いことを明らかにしています。
たとえば、llama3.2は、イタリア語のカテゴリCrime_taxで高い安全でないことを示していますが、他の言語では安全なままです。
すべてのモデルで同様の違いを観察できます。
対照的に、Substance_CannabisやCrime_Propagandaなどの特定のカテゴリは、モデルや言語間で安全でない応答を一貫してトリガーします。
これらの調査結果は、多様なユーザーコミュニティ全体で安全かつ責任ある使用を確保するために、LLMSでの堅牢な多言語安全慣行の必要性を強調しています。

要約(オリジナル)

Building safe Large Language Models (LLMs) across multiple languages is essential in ensuring both safe access and linguistic diversity. To this end, we introduce M-ALERT, a multilingual benchmark that evaluates the safety of LLMs in five languages: English, French, German, Italian, and Spanish. M-ALERT includes 15k high-quality prompts per language, totaling 75k, following the detailed ALERT taxonomy. Our extensive experiments on 10 state-of-the-art LLMs highlight the importance of language-specific safety analysis, revealing that models often exhibit significant inconsistencies in safety across languages and categories. For instance, Llama3.2 shows high unsafety in the category crime_tax for Italian but remains safe in other languages. Similar differences can be observed across all models. In contrast, certain categories, such as substance_cannabis and crime_propaganda, consistently trigger unsafe responses across models and languages. These findings underscore the need for robust multilingual safety practices in LLMs to ensure safe and responsible usage across diverse user communities.

arxiv情報

著者 Felix Friedrich,Simone Tedeschi,Patrick Schramowski,Manuel Brack,Roberto Navigli,Huu Nguyen,Bo Li,Kristian Kersting
発行日 2025-04-01 15:02:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps はコメントを受け付けていません

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

要約

このペーパーでは、再現可能で費用対効果の高い方法論を使用して長い推論モデルをトレーニングするためのオープンソーススイートであるLight-R1を紹介します。
DeepSeek-R1シリーズで使用されるデータの独自の性質を考えると、パブリックデータとモデルのみを活用する代替アプローチを開発します。
カリキュラムのトレーニングは、データの難易度を徐々に増加させ、トレーニング後のマルチステージと組み合わせています。
QWEN2.5-32B-Instructから訓練されたLight-R1-32Bモデルは、数学の推論でdeepseek-r1-distill-qwen-32bよりも優れています。
実験結果は、このカリキュラムアプローチが異なるトレーニング段階で異なる多様なデータセットが利用可能になった場合、より効果的になることを示しています:微調整deepseek-r1-distilledモデル(独自のデータに関するディープセックチームによって事前に調整された)は、3,000の挑戦的な例で、最先端の7bモデルと14Bモデルをパフォーマンスした14Bモデル、14Bモデル、14Bモデル、14Bモデル、14Bモデル、
QWQ-32BおよびDeepSeek-R1。
さらに、長い推論モデルにGRPOを適用することにより、作業を拡張します。
最終的なLight-R1-14B-DSは、MATHの14BモデルでSOTAパフォーマンスを達成し、それぞれ74.0および60.2のAIME24 \&25スコアで、多くの32BモデルとDeepSeek-R1-Distill-Lalama-70Bを上回ります。
数学に焦点を当てたトレーニングにもかかわらず、Light-R1-14B-DSは強力なクロスドメインの一般化を示しています。
Light-R1は、洗練された推論モデルを実際のアプリケーションでよりアクセスしやすく実装可能にすることにおける重要な進歩を表しています。
私たちのモデル、トレーニングデータ、およびコードは、https://github.com/qihoo360/light-r1で利用可能になりました。

要約(オリジナル)

This paper introduces Light-R1, an open-source suite for training long reasoning models using reproducible and cost-effective methodology. Given the proprietary nature of data used in the DeepSeek-R1 series, we develop an alternative approach leveraging exclusively public data and models. Our curriculum training progressively increases data difficulty, combined with multi-staged post-training. Our Light-R1-32B model, trained from Qwen2.5-32B-Instruct, outperforms DeepSeek-R1-Distill-Qwen-32B in math reasoning. Experimental results show that this curriculum approach becomes more effective when distinct, diverse datasets are available for different training stages: fine-tuning DeepSeek-R1-Distilled models (pre-tuned by DeepSeek team on proprietary data) with 3,000 challenging examples from our curriculum dataset yielded state-of-the-art 7B and 14B models, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying GRPO on long reasoning models. Our final Light-R1-14B-DS achieves SOTA performance among 14B models in math, with AIME24 \& 25 scores of 74.0 and 60.2 respectively, surpassing many 32B models and DeepSeek-R1-Distill-Llama-70B. Despite math-focused training, Light-R1-14B-DS demonstrates strong cross-domain generalization. Light-R1 represents a significant advancement in making sophisticated reasoning models more accessible and implementable in real-world applications. Our models, training data and code have been made available at https://github.com/Qihoo360/Light-R1.

arxiv情報

著者 Liang Wen,Yunke Cai,Fenrui Xiao,Xin He,Qi An,Zhenyu Duan,Yimin Du,Junchen Liu,Lifu Tang,Xiaowei Lv,Haosheng Zou,Yongchao Deng,Shousheng Jia,Xiangzheng Zhang
発行日 2025-04-01 15:08:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond はコメントを受け付けていません

Krutrim LLM: A Novel Tokenization Strategy for Multilingual Indic Languages with Petabyte-Scale Data Processing

要約

多言語インドの大規模な言語モデルを開発するためのデータ準備に対する新しいアプローチを提示します。
当社の細心のデータ収集は、一般的なクロール、インドの本、ニュース記事、ウィキペディアなど、オープンソースと独自の情報源に及び、多様で豊かな言語表現を確保しています。
インド語の各言語について、カスタム前処理パイプラインを設計して、冗長で低品質のテキストコンテンツを効果的に排除します。
さらに、クロールされたWebページの70%に存在する冗長性に対処するために、一般的なクロールデータの重複排除を実行します。
この研究は、高品質のデータの開発に焦点を当て、3Bおよび7Bパラメーターを備えたインドの大規模な言語モデルの多言語データセットのトークン化を最適化し、インド言語で優れた性能を提供します。
新しい多言語トークナイザートレーニング戦略を導入し、カスタムトレーニングを受けたインドトークンザーが最先端のOpenai Tiktokenトークネザーを上回ることを実証し、インド言語の優れたトークンとワードの比率を達成します。

要約(オリジナル)

We present a novel approach to data preparation for developing multilingual Indic large language model. Our meticulous data acquisition spans open-source and proprietary sources, including Common Crawl, Indic books, news articles, and Wikipedia, ensuring a diverse and rich linguistic representation. For each Indic language, we design a custom preprocessing pipeline to effectively eliminate redundant and low-quality text content. Additionally, we perform deduplication on Common Crawl data to address the redundancy present in 70% of the crawled web pages. This study focuses on developing high-quality data, optimizing tokenization for our multilingual dataset for Indic large language models with 3B and 7B parameters, engineered for superior performance in Indic languages. We introduce a novel multilingual tokenizer training strategy, demonstrating our custom-trained Indic tokenizer outperforms the state-of-the-art OpenAI Tiktoken tokenizer, achieving a superior token-to-word ratio for Indic languages.

arxiv情報

著者 Rahul Kumar,Shubham Kakde,Divyansh Rajput,Daud Ibrahim,Rishabh Nahata,Pidathala Sowjanya,Deepak Kumarr,Gautam Bhargava,Chandra Khatri
発行日 2025-04-01 15:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Krutrim LLM: A Novel Tokenization Strategy for Multilingual Indic Languages with Petabyte-Scale Data Processing はコメントを受け付けていません

TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation

要約

この論文では、LLMSのオープンドメイン分子生成能力を評価する最初のベンチマークであるテキストベースのオープン分子生成ベンチマーク(TOMGベンチ)を提案します。
Tomgベンチには、分子編集(Moledit)、分子最適化(MoloPT)、およびカスタマイズされた分子生成(Molcustom)の3つの主要なタスクのデータセットが含まれます。
各主要なタスクにはさらに3つのサブタスクが含まれ、各サブタスクは5,000のテストサンプルで構成されています。
オープン分子生成評価の固有の複雑さを考えると、生成された分子の品質と精度の両方を測定するのに役立つ自動評価システムも開発しました。
25 LLMの包括的なベンチマークは、現在の制限と、テキスト誘導分子発見の改善の潜在的な領域を明らかにしています。
さらに、Tomg-Benchが提起した課題を解決するために確立された専門的な命令チューニングデータセットであるOpenMolinsを提案します。
OpenMolinsで微調整されたLlama3.1-8Bは、すべてのオープンソースの一般LLMを上回り、TomgベンチでGPT-3.5-ターボを46.5 \%上回ることさえできます。
コードとデータセットは、https://github.com/phenixace/tomg-benchから入手できます。

要約(オリジナル)

In this paper, we propose Text-based Open Molecule Generation Benchmark (TOMG-Bench), the first benchmark to evaluate the open-domain molecule generation capability of LLMs. TOMG-Bench encompasses a dataset of three major tasks: molecule editing (MolEdit), molecule optimization (MolOpt), and customized molecule generation (MolCustom). Each major task further contains three subtasks, while each subtask comprises 5,000 test samples. Given the inherent complexity of open molecule generation evaluation, we also developed an automated evaluation system that helps measure both the quality and the accuracy of the generated molecules. Our comprehensive benchmarking of 25 LLMs reveals the current limitations as well as potential areas for improvement in text-guided molecule discovery. Furthermore, we propose OpenMolIns, a specialized instruction tuning dataset established for solving challenges raised by TOMG-Bench. Fine-tuned on OpenMolIns, Llama3.1-8B could outperform all the open-source general LLMs, even surpassing GPT-3.5-turbo by 46.5\% on TOMG-Bench. Our codes and datasets are available through https://github.com/phenixace/TOMG-Bench.

arxiv情報

著者 Jiatong Li,Junxian Li,Yunqing Liu,Dongzhan Zhou,Qing Li
発行日 2025-04-01 16:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation はコメントを受け付けていません

1-2-3-Go! Policy Synthesis for Parameterized Markov Decision Processes via Decision-Tree Learning and Generalization

要約

確率的モデルチェックの進歩にもかかわらず、検証方法のスケーラビリティは限られたままです。
特に、中程度の値であっても、パラメーター化されたマルコフ決定プロセス(MDP)をインスタンス化すると、状態空間が非常に大きくなることがよくあります。
そのような\ emph {巨大} MDPの合成ポリシーは、利用可能なツールの範囲を超えています。
このような巨大なMDPの合理的なポリシーを取得するための学習ベースのアプローチを提案します。
アイデアは、意思決定ツリー学習を使用して、小さなインスタンスを大規模なインスタンスにモデルチェックすることによって得られる最適なポリシーを一般化することです。
その結果、私たちの方法は、大規模なモデルの明示的な状態空間探索の必要性を回避し、状態空間爆発問題の実用的な解決策を提供します。
定量的検証ベンチマークセットから関連するモデルで広範な実験を実行することにより、アプローチの有効性を実証します。
実験結果は、モデルのサイズが最先端の分析ツールの範囲を超えて数桁である場合でも、ポリシーがうまく機能することを示しています。

要約(オリジナル)

Despite the advances in probabilistic model checking, the scalability of the verification methods remains limited. In particular, the state space often becomes extremely large when instantiating parameterized Markov decision processes (MDPs) even with moderate values. Synthesizing policies for such \emph{huge} MDPs is beyond the reach of available tools. We propose a learning-based approach to obtain a reasonable policy for such huge MDPs. The idea is to generalize optimal policies obtained by model-checking small instances to larger ones using decision-tree learning. Consequently, our method bypasses the need for explicit state-space exploration of large models, providing a practical solution to the state-space explosion problem. We demonstrate the efficacy of our approach by performing extensive experimentation on the relevant models from the quantitative verification benchmark set. The experimental results indicate that our policies perform well, even when the size of the model is orders of magnitude beyond the reach of state-of-the-art analysis tools.

arxiv情報

著者 Muqsit Azeem,Debraj Chakraborty,Sudeep Kanav,Jan Kretinsky,Mohammadsadegh Mohagheghi,Stefanie Mohr,Maximilian Weininger
発行日 2025-04-01 06:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO, cs.SY, eess.SY | 1-2-3-Go! Policy Synthesis for Parameterized Markov Decision Processes via Decision-Tree Learning and Generalization はコメントを受け付けていません

MolGround: A Benchmark for Molecular Grounding

要約

現在の分子理解は、人間の知覚の記述的側面に主に焦点を当て、広範なトピックレベルの洞察を提供します。
ただし、分子概念を特定の構造コンポーネントにリンクする参照の側面は、ほとんど説明されていません。
このギャップに対処するために、モデルの参照能力を評価するために設計された分子接地ベンチマークを提案します。
NLP、化学情報学、および分子科学の確立された慣習と分子の接地を整列させ、科学運動のためのAI内の分子理解を進めるためのNLP技術の可能性を示します。
さらに、79K QAペアで構成される最大の分子理解ベンチマークをこれまでに構築し、概念実証としてマルチエージェント接地プロトタイプを開発しました。
このシステムは、GPT-4Oを含む既存のモデルよりも優れており、その接地出力は統合されており、分子キャプションやATC(解剖学的、治療、化学)分類などの従来のタスクを強化しています。

要約(オリジナル)

Current molecular understanding approaches predominantly focus on the descriptive aspect of human perception, providing broad, topic-level insights. However, the referential aspect — linking molecular concepts to specific structural components — remains largely unexplored. To address this gap, we propose a molecular grounding benchmark designed to evaluate a model’s referential abilities. We align molecular grounding with established conventions in NLP, cheminformatics, and molecular science, showcasing the potential of NLP techniques to advance molecular understanding within the AI for Science movement. Furthermore, we constructed the largest molecular understanding benchmark to date, comprising 79k QA pairs, and developed a multi-agent grounding prototype as proof of concept. This system outperforms existing models, including GPT-4o, and its grounding outputs have been integrated to enhance traditional tasks such as molecular captioning and ATC (Anatomical, Therapeutic, Chemical) classification.

arxiv情報

著者 Jiaxin Wu,Ting Zhang,Rubing Chen,Wengyu Zhang,Chen Jason Zhang,Xiaoyong Wei,Li Qing
発行日 2025-04-01 06:49:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MolGround: A Benchmark for Molecular Grounding はコメントを受け付けていません

Holistic analysis on the sustainability of Federated Learning across AI product lifecycle

要約

プライバシー保護に焦点を当てた新たな法的要件とポリシーに照らして、連邦学習(FL)を採用しているさまざまな業界の企業の増加傾向があります。
この分散型アプローチには、複数のクライアントまたはサイロが含まれ、プライベートローカルデータを利用しながら、中央サーバーの調整の下でグローバルモデルを協力してトレーニングします。
データ共有と伝送を必要とする従来の方法とは異なり、クロスシロFLは、クライアントが生データではなくモデルの更新を共有し、それによってプライバシーを強化することができます。
採用の拡大にもかかわらず、クロスシロFLに関連する炭素の影響は、この分野での研究が限られているため、あまり理解されていません。
この研究では、AI製品ライフサイクル全体でクロスシロFLの持続可能性を評価し、モデルトレーニングフェーズだけを超えて分析を拡張することにより、このギャップを埋めることを目指しています。
この分散化された方法を従来の集中型アプローチと体系的に比較し、実際のクロスシロFL環境でコストとCO2排出量を評価するための堅牢な定量的フレームワークを提示します。
私たちの調査結果は、モデルトレーニングのエネルギー消費とコストが、シロの連合学習と集中学習の間で同等であることを示しています。
ただし、集中学習に固有の追加データ転送およびストレージ要件は、多くの場合見落とされがちなCO2排出量をもたらす可能性があります。
さらに、IT企業の持続可能性と経済効率の向上を目的とした、クロスシロFLと分析を統合する革新的なデータおよびアプリケーション管理システムを紹介します。

要約(オリジナル)

In light of emerging legal requirements and policies focused on privacy protection, there is a growing trend of companies across various industries adopting Federated Learning (FL). This decentralized approach involves multiple clients or silos, collaboratively training a global model under the coordination of a central server while utilizing their private local data. Unlike traditional methods that necessitate data sharing and transmission, Cross-Silo FL allows clients to share model updates rather than raw data, thereby enhancing privacy. Despite its growing adoption, the carbon impact associated with Cross-Silo FL remains poorly understood due to the limited research in this area. This study seeks to bridge this gap by evaluating the sustainability of Cross-Silo FL throughout the entire AI product lifecycle, extending the analysis beyond the model training phase alone. We systematically compare this decentralized method with traditional centralized approaches and present a robust quantitative framework for assessing the costs and CO2 emissions in real-world Cross-Silo FL environments. Our findings indicate that the energy consumption and costs of model training are comparable between Cross-Silo Federated Learning and Centralized Learning. However, the additional data transfer and storage requirements inherent in Centralized Learning can result in significant, often overlooked CO2 emissions. Moreover, we introduce an innovative data and application management system that integrates Cross-Silo FL and analytics, aiming at improving the sustainability and economic efficiency of IT enterprises.

arxiv情報

著者 Hongliu Cao
発行日 2025-04-01 06:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Holistic analysis on the sustainability of Federated Learning across AI product lifecycle はコメントを受け付けていません

Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach

要約

大規模な言語モデル(LLMS)のプロンプトチューニング(PT)は、トレーニング可能なパラメーターが大幅に少ないさまざまな従来のNLPタスクのパフォーマンスを促進できます。
しかし、私たちの調査により、PTは限られた改善をもたらし、複雑な推論タスクでLLMの原始的なパフォーマンスを低下させる可能性さえあることが明らかになりました。
このような現象は、ソフトプロンプトが特定のインスタンスにプラスの影響を与えると同時に、特に推論の後期段階で他のインスタンスに悪影響を与える可能性があることを示唆しています。
これらの課題に対処するために、最初にソフトプロンプト内の情報蓄積を特定します。
詳細な分析を通じて、この現象にはしばしばモデルのより深い層に誤った情報フローパターンが伴い、最終的に誤った推論結果につながることを実証します。
複雑な推論タスクでソフトプロンプトをより適切に活用するために、動的プロンプト腐敗(DPC)と呼ばれる新しい方法を提案します。これは、推論プロセスへの影響に基づいてソフトプロンプトの影響を動的に調整します。
具体的には、DPCは、動的トリガーと動的腐敗の2つの段階で構成されています。
第一に、動的トリガーはソフトプロンプトの影響を測定し、有益か有害かを特定します。
次に、動的な腐敗は、推論プロセスを妨げるキートークンを選択的にマスキングすることにより、ソフトプロンプトの負の影響を軽減します。
GSM8K、Math、Aquaなど、さまざまなLLMSおよび推論タスクに関する広範な実験を通じて提案されたアプローチを検証します。
実験結果は、DPCがPTのパフォーマンスを一貫して向上させ、バニラの迅速な調整と比較して4%〜8%の精度の向上を達成できることを示しており、アプローチの有効性とLLMSの複雑な推論を強化する可能性を強調しています。

要約(オリジナル)

Prompt-tuning (PT) for large language models (LLMs) can facilitate the performance on various conventional NLP tasks with significantly fewer trainable parameters. However, our investigation reveals that PT provides limited improvement and may even degrade the primitive performance of LLMs on complex reasoning tasks. Such a phenomenon suggests that soft prompts can positively impact certain instances while negatively affecting others, particularly during the later phases of reasoning. To address these challenges, We first identify an information accumulation within the soft prompts. Through detailed analysis, we demonstrate that this phenomenon is often accompanied by erroneous information flow patterns in the deeper layers of the model, which ultimately lead to incorrect reasoning outcomes. we propose a novel method called Dynamic Prompt Corruption (DPC) to take better advantage of soft prompts in complex reasoning tasks, which dynamically adjusts the influence of soft prompts based on their impact on the reasoning process. Specifically, DPC consists of two stages: Dynamic Trigger and Dynamic Corruption. First, Dynamic Trigger measures the impact of soft prompts, identifying whether beneficial or detrimental. Then, Dynamic Corruption mitigates the negative effects of soft prompts by selectively masking key tokens that interfere with the reasoning process. We validate the proposed approach through extensive experiments on various LLMs and reasoning tasks, including GSM8K, MATH, and AQuA. Experimental results demonstrate that DPC can consistently enhance the performance of PT, achieving 4%-8% accuracy gains compared to vanilla prompt tuning, highlighting the effectiveness of our approach and its potential to enhance complex reasoning in LLMs.

arxiv情報

著者 Sinan Fan,Liang Xie,Chen Shen,Ge Teng,Xiaosong Yuan,Xiaofeng Zhang,Chenxi Huang,Wenxiao Wang,Xiaofei He,Jieping Ye
発行日 2025-04-01 07:04:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improving Complex Reasoning with Dynamic Prompt Corruption: A soft prompt Optimization Approach はコメントを受け付けていません