Multilingual Large Language Models and Curse of Multilinguality

要約

多言語の大手言語モデル(LLM)は、自然言語処理(NLP)の研究者と実践者の間で大きな人気を博しています。
これらのモデルは、巨大なデータセットでトレーニングされ、さまざまな言語で習熟度を示し、多数の下流タスクで有効性を示しています。
このペーパーでは、多言語LLMSの風景をナビゲートし、技術的側面の概要を紹介します。
基礎となるアーキテクチャ、目的関数、トレーニング前のデータソース、およびトークン化方法を説明しています。
この作業では、異なるモデルタイプのユニークな機能を調査します:エンコーダーのみ(Mbert、XLM-R)、デコーダーのみ(XGLM、PALM、BLOOM、GPT-3)、およびエンコーダーデコーダーモデル(MT5、MBART)。
さらに、多言語LLMの重要な制限の1つである多言語性の呪いに対処し、それを克服しようとする現在の試みについて説明します。

要約(オリジナル)

Multilingual Large Language Models (LLMs) have gained large popularity among Natural Language Processing (NLP) researchers and practitioners. These models, trained on huge datasets, show proficiency across various languages and demonstrate effectiveness in numerous downstream tasks. This paper navigates the landscape of multilingual LLMs, providing an introductory overview of their technical aspects. It explains underlying architectures, objective functions, pre-training data sources, and tokenization methods. This work explores the unique features of different model types: encoder-only (mBERT, XLM-R), decoder-only (XGLM, PALM, BLOOM, GPT-3), and encoder-decoder models (mT5, mBART). Additionally, it addresses one of the significant limitations of multilingual LLMs – the curse of multilinguality – and discusses current attempts to overcome it.

arxiv情報

著者 Daniil Gurgurov,Tanja Bäumel,Tatiana Anikina
発行日 2025-04-25 10:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Multilingual Large Language Models and Curse of Multilinguality はコメントを受け付けていません

MAGI: Multi-Agent Guided Interview for Psychiatric Assessment

要約

構造化された臨床インタビューを自動化すると、メンタルヘルスケアのアクセシビリティに革命をもたらす可能性がありますが、既存の大規模な言語モデル(LLMS)アプローチは、精神医学的診断プロトコルと一致しません。
ゴールドスタンダードミニ国際神経精神医学インタビュー(MINI)を調整されたマルチエージェントコラボレーションを通じて自動計算ワークフローに変換する最初のフレームワークであるMagiを提示します。
Magiは4つの専門的なエージェントを介して臨床論理を動的にナビゲートします。1)ミニの分岐構造に付着したインタビューツリーガイド付きナビゲーションエージェント、2)診断プローブ、説明、および共感をブレンドする適応質問エージェント、3)参加者からの応答がノードを満たしているかどうかを検証する判断エージェント、および4)
うつ病、一般的な不安、社会的不安、自殺をカバーする1,002人の実世界の参加者の実験結果は、MAGIが臨床的厳密さ、会話の適応性、説明可能な推論を組み合わせることにより、LLMを支援したメンタルヘルス評価を進めることを示しています。

要約(オリジナル)

Automating structured clinical interviews could revolutionize mental healthcare accessibility, yet existing large language models (LLMs) approaches fail to align with psychiatric diagnostic protocols. We present MAGI, the first framework that transforms the gold-standard Mini International Neuropsychiatric Interview (MINI) into automatic computational workflows through coordinated multi-agent collaboration. MAGI dynamically navigates clinical logic via four specialized agents: 1) an interview tree guided navigation agent adhering to the MINI’s branching structure, 2) an adaptive question agent blending diagnostic probing, explaining, and empathy, 3) a judgment agent validating whether the response from participants meet the node, and 4) a diagnosis Agent generating Psychometric Chain-of- Thought (PsyCoT) traces that explicitly map symptoms to clinical criteria. Experimental results on 1,002 real-world participants covering depression, generalized anxiety, social anxiety and suicide shows that MAGI advances LLM- assisted mental health assessment by combining clinical rigor, conversational adaptability, and explainable reasoning.

arxiv情報

著者 Guanqun Bi,Zhuang Chen,Zhoufu Liu,Hongkai Wang,Xiyao Xiao,Yuqiang Xie,Wen Zhang,Yongkang Huang,Yuxuan Chen,Libiao Peng,Yi Feng,Minlie Huang
発行日 2025-04-25 11:08:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MAGI: Multi-Agent Guided Interview for Psychiatric Assessment はコメントを受け付けていません

Review-driven Personalized Preference Reasoning with Large Language Models for Recommendation

要約

大規模な言語モデル(LLMS)の最近の進歩により、幅広いタスクにわたって並外れたパフォーマンスが実証されており、推奨システムへのアプリケーションに大きな関心を集めています。
ただし、既存の方法は、LLMの可能性を完全に活用していません。多くの場合、限られた入力情報によって制約されているか、高度な推論機能を完全に活用できなかったことがよくあります。
これらの制限に対処するために、ユーザーとアイテムのレビューに含まれる豊富な選好情報を活用するように設計された新しいLLMベースの推奨ユーザーであるExp3RTを紹介します。
EXP3RTは、基本的に教師LLMからの蒸留により微調整され、3つの重要なタスクを順番に実行します。EXP3RTは、最初の抽出および生のレビューから本質的な主観的な好みをカプセル化し、特定の基準に従ってユーザーとアイテムのプロファイルを作成するための特定の基準に従ってそれらを要約します。
次に、ユーザー/アイテムのプロファイルとアイテムの説明からの主観的および客観的な情報の両方を考慮することにより、詳細なステップバイステップの推論に続いて予測された評価、つまり推論強化評価予測が生成されます。
EXP3RTからのこのパーソナライズされた好みの推論は、評価予測の精度を高め、推奨の忠実で合理的な説明を提供します。
広範な実験では、EXP3RTは、推奨システムの説明可能性を大幅に向上させながら、評価予測と候補アイテムの再ランキングの両方で既存の方法を上回ることが示されています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have demonstrated exceptional performance across a wide range of tasks, generating significant interest in their application to recommendation systems. However, existing methods have not fully capitalized on the potential of LLMs, often constrained by limited input information or failing to fully utilize their advanced reasoning capabilities. To address these limitations, we introduce EXP3RT, a novel LLM-based recommender designed to leverage rich preference information contained in user and item reviews. EXP3RT is basically fine-tuned through distillation from a teacher LLM to perform three key tasks in order: EXP3RT first extracts and encapsulates essential subjective preferences from raw reviews, aggregates and summarizes them according to specific criteria to create user and item profiles. It then generates detailed step-by-step reasoning followed by predicted rating, i.e., reasoning-enhanced rating prediction, by considering both subjective and objective information from user/item profiles and item descriptions. This personalized preference reasoning from EXP3RT enhances rating prediction accuracy and also provides faithful and reasonable explanations for recommendation. Extensive experiments show that EXP3RT outperforms existing methods on both rating prediction and candidate item reranking for top-k recommendation, while significantly enhancing the explainability of recommendation systems.

arxiv情報

著者 Jieyong Kim,Hyunseo Kim,Hyunjin Cho,SeongKu Kang,Buru Chang,Jinyoung Yeo,Dongha Lee
発行日 2025-04-25 11:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Review-driven Personalized Preference Reasoning with Large Language Models for Recommendation はコメントを受け付けていません

EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning

要約

大規模な言語モデル(LLM)は、数学やコーディングなどの明確なソリューションに関する明確な問題に印象的な推論能力を示しています。
しかし、彼らは依然として、戦略的な推論が必要なビジネス交渉のような複雑な現実世界のシナリオと格闘しています。動的環境をナビゲートし、不確実性の中で長期的な目標を調整する能力です。
戦略的推論のための既存の方法は、適応性、スケーラビリティ、および戦略の転送における課題に直面しています。
これらの問題に対処するために、戦略的推論のための明示的なポリシー最適化(EPO)を提案します。これは、オープンエンドアクションスペースで戦略を提供し、目標指向の動作を動機付けるために任意のLLMエージェントにプラグインできるLLMを特徴としています。
適応性とポリシーの移転性を向上させるために、プロセスの報酬と反復自己プレイを使用して、マルチターン補強学習(RL)を介して戦略的推論モデルをトレーニングします。
社会的および物理的な領域全体の実験は、戦略的推論の強化を通じて長期目標アライメントのEPOの能力を示し、社会的対話とWebナビゲーションタスクで最先端のパフォーマンスを達成します。
私たちの調査結果は、EPOに登場するさまざまな共同推論メカニズムと、新しい戦略を生成する際のその有効性を明らかにし、実際のアプリケーションでの戦略的推論の可能性を強調しています。
コードとデータは、https://github.com/alibabaresearch/damo-convai/tree/main/epoで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive reasoning capabilities in well-defined problems with clear solutions, such as mathematics and coding. However, they still struggle with complex real-world scenarios like business negotiations, which require strategic reasoning-an ability to navigate dynamic environments and align long-term goals amidst uncertainty. Existing methods for strategic reasoning face challenges in adaptability, scalability, and transferring strategies to new contexts. To address these issues, we propose explicit policy optimization (EPO) for strategic reasoning, featuring an LLM that provides strategies in open-ended action space and can be plugged into arbitrary LLM agents to motivate goal-directed behavior. To improve adaptability and policy transferability, we train the strategic reasoning model via multi-turn reinforcement learning (RL) using process rewards and iterative self-play, without supervised fine-tuning (SFT) as a preliminary step. Experiments across social and physical domains demonstrate EPO’s ability of long-term goal alignment through enhanced strategic reasoning, achieving state-of-the-art performance on social dialogue and web navigation tasks. Our findings reveal various collaborative reasoning mechanisms emergent in EPO and its effectiveness in generating novel strategies, underscoring its potential for strategic reasoning in real-world applications. Code and data are available at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/EPO.

arxiv情報

著者 Xiaoqian Liu,Ke Wang,Yongbin Li,Yuchuan Wu,Wentao Ma,Aobo Kong,Fei Huang,Jianbin Jiao,Junge Zhang
発行日 2025-04-25 13:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning はコメントを受け付けていません

Adversarial Attacks on LLM-as-a-Judge Systems: Insights from Prompt Injections

要約

テキストの品質コードの正確性と引数の強さを評価するために使用される裁判官システムとしてのLLMは、迅速な噴射攻撃に対して脆弱です。
コンテンツ作者の攻撃をシステムプロンプト攻撃から分離するフレームワークを紹介し、5つのモデルGEMMA 3.4B LLAMA 3.2 3B GPT 4およびCLAUDE 3 OPUSを条件ごとに50のプロンプトを使用して、さまざまな防御を持つ4つのタスクに評価します。
最大73ポイントの8%の成功を達成した攻撃は、より脆弱であることが判明し、50ポイントから62ポイントの6パーセントの範囲が譲渡可能であることが判明しました。
私たちの結果は、ユニバーサルの迅速なインジェクションとAdvprompterとは対照的に、マルチモデル委員会と比較スコアリングとすべてのコードとデータセットをリリースすることをお勧めします

要約(オリジナル)

LLM as judge systems used to assess text quality code correctness and argument strength are vulnerable to prompt injection attacks. We introduce a framework that separates content author attacks from system prompt attacks and evaluate five models Gemma 3.27B Gemma 3.4B Llama 3.2 3B GPT 4 and Claude 3 Opus on four tasks with various defenses using fifty prompts per condition. Attacks achieved up to seventy three point eight percent success smaller models proved more vulnerable and transferability ranged from fifty point five to sixty two point six percent. Our results contrast with Universal Prompt Injection and AdvPrompter We recommend multi model committees and comparative scoring and release all code and datasets

arxiv情報

著者 Narek Maloyan,Dmitry Namiot
発行日 2025-04-25 13:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Adversarial Attacks on LLM-as-a-Judge Systems: Insights from Prompt Injections はコメントを受け付けていません

Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

要約

近年、大規模な言語モデル(LLMS)を搭載したマルチエージェントフレームワークは急速に進歩しています。
この進歩にもかかわらず、パフォーマンスを評価するために特別に調整されたベンチマークデータセットがまだ顕著に欠けています。
このギャップを埋めるために、インテリジェントパーソナルアシスタントのコンテキストでLLMベースのマルチエージェントフレームワークを評価することを目的としたベンチマークデータセットであるAuto-Slurpを導入します。
Auto-Slurpは、データを再び統合し、シミュレートされたサーバーと外部サービスを統合することにより、最初は自然言語理解タスクのために開発された元のSlurpデータセットを拡張します。
この強化により、言語の理解、タスクの実行、および応答生成をカバーする包括的なエンドツーエンド評価パイプラインが可能になります。
私たちの実験は、Auto-Slurpが現在の最先端のフレームワークに大きな課題をもたらすことを示しており、本当に信頼性が高くてインテリジェントなマルチエージェントパーソナルアシスタントが進行中の仕事であることを強調しています。
データセットと関連コードは、https://github.com/lorashen/auto-slurp/で入手できます。

要約(オリジナル)

In recent years, multi-agent frameworks powered by large language models (LLMs) have advanced rapidly. Despite this progress, there is still a notable absence of benchmark datasets specifically tailored to evaluate their performance. To bridge this gap, we introduce Auto-SLURP, a benchmark dataset aimed at evaluating LLM-based multi-agent frameworks in the context of intelligent personal assistants. Auto-SLURP extends the original SLURP dataset — initially developed for natural language understanding tasks — by relabeling the data and integrating simulated servers and external services. This enhancement enables a comprehensive end-to-end evaluation pipeline, covering language understanding, task execution, and response generation. Our experiments demonstrate that Auto-SLURP presents a significant challenge for current state-of-the-art frameworks, highlighting that truly reliable and intelligent multi-agent personal assistants remain a work in progress. The dataset and related code are available at https://github.com/lorashen/Auto-SLURP/.

arxiv情報

著者 Lei Shen,Xiaoyu Shen
発行日 2025-04-25 14:17:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant はコメントを受け付けていません

A UD Treebank for Bohairic Coptic

要約

他のコプト方言、特にSahidic、Bohairic Coptic、Pre-Mamlukの主要なコプト方言、後期ビザンチンエジプト、およびコプト教会の現代言語であるSahidic、Bohairic Copticのデジタルリソースの最近の進歩にもかかわらず、非常に資料不足のままです。
このペーパーでは、ボハエリックコプトの最初の構文的に注釈されたコーパスを紹介および評価し、聖書のテキスト、聖人の生活、キリスト教の禁欲的な執筆を含むさまざまな作品のデータをサンプリングします。
また、言語の古典的な方言であるSahidic Copticの既存のUDツリーバンクと比較して、観察する主な違いのいくつかを探り、共同および対称性の解析実験を行い、より頻繁に研究されているSahidicとの関連性があるが異なる多様性としてのユニークな性質を明らかにします。

要約(オリジナル)

Despite recent advances in digital resources for other Coptic dialects, especially Sahidic, Bohairic Coptic, the main Coptic dialect for pre-Mamluk, late Byzantine Egypt, and the contemporary language of the Coptic Church, remains critically under-resourced. This paper presents and evaluates the first syntactically annotated corpus of Bohairic Coptic, sampling data from a range of works, including Biblical text, saints’ lives and Christian ascetic writing. We also explore some of the main differences we observe compared to the existing UD treebank of Sahidic Coptic, the classical dialect of the language, and conduct joint and cross-dialect parsing experiments, revealing the unique nature of Bohairic as a related, but distinct variety from the more often studied Sahidic.

arxiv情報

著者 Amir Zeldes,Nina Speransky,Nicholas Wagner,Caroline T. Schroeder
発行日 2025-04-25 14:33:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A UD Treebank for Bohairic Coptic はコメントを受け付けていません

HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding?

要約

高解像度の画像(HRI)理解は、病理学的画像や農業航空画像など、多数のピクセルで画像を処理することを目的としています。どちらも100万ピクセルを超える可能性があります。
Vision Large Language Models(VLMS)はHRIを処理できると言われていますが、HRIの理解を評価するための包括的なベンチマークが不足しています。
このギャップに対処するために、豊富なシーンを使用したHRI理解のための新しい統一ベンチマークであるHrsceneを紹介します。
HRSceneには、1,024 $ \ Times $ 1,024から35,503 $ \ Times $ 26,627の範囲の解像度を備えた25の実世界のデータセットと2つの合成診断データセットが組み込まれています。
HRSCEENは、顕微鏡画像から放射線画像、ストリートビュー、長距離写真、望遠鏡画像に至るまで、25のシナリオをカバーする10の大学院レベルのアノテーターによって収集され、再現されます。
実世界のオブジェクトのHRI、スキャンされたドキュメント、複合マルチイメージが含まれます。
2つの診断評価データセットは、ターゲット画像とゴールドの回答とさまざまな注文の気を散らす画像を組み合わせることで合成され、HRIの領域をどの程度うまく利用するかを評価します。
Gemini 2.0 FlashやGPT-4Oを含む28のVLMを含む広範な実験を実施しています。
HRSceneの実験は、現在のVLMが実際のタスクで平均精度が約50%を達成し、HRIの理解に大きなギャップが明らかになることを示しています。
合成データセットの結果は、VLMSがHRI領域を効果的に利用するのに苦労していることを明らかにしており、将来の研究に光を当てて、地域の多様性と中に紛失したことを示しています。

要約(オリジナル)

High-resolution image (HRI) understanding aims to process images with a large number of pixels, such as pathological images and agricultural aerial images, both of which can exceed 1 million pixels. Vision Large Language Models (VLMs) can allegedly handle HRIs, however, there is a lack of a comprehensive benchmark for VLMs to evaluate HRI understanding. To address this gap, we introduce HRScene, a novel unified benchmark for HRI understanding with rich scenes. HRScene incorporates 25 real-world datasets and 2 synthetic diagnostic datasets with resolutions ranging from 1,024 $\times$ 1,024 to 35,503 $\times$ 26,627. HRScene is collected and re-annotated by 10 graduate-level annotators, covering 25 scenarios, ranging from microscopic to radiology images, street views, long-range pictures, and telescope images. It includes HRIs of real-world objects, scanned documents, and composite multi-image. The two diagnostic evaluation datasets are synthesized by combining the target image with the gold answer and distracting images in different orders, assessing how well models utilize regions in HRI. We conduct extensive experiments involving 28 VLMs, including Gemini 2.0 Flash and GPT-4o. Experiments on HRScene show that current VLMs achieve an average accuracy of around 50% on real-world tasks, revealing significant gaps in HRI understanding. Results on synthetic datasets reveal that VLMs struggle to effectively utilize HRI regions, showing significant Regional Divergence and lost-in-middle, shedding light on future research.

arxiv情報

著者 Yusen Zhang,Wenliang Zheng,Aashrith Madasu,Peng Shi,Ryo Kamoi,Hao Zhou,Zhuoyang Zou,Shu Zhao,Sarkar Snigdha Sarathi Das,Vipul Gupta,Xiaoxin Lu,Nan Zhang,Ranran Haoran Zhang,Avitej Iyer,Renze Lou,Wenpeng Yin,Rui Zhang
発行日 2025-04-25 15:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding? はコメントを受け付けていません

Expressing stigma and inappropriate responses prevents LLMs from safely replacing mental health providers

要約

大規模な言語モデル(LLM)をセラピストとして使用する必要がありますか?
このホワイトペーパーでは、LLMSの使用を調査して、メンタルヘルスプロバイダーを *交換 *してください。これは、ハイテクスタートアップと研究分野で宣伝されているユースケースです。
私たちは、セラピストとクライアントの間の治療同盟の重要性など、治療関係の重要な側面を特定するために、主要な医療機関が使用する治療ガイドのマッピングレビューを実施します。
次に、「GPT-4O」などの現在のLLMの応答を調査するいくつかの実験を実施することにより、LLMSが治療関係のこれらの側面を再現し、遵守する能力を評価します。
医学界のベストプラクティスとは反対に、LLMS 1)精神的健康状態のある人に対するスティグマを表現し、2)自然療法の設定における特定の一般的な(そして重要な)状態に不適切に対応する – たとえば、LLMは、おそらく彼らのサイコファンシーのためにクライアントの妄想的思考を奨励します。
これは、より大きくて新しいLLMSでも発生し、現在の安全慣行がこれらのギャップに対処しない可能性があることを示しています。
さらに、治療的同盟には人間の特徴(アイデンティティや利害関係など)を必要とするなど、セラピストとしてのLLMの採用に対する基本的および実用的な障壁に注意してください。
これらの理由により、LLMはセラピストに取って代わるべきではないと結論付け、臨床療法におけるLLMの代替役割について議論します。

要約(オリジナル)

Should a large language model (LLM) be used as a therapist? In this paper, we investigate the use of LLMs to *replace* mental health providers, a use case promoted in the tech startup and research space. We conduct a mapping review of therapy guides used by major medical institutions to identify crucial aspects of therapeutic relationships, such as the importance of a therapeutic alliance between therapist and client. We then assess the ability of LLMs to reproduce and adhere to these aspects of therapeutic relationships by conducting several experiments investigating the responses of current LLMs, such as `gpt-4o`. Contrary to best practices in the medical community, LLMs 1) express stigma toward those with mental health conditions and 2) respond inappropriately to certain common (and critical) conditions in naturalistic therapy settings — e.g., LLMs encourage clients’ delusional thinking, likely due to their sycophancy. This occurs even with larger and newer LLMs, indicating that current safety practices may not address these gaps. Furthermore, we note foundational and practical barriers to the adoption of LLMs as therapists, such as that a therapeutic alliance requires human characteristics (e.g., identity and stakes). For these reasons, we conclude that LLMs should not replace therapists, and we discuss alternative roles for LLMs in clinical therapy.

arxiv情報

著者 Jared Moore,Declan Grabb,William Agnew,Kevin Klyman,Stevie Chancellor,Desmond C. Ong,Nick Haber
発行日 2025-04-25 15:14:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Expressing stigma and inappropriate responses prevents LLMs from safely replacing mental health providers はコメントを受け付けていません

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

要約

1ビットの大手言語モデル(LLMS)の効率的な展開は、活性化の外れ値によって妨げられており、これにより、量子化が低いビット幅に複雑になります。
1ビットLLMのネイティブ4ビット活性化量子化を可能にする新しいフレームワークであるBitnet V2を導入します。
注意とフィードフォワードネットワークのアクティベーションの外れ値に取り組むために、アクティベーション量子化の前にオンラインのハダマード変換を適用するモジュールであるH-Bitlinearを提案します。
この変換により、鋭い活性化分布は、低ビット表現に適した、よりガウスのような形態に滑らかになります。
実験では、8ビットのアクティベーションがビットネットB1.58のパフォーマンスと一致するゼロからトレーニングされたビットネットV2が示されています。
重要なことに、Bitnet V2は、ネイティブの4ビットアクティベーションで訓練された場合、パフォーマンスの低下を最小限に抑え、バッチ付き推論のメモリフットプリントと計算コストを大幅に削減します。

要約(オリジナル)

Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.

arxiv情報

著者 Hongyu Wang,Shuming Ma,Furu Wei
発行日 2025-04-25 15:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs はコメントを受け付けていません