TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling

要約

表形式データの監視された学習のためのディープラーニングアーキテクチャは、単純な多層パーセプトロン(MLP)から洗練された変圧器や検索された高級メソッドまで、範囲があります。
この研究は、MLPベースの実質的な表形式アーキテクチャを設計するための主要な、しかしこれまで見過ごされていた機会を強調しています。
つまり、新しいモデルタブは効率的なアンサンブルに依存しており、1つのタブがMLPのアンサンブルを効率的に模倣し、オブジェクトごとに複数の予測を生成します。
TABMでは、従来のディープアンサンブルと比較して、基礎となる暗黙のMLPが同時にトレーニングされ、パラメーターのほとんどが共有されるため、パフォーマンスと効率が大幅に向上します。
TABMを新しいベースラインとして使用して、タスクのパフォーマンスと効率の両方の観点から、パブリックベンチマーク上の表形式DLアーキテクチャの大規模な評価を実行します。
一般に、TABMを含むMLPは、注意および検索ベースのアーキテクチャと比較して、より強力でより実用的なモデルのラインを形成することを示しています。
特に、TABMが表形式DLモデルで最高のパフォーマンスを実証することがわかります。
次に、TABMのアンサンブルのような性質に関する経験的分析を実施します。
TABMの複数の予測は個別に弱いが、集合的に強力であることがわかります。
全体として、私たちの研究は、魅力的なテクニックを表形式のDLにもたらし、TABMとのパフォーマンス効率のトレードオフを進めます。これは、研究者と実践者にとってシンプルで強力なベースラインです。

要約(オリジナル)

Deep learning architectures for supervised learning on tabular data range from simple multilayer perceptrons (MLP) to sophisticated Transformers and retrieval-augmented methods. This study highlights a major, yet so far overlooked opportunity for designing substantially better MLP-based tabular architectures. Namely, our new model TabM relies on efficient ensembling, where one TabM efficiently imitates an ensemble of MLPs and produces multiple predictions per object. Compared to a traditional deep ensemble, in TabM, the underlying implicit MLPs are trained simultaneously, and (by default) share most of their parameters, which results in significantly better performance and efficiency. Using TabM as a new baseline, we perform a large-scale evaluation of tabular DL architectures on public benchmarks in terms of both task performance and efficiency, which renders the landscape of tabular DL in a new light. Generally, we show that MLPs, including TabM, form a line of stronger and more practical models compared to attention- and retrieval-based architectures. In particular, we find that TabM demonstrates the best performance among tabular DL models. Then, we conduct an empirical analysis on the ensemble-like nature of TabM. We observe that the multiple predictions of TabM are weak individually, but powerful collectively. Overall, our work brings an impactful technique to tabular DL and advances the performance-efficiency trade-off with TabM — a simple and powerful baseline for researchers and practitioners.

arxiv情報

著者 Yury Gorishniy,Akim Kotelnikov,Artem Babenko
発行日 2025-02-18 18:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling はコメントを受け付けていません

Towards Quantum Tensor Decomposition in Biomedical Applications

要約

テンソル分解は、マルチモーダル生物医学データの特徴抽出の強力なフレームワークとして浮上しています。
このレビューでは、Tucker、Candecomp/Parafac、Spiked Tensor分解など、イメージング、マルチオミクス、空間トランクリプトミックなどの生物医学的ドメイン全体の多様なアプリケーションなどのテンソル分解方法の包括的な分析を提示します。
文献を体系的に調査するために、テンソル分解が使用されているバイオメディシンで異なるテーマサブエリアを特定およびグループ化するトピックモデリングベースのアプローチを適用し、それにより重要な傾向と研究の方向性を明らかにしました。
潜在スペースのスケーラビリティに関連する課題を評価し、テンソルの最適なランクを取得しました。
さらに、テンソル分解のための量子アルゴリズムの最近の進歩について説明し、これらの課題に対処するために量子コンピューティングを活用する方法を探ります。
私たちの研究には、量子コンピューティングプラットフォームの予備的なリソース推定分析が含まれており、短期量子デバイスに量子強化テンソル分解方法を実装する可能性を調べます。
集合的に、このレビューは、生物医学分析における現在のアプリケーションとテンソル分解の課題を統合するだけでなく、複雑な生物医学データから実用的な洞察を導き出すことへの影響を高めるための量子コンピューティング戦略の有望な概要も概説しています。

要約(オリジナル)

Tensor decomposition has emerged as a powerful framework for feature extraction in multi-modal biomedical data. In this review, we present a comprehensive analysis of tensor decomposition methods such as Tucker, CANDECOMP/PARAFAC, spiked tensor decomposition, etc. and their diverse applications across biomedical domains such as imaging, multi-omics, and spatial transcriptomics. To systematically investigate the literature, we applied a topic modeling-based approach that identifies and groups distinct thematic sub-areas in biomedicine where tensor decomposition has been used, thereby revealing key trends and research directions. We evaluated challenges related to the scalability of latent spaces along with obtaining the optimal rank of the tensor, which often hinder the extraction of meaningful features from increasingly large and complex datasets. Additionally, we discuss recent advances in quantum algorithms for tensor decomposition, exploring how quantum computing can be leveraged to address these challenges. Our study includes a preliminary resource estimation analysis for quantum computing platforms and examines the feasibility of implementing quantum-enhanced tensor decomposition methods on near-term quantum devices. Collectively, this review not only synthesizes current applications and challenges of tensor decomposition in biomedical analyses but also outlines promising quantum computing strategies to enhance its impact on deriving actionable insights from complex biomedical data.

arxiv情報

著者 Myson Burch,Jiasen Zhang,Gideon Idumah,Hakan Doga,Richard Lartey,Lamis Yehia,Mingrui Yang,Murat Yildirim,Mihriban Karaayvaz,Omar Shehab,Weihong Guo,Ying Ni,Laxmi Parida,Xiaojuan Li,Aritra Bose
発行日 2025-02-18 18:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | Towards Quantum Tensor Decomposition in Biomedical Applications はコメントを受け付けていません

From Instance Training to Instruction Learning: Task Adapters Generation from Instructions

要約

大規模な言語モデル(LLMS)は、命令Finetuning(IFT)を利用することにより、一般的なタスクを解決する機能を獲得しました。
ただし、IFTは依然として広範なタスクデータのインスタンストレーニングに大きく依存しているため、LLMの適応性は、ラベルの付いたタスクインスタンスが希少で広範なタスク一般化が最重要になる現実世界のシナリオに大きく制限されます。
LLMSとは反対に、人間は繰り返しの実践だけでなく、教育ガイドラインを理解し、従うことによって、スキルと完全なタスクを獲得します。
この論文は、インスタンストレーニングの欠点に対処するために人間の学習をシミュレートすることに専念し、クロスタスクの一般化を強化するための指導学習に焦点を当てています。
このコンテキスト内で、目的(TAGI)からタスクアダプターの生成を導入します。これは、目に見えないタスクの再訓練なしに、指定されたタスク命令に基づいてパラメーター生成方法でタスク固有のモデルを自動的に構築します。
具体的には、知識の蒸留を利用して、ラベル、出力ロジット、およびそれらの間のアダプターパラメーターを調整することにより、インスタンスを使用してトレーニングを通じて開発された命令とタスク固有のモデルを使用して学習を通じて開発されたTAGI間の一貫性を高めます。
Tagiには、ハイパーネットワークの事前トレーニングや微調整を含む2段階のトレーニングプロセスを通じて、クロスタスク一般化機能が備わっています。
超自然な指示とP3データセットでTAGIを評価します。
実験結果は、TAGIが従来のメタトレーニングモデルやその他のハイパーネットワークモデルに一致したり、アウトパフォームしたりしながら、計算要件を大幅に削減できることを示しています。

要約(オリジナル)

Large language models (LLMs) have acquired the ability to solve general tasks by utilizing instruction finetuning (IFT). However, IFT still relies heavily on instance training of extensive task data, which greatly limits the adaptability of LLMs to real-world scenarios where labeled task instances are scarce and broader task generalization becomes paramount. Contrary to LLMs, humans acquire skills and complete tasks not merely through repeated practice but also by understanding and following instructional guidelines. This paper is dedicated to simulating human learning to address the shortcomings of instance training, focusing on instruction learning to enhance cross-task generalization. Within this context, we introduce Task Adapters Generation from Instructions (TAGI), which automatically constructs the task-specific model in a parameter generation manner based on the given task instructions without retraining for unseen tasks. Specifically, we utilize knowledge distillation to enhance the consistency between TAGI developed through Learning with Instruction and task-specific models developed through Training with Instance, by aligning the labels, output logits, and adapter parameters between them. TAGI is endowed with cross-task generalization capabilities through a two-stage training process that includes hypernetwork pretraining and finetuning. We evaluate TAGI on the Super-Natural Instructions and P3 datasets. The experimental results demonstrate that TAGI can match or even outperform traditional meta-trained models and other hypernetwork models, while significantly reducing computational requirements.

arxiv情報

著者 Huanxuan Liao,Shizhu He,Yao Xu,Yuanzhe Zhang,Yanchao Hao,Shengping Liu,Kang Liu,Jun Zhao
発行日 2025-02-18 15:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Instance Training to Instruction Learning: Task Adapters Generation from Instructions はコメントを受け付けていません

Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks

要約

この論文では、$ \ textbf {ne} $ ural-$ \ textbf {sy} $ mbolic $ \ textbf {c} $ ollaborative $ \ textbf {d} $ intillation($ \ textbf {nesycd} $)、aを提案します。
大規模な言語モデルの複雑な推論能力を学ぶための新しい知識蒸留方法(LLM、例えば、
\ TextGreater 13b)。
これらのタスクは一般的な認知能力だけでなく、これらの神経ベースのSLMにとってまばらで困難な場合が多い専門的な知識も必要とするため、複雑な推論タスクは小言語モデル(SLM、$ \ leq $ 7b)にとって困難であると主張します。
効果的にキャプチャする。
したがって、NESYCDは、異なるマナーを使用して、LLMの一般的な能力と専門知識を蒸留します。
一方では、教師LLMSからパラメーター化されたニューラルネットワークの学生SLMに一般的な能力のみを蒸留します。
一方、複雑な推論タスクの専門的な能力と珍しい知識のために、象徴的な知識蒸留アプローチを採用して、象徴的な知識ベース(KB)内で専門知識を取得して保存します。
一般的な機能と専門的な機能を切り離すことにより、提案されたNESYCDは、より小さなモデルを利用し、パラメーター化されたニューラルネットワークをシンボリックKBとブレンディングすることで、コスト効率が高く優れたパフォーマンスを達成できます。
さらに、専門のKBはよく一般化され、人間によって理解され操作されています。
私たちの実験は、NESYCDが領域内(BBH、GSM8K)およびドメイン外(Agieval、ARC)データセットのSLMSの複雑な推論パフォーマンスを大幅に向上させることを示しています。
特に、私たちのアプローチにより、Llama3-8BとQWEN2-7BがパフォーマンスでGPT-3.5ターボを上回り、ラマ3-70Bのマッチングに近づくことができました。
私たちのコードは、https://github.com/xnhyacinth/nesycdで入手できます。

要約(オリジナル)

In this paper, we propose $\textbf{Ne}$ural-$\textbf{Sy}$mbolic $\textbf{C}$ollaborative $\textbf{D}$istillation ($\textbf{NesyCD}$), a novel knowledge distillation method for learning the complex reasoning abilities of Large Language Models (LLMs, e.g., \textgreater 13B). We argue that complex reasoning tasks are difficult for Small Language Models (SLMs, e.g., $\leq$ 7B), as these tasks demand not only general cognitive abilities but also specialized knowledge, which is often sparse and difficult for these neural-based SLMs to effectively capture. Therefore, NesyCD distills the general capabilities and specialized knowledge in LLMs using different manners. On the one hand, we distill only general abilities from teacher LLMs into the student SLMs of parameterized neural networks. On the other hand, for the specialized abilities and uncommon knowledge of a complex reasoning task, we employ a symbolic knowledge distillation approach to obtain and store the specialized knowledge within a symbolic knowledge base (KB). By decoupling general and specialized capabilities, the proposed NesyCD can achieve superior performance cost-effectively, utilizing smaller models and blending parameterized neural networks with symbolic KB. Moreover, the specialized KB generalizes well and is comprehended and manipulated by humans. Our experiments show that NesyCD significantly boosts SLMs’ complex reasoning performance on in-domain (BBH, GSM8K) and out-of-domain (AGIEval, ARC) datasets. Notably, our approach enabled the LLaMA3-8B and Qwen2-7B to surpass GPT-3.5-turbo in performance and come close to matching LLaMA3-70B, despite the latter having nine times more parameters. Our code will be available at https://github.com/Xnhyacinth/NesyCD.

arxiv情報

著者 Huanxuan Liao,Shizhu He,Yao Xu,Yuanzhe Zhang,Kang Liu,Jun Zhao
発行日 2025-02-18 15:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks はコメントを受け付けていません

Large Language Diffusion Models

要約

自己回帰モデル(アーム)は、大規模な言語モデル(LLM)の礎石と広く見なされています。
私たちは、トレーニング前および監視された微調整(SFT)パラダイムの下でゼロから訓練された拡散モデルであるLladaを導入することにより、この概念に挑戦します。
LLADAモデルの分布は、マスクされたトークンを予測するためにバニラ変圧器によってパラメーター化された、フォワードデータマスキングプロセスと逆プロセスを介して分布しています。
尤度結合を最適化することにより、確率的推論のための原則的な生成アプローチを提供します。
大規模なベンチマークを横切って、Lladaは強力なスケーラビリティを示し、自己構築されたアームベースラインよりも優れています。
驚くべきことに、LLADA 8Bは、コンテキスト学習におけるLLAMA3 8Bのような強力なLLMと競争力があり、SFTの後、マルチターンダイアログなどのケーススタディで印象的な指導に応じた能力を示します。
さらに、Lladaは逆転の呪いに対処し、逆転詩の完成タスクでGPT-4oを上回ります。
私たちの調査結果は、拡散モデルを腕に代わる実行可能で有望な代替として確立し、上記の重要なLLM機能が本質的に武器に結び付けられているという仮定に挑戦します。
プロジェクトページとコード:https://ml-gsai.github.io/llada-demo/。

要約(オリジナル)

Autoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data masking process and a reverse process, parameterized by a vanilla Transformer to predict masked tokens. By optimizing a likelihood bound, it provides a principled generative approach for probabilistic inference. Across extensive benchmarks, LLaDA demonstrates strong scalability, outperforming our self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive instruction-following abilities in case studies such as multi-turn dialogue. Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal poem completion task. Our findings establish diffusion models as a viable and promising alternative to ARMs, challenging the assumption that key LLM capabilities discussed above are inherently tied to ARMs. Project page and codes: https://ml-gsai.github.io/LLaDA-demo/.

arxiv情報

著者 Shen Nie,Fengqi Zhu,Zebin You,Xiaolu Zhang,Jingyang Ou,Jun Hu,Jun Zhou,Yankai Lin,Ji-Rong Wen,Chongxuan Li
発行日 2025-02-18 16:08:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Large Language Diffusion Models はコメントを受け付けていません

Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs

要約

ペルソナシミュレーションへの以前のアプローチ大規模な言語モデル(LLM)は、通常、基本的な伝記情報の学習、または限られたロールプレイダイアログデータセットを使用してキャラクターの応答をキャプチャすることに依存しています。
しかし、個人の全体的な表現は、表面レベルの事実や会話を超えて、より深い考えや思考になります。
この作業では、文字の言語パターンと特徴的な思考プロセスの両方を再現するように設計されたモデルであるCharacherbotを紹介します。
有名な中国の作家であるLu Xunをケーススタディとして使用して、彼の17のエッセイコレクションから派生した4つのトレーニングタスクを提案します。
これらには、外部の言語構造と知識の習得に焦点を当てたトレーニング前のタスク、および3つの微調整タスクが含まれます:多肢選択質問、生成的な質問への回答、スタイル転送、それぞれがLU Xunの内部アイデアと執筆とLLMを調整します
スタイル。
これらのタスク全体で学習を最適化するために、Charloraパラメーターの更新メカニズムを導入します。一般的な言語スタイルの専門家が他のタスク固有の専門家と協力して、言語スタイルとより深い考えの理解の両方をよりよく研究します。
言語の精度と意見の理解について3つのタスクでキャラクターボットを評価し、適応したメトリックのベースラインを大幅に上回ることを示しています。
この作業が、ディープキャラクターのペルソナシミュレーションLLMに関する将来の研究を促すことを願っています。

要約(オリジナル)

Previous approaches to persona simulation large language models (LLMs) have typically relied on learning basic biographical information, or using limited role-play dialogue datasets to capture a character’s responses. However, a holistic representation of an individual goes beyond surface-level facts or conversations to deeper thoughts and thinking. In this work, we introduce CharacterBot, a model designed to replicate both the linguistic patterns and distinctive thought processes of a character. Using Lu Xun, a renowned Chinese writer, as a case study, we propose four training tasks derived from his 17 essay collections. These include a pre-training task focused on mastering external linguistic structures and knowledge, as well as three fine-tuning tasks: multiple-choice question answering, generative question answering, and style transfer, each aligning the LLM with Lu Xun’s internal ideation and writing style. To optimize learning across these tasks, we introduce a CharLoRA parameter updating mechanism, where a general linguistic style expert collaborates with other task-specific experts to better study both the language style and the understanding of deeper thoughts. We evaluate CharacterBot on three tasks for linguistic accuracy and opinion comprehension, demonstrating that it significantly outperforms the baselines on our adapted metrics. We hope that this work inspires future research on deep character persona simulation LLM.

arxiv情報

著者 Zixiao Wang,Duzhen Zhang,Ishita Agrawal,Shen Gao,Le Song,Xiuying Chen
発行日 2025-02-18 16:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs はコメントを受け付けていません

Eager Updates For Overlapped Communication and Computation in DiLoCo

要約

ディロコなどの分散最適化方法は、データセンターなどの複数の分散労働者で非常に大きなモデルをトレーニングするのに効果的であることが示されています。
これらの方法は、更新を2つの部分に分割します。内部最適化フェーズ。ワーカーが独自のローカルデータで複数の最適化ステップを独立して実行すると、内側の更新が同期される外部最適化ステップ。
このようなアプローチでは、労働者がデータセンターである設定では、標準的なデータ並列トレーニングよりも数桁少ない通信が必要ですが、これらのアプローチの限られた通信要件でさえ、各外部最適化ステップで必要なブロッキングがあるため、依然として大きなスローダウンを引き起こす可能性があります。
このホワイトペーパーでは、外部最適化ステップが内部最適化フェーズと完全に重複できるように、計算と通信を重複させることにより、この問題を軽減する手法を調査します。
熱心な更新と呼ばれる特定のバリアントが、労働者間の帯域幅が低い設定で標準的なディロコで競争力のあるパフォーマンスを提供することを示します。

要約(オリジナル)

Distributed optimization methods such as DiLoCo have been shown to be effective in training very large models across multiple distributed workers, such as datacenters. These methods split updates into two parts: an inner optimization phase, where the workers independently execute multiple optimization steps on their own local data, and an outer optimization step, where the inner updates are synchronized. While such approaches require orders of magnitude less communication than standard data-parallel training, in settings where the workers are datacenters, even the limited communication requirements of these approaches can still cause significant slow downs due to the blocking necessary at each outer optimization step. In this paper, we investigate techniques to mitigate this issue by overlapping communication with computation in a manner that allows the outer optimization step to fully overlap with the inner optimization phase. We show that a particular variant, dubbed eager updates, provides competitive performance with standard DiLoCo in settings with low bandwidth between workers.

arxiv情報

著者 Satyen Kale,Arthur Douillard,Yanislav Donchev
発行日 2025-02-18 16:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Eager Updates For Overlapped Communication and Computation in DiLoCo はコメントを受け付けていません

Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation

要約

客観的な音声品質モデルは、自動化された方法を使用して、人間の認識音声品質を予測することを目的としています。
ただし、言語的、知覚的、およびデータセット固有の違いにより、平均意見スコア(MO)は言語間で異なるため、横断的一般化は大きな課題のままです。
主に英語のデータで訓練されたモデルは、異なる音声、色調、および韻律特性を持つ言語に一般化するのに苦労し、客観的評価の矛盾につながる可能性があります。
この研究では、CNNベースのモデルであるNISQAとトランスベースのオーディオスペクトログラムトランス(AST)モデルの2つの音声品質モデルの横断的性能を調査します。
両方のモデルは、49,000を超える音声サンプルを含む英語のデータセットのみで訓練され、その後、ドイツ語、フランス語、北京語、スウェーデン語、オランダ語での音声で評価されました。
ピアソン相関係数(PCC)とルート平均平方根誤差(RMSE)を使用して、5つの音声品質の寸法(色、不連続性、ラウドネス、ノイズ、MO)にわたってモデルパフォーマンスを分析します。
私たちの調査結果は、ASTはより安定した言語間パフォーマンスを達成しますが、両方のモデルが顕著なバイアスを示すことを示しています。
特に、マンダリンの音声品質予測は、人間のMOSスコアと高く相関していますが、スウェーデンとオランダ語はより大きな予測の課題を提示します。
不連続性は、すべての言語でモデル化することは依然として困難です。
これらの結果は、バランスのとれた多言語データセットと、横断的一般化を改善するためのアーキテクチャ固有の適応の必要性を強調しています。

要約(オリジナル)

Objective speech quality models aim to predict human-perceived speech quality using automated methods. However, cross-lingual generalization remains a major challenge, as Mean Opinion Scores (MOS) vary across languages due to linguistic, perceptual, and dataset-specific differences. A model trained primarily on English data may struggle to generalize to languages with different phonetic, tonal, and prosodic characteristics, leading to inconsistencies in objective assessments. This study investigates the cross-lingual performance of two speech quality models: NISQA, a CNN-based model, and a Transformer-based Audio Spectrogram Transformer (AST) model. Both models were trained exclusively on English datasets containing over 49,000 speech samples and subsequently evaluated on speech in German, French, Mandarin, Swedish, and Dutch. We analyze model performance using Pearson Correlation Coefficient (PCC) and Root Mean Square Error (RMSE) across five speech quality dimensions: coloration, discontinuity, loudness, noise, and MOS. Our findings show that while AST achieves a more stable cross-lingual performance, both models exhibit noticeable biases. Notably, Mandarin speech quality predictions correlate highly with human MOS scores, whereas Swedish and Dutch present greater prediction challenges. Discontinuities remain difficult to model across all languages. These results highlight the need for more balanced multilingual datasets and architecture-specific adaptations to improve cross-lingual generalization.

arxiv情報

著者 Wafaa Wardah,Tuğçe Melike Koçak Büyüktaş,Kirill Shchegelskiy,Sebastian Möller,Robert P. Spang
発行日 2025-02-18 16:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation はコメントを受け付けていません

Lexical categories of stem-forming roots in Mapudüngun verb forms

要約

Mapuche言語の形態学的分析のための計算システムを開発し、さまざまな著者やスタイルのテキストで評価した後、このツールを実装するための基礎として使用されるソースの言語的仮定を検証する必要がありました。
現在の研究では、主な焦点は、形態学的分析システムの開発に使用されるソースで口頭で認識されているMapud \ ‘Ungun Rootsの語彙カテゴリ分類にあります。
この語彙カテゴリ改訂の結果は、検証されたらすぐに実装されるため、計算分析装置に直接利益をもたらします。
さらに、これらの結果がマプチェ語の語彙カテゴリに関するいくつかの不確実性を明確にするのに役立つことが期待されています。
この作業は、真の口頭根の原子価を特定するための予備的なタスクに対処します。その結果は、この記事を補完する後続の研究で提示されます。

要約(オリジナル)

After developing a computational system for morphological analysis of the Mapuche language, and evaluating it with texts from various authors and styles, it became necessary to verify the linguistic assumptions of the source used as the basis for implementing this tool. In the present work, the primary focus is on the lexical category classification of Mapud\’ungun roots recognised as verbal in the source utilised for the development of the morphological analysis system. The results of this lexical category revision directly benefit the computational analyser, as they are implemented as soon as they are verified. Additionally, it is hoped that these results will help clarify some uncertainties about lexical categories in the Mapuche language. This work addresses a preliminary task to identify the valency of true verbal roots, the results of which will be presented in a subsequent work that complements this article.

arxiv情報

著者 Andrés Chandía
発行日 2025-02-18 16:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Lexical categories of stem-forming roots in Mapudüngun verb forms はコメントを受け付けていません

On-Device Collaborative Language Modeling via a Mixture of Generalists and Specialists

要約

デバイス上のLLMは、プライバシーを強化し、パーソナライズされたユーザーエクスペリエンスを提供する能力について注目を集めています。
希少なデータを使用して個人学習を促進するために、連邦学習は標準的なアプローチになりました。
ただし、計算リソースの不均一性やデータの不均一性などの課題に直面しています。
comigs($ \ textbf {co} $ llaborative Learningを提案します。

私たちの方法の重要な革新は、ターゲット分布との整合を確保するために、ルーターが個別の検証セットを使用してルーターが最適化されている、専門家の混合学習目標の双レベルの最適化定式化です。
私たちは、理論的分析を提供する交互の最小化で目標を解決します。
私たちの方法は、さまざまな数の専門家の専門家をローカライズしながら、ユーザー全体で一般主義者の専門家を共有し、それによりユーザーの計算リソースに適応し、プライバシーを維持します。
広範な実験を通じて、コミグは、各トークンの世代の一般的な知識とパーソナライズされた知識のバランスを効果的にバランスさせます。
comigは、専門家の専門知識を通じてローカルデータに適応しながら、ジェネラリストの正規化効果に対する過剰な存在に対して堅牢なままであることを実証します。
共同LLMのコードベースをオープンします。

要約(オリジナル)

On-device LLMs have gained increasing attention for their ability to enhance privacy and provide a personalized user experience. To facilitate private learning with scarce data, Federated Learning has become a standard approach. However, it faces challenges such as computational resource heterogeneity and data heterogeneity among end users. We propose CoMiGS ($\textbf{Co}$llaborative learning with a $\textbf{Mi}$xture of $\textbf{G}$eneralists and $\textbf{S}$pecialists), the first approach to address both challenges. A key innovation of our method is the bi-level optimization formulation of the Mixture-of-Experts learning objective, where the router is optimized using a separate validation set to ensure alignment with the target distribution. We solve our objective with alternating minimization, for which we provide a theoretical analysis. Our method shares generalist experts across users while localizing a varying number of specialist experts, thereby adapting to users’ computational resources and preserving privacy. Through extensive experiments, we show CoMiGS effectively balances general and personalized knowledge for each token generation. We demonstrate that CoMiGS remains robust against overfitting-due to the generalists’ regularizing effect-while adapting to local data through specialist expertise. We open source our codebase for collaborative LLMs.

arxiv情報

著者 Dongyang Fan,Bettina Messmer,Nikita Doikov,Martin Jaggi
発行日 2025-02-18 16:27:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | On-Device Collaborative Language Modeling via a Mixture of Generalists and Specialists はコメントを受け付けていません