Exploring the Readiness of Prominent Small Language Models for the Democratization of Financial Literacy

要約

ここでは 30 億未満のパラメータを持つモデルとして定義される小規模言語モデル (SLM) の使用が、さまざまなドメインおよびアプリケーションにわたって増加しています。
SLM は、よりアクセスしやすいハードウェアで実行し、ユーザーのプライバシーを保護できるため、社会経済的地位やプライバシーの好みが異なる個人の言語モデルへのアクセスを民主化する可能性があります。
この研究では、金融リテラシー LM の開発をサポートするために、金融ドメインで使用するいくつかの最先端の SLM (Apple の OpenELM、Microsoft の Phi、Google の Gemma、Tinyllama プロジェクトなど) を評価しています。
特に新しい金融市場や商品が出現し、アクセスの容易さにより金融市場への参加が増加する中、金融教育を受けていない人々が質の高い金融情報に民主的にアクセスできるようにすることが社会で非常に必要とされています。
私たちは、個人や学生が財務上の質問に答える機能へのアクセスを民主化するためにオープンソース SLM の使用を検討した最初の企業です。
この目的を達成するために、どのモデルが最もアクセスしやすく、財務情報へのアクセスをサポートできるかを判断するために、メモリ使用量、推論時間、グラウンドトゥルースの答えとの類似性比較、および著名な SLM の出力の可読性の分析を提供します。
モデルのゼロショット学習と少数ショット学習のバリアントを分析します。
この結果は、既製の SLM の中には、個人使用に向けてさらに検討して微調整する価値があるものもあれば、民主化に限界があるものもあることを示唆しています。

要約(オリジナル)

The use of small language models (SLMs), herein defined as models with less than three billion parameters, is increasing across various domains and applications. Due to their ability to run on more accessible hardware and preserve user privacy, SLMs possess the potential to democratize access to language models for individuals of different socioeconomic status and with different privacy preferences. This study assesses several state-of-the-art SLMs (e.g., Apple’s OpenELM, Microsoft’s Phi, Google’s Gemma, and the Tinyllama project) for use in the financial domain to support the development of financial literacy LMs. Democratizing access to quality financial information for those who are financially under educated is greatly needed in society, particularly as new financial markets and products emerge and participation in financial markets increases due to ease of access. We are the first to examine the use of open-source SLMs to democratize access to financial question answering capabilities for individuals and students. To this end, we provide an analysis of the memory usage, inference time, similarity comparisons to ground-truth answers, and output readability of prominent SLMs to determine which models are most accessible and capable of supporting access to financial information. We analyze zero-shot and few-shot learning variants of the models. The results suggest that some off-the-shelf SLMs merit further exploration and fine-tuning to prepare them for individual use, while others may have limits to their democratization.

arxiv情報

著者 Tagore Rao Kosireddy,Jeffrey D. Wall,Evan Lucas
発行日 2024-10-09 17:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Sylber: Syllabic Embedding Representation of Speech from Raw Audio

要約

音節は、人間の音声の知覚と生成において重要な役割を果たす話し言葉の構成単位です。
ただし、現在のニューラル音声表現には構造が欠けており、その結果、処理コストのかかる高密度のトークン シーケンスが生成されます。
このギャップを埋めるために、クリーンで堅牢な音節構造を持つ音声表現を生成する新しいモデル Sylber を提案します。
具体的には、トレーニングにおけるモデルの指数移動平均である教師モデルから抽出された音節セグメントの特徴を回帰する自己教師ありモデルを提案します。
これにより、音声特徴の高度に構造化された表現が実現され、次の 3 つの重要な利点が得られます。1) 高速な線形時間音節セグメンテーション アルゴリズム、2) 1 秒あたり平均 4.27 トークンによる効率的な音節トークン化、3) より適切な音節単位
語彙的および構文的な理解。
また、音節単位を使用してトークンから音声への生成モデルをトレーニングし、完全に理解可能な音声をこれらのトークンから再構築できることを示します。
最後に、音声認識の言語現象であるカテゴリカル知覚がモデル内で自然に現れ、埋め込み空間が以前の自己教師あり学習アプローチよりもカテゴリカルかつスパースになっていることが観察されます。
私たちは一緒に、音声を音節として表現するための新しい自己教師ありアプローチを提案します。これは、効率的な音声トークン化と音声言語モデリングに大きな可能性をもたらします。

要約(オリジナル)

Syllables are compositional units of spoken language that play a crucial role in human speech perception and production. However, current neural speech representations lack structure, resulting in dense token sequences that are costly to process. To bridge this gap, we propose a new model, Sylber, that produces speech representations with clean and robust syllabic structure. Specifically, we propose a self-supervised model that regresses features on syllabic segments distilled from a teacher model which is an exponential moving average of the model in training. This results in a highly structured representation of speech features, offering three key benefits: 1) a fast, linear-time syllable segmentation algorithm, 2) efficient syllabic tokenization with an average of 4.27 tokens per second, and 3) syllabic units better suited for lexical and syntactic understanding. We also train token-to-speech generative models with our syllabic units and show that fully intelligible speech can be reconstructed from these tokens. Lastly, we observe that categorical perception, a linguistic phenomenon of speech perception, emerges naturally in our model, making the embedding space more categorical and sparse than previous self-supervised learning approaches. Together, we present a novel self-supervised approach for representing speech as syllables, with significant potential for efficient speech tokenization and spoken language modeling.

arxiv情報

著者 Cheol Jun Cho,Nicholas Lee,Akshat Gupta,Dhruv Agarwal,Ethan Chen,Alan W Black,Gopala K. Anumanchipalli
発行日 2024-10-09 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | コメントする

A Trilogy of AI Safety Frameworks: Paths from Facts and Knowledge Gaps to Reliable Predictions and New Knowledge

要約

AI の安全性は、AI コミュニティ内外の多くの科学者にとって重要な最前線の関心事となっています。
人間の存在に関する実存的リスクからディープフェイクや機械学習システムのバイアスに至るまで、当面および長期的に予想されるリスクが数多く存在します [1-5]。
このペーパーでは、AI の安全性に関する懸念の全範囲と計り知れない複雑さを、重要な領域における AI のイノベーションを減らすことなく AI の安全性と信頼性を向上させる短期的な可能性を秘めた、重要だが扱いやすい進歩の 3 つの機会からなる 3 部作にまとめます。
この観点から、生物医学における重要な ML アプリケーションですでに概念実証を行っているいくつかのケーススタディに基づいて、このビジョンについて説明します。

要約(オリジナル)

AI Safety has become a vital front-line concern of many scientists within and outside the AI community. There are many immediate and long term anticipated risks that range from existential risk to human existence to deep fakes and bias in machine learning systems [1-5]. In this paper, we reduce the full scope and immense complexity of AI safety concerns to a trilogy of three important but tractable opportunities for advances that have the short-term potential to improve AI safety and reliability without reducing AI innovation in critical domains. In this perspective, we discuss this vision based on several case studies that already produced proofs of concept in critical ML applications in biomedical science.

arxiv情報

著者 Simon Kasif
発行日 2024-10-09 14:43:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Faithful Interpretation for Graph Neural Networks

要約

現在、グラフ アテンション ネットワーク (GAT) やグラフ トランスフォーマー (GT) などのグラフ ニューラル ネットワーク (GNN) におけるアテンション メカニズムがますます注目を集めています。
それは、それらが提供するパフォーマンスの賞賛に値する向上だけでなく、不可解だと思われがちなモデルの動作に対してより明確な理論的根拠を提供する能力によるものでもあります。
ただし、アテンションベースの GNN は、トレーニング段階とテスト段階の両方で、追加のエッジやノードなどの要因を含むさまざまな摂動源にさらされると、解釈可能性が不安定になることが実証されています。
この論文では、Faithful Graph Attendance-based Interpretation (FGAI) と呼ばれる新しい概念を導入することで、この問題の解決策を提案します。
特に、FGAI には、安定性と解釈と最終出力分布に対する感度に関して 4 つの重要な特性があります。
この概念に基づいて、FGAI を取得するための効率的な方法論を提案します。これは、正規のアテンションベースの GNN に対するアドホックな修正とみなすことができます。
提案したソリューションを検証するために、グラフ解釈の評価に合わせて調整された 2 つの新しい指標を導入します。
実験結果は、FGAI が優れた安定性を示し、さまざまな形の摂動やランダム性の下でも注意の解釈可能性を維持することを示しており、これにより FGAI はより忠実で信頼できる説明ツールになります。

要約(オリジナル)

Currently, attention mechanisms have garnered increasing attention in Graph Neural Networks (GNNs), such as Graph Attention Networks (GATs) and Graph Transformers (GTs). It is not only due to the commendable boost in performance they offer but also its capacity to provide a more lucid rationale for model behaviors, which are often viewed as inscrutable. However, Attention-based GNNs have demonstrated instability in interpretability when subjected to various sources of perturbations during both training and testing phases, including factors like additional edges or nodes. In this paper, we propose a solution to this problem by introducing a novel notion called Faithful Graph Attention-based Interpretation (FGAI). In particular, FGAI has four crucial properties regarding stability and sensitivity to interpretation and final output distribution. Built upon this notion, we propose an efficient methodology for obtaining FGAI, which can be viewed as an ad hoc modification to the canonical Attention-based GNNs. To validate our proposed solution, we introduce two novel metrics tailored for graph interpretation assessment. Experimental results demonstrate that FGAI exhibits superior stability and preserves the interpretability of attention under various forms of perturbations and randomness, which makes FGAI a more faithful and reliable explanation tool.

arxiv情報

著者 Lijie Hu,Tianhao Huang,Lu Yu,Wanyu Lin,Tianhang Zheng,Di Wang
発行日 2024-10-09 14:47:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Support Vector Boosting Machine (SVBM): Enhancing Classification Performance with AdaBoost and Residual Connections

要約

従来のブースティング アルゴリズムでは、誤って分類されたトレーニング サンプルに焦点を当てることで、学習プロセス中の難易度に基づいてその重要性が強調されます。
標準のサポート ベクター マシン (SVM) を AdaBoost フレームワークの弱学習器として使用すると、エラー サンプルに集中することでモデルのパフォーマンスを向上させることができますが、このアプローチでは重大な課題が生じます。
具体的には、安定性と堅牢性を特徴とする SVM は、ブースティング パラダイムに適合させるために不安定化を必要とする場合があり、その結果、前の反復からの重み付けされた結果に依存するため、パフォーマンスが制限される可能性があります。
これらの課題に対処するために、新しいサブサンプリング プロセスと SVM アルゴリズムおよび残留接続技術を統合するサポート ベクター ブースティング マシン (SVBM) を提案します。
このメソッドは、現在のモデルの予測と以前のラウンドからの出力の両方を考慮してサンプルの重みを更新し、効果的なスパース性制御を可能にします。
SVBM フレームワークは、複雑な決定境界を形成する機能を強化し、それによって分類パフォーマンスを向上させます。
SVBM の MATLAB ソース コードには、https://github.com/junbolian/SVBM からアクセスできます。

要約(オリジナル)

In traditional boosting algorithms, the focus on misclassified training samples emphasizes their importance based on difficulty during the learning process. While using a standard Support Vector Machine (SVM) as a weak learner in an AdaBoost framework can enhance model performance by concentrating on error samples, this approach introduces significant challenges. Specifically, SVMs, characterized by their stability and robustness, may require destabilization to fit the boosting paradigm, which in turn can constrain performance due to reliance on the weighted results from preceding iterations. To address these challenges, we propose the Support Vector Boosting Machine (SVBM), which integrates a novel subsampling process with SVM algorithms and residual connection techniques. This method updates sample weights by considering both the current model’s predictions and the outputs from prior rounds, allowing for effective sparsity control. The SVBM framework enhances the ability to form complex decision boundaries, thereby improving classification performance. The MATLAB source code for SVBM can be accessed at https://github.com/junbolian/SVBM.

arxiv情報

著者 Junbo Jacob Lian
発行日 2024-10-09 14:55:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

A Stability Principle for Learning under Non-Stationarity

要約

私たちは、非定常環境における統計学習のための多用途のフレームワークを開発します。
各期間において、私たちのアプローチは安定性原理を適用して、累積バイアスを確率的誤差に対して許容範囲内に保ちながら履歴データの利用を最大化するルックバックウィンドウを選択します。
私たちの理論と数値実験は、未知の非定常性に対するこのアプローチの適応性を示しています。
母集団の損失が強く凸である場合、またはリプシッツのみの場合に、対数因数までの最小最適値であるリグレス限界を証明します。
私たちの分析の中心には、関数間の類似性の尺度と、非定常データ シーケンスを準定常部​​分に分割するセグメンテーション技術という 2 つの新しいコンポーネントがあります。

要約(オリジナル)

We develop a versatile framework for statistical learning in non-stationary environments. In each time period, our approach applies a stability principle to select a look-back window that maximizes the utilization of historical data while keeping the cumulative bias within an acceptable range relative to the stochastic error. Our theory and numerical experiments showcase the adaptivity of this approach to unknown non-stationarity. We prove regret bounds that are minimax optimal up to logarithmic factors when the population losses are strongly convex, or Lipschitz only. At the heart of our analysis lie two novel components: a measure of similarity between functions and a segmentation technique for dividing the non-stationary data sequence into quasi-stationary pieces.

arxiv情報

著者 Chengpiao Huang,Kaizheng Wang
発行日 2024-10-09 14:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 90C15, cs.AI, cs.LG, math.OC, stat.ML | コメントする

Self-Boosting Large Language Models with Synthetic Preference Data

要約

人間の好みに合わせることで、大規模言語モデル (LLM) は、正直で無害で役立つ応答を生成する点で大幅に進歩しました。
ただし、高品質の嗜好データの収集は、特に LLM の継続的な改善にとって、リソースを大量に消費し、創造性を必要とするプロセスです。
モデルの調整に合成選好データを活用する自己ブースティング パラダイムである SynPO を紹介します。
SynPO は反復メカニズムを採用しており、セルフ プロンプト ジェネレーターがさまざまなプロンプトを作成し、応答改善機能がモデルの応答を段階的に改良します。
このアプローチは、LLM が自身の出力に対する生成的な報酬を自律的に学習するように訓練し、プロンプトや人間の好みの大規模な注釈の必要性を排除します。
SynPO を 4 回繰り返した後、Llama3-8B と Mistral-7B は指示に従う能力が大幅に向上し、AlpacaEval 2.0 と ArenaHard で 22.1% 以上の勝率向上を達成しました。
同時に、SynPO はさまざまなタスクにおける LLM の一般的なパフォーマンスを向上させ、よく知られた Open LLM リーダーボードで平均スコアが 3.2 から 5.0 増加することで実証されています。

要約(オリジナル)

Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.

arxiv情報

著者 Qingxiu Dong,Li Dong,Xingxing Zhang,Zhifang Sui,Furu Wei
発行日 2024-10-09 14:57:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Uncovering Factor Level Preferences to Improve Human-Model Alignment

要約

大規模言語モデル (LLM) の調整が進歩したにもかかわらず、LLM 設定の背後にある理由を理解することは、望ましい動作と実際の動作の間のギャップを埋めるために依然として重要です。
LLM は、特定の書き方を好んだり、過度に冗長な出力を生成したりするなど、人間の好みとは異なるバイアスや傾向を示すことがよくあります。
しかし、嗜好の整合性を評価するための現在の方法は、多くの場合、説明可能性に欠けており、粗い比較に依存しています。
これに対処するために、プリファレンスを駆動する特定の要因の影響を明らかにし、定量化する新しいフレームワークである PROFILE (PRObing Factors of InfLuence for Explainability) を導入します。
PROFILE の因子レベル分析は、人間とモデルの整合性と不整合の背後にある「理由」を説明し、モデル改善の方向性についての洞察を提供します。
私たちは PROFILE を適用して、要約、役立つ応答の生成、文書ベースの質問応答という 3 つのタスクにわたって人間と LLM の好みを分析します。
私たちの因子レベル分析により、生成タスクでは人間と LLM の好みの間に大きな差異があることが明らかになりましたが、LLM は評価タスクでは人間の好みと強い一致を示しました。
私たちは、不整合な要因への対処や世代と評価のギャップの活用など、要因レベルの洞察を活用することで、人間の好みとの整合性をどのように改善できるかを実証します。
この研究は、説明可能な嗜好分析の重要性を強調し、貴重なトレーニング信号を提供する PROFILE の可能性を強調し、人間モデルの整合性をさらに向上させます。

要約(オリジナル)

Despite advancements in Large Language Model (LLM) alignment, understanding the reasons behind LLM preferences remains crucial for bridging the gap between desired and actual behavior. LLMs often exhibit biases or tendencies that diverge from human preferences, such as favoring certain writing styles or producing overly verbose outputs. However, current methods for evaluating preference alignment often lack explainability, relying on coarse-grained comparisons. To address this, we introduce PROFILE (PRObing Factors of InfLuence for Explainability), a novel framework that uncovers and quantifies the influence of specific factors driving preferences. PROFILE’s factor level analysis explains the ‘why’ behind human-model alignment and misalignment, offering insights into the direction of model improvement. We apply PROFILE to analyze human and LLM preferences across three tasks: summarization, helpful response generation, and document-based question-answering. Our factor level analysis reveals a substantial discrepancy between human and LLM preferences in generation tasks, whereas LLMs show strong alignment with human preferences in evaluation tasks. We demonstrate how leveraging factor level insights, including addressing misaligned factors or exploiting the generation-evaluation gap, can improve alignment with human preferences. This work underscores the importance of explainable preference analysis and highlights PROFILE’s potential to provide valuable training signals, driving further improvements in human-model alignment.

arxiv情報

著者 Juhyun Oh,Eunsu Kim,Jiseon Kim,Wenda Xu,Inha Cha,William Yang Wang,Alice Oh
発行日 2024-10-09 15:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

DLGNet: Hyperedge Classification through Directed Line Graphs for Chemical Reactions

要約

グラフとハイパーグラフは、対象となる一連のエンティティ間の相互作用をモデル化するための強力な抽象化を提供し、いくつかの分野で多くの成功したアプリケーションのおかげで、文献での関心が高まっています。
特に化学や生物学などの分野、特に創薬や分子生成の分野で急速に拡大しています。
急速な成長が見られる分野の 1 つは化学反応分野であり、化学反応はハイパーグラフの有向ハイパーエッジとして自然にエンコードできます。
この論文では、特定の有向ハイパーグラフに関連付けられた有向線グラフ (DGL) の表記法を導入することで、化学反応の分類問題に取り組みます。
その上に、有向線グラフ ネットワーク (DLGNet) を構築します。これは、DLG 変換を介してハイパーグラフ上で動作するように明示的に設計された初のスペクトルベースのグラフ ニューラル ネットワーク (GNN) です。
DLGNet の基礎は、新しいエルミート行列である有向折れ線グラフ ラプラシアンです。これは、DLG 表現のおかげで、ハイパーグラフの有向ハイパーエッジ内で発生する相互作用の方向性をコンパクトにエンコードします。
有向折れ線グラフ ラプラシアンには、固有値分解の許容や正の半定値であるなど、多くの望ましい特性があり、スペクトルベースの GNN 内での採用に適しています。
化学反応データセットに関する広範な実験を通じて、DGLNet が既存のアプローチを大幅に上回り、実世界のデータセットのコレクションで平均相対パーセンテージ差 33.01% の改善、最大 37.71% の改善を達成したことを示しました。

要約(オリジナル)

Graphs and hypergraphs provide powerful abstractions for modeling interactions among a set of entities of interest and have been attracting a growing interest in the literature thanks to many successful applications in several fields. In particular, they are rapidly expanding in domains such as chemistry and biology, especially in the areas of drug discovery and molecule generation. One of the areas witnessing the fasted growth is the chemical reactions field, where chemical reactions can be naturally encoded as directed hyperedges of a hypergraph. In this paper, we address the chemical reaction classification problem by introducing the notation of a Directed Line Graph (DGL) associated with a given directed hypergraph. On top of it, we build the Directed Line Graph Network (DLGNet), the first spectral-based Graph Neural Network (GNN) expressly designed to operate on a hypergraph via its DLG transformation. The foundation of DLGNet is a novel Hermitian matrix, the Directed Line Graph Laplacian, which compactly encodes the directionality of the interactions taking place within the directed hyperedges of the hypergraph thanks to the DLG representation. The Directed Line Graph Laplacian enjoys many desirable properties, including admitting an eigenvalue decomposition and being positive semidefinite, which make it well-suited for its adoption within a spectral-based GNN. Through extensive experiments on chemical reaction datasets, we show that DGLNet significantly outperforms the existing approaches, achieving on a collection of real-world datasets an average relative-percentage-difference improvement of 33.01%, with a maximum improvement of 37.71%.

arxiv情報

著者 Stefano Fiorini,Giulia M. Bovolenta,Stefano Coniglio,Michele Ciavotta,Pietro Morerio,Michele Parrinello,Alessio Del Bue
発行日 2024-10-09 15:07:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Personal Intelligence System UniLM: Hybrid On-Device Small Language Model and Server-Based Large Language Model for Malay Nusantara

要約

計算リソースとデータ リソースが限られている状況では、特にマレー語特有のニーズに対処する場合、高リソースの言語モデルは不適切であることが判明することがよくあります。
このペーパーでは、オンデバイス モデルとサーバー ベースのモデルの両方を効率的に統合するように設計されたパーソナル インテリジェンス システムについて紹介します。
このシステムには、低メモリと低消費電力向けに最適化されたオンデバイス処理用の SLiM-34M と、サーバーベースのタスク用の MANYAK-1.3B が組み込まれており、スケーラブルで高性能な言語処理が可能です。
このモデルは、機械翻訳、質問応答、IndoMMLU の翻訳など、さまざまなタスクにわたって重要な結果を達成します。
特に注目すべきは、SLiM-34M が、他の LLM と比較して、使用する事前トレーニング トークンの量を 2 分の 1 にしながら、精度の高い向上を達成できることです。
この研究は、効果的な言語モデルを構築するには大規模な計算リソースが必要であるという一般的な仮定に疑問を投げかけ、SLiM-34M と MANYAK-1.3B の間の独自のオーケストレーションによるマレー語のリソース効率の高いモデルの開発に貢献します。

要約(オリジナル)

In contexts with limited computational and data resources, high-resource language models often prove inadequate, particularly when addressing the specific needs of Malay languages. This paper introduces a Personal Intelligence System designed to efficiently integrate both on-device and server-based models. The system incorporates SLiM-34M for on-device processing, optimized for low memory and power usage, and MANYAK-1.3B for server-based tasks, allowing for scalable, high-performance language processing. The models achieve significant results across various tasks, such as machine translation, question-answering, and translate IndoMMLU. Particularly noteworthy is SLiM-34M’s ability to achieve a high improvement in accuracy compared to other LLMs while using 2 times fewer pre-training tokens. This work challenges the prevailing assumption that large-scale computational resources are necessary to build effective language models, contributing to the development of resource-efficient models for the Malay language with the unique orchestration between SLiM-34M and MANYAK-1.3B.

arxiv情報

著者 Azree Nazri,Olalekan Agbolade,Faisal Aziz
発行日 2024-10-09 15:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする