ExplainReduce: Summarising local explanations via proxies

要約

最も一般的に使用される非線形機械学習方法は、人間にとって解釈できないクローズドボックスモデルです。
説明可能な人工知能(XAI)の分野は、これらの閉じたボックスの内部の仕組みを調べるためのツールを開発することを目指しています。
XAIに対する頻繁に使用されるモデルに依存しないアプローチには、局所近似として単純なモデルを使用して、いわゆる局所的な説明を生成することが含まれます。
このアプローチの例には、石灰、整形、スリセマップが含まれます。
このペーパーでは、大規模な一連のローカル説明を、単純なモデルの小さな「プロキシセット」にどのように削減できるかを示しています。これは、生成的なグローバルな説明として機能する可能性があります。
説明されたこの削減手順は、最適化の問題として定式化することができ、貪欲なヒューリスティックを使用して効率的に近似することができます。

要約(オリジナル)

Most commonly used non-linear machine learning methods are closed-box models, uninterpretable to humans. The field of explainable artificial intelligence (XAI) aims to develop tools to examine the inner workings of these closed boxes. An often-used model-agnostic approach to XAI involves using simple models as local approximations to produce so-called local explanations; examples of this approach include LIME, SHAP, and SLISEMAP. This paper shows how a large set of local explanations can be reduced to a small ‘proxy set’ of simple models, which can act as a generative global explanation. This reduction procedure, ExplainReduce, can be formulated as an optimisation problem and approximated efficiently using greedy heuristics.

arxiv情報

著者 Lauri Seppäläinen,Mudong Guo,Kai Puolamäki
発行日 2025-02-14 17:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, I.2.4 | ExplainReduce: Summarising local explanations via proxies はコメントを受け付けていません

Process Reward Models for LLM Agents: Practical Framework and Directions

要約

LLMエージェントをトレーニングするためのシンプルでスケーラブルなフレームワークであるエージェントプロセス報酬モデル(AgentPRM)を紹介し、相互作用を通じて継続的に改善します。
AgentPRMは、モンテカルロロールアウトを使用して報酬目標を計算し、ポリシーを最適化するために、軽量の俳優criticパラダイムに従います。
既存のRLHFパイプラインを最小限に抑える必要があり、大規模に統合しやすくします。
AgentPrmを超えて、inversePrmを提案します。これは、明示的な結果監督なしでプロセスの報酬をデモンストレーションから直接学習します。
また、探査、プロセス報酬の形成、モデル予測の推論など、重要な課題と機会を探ります。
AlfWorldベンチマークで評価し、AgentPRMとInversePRMでトレーニングされた小さな3Bモデルが強力なGPT-4Oベースラインよりも優れていることを示し、テスト時間スケーリング、報酬ハッキングなどを分析します。
私たちのコードは、https://github.com/sanjibanc/agent_prmで入手できます。

要約(オリジナル)

We introduce Agent Process Reward Models (AgentPRM), a simple and scalable framework for training LLM agents to continually improve through interactions. AgentPRM follows a lightweight actor-critic paradigm, using Monte Carlo rollouts to compute reward targets and optimize policies. It requires minimal modifications to existing RLHF pipelines, making it easy to integrate at scale. Beyond AgentPRM, we propose InversePRM, which learns process rewards directly from demonstrations without explicit outcome supervision. We also explore key challenges and opportunities, including exploration, process reward shaping, and model-predictive reasoning. We evaluate on ALFWorld benchmark, show that small 3B models trained with AgentPRM and InversePRM outperform strong GPT-4o baselines, and analyze test-time scaling, reward hacking, and more. Our code is available at: https://github.com/sanjibanc/agent_prm.

arxiv情報

著者 Sanjiban Choudhury
発行日 2025-02-14 17:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Process Reward Models for LLM Agents: Practical Framework and Directions はコメントを受け付けていません

ResearchArena: Benchmarking Large Language Models’ Ability to Collect and Organize Information as Research Agents

要約

大規模な言語モデル(LLM)は、多くの自然言語処理タスクで優れていますが、研究調査の実施などのドメイン固有の分析タスクで課題に直面しています。
この研究では、学術調査の基本的なステップの学術調査$ \ unicode {x2013} $を実施する際にLLMSの機能を評価するために設計されたベンチマークであるResearchArenaを紹介します。
ResearchArenaは、3つの段階でプロセスをモデル化します。(1)情報の発見、関連する文献の特定。
(2)情報の選択、論文の関連性と影響の評価。
(3)情報組織、マインドマップなどの階層的なフレームワークへの知識を構成する。
特に、マインドマップの構築は、調査執筆における補足的な役割を反映して、ボーナスタスクとして扱われます。
これらの評価をサポートするために、12mフルテキストのアカデミックペーパーと7.9kの調査論文のオフライン環境を構築します。
倫理的コンプライアンスを確保するために、著作権で保護された材料を再分配しません。
代わりに、Semantic Sc​​holar Open Research Corpus(S2ORC)から環境を構築するためのコードを提供します。
予備的な評価により、LLMベースのアプローチは、より単純なキーワードベースの検索方法と比較してパフォーマンスが低いことが明らかになり、自律研究でLLMを進めるための重要な機会を強調しています。

要約(オリジナル)

Large language models (LLMs) excel across many natural language processing tasks but face challenges in domain-specific, analytical tasks such as conducting research surveys. This study introduces ResearchArena, a benchmark designed to evaluate LLMs’ capabilities in conducting academic surveys$\unicode{x2013}$a foundational step in academic research. ResearchArena models the process in three stages: (1) information discovery, identifying relevant literature; (2) information selection, evaluating papers’ relevance and impact; and (3) information organization, structuring knowledge into hierarchical frameworks such as mind-maps. Notably, mind-map construction is treated as a bonus task, reflecting its supplementary role in survey-writing. To support these evaluations, we construct an offline environment of 12M full-text academic papers and 7.9K survey papers. To ensure ethical compliance, we do not redistribute copyrighted materials; instead, we provide code to construct the environment from the Semantic Scholar Open Research Corpus (S2ORC). Preliminary evaluations reveal that LLM-based approaches underperform compared to simpler keyword-based retrieval methods, underscoring significant opportunities for advancing LLMs in autonomous research.

arxiv情報

著者 Hao Kang,Chenyan Xiong
発行日 2025-02-14 17:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | ResearchArena: Benchmarking Large Language Models’ Ability to Collect and Organize Information as Research Agents はコメントを受け付けていません

SuperMerge: An Approach For Gradient-Based Model Merging

要約

ChatGpt、Claude、Llamaなどの大規模な言語モデルは、巨大でモノリシックであり、数千のタスクを同時にサポートするための超大国を所有しています。
ただし、ハイスループットアプリケーションは、遅延とコストが低いため、タスク固有のモデルが小さいことが多いことがよくあります。
タスク固有のモデルを使用することの1つの課題は、既存のタスク用にモデルが既に展開されている後に、新しいタスクを解決するための漸進的な必要性です。
簡単なソリューションでは、既存のタスクと新しいタスクの両方に対してモデルを再度微調整する必要があります。これは、計算的に高価で時間がかかります。
この問題に対処するために、SuperMergeと呼ばれるモデルマージベースのアプローチを提案します。
SuperMergeは、既存のタスクと新しいタスクでトレーニングされたいくつかの微調整されたモデルを体系的にマージするグラデーションベースの方法です。
SuperMergeは軽量で高速になるように設計されており、マージされたモデルは、すべてのタスクで完全に微調整されたモデルと同様のパフォーマンスを実現します。
さらに、マージモデルのパフォーマンスを犠牲にすることなく、ピーク空間要件を減らすために、階層モデルの合併戦略を提案しました。
スーパーマージは、一般的な自然言語処理とコンピュータービジョンタスクに関する既存のモデルの融合方法を上回ることを実験的に実証します。

要約(オリジナル)

Large language models, such as ChatGPT, Claude, or LLaMA, are gigantic, monolithic, and possess the superpower to simultaneously support thousands of tasks. However, high-throughput applications often prefer smaller task-specific models because of their lower latency and cost. One challenge of using task-specific models is the incremental need for solving newer tasks after the model is already deployed for existing tasks. A straightforward solution requires fine-tuning the model again for both existing and new tasks, which is computationally expensive and time-consuming. To address this issue, we propose a model merging based approach called SUPERMERGE. SUPERMERGE is a gradient-based method to systematically merge several fine-tuned models trained on existing and new tasks. SUPERMERGE is designed to be lightweight and fast, and the merged model achieves similar performance to fully fine-tuned models on all tasks. Furthermore, we proposed a hierarchical model merging strategy to reduce the peak space requirement without sacrificing the performance of the merged model. We experimentally demonstrate that SUPERMERGE outperforms existing model merging methods on common natural language processing and computer vision tasks.

arxiv情報

著者 Haoyu Yang,Zheng Zhang,Saket Sathe
発行日 2025-02-14 17:40:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SuperMerge: An Approach For Gradient-Based Model Merging はコメントを受け付けていません

Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering

要約

大規模な言語モデル(LLM)は自然言語のタスクに優れていますが、複雑でマルチステップの推論を必要とする問題応答(QA)タスクで課題に直面しています。
これらのタスクのいくつかに必要な推論の種類の概要を説明し、メタレベルの推論(高レベルの戦略的推論または計画に似ています)とオブジェクトレベルの推論(数学的推論などの低レベルのタスクで具体化されています。
)。
メタレベルの推論とオブジェクトレベルの推論の要件を備えた新しいデータセットであるフランクリンが導入され、他の3つのデータセットとともに使用され、複数の推論の必要な質問に答える質問で4つのLLMを評価します。
人間の注釈研究の結果は、LLMが高頻度でメタレベルの推論を示していることを示唆していますが、使用されるデータセットの一部のオブジェクトレベルの推論タスクと闘っています。
さらに、LLMSは、Franklin Datasetの質問に必要なオブジェクトレベルの推論が挑戦的であることを示唆していますが、メタレベルの推論要件に関して強力なパフォーマンスを示しています。

要約(オリジナル)

Large Language Models (LLMs) excel in natural language tasks but still face challenges in Question Answering (QA) tasks requiring complex, multi-step reasoning. We outline the types of reasoning required in some of these tasks, and reframe them in terms of meta-level reasoning (akin to high-level strategic reasoning or planning) and object-level reasoning (embodied in lower-level tasks such as mathematical reasoning). Franklin, a novel dataset with requirements of meta- and object-level reasoning, is introduced and used along with three other datasets to evaluate four LLMs at question answering tasks requiring multiple steps of reasoning. Results from human annotation studies suggest LLMs demonstrate meta-level reasoning with high frequency, but struggle with object-level reasoning tasks in some of the datasets used. Additionally, evidence suggests that LLMs find the object-level reasoning required for the questions in the Franklin dataset challenging, yet they do exhibit strong performance with respect to the meta-level reasoning requirements.

arxiv情報

著者 Nick Ferguson,Liane Guillou,Alan Bundy,Kwabena Nuamah
発行日 2025-02-14 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering はコメントを受け付けていません

STAR: Spectral Truncation and Rescale for Model Merging

要約

モデルのマージは、さらに微調整することなく、いくつかの前提条件モデルからマルチタスクモデルを取得する効率的な方法であり、自然言語処理(NLP)を含むさまざまなドメインで注目を集めています。
効率にもかかわらず、モデルの合併における重要な課題は、モデルの数が増えるにつれて、タスクのパフォーマンスの一見避けられないほどの減少です。
この論文では、$ \ mathbf {s} $ pectral $ \ mathbf {t} $ runcation $ \ mathbf {a} $ nd $ $ \ mathbf {r} $ escale(星)を緩和することを目的としています。
‘それぞれのスペクトルスペースに小さなコンポーネントを切り捨てることにより、元のマトリックスの核基準を保持するための自動パラメーターの再スケーリングスキームが続きます。
STARは、元のトレーニングデータに関する追加の推論を必要とせず、ハイパーパラマターの選択に堅牢です。
多様なNLPタスクに対する大規模なモデルのマージケースを通じて、星の有効性を実証します。
具体的には、Starはさまざまなモデルサイズで堅牢に動作し、Flan-T5で12モデルをマージすると、ベースラインを4.2 $ \%$よりも優れています。
私たちのコードは、https://github.com/ibm/starで公開されています。

要約(オリジナル)

Model merging is an efficient way of obtaining a multi-task model from several pretrained models without further fine-tuning, and it has gained attention in various domains, including natural language processing (NLP). Despite the efficiency, a key challenge in model merging is the seemingly inevitable decrease in task performance as the number of models increases. In this paper, we propose $\mathbf{S}$pectral $\mathbf{T}$runcation $\mathbf{A}$nd $\mathbf{R}$escale (STAR) that aims at mitigating “merging conflicts” by truncating small components in the respective spectral spaces, which is followed by an automatic parameter rescaling scheme to retain the nuclear norm of the original matrix. STAR requires no additional inference on original training data and is robust to hyperparamater choice. We demonstrate the effectiveness of STAR through extensive model merging cases on diverse NLP tasks. Specifically, STAR works robustly across varying model sizes, and can outperform baselines by 4.2$\%$ when merging 12 models on Flan-T5. Our code is publicly available at https://github.com/IBM/STAR.

arxiv情報

著者 Yu-Ang Lee,Ching-Yun Ko,Tejaswini Pedapati,I-Hsin Chung,Mi-Yen Yeh,Pin-Yu Chen
発行日 2025-02-14 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | STAR: Spectral Truncation and Rescale for Model Merging はコメントを受け付けていません

MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs

要約

大規模な言語モデル(LLMS)は、高精度で算術的な単語の問題を解決できますが、より複雑な問題にどれだけよく一般化するかについてはほとんど知られていません。
(i)利用可能な評価データの多くは、トレーニング中に最も有能なモデルですでに見られているため、(ii)既存のベンチマークは、問題の証明がさまざまな方法で任意に複雑である可能性があるため、既存のベンチマークを把握していないため、研究が困難です。
この論文では、Mathgapと呼ばれる任意の複雑な算術証明の問題に関するLLMを評価するためのデータ生成フレームワークを紹介します。
Mathgapは、算術的な証明構造に関する仕様に従って問題の声明と考え方の推論の痕跡を生成し、樹木の複雑さに関する容易な一般化に関する体系的な研究を可能にします。
Mathgapを使用すると、LLMSは、証明がより深く、より広くなるにつれて、パフォーマンスの大幅な減少を示していることがわかります。
この効果は、複雑で非線形の証明構造でより顕著であり、最も有能なモデルでも挑戦的です。
モデルは、文の順序付けの単純な変更にも敏感です。
しかし、彼らはいくつかの複雑な問題を解決することができ、推論の一般化はうるさいことを示唆しています。

要約(オリジナル)

Large language models (LLMs) can solve arithmetic word problems with high accuracy, but little is known about how well they generalize to more complex problems. This is difficult to study, as (i) much of the available evaluation data has already been seen by the most capable models during training, and (ii) existing benchmarks do not capture how problem proofs may be arbitrarily complex in various ways. In this paper, we present a data-generation framework for evaluating LLMs on problems with arbitrarily complex arithmetic proofs, called MathGAP. MathGAP generates problem statements and chain-of-thought reasoning traces according to specifications about their arithmetic proof structure, enabling systematic studies on easy-to-hard generalization with respect to complexity of proof trees. Using MathGAP, we find that LLMs show a significant decrease in performance as proofs get deeper and wider. This effect is more pronounced in complex, nonlinear proof structures, which are challenging even for the most capable models. The models are also sensitive to simple changes in sentence ordering. However, they remain capable of solving some complex problems, suggesting that reasoning generalization is noisy.

arxiv情報

著者 Andreas Opedal,Haruki Shirakami,Bernhard Schölkopf,Abulhair Saparov,Mrinmaya Sachan
発行日 2025-02-14 18:15:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs はコメントを受け付けていません

The Graph’s Apprentice: Teaching an LLM Low Level Knowledge for Circuit Quality Estimation

要約

ロジック合成は、ハードウェア説明言語(HDL)設計を最適化されたネットリストに変換することを担当する回路設計プロセスの重要な段階です。
ただし、従来の論理合成方法は計算集中的であり、チップ設計の改良における反復的な使用を制限しています。
大規模な言語モデル(LLM)、特にプログラミング言語で微調整された言語モデル(LLMS)の最近の進歩は、有望な代替案を提示します。
この作業は、HDLコードから直接回路の品質を推定するように訓練された予測因子ネットワークでLLMを増強することを提案しています。
パフォーマンスを向上させるために、ルックアップテーブル(LUT)グラフでトレーニングされたグラフニューラルネットワーク(GNNS)の埋め込みを使用してモデルを正規化し、それによって下位レベルの回路の洞察を組み込んでいます。
提案された方法は、HDLコードの品質に関する即時フィードバックを提供しながら、既存のグラフベースのRTLレベルの推定技術と比較して優れたパフォーマンスを示しています。

要約(オリジナル)

Logic synthesis is a crucial phase in the circuit design process, responsible for transforming hardware description language (HDL) designs into optimized netlists. However, traditional logic synthesis methods are computationally intensive, restricting their iterative use in refining chip designs. Recent advancements in large language models (LLMs), particularly those fine-tuned on programming languages, present a promising alternative. This work proposes augmenting LLMs with predictor networks trained to estimate circuit quality directly from HDL code. To enhance performance, the model is regularized using embeddings from graph neural networks (GNNs) trained on Look-Up Table (LUT) graphs, thereby incorporating lower-level circuit insights. The proposed method demonstrates superior performance compared to existing graph-based RTL-level estimation techniques on the established benchmark OpenABCD, while providing instant feedback on HDL code quality.

arxiv情報

著者 Reza Moravej,Saurabh Bodhe,Zhanguang Zhang,Didier Chetelat,Dimitrios Tsaras,Yingxue Zhang,Hui-Ling Zhen,Jianye Hao,Mingxuan Yuan
発行日 2025-02-14 18:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CL, cs.LG | The Graph’s Apprentice: Teaching an LLM Low Level Knowledge for Circuit Quality Estimation はコメントを受け付けていません

BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds

要約

まばらな足場で危険な地形を横断することは、ヒューマノイドロボットに大きな課題をもたらし、正確な足の配置と安定した移動を必要とします。
四足動物ロボット向けに設計された既存のアプローチは、足の形状と不安定な形態の違いによりヒューマノイドロボットに一般化できないことがよくありますが、ヒューマノイド運動のための学習ベースのアプローチは、毛の毛様式の報酬信号と非効率的な学習プロセスのために、複雑な地形の大きな課題に直面しています。
これらの課題に対処するために、スパースの足場でアジャイルヒューマノイド移動を可能にするために設計された強化学習(RL)フレームワークであるBeam​​dojoを紹介します。
Beamdojoは、ポリゴンの足に合わせたサンプリングベースの足場報酬を導入することから始まり、密な移動報酬とまばらな足場報酬の間の学習プロセスのバランスをとる二重批評家とともに始めます。
十分なトレイルアンドエラー探査を促進するために、Beamdojoには2段階のRLアプローチが組み込まれています。最初の段階では、タスク地形の知覚的観測を提供しながら、フラット地形でヒューマノイドをトレーニングすることで地形のダイナミクスをリラックスさせ、第2段階は微調整します。
実際のタスク地形に関するポリシー。
さらに、現実世界の展開を可能にするために、オンボードLIDARベースの標高マップを実装します。
広範なシミュレーションと現実世界の実験は、Beamdojoがシミュレーションで効率的な学習を達成し、現実世界のまばらな足場に正確な足を配置することでアジャイルな移動を可能にし、重要な外乱の下でも高い成功率を維持することを示しています。

要約(オリジナル)

Traversing risky terrains with sparse footholds poses a significant challenge for humanoid robots, requiring precise foot placements and stable locomotion. Existing approaches designed for quadrupedal robots often fail to generalize to humanoid robots due to differences in foot geometry and unstable morphology, while learning-based approaches for humanoid locomotion still face great challenges on complex terrains due to sparse foothold reward signals and inefficient learning processes. To address these challenges, we introduce BeamDojo, a reinforcement learning (RL) framework designed for enabling agile humanoid locomotion on sparse footholds. BeamDojo begins by introducing a sampling-based foothold reward tailored for polygonal feet, along with a double critic to balancing the learning process between dense locomotion rewards and sparse foothold rewards. To encourage sufficient trail-and-error exploration, BeamDojo incorporates a two-stage RL approach: the first stage relaxes the terrain dynamics by training the humanoid on flat terrain while providing it with task terrain perceptive observations, and the second stage fine-tunes the policy on the actual task terrain. Moreover, we implement a onboard LiDAR-based elevation map to enable real-world deployment. Extensive simulation and real-world experiments demonstrate that BeamDojo achieves efficient learning in simulation and enables agile locomotion with precise foot placement on sparse footholds in the real world, maintaining a high success rate even under significant external disturbances.

arxiv情報

著者 Huayi Wang,Zirui Wang,Junli Ren,Qingwei Ben,Tao Huang,Weinan Zhang,Jiangmiao Pang
発行日 2025-02-14 18:42:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds はコメントを受け付けていません

OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models

要約

ニューラルスケーリング法則は、堅牢なシーケンス処理アーキテクチャを設計するための貴重な洞察を提供します。
これらの法律は他のモダリティで広範囲に特徴付けられていますが、スピーチの行動は比較的目立たないままです。
この作業では、0.25Bから18Bパラメーターに及ぶ多言語の音声認識と翻訳モデルのオープンアクセスの再現可能なスイートであるOwlsを紹介します。
Owlsは、150の言語で最大36万時間のパブリック音声データを活用して、多言語の音声タスクにおける各影響パフォーマンスのデータ、モデル化、および計算方法を体系的に調査することができます。
フクロウを使用して、神経スケーリング法則を導き出し、スケーリング時に最終的なパフォーマンスを確実に予測する方法を示します。
私たちの重要な調査結果の1つは、スケーリングが低リソース言語/方言のパフォーマンスを向上させ、バイアスを軽減し、音声技術のアクセシビリティを改善するのに役立つことです。
最後に、大規模な音声モデルで緊急能力を発見することにより、フクロウを使用して新しい研究の方向性を促進する方法を示します。
モデルチェックポイントは、https://huggingface.co/collections/espnet/owls-scaling-laws-for-sepeech-agecognition-and-translation-67AB7F991C194065F057CE8Dで将来の研究のためにリリースされます。

要約(オリジナル)

Neural scaling laws offer valuable insights for designing robust sequence processing architectures. While these laws have been extensively characterized in other modalities, their behavior in speech remains comparatively underexplored. In this work, we introduce OWLS, an open-access, reproducible suite of multilingual speech recognition and translation models spanning 0.25B to 18B parameters, with the 18B version being the largest speech model, to the best of our knowledge. OWLS leverages up to 360K hours of public speech data across 150 languages, enabling a systematic investigation into how data, model, and compute scaling each influence performance in multilingual speech tasks. We use OWLS to derive neural scaling laws, showing how final performance can be reliably predicted when scaling. One of our key findings is that scaling enhances performance on low-resource languages/dialects, helping to mitigate bias and improve the accessibility of speech technologies. Finally, we show how OWLS can be used to power new research directions by discovering emergent abilities in large-scale speech models. Model checkpoints will be released on https://huggingface.co/collections/espnet/owls-scaling-laws-for-speech-recognition-and-translation-67ab7f991c194065f057ce8d for future studies.

arxiv情報

著者 William Chen,Jinchuan Tian,Yifan Peng,Brian Yan,Chao-Han Huck Yang,Shinji Watanabe
発行日 2025-02-14 18:51:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models はコメントを受け付けていません