CAX: Cellular Automata Accelerated in JAX

要約

セルオートマトンは、神経科学、人工生命、理論物理学など、様々な科学分野にまたがる創発と自己組織化を研究するための基礎となっている。しかし、ハードウェアで高速化されたセルオートマトン・ライブラリーが存在しないため、新しい研究の方向性の探求が制限され、共同研究が妨げられ、再現性が妨げられている。本研究では、セルオートマトン研究を加速するために設計された、高性能で柔軟なオープンソースライブラリであるCAX(Cellular Automata Accelerated in JAX)を紹介する。CAXは、ユーザーフレンドリーなインターフェースを通じて、最先端の性能とモジュール設計を提供し、任意の次元数を持つ離散および連続セルオートマトンの両方をサポートすることができる。CAXの性能と柔軟性は、さまざまなベンチマークとアプリケーションによって実証されている。初等セルオートマトンやConway’s Game of Lifeのような古典的なモデルから、ニューラルセルオートマトンの成長やMNISTの数字を自己分類するような高度なアプリケーションまで、CAXはシミュレーションを最大2,000倍高速化する。さらに、CAXが研究を加速する可能性を、3つの新しいセルオートマトン実験のコレクションを紹介することによって示す。特に、単純な1次元セルオートマトンが、1D-ARC課題においてGPT-4を上回る性能を持つことを示す。

要約(オリジナル)

Cellular automata have become a cornerstone for investigating emergence and self-organization across diverse scientific disciplines, spanning neuroscience, artificial life, and theoretical physics. However, the absence of a hardware-accelerated cellular automata library limits the exploration of new research directions, hinders collaboration, and impedes reproducibility. In this work, we introduce CAX (Cellular Automata Accelerated in JAX), a high-performance and flexible open-source library designed to accelerate cellular automata research. CAX offers cutting-edge performance and a modular design through a user-friendly interface, and can support both discrete and continuous cellular automata with any number of dimensions. We demonstrate CAX’s performance and flexibility through a wide range of benchmarks and applications. From classic models like elementary cellular automata and Conway’s Game of Life to advanced applications such as growing neural cellular automata and self-classifying MNIST digits, CAX speeds up simulations up to 2,000 times faster. Furthermore, we demonstrate CAX’s potential to accelerate research by presenting a collection of three novel cellular automata experiments, each implemented in just a few lines of code thanks to the library’s modular architecture. Notably, we show that a simple one-dimensional cellular automaton can outperform GPT-4 on the 1D-ARC challenge.

arxiv情報

著者 Maxence Faldor,Antoine Cully
発行日 2024-10-03 16:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

Scalable Simulation-free Entropic Unbalanced Optimal Transport

要約

最適輸送(Optimal Transport, OT)問題は、与えられたコスト関数を最小化しながら2つの分布を結ぶ輸送写像を求める問題である。このような輸送写像を求めることは、生成モデリングや画像間の変換など、機械学習における様々な応用がある。本論文では、エントロピー的不均衡最適輸送(EUOT)問題を解くための、スケーラブルでシミュレーション不要なアプローチを紹介する。このEUOT問題の動的形式を導出し、これはSB問題の一般化である。これに基づき、確率的最適制御の解釈からEUOT問題の双対定式化と最適化条件を導出する。これらの性質を利用して、シミュレーションフリーのEUOT(SF-EUOT)と呼ばれるEUOTを解くアルゴリズムを提案する。既存のSBモデルでは、学習と評価の際に高価なシミュレーションコストが必要であるが、本モデルでは、逆数特性を利用することで、シミュレーションフリーの学習とワンステップ生成を実現する。我々のモデルは、従来のSB手法と比較して、生成モデリングや画像間の変換タスクにおいて著しく改善されたスケーラビリティを示す。

要約(オリジナル)

The Optimal Transport (OT) problem investigates a transport map that connects two distributions while minimizing a given cost function. Finding such a transport map has diverse applications in machine learning, such as generative modeling and image-to-image translation. In this paper, we introduce a scalable and simulation-free approach for solving the Entropic Unbalanced Optimal Transport (EUOT) problem. We derive the dynamical form of this EUOT problem, which is a generalization of the Schr\’odinger bridges (SB) problem. Based on this, we derive dual formulation and optimality conditions of the EUOT problem from the stochastic optimal control interpretation. By leveraging these properties, we propose a simulation-free algorithm to solve EUOT, called Simulation-free EUOT (SF-EUOT). While existing SB models require expensive simulation costs during training and evaluation, our model achieves simulation-free training and one-step generation by utilizing the reciprocal property. Our model demonstrates significantly improved scalability in generative modeling and image-to-image translation tasks compared to previous SB methods.

arxiv情報

著者 Jaemoo Choi,Jaewoong Choi
発行日 2024-10-03 16:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

Does Refusal Training in LLMs Generalize to the Past Tense?

要約

拒否訓練は、LLMが有害、望ましくない、あるいは違法な出力を生成するのを防ぐために広く使われている。我々は、現在の拒否訓練アプローチにおける不思議な汎化のギャップを明らかにする。有害な要求を過去形に言い換えるだけ(例えば、「火炎瓶の作り方」を「火炎瓶をどうやって作ったか」に言い換える)で、多くの最先端のLLMを脱獄させるのに十分な場合が多い。我々は、GPT-3.5 Turboを再定式化モデルとして、Llama-3 8B、Claude-3.5 Sonnet、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o mini、GPT-4o、o1-mini、o1-preview、R2D2モデルでこの方法を系統的に評価した。例えば、GPT-4oに対するこの単純な攻撃の成功率は、直接要求を使用した場合の1%から、脱獄判定としてGPT-4を使用したJailbreakBenchからの有害な要求に対する20回の過去時制の再定式化の試行を使用した場合の88%まで増加します。興味深いことに、我々はまた、未来時制での再定式化がより効果的でないことを発見し、拒否ガードレールは、仮想的な未来の質問よりも過去の歴史的な質問をより良性であるとみなす傾向があることを示唆している。さらに、GPT-3.5ターボのファインチューニング実験から、ファインチューニングデータに過去の時制の例が明示的に含まれている場合、過去の改竄に対する防御が可能であることが示された。全体として、我々の発見は、SFT、RLHF、敵対的訓練など、研究されたモデルを整列させるために広く使用されている整列技術は脆く、必ずしも意図したとおりに一般化されない可能性があることを強調している。コードと脱獄の成果物はhttps://github.com/tml-epfl/llm-past-tense。

要約(オリジナル)

Refusal training is widely used to prevent LLMs from generating harmful, undesirable, or illegal outputs. We reveal a curious generalization gap in the current refusal training approaches: simply reformulating a harmful request in the past tense (e.g., ‘How to make a Molotov cocktail?’ to ‘How did people make a Molotov cocktail?’) is often sufficient to jailbreak many state-of-the-art LLMs. We systematically evaluate this method on Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o mini, GPT-4o, o1-mini, o1-preview, and R2D2 models using GPT-3.5 Turbo as a reformulation model. For example, the success rate of this simple attack on GPT-4o increases from 1% using direct requests to 88% using 20 past tense reformulation attempts on harmful requests from JailbreakBench with GPT-4 as a jailbreak judge. Interestingly, we also find that reformulations in the future tense are less effective, suggesting that refusal guardrails tend to consider past historical questions more benign than hypothetical future questions. Moreover, our experiments on fine-tuning GPT-3.5 Turbo show that defending against past reformulations is feasible when past tense examples are explicitly included in the fine-tuning data. Overall, our findings highlight that the widely used alignment techniques — such as SFT, RLHF, and adversarial training — employed to align the studied models can be brittle and do not always generalize as intended. We provide code and jailbreak artifacts at https://github.com/tml-epfl/llm-past-tense.

arxiv情報

著者 Maksym Andriushchenko,Nicolas Flammarion
発行日 2024-10-03 16:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Grounded Answers for Multi-agent Decision-making Problem through Generative World Model

要約

近年の生成モデルの進歩は、画像生成やチャットボットなど、多くの分野で大きなイノベーションを促している。その成功にもかかわらず、これらのモデルは、人間のような試行錯誤の経験や推論を欠くため、複雑なマルチエージェントの意思決定問題に対して、大雑把で誤解を招くような解を生成することが多い。この限界に対処するために、我々は、生成された答えを強化するために、言語ガイド付きシミュレータをマルチエージェント強化学習パイプラインに統合するパラダイムを探求する。このシミュレータは、ダイナミクスと報酬を別々に学習するワールドモデルであり、ダイナミクスモデルは、画像トークン化器と、相互作用遷移を自己回帰的に生成する因果変換器から構成され、報酬モデルは、言語ガイドの下で、専門家のデモンストレーションにおける軌道の尤度を最大化することによって学習される双方向変換器である。現在の状態の画像とタスク記述が与えられたとき、ワールドモデルを用いて共同ポリシーを学習し、収束したポリシーをダイナミクスモデル上で実行することにより、画像シーケンスを答えとして生成する。実証結果は、StarCraft Multi-Agent Challengeベンチマークの訓練タスクと未見タスクで優れた性能を示すことにより、このフレームワークがマルチエージェント意思決定問題の解答を改善できることを示す。特に、一貫性のある相互作用シーケンスと、相互作用状態における説明可能な報酬関数を生成することができ、将来の生成モデルの訓練への道を開く。

要約(オリジナル)

Recent progress in generative models has stimulated significant innovations in many fields, such as image generation and chatbots. Despite their success, these models often produce sketchy and misleading solutions for complex multi-agent decision-making problems because they miss the trial-and-error experience and reasoning as humans. To address this limitation, we explore a paradigm that integrates a language-guided simulator into the multi-agent reinforcement learning pipeline to enhance the generated answer. The simulator is a world model that separately learns dynamics and reward, where the dynamics model comprises an image tokenizer as well as a causal transformer to generate interaction transitions autoregressively, and the reward model is a bidirectional transformer learned by maximizing the likelihood of trajectories in the expert demonstrations under language guidance. Given an image of the current state and the task description, we use the world model to train the joint policy and produce the image sequence as the answer by running the converged policy on the dynamics model. The empirical results demonstrate that this framework can improve the answers for multi-agent decision-making problems by showing superior performance on the training and unseen tasks of the StarCraft Multi-Agent Challenge benchmark. In particular, it can generate consistent interaction sequences and explainable reward functions at interaction states, opening the path for training generative models of the future.

arxiv情報

著者 Zeyang Liu,Xinrui Yang,Shiguang Sun,Long Qian,Lipeng Wan,Xingyu Chen,Xuguang Lan
発行日 2024-10-03 16:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.MA | コメントする

AlphaIntegrator: Transformer Action Search for Symbolic Integration Proofs

要約

我々は、ステップバイステップの数学的統合のための、最初の正解学習ベースのシステムを発表する。重要なアイデアは、GPT変換モデルによって表されるポリシーを学習することであり、このポリシーは、記号ソルバーによって実行される正しい数学的統合ルールの探索をガイドする。具体的には、数式に対する公理的に正しいアクションを持つ記号エンジンと、段階的統合のための最初のデータセットを紹介する。この合成データで訓練されたGPTスタイルの変換モデルは、50%少ない探索ステップで、精度と効率において自身のデータジェネレータを凌駕し、強力な汎化を示す。また、SoTA LLMを用いた我々の実験結果は、質問と答えのペアのセットでLLMを微調整するという標準的なアプローチが、この数学的課題を解決するには不十分であることを示している。このことは、LLMを記号的推論エンジンと組み合わせる独創的な方法を発見することの重要性を動機づけるものであり、我々の研究はその一例である。

要約(オリジナル)

We present the first correct-by-construction learning-based system for step-by-step mathematical integration. The key idea is to learn a policy, represented by a GPT transformer model, which guides the search for the right mathematical integration rule, to be carried out by a symbolic solver. Concretely, we introduce a symbolic engine with axiomatically correct actions on mathematical expressions, as well as the first dataset for step-by-step integration. Our GPT-style transformer model, trained on this synthetic data, demonstrates strong generalization by surpassing its own data generator in accuracy and efficiency, using 50% fewer search steps. Our experimental results with SoTA LLMs also demonstrate that the standard approach of fine-tuning LLMs on a set of question-answer pairs is insufficient for solving this mathematical task. This motivates the importance of discovering creative methods for combining LLMs with symbolic reasoning engines, of which our work is an instance.

arxiv情報

著者 Mert Ünsal,Timon Gehr,Martin Vechev
発行日 2024-10-03 16:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.MS, cs.SC | コメントする

Unsupervised Point Cloud Completion through Unbalanced Optimal Transport

要約

ペアリングされていない点群補完では、ペアリングされていない不完全な点群データと完全な点群データから補完マップを学習する手法が研究されている。本論文では、アンバランスな最適輸送マップを用いた、アンペア点群補完のための新しいアプローチを提案し、アンペア点群補完のためのアンバランス最適輸送マップ(UOT-UPC)と呼ぶ。我々は、非対点群補完が最適輸送(OT)問題として自然に解釈できることを実証し、非対点群補完データセットに蔓延するクラス不均衡問題に対処するために、不均衡最適輸送(UOT)アプローチを導入する。さらに、ペアリングされていない補完タスクに適したコスト関数を分析する。この分析により、InfoCDコスト関数がこのタスクに特に適していることが示された。我々のモデルは、ペアリングされていない点群補完のためにUOTを活用する最初の試みであり、単一カテゴリと複数カテゴリの両方のデータセットにおいて、競争力のある、あるいは優れた結果を達成している。特に、我々のモデルは、不完全な点群データセットと完全な点群データセットの間でカテゴリの割合が異なる、クラス不均衡のシナリオにおいて特に有効である。

要約(オリジナル)

Unpaired point cloud completion explores methods for learning a completion map from unpaired incomplete and complete point cloud data. In this paper, we propose a novel approach for unpaired point cloud completion using the unbalanced optimal transport map, called Unbalanced Optimal Transport Map for Unpaired Point Cloud Completion (UOT-UPC). We demonstrate that the unpaired point cloud completion can be naturally interpreted as the Optimal Transport (OT) problem and introduce the Unbalanced Optimal Transport (UOT) approach to address the class imbalance problem, which is prevalent in unpaired point cloud completion datasets. Moreover, we analyze the appropriate cost function for unpaired completion tasks. This analysis shows that the InfoCD cost function is particularly well-suited for this task. Our model is the first attempt to leverage UOT for unpaired point cloud completion, achieving competitive or superior results on both single-category and multi-category datasets. In particular, our model is especially effective in scenarios with class imbalance, where the proportions of categories are different between the incomplete and complete point cloud datasets.

arxiv情報

著者 Taekyung Lee,Jaemoo Choi,Jaewoong Choi
発行日 2024-10-03 16:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする

Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance

要約

不確実性、リスク、限界を伝える能力は、大規模言語モデルの安全性にとって極めて重要である。しかし、これらの能力に関する現在の評価は、モデルによって生成された言語が適切な確率に一致するかどうかを問う、単純なキャリブレーションに頼っている。その代わりに、LLMコミュニケーションのこの側面の評価は、人間の対話者の行動に焦点を当てるべきである。ここでは、人間がLLM世代に依存しているかどうかを測定する、Rel-A.I.(「依存」と発音)と呼ばれる相互作用中心の評価フレームワークを紹介する。このフレームワークを用いて、対話の文脈的特徴(例えば、議論されている知識領域)や、温かさや有能さを伝える挨拶(例えば、「お役に立ててうれしいです!」)の使用が、依存にどのような影響を与えるかを研究する。私たちは、文脈の特徴が人間の依存行動に大きく影響することを発見した。例えば、人は計算を含む質問に答える際、10%多くLMに依存し、より有能であると認識されるLMに30%多く依存する。この結果は、キャリブレーションや言語の質だけでは、人間とLMの相互作用のリスクを評価するには不十分であることを示しており、相互作用の文脈の特徴を考慮する必要性を示している。

要約(オリジナル)

The ability to communicate uncertainty, risk, and limitation is crucial for the safety of large language models. However, current evaluations of these abilities rely on simple calibration, asking whether the language generated by the model matches appropriate probabilities. Instead, evaluation of this aspect of LLM communication should focus on the behaviors of their human interlocutors: how much do they rely on what the LLM says? Here we introduce an interaction-centered evaluation framework called Rel-A.I. (pronounced ‘rely’}) that measures whether humans rely on LLM generations. We use this framework to study how reliance is affected by contextual features of the interaction (e.g, the knowledge domain that is being discussed), or the use of greetings communicating warmth or competence (e.g., ‘I’m happy to help!’). We find that contextual characteristics significantly affect human reliance behavior. For example, people rely 10% more on LMs when responding to questions involving calculations and rely 30% more on LMs that are perceived as more competent. Our results show that calibration and language quality alone are insufficient in evaluating the risks of human-LM interactions, and illustrate the need to consider features of the interactional context.

arxiv情報

著者 Kaitlyn Zhou,Jena D. Hwang,Xiang Ren,Nouha Dziri,Dan Jurafsky,Maarten Sap
発行日 2024-10-03 16:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC | コメントする

FAN: Fourier Analysis Networks

要約

ニューラルネットワーク、特にMLPやTransformerに代表されるニューラルネットワークが達成した目覚ましい成功にもかかわらず、周期性のモデリングと推論において潜在的な欠陥、すなわち周期性の根本原理を純粋に理解するのではなく、周期性データを記憶する傾向があることを明らかにする。しかし、周期性は様々な推論や汎化において重要な特性であり、観察における反復的なパターンを通して、自然システムや人工システム全体の予測可能性を支えている。本論文では、フーリエ解析に基づく新しいネットワークアーキテクチャであるFANを提案し、周期的現象を効率的にモデル化し推論する能力を強化する。フーリエ級数を導入することで、周期性がニューラルネットワークの構造と計算過程に自然に統合され、周期的パターンのより正確な表現と予測が実現される。多層パーセプトロン(MLP)の有望な代替品として、FANはより少ないパラメータとFLOP数で、様々なモデルにおいてMLPをシームレスに置き換えることができる。広範な実験を通して、周期関数のモデリングと推論におけるFANの有効性、および記号式表現、時系列予測、言語モデリングを含む実世界の様々なタスクにおけるFANの優位性と汎用性を実証する。

要約(オリジナル)

Despite the remarkable success achieved by neural networks, particularly those represented by MLP and Transformer, we reveal that they exhibit potential flaws in the modeling and reasoning of periodicity, i.e., they tend to memorize the periodic data rather than genuinely understanding the underlying principles of periodicity. However, periodicity is a crucial trait in various forms of reasoning and generalization, underpinning predictability across natural and engineered systems through recurring patterns in observations. In this paper, we propose FAN, a novel network architecture based on Fourier Analysis, which empowers the ability to efficiently model and reason about periodic phenomena. By introducing Fourier Series, the periodicity is naturally integrated into the structure and computational processes of the neural network, thus achieving a more accurate expression and prediction of periodic patterns. As a promising substitute to multi-layer perceptron (MLP), FAN can seamlessly replace MLP in various models with fewer parameters and FLOPs. Through extensive experiments, we demonstrate the effectiveness of FAN in modeling and reasoning about periodic functions, and the superiority and generalizability of FAN across a range of real-world tasks, including symbolic formula representation, time series forecasting, and language modeling.

arxiv情報

著者 Yihong Dong,Ge Li,Yongding Tao,Xue Jiang,Kechi Zhang,Jia Li,Jing Su,Jun Zhang,Jingjing Xu
発行日 2024-10-03 17:02:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs

要約

大規模言語モデル(LLM)を多様な文化圏でより役立つものにするためには、進捗を測定・追跡するための効果的な文化知識ベンチマークが不可欠である。効果的なベンチマークは、ロバストで、多様で、チャレンジングである必要がある。カルチュラルベンチは、バングラデシュ、ジンバブエ、ペルーのような代表的でない地域を含む世界45地域をカバーし、LLMの文化的知識を効果的に評価するための、人間が書き、人間が検証した1,227の質問セットです。各質問は5人の独立したアノテーターによって検証され、食べ物の好みから挨拶の作法まで、17の多様なトピックに及んでいる。我々は2つのセットアップでモデルを評価する:CulturalBench-EasyとCulturalBench-Hardの2つのセットアップでモデルを評価した。LLMはこのようなセットアップの違いに敏感であることがわかった(例えば、GPT-4oでは27.3%の違い)。人間のパフォーマンス(92.6%の精度)と比較すると、CulturalBench-HardはフロンティアLLMにとってより困難であり、最もパフォーマンスの高いモデル(GPT-4o)は61.5%、最も低いモデル(Llama3-8b)は21.4%にとどまる。さらに、LLMは、複数の正解があるトリッキーな問題(例:中国人は通常どのような食器を使うか)に苦戦することが多く、単一の答えに収束する傾向があることが明らかになりました。また、OpenAI GPT-4oは、1つの地域(オセアニア)を除くすべての地域に関連する質問において、他のプロプライエタリおよびオープンソースモデルを大幅に上回るという結果も示しています。それにもかかわらず、南米と中東に関する問題では、すべてのモデルが一貫して劣っています。

要約(オリジナル)

To make large language models (LLMs) more helpful across diverse cultures, it is essential to have effective cultural knowledge benchmarks to measure and track our progress. Effective benchmarks need to be robust, diverse, and challenging. We introduce CulturalBench: a set of 1,227 human-written and human-verified questions for effectively assessing LLMs’ cultural knowledge, covering 45 global regions including the underrepresented ones like Bangladesh, Zimbabwe, and Peru. Questions – each verified by five independent annotators – span 17 diverse topics ranging from food preferences to greeting etiquettes. We evaluate models on two setups: CulturalBench-Easy and CulturalBench-Hard which share the same questions but asked differently. We find that LLMs are sensitive to such difference in setups (e.g., GPT-4o with 27.3% difference). Compared to human performance (92.6% accuracy), CulturalBench-Hard is more challenging for frontier LLMs with the best performing model (GPT-4o) at only 61.5% and the worst (Llama3-8b) at 21.4%. Moreover, we find that LLMs often struggle with tricky questions that have multiple correct answers (e.g., What utensils do the Chinese usually use?), revealing a tendency to converge to a single answer. Our results also indicate that OpenAI GPT-4o substantially outperform other proprietary and open source models in questions related to all but one region (Oceania). Nonetheless, all models consistently underperform on questions related to South America and the Middle East.

arxiv情報

著者 Yu Ying Chiu,Liwei Jiang,Bill Yuchen Lin,Chan Young Park,Shuyue Stella Li,Sahithya Ravi,Mehar Bhatia,Maria Antoniak,Yulia Tsvetkov,Vered Shwartz,Yejin Choi
発行日 2024-10-03 17:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Distilling an End-to-End Voice Assistant Without Instruction Training Data

要約

SiriやGoogleアシスタントのような音声アシスタントは、通常、音声とテキストを別々にモデル化するため、音声情報が失われ、複雑さが増します。この問題に対処するため、教師付き微調整(SFT)を用いて訓練されたエンドツーエンドの音声大規模言語モデル(LLM)を用いた最近の取り組みでは、モデルがテキストのみのLLMから機能を「忘れる」ことにつながっている。本研究では、テキストのみのLLMのトランスクリプトに対する応答を自己教師として使用することで、命令データなしで音声LLMを訓練するための代替パラダイムを提案する。重要なことは、このプロセスは注釈付き応答なしで実行できることである。我々は、我々のDistilled Voice Assistant (DiVA)が音声質問応答、分類、翻訳に一般化することを示す。さらに、DiVAがユーザの嗜好をよりよく満たし、Qwen 2 Audioのような最先端モデルと比較して、$>$100倍少ない訓練計算量にもかかわらず、72%の勝率を達成することを示す。

要約(オリジナル)

Voice assistants, such as Siri and Google Assistant, typically model audio and text separately, resulting in lost speech information and increased complexity. Recent efforts to address this with end-to-end Speech Large Language Models (LLMs) trained with supervised finetuning (SFT) have led to models “forgetting’ capabilities from text-only LLMs. Our work proposes an alternative paradigm for training Speech LLMs without instruction data, using the response of a text-only LLM to transcripts as self-supervision. Importantly, this process can be performed without annotated responses. We show that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question Answering, Classification, and Translation. Furthermore, we show that DiVA better meets user preferences, achieving a 72\% win rate compared with state-of-the-art models like Qwen 2 Audio, despite using $>$100x less training compute.

arxiv情報

著者 William Held,Ella Li,Michael Ryan,Weiyan Shi,Yanzhe Zhang,Diyi Yang
発行日 2024-10-03 17:04:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | コメントする