ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer

要約

言語間で公平なパフォーマンスを実現するには、多言語モデル(LLMS)が獲得された言語を超えて知識を抽象化できる必要があります。
ただし、現在の文献には、LLMSの言語間知識移転の能力を測定する信頼できる方法がありません。
そのために、単純なブラックボックスの方法で言語間の知識移転を評価する多言語閉会会QA(CBQA)データセットであるEclekticを提示します。
12の言語でのウィキペディア記事の存在と不在を制御することにより、言語間で不均一なカバレッジで情報を検出しました。
ソース言語で知識を求める質問を生成しました。この質問では、関連するウィキペディアの記事に答えが表示され、他のすべての言語に翻訳されました。
WikipediaがLLMのトレーニングデータの顕著な知識を反映していると仮定して、EclekticのCBQAタスクを解決するために、モデルは言語間で知識を転送するために必要です。
8 LLMを実験すると、SOTAモデルは、知識が得られたのと同じ言語のクエリの答えをうまく予測できる場合でも、言語全体で効果的に知識を共有するのに苦労していることを示します。

要約(オリジナル)

To achieve equitable performance across languages, multilingual large language models (LLMs) must be able to abstract knowledge beyond the language in which it was acquired. However, the current literature lacks reliable ways to measure LLMs’ capability of cross-lingual knowledge transfer. To that end, we present ECLeKTic, a multilingual closed-book QA (CBQA) dataset that Evaluates Cross-Lingual Knowledge Transfer in a simple, black-box manner. We detected information with uneven coverage across languages by controlling for presence and absence of Wikipedia articles in 12 languages. We generated knowledge-seeking questions in a source language, for which the answer appears in a relevant Wikipedia article and translated them to all other 11 languages, for which the respective Wikipedias lack equivalent articles. Assuming that Wikipedia reflects the prominent knowledge in the LLM’s training data, to solve ECLeKTic’s CBQA task the model is required to transfer knowledge between languages. Experimenting with 8 LLMs, we show that SOTA models struggle to effectively share knowledge across, languages even if they can predict the answer well for queries in the same language the knowledge was acquired in.

arxiv情報

著者 Omer Goldman,Uri Shaham,Dan Malkin,Sivan Eiger,Avinatan Hassidim,Yossi Matias,Joshua Maynez,Adi Mayrav Gilady,Jason Riesa,Shruti Rijhwani,Laura Rimell,Idan Szpektor,Reut Tsarfaty,Matan Eyal
発行日 2025-02-28 16:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer はコメントを受け付けていません

ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs

要約

スケーリングロングコンテキスト機能は、大規模な言語モデル(LLMS)に不可欠です。
長いコンテキストトレーニングで複数のデバイスにわたってメモリ消費を償却するために、DATA間分割(別名データ並列性)およびDATA内パーティション(別名コンテキスト並列性)が一般的に使用されます。
現在のトレーニングフレームワークは、主に2つの手法を直交として扱い、静的通信グループを確立して、デバイスを静的メッシュ(2Dメッシュなど)として整理します。
ただし、LLMトレーニングのシーケンスは、通常、テキスト、マルチモダリティ、または強化学習に関係なく、長さが異なります。
データの不均一性と静的メッシュの間の不一致は、冗長な通信と不均衡な計算を引き起こし、トレーニング効率を低下させます。
この作業では、長いシーケンスと短いシーケンスの大規模な混合トレーニングのための効率的で柔軟でスケーラブルなLLMトレーニングフレームワークであるBytescaleを紹介します。
Bytescaleのコアは、新しい並列性戦略、すなわちハイブリッドデータ並列処理(HDP)であり、ダイナミックメッシュデザインでDATA間分割とDATA間分割を統合します。
特に、データ認識シャードと動的通信により短いシーケンスの冗長通信を排除する通信オプティマイザーを構築し、選択的オフロードによって長いシーケンスの通信コストをさらに圧縮します。
また、並列処理データの割り当てによる不均衡な計算を緩和するためのバランススケジューラも開発します。
12,000 GPUを超える生産クラスターで、7Bから141B、コンテキストの長さ、256Kから2048Kの範囲のモデルサイズでバイトスケールを評価します。
実験結果は、バイトスケールが最大のトレーニングシステムを最大7.89倍上回ることを示しています。

要約(オリジナル)

Scaling long-context ability is essential for Large Language Models (LLMs). To amortize the memory consumption across multiple devices in long-context training, inter-data partitioning (a.k.a. Data Parallelism) and intra-data partitioning (a.k.a. Context Parallelism) are commonly used. Current training frameworks predominantly treat the two techniques as orthogonal, and establish static communication groups to organize the devices as a static mesh (e.g., a 2D mesh). However, the sequences for LLM training typically vary in lengths, no matter for texts, multi-modalities or reinforcement learning. The mismatch between data heterogeneity and static mesh causes redundant communication and imbalanced computation, degrading the training efficiency. In this work, we introduce ByteScale, an efficient, flexible, and scalable LLM training framework for large-scale mixed training of long and short sequences. The core of ByteScale is a novel parallelism strategy, namely Hybrid Data Parallelism (HDP), which unifies the inter- and intra-data partitioning with a dynamic mesh design. In particular, we build a communication optimizer, which eliminates the redundant communication for short sequences by data-aware sharding and dynamic communication, and further compresses the communication cost for long sequences by selective offloading. Besides, we also develop a balance scheduler to mitigate the imbalanced computation by parallelism-aware data assignment. We evaluate ByteScale with the model sizes ranging from 7B to 141B, context lengths from 256K to 2048K, on a production cluster with more than 12,000 GPUs. Experiment results show that ByteScale outperforms the state-of-the-art training system by up to 7.89x.

arxiv情報

著者 Hao Ge,Junda Feng,Qi Huang,Fangcheng Fu,Xiaonan Nie,Lei Zuo,Haibin Lin,Bin Cui,Xin Liu
発行日 2025-02-28 17:01:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG | ByteScale: Efficient Scaling of LLM Training with a 2048K Context Length on More Than 12,000 GPUs はコメントを受け付けていません

Transforming Tuberculosis Care: Optimizing Large Language Models For Enhanced Clinician-Patient Communication

要約

結核(TB)は、世界中の感染症による死亡の主な原因であり、低中所得国と中所得国で最も高い負担を伴います。
これらの地域では、限られたヘルスケアへのアクセスと高い患者とプロバイダーの比率が、効果的な患者のサポート、コミュニケーション、および治療の完了を妨げます。
このギャップを埋めるために、特殊な大規模な言語モデルを効果的なデジタルアドヒアランステクノロジーに統合して、治療サポーターとのインタラクティブなコミュニケーションを増強することを提案します。
ループ内の人間のフレームワーク内で動作するこのAI駆動のアプローチは、患者の関与を強化し、結核治療の結果を改善することを目的としています。

要約(オリジナル)

Tuberculosis (TB) is the leading cause of death from an infectious disease globally, with the highest burden in low- and middle-income countries. In these regions, limited healthcare access and high patient-to-provider ratios impede effective patient support, communication, and treatment completion. To bridge this gap, we propose integrating a specialized Large Language Model into an efficacious digital adherence technology to augment interactive communication with treatment supporters. This AI-powered approach, operating within a human-in-the-loop framework, aims to enhance patient engagement and improve TB treatment outcomes.

arxiv情報

著者 Daniil Filienko,Mahek Nizar,Javier Roberti,Denise Galdamez,Haroon Jakher,Sarah Iribarren,Weichao Yuwen,Martine De Cock
発行日 2025-02-28 17:05:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Transforming Tuberculosis Care: Optimizing Large Language Models For Enhanced Clinician-Patient Communication はコメントを受け付けていません

Beyond the Kolmogorov Barrier: A Learnable Weighted Hybrid Autoencoder for Model Order Reduction

要約

高次元の複雑な物理システムの表現学習は、低次元の固有の潜在空間を特定することを目的としています。これは、低次モデリングとモーダル分析に重要です。
よく知られているコルモゴロフの障壁を克服するために、近年、深い自動エンコーダー(AE)が導入されていますが、潜在空間のランクが増加するにつれて、収束行動が不十分になることがよくあります。
この問題に対処するために、学習可能な重み分解(SVD)の強度を、学習可能な加重フレームワークを通じてディープオートエンカーと組み合わせたハイブリッドアプローチである学習可能な加重ハイブリッド自動エンコーダーを提案します。
学習可能な重み付けパラメーターの導入が不可欠であることがわかります – それらがなければ、結果のモデルは標準のポッドに崩壊するか、望ましい収束動作を示すことができません。
興味深いことに、訓練されたモデルは、他のモデルと比較して数千倍小さくなっていることが経験的に発見されました。
1D Kuramoto-Sivashinskyや強制等方性乱流データセットを含む古典的な混oticとしたPDEシステムに関する実験は、いくつかの競合する方法と比較して、私たちのアプローチが一般化パフォーマンスを大幅に改善することを示しています。
さらに、時系列モデリング手法(Koopmanオペレーター、LSTMなど)と組み合わせると、提案された手法は、高次元のマルチスケールPDEシステムのサロゲートモデリングの大幅な改善を提供します。

要約(オリジナル)

Representation learning for high-dimensional, complex physical systems aims to identify a low-dimensional intrinsic latent space, which is crucial for reduced-order modeling and modal analysis. To overcome the well-known Kolmogorov barrier, deep autoencoders (AEs) have been introduced in recent years, but they often suffer from poor convergence behavior as the rank of the latent space increases. To address this issue, we propose the learnable weighted hybrid autoencoder, a hybrid approach that combines the strengths of singular value decomposition (SVD) with deep autoencoders through a learnable weighted framework. We find that the introduction of learnable weighting parameters is essential — without them, the resulting model would either collapse into a standard POD or fail to exhibit the desired convergence behavior. Interestingly, we empirically find that our trained model has a sharpness thousands of times smaller compared to other models. Our experiments on classical chaotic PDE systems, including the 1D Kuramoto-Sivashinsky and forced isotropic turbulence datasets, demonstrate that our approach significantly improves generalization performance compared to several competing methods. Additionally, when combining with time series modeling techniques (e.g., Koopman operator, LSTM), the proposed technique offers significant improvements for surrogate modeling of high-dimensional multi-scale PDE systems.

arxiv情報

著者 Nithin Somasekharan,Shaowu Pan
発行日 2025-02-28 17:12:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 76F99, cs.AI, cs.LG, physics.comp-ph, stat.ML | Beyond the Kolmogorov Barrier: A Learnable Weighted Hybrid Autoencoder for Model Order Reduction はコメントを受け付けていません

FORM: Learning Expressive and Transferable First-Order Logic Reward Machines

要約

報酬機(RMS)は、有限状態マシンを介して補強学習(RL)における非マルコビアン報酬に対処するための効果的なアプローチです。
命題論理式でエッジをラベル付けする従来のRMSは、命題論理の限られた表現性を継承します。
複雑なタスクには多数の状態とエッジが必要になるため、この制限はRMSの学習性と移転性を妨げます。
これらの課題を克服するために、一次報酬マシン($ \ texttt {form} $ s)を提案します。これは、1次ロジックを使用してエッジにラベルを付け、よりコンパクトで転送可能なRMSになります。
$ \ textbf {Learning} $ \ texttt {form} $ sの新しい方法と、$ \ textbf {exploiting} $のマルチエージェント定式化を紹介し、それらの転送可能性を促進します。
実験結果は、従来のRMSに関して$ \ texttt {form} $ sのスケーラビリティを示しています。
具体的には、従来のRM学習アプローチが失敗するタスクについて、$ \ texttt {form} $ sを効果的に学習できることを示します。
また、マルチエージェント学習フレームワークと1次言語が提供する抽象化により、学習速度とタスク移転性の大幅な改善を示しています。

要約(オリジナル)

Reward machines (RMs) are an effective approach for addressing non-Markovian rewards in reinforcement learning (RL) through finite-state machines. Traditional RMs, which label edges with propositional logic formulae, inherit the limited expressivity of propositional logic. This limitation hinders the learnability and transferability of RMs since complex tasks will require numerous states and edges. To overcome these challenges, we propose First-Order Reward Machines ($\texttt{FORM}$s), which use first-order logic to label edges, resulting in more compact and transferable RMs. We introduce a novel method for $\textbf{learning}$ $\texttt{FORM}$s and a multi-agent formulation for $\textbf{exploiting}$ them and facilitate their transferability, where multiple agents collaboratively learn policies for a shared $\texttt{FORM}$. Our experimental results demonstrate the scalability of $\texttt{FORM}$s with respect to traditional RMs. Specifically, we show that $\texttt{FORM}$s can be effectively learnt for tasks where traditional RM learning approaches fail. We also show significant improvements in learning speed and task transferability thanks to the multi-agent learning framework and the abstraction provided by the first-order language.

arxiv情報

著者 Leo Ardon,Daniel Furelos-Blanco,Roko Parac,Alessandra Russo
発行日 2025-02-28 17:13:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.FL, cs.LO, cs.SC | FORM: Learning Expressive and Transferable First-Order Logic Reward Machines はコメントを受け付けていません

Towards Developing Ethical Reasoners: Integrating Probabilistic Reasoning and Decision-Making for Complex AI Systems

要約

計算倫理フレームワークは、複雑で実世界の環境で動作するAIおよび自律システムに不可欠です。
既存のアプローチには、倫理原則を動的であいまいなコンテキストに統合するために必要な適応性が不足していることが多く、多様なシナリオ全体でそれらの有効性を制限します。
これらの課題に対処するために、中間表現、確率的推論、および知識表現を組み合わせた全体的なメタレベルのフレームワークを構築するために必要な要素の概要を説明します。
その仕様は、スケーラビリティを強調し、個々の意思決定レベルの両方とマルチエージェントシステムの集合的ダイナミクス内での倫理的推論をサポートしています。
理論的原則を文脈的要因と統合することにより、構造化されたコンテキスト認識の意思決定を促進し、包括的な倫理基準との整合を確保します。
さらに、倫理的な推論がどのように動作するかを概説する提案された定理を探り、実用的な実装の基盤を提供します。
これらの構成要素は、現実世界の道徳的意思決定シナリオの複雑さをナビゲートできる堅牢で倫理的に信頼できるAIシステムの開発をサポートすることを目的としています。

要約(オリジナル)

A computational ethics framework is essential for AI and autonomous systems operating in complex, real-world environments. Existing approaches often lack the adaptability needed to integrate ethical principles into dynamic and ambiguous contexts, limiting their effectiveness across diverse scenarios. To address these challenges, we outline the necessary ingredients for building a holistic, meta-level framework that combines intermediate representations, probabilistic reasoning, and knowledge representation. The specifications therein emphasize scalability, supporting ethical reasoning at both individual decision-making levels and within the collective dynamics of multi-agent systems. By integrating theoretical principles with contextual factors, it facilitates structured and context-aware decision-making, ensuring alignment with overarching ethical standards. We further explore proposed theorems outlining how ethical reasoners should operate, offering a foundation for practical implementation. These constructs aim to support the development of robust and ethically reliable AI systems capable of navigating the complexities of real-world moral decision-making scenarios.

arxiv情報

著者 Nijesh Upreti,Jessica Ciupa,Vaishak Belle
発行日 2025-02-28 17:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Towards Developing Ethical Reasoners: Integrating Probabilistic Reasoning and Decision-Making for Complex AI Systems はコメントを受け付けていません

Cell-ontology guided transcriptome foundation model

要約

トランスクリプトームファンデーションモデルTFMは、大規模なシングルセル遺伝子発現データに関する自己監視学習によって多様な細胞機能を決定するトランスクリプトーム言語を解読するという大きな約束を保持し、最終的にヒト疾患の複雑なメカニズムを解明します。
ただし、現在のTFMは細胞を独立したサンプルとして扱い、細胞オントロジーグラフで利用できる細胞タイプ間の分類学的関係を無視します。
TFMプリトレーニング中にこのオントロジー情報を効果的に活用すると、TFMを下流のゼロショットおよび微調整タスクの汎用基礎モデルとして保存しながら、生物学的に意味のある遺伝子共発現パターンを改善できると主張します。
この目的のために、単一の細胞、細胞環境ガイドTFM sccelloを提示します。
細胞型コヒーレンス損失とオントロジーアライメント損失を導入します。これは、トレーニング前のマスクされた遺伝子発現予測損失とともに最小化されます。
新規損失コンポーネントは、細胞型固有の表現と、細胞オントロジーグラフからそれぞれ細胞型間の構造的関係を学習するためのSccelloをガイドします。
Open Biological and Biomedical Ontology Foundryから細胞オントロジーグラフにマッピングされたセルタイプのラベルを活用するCellxgeneデータベースから2,200万細胞のSCCELLOを事前に訓練しました。
当社のTFMは、目に見えない細胞の新規細胞タイプの識別、細胞型特異的マーカー遺伝子の予測、癌薬物反応を含む生物学的に重要なタスクに関する既存のTFMに対する競争的一般化と移動性パフォーマンスを示しています。

要約(オリジナル)

Transcriptome foundation models TFMs hold great promises of deciphering the transcriptomic language that dictate diverse cell functions by self-supervised learning on large-scale single-cell gene expression data, and ultimately unraveling the complex mechanisms of human diseases. However, current TFMs treat cells as independent samples and ignore the taxonomic relationships between cell types, which are available in cell ontology graphs. We argue that effectively leveraging this ontology information during the TFM pre-training can improve learning biologically meaningful gene co-expression patterns while preserving TFM as a general purpose foundation model for downstream zero-shot and fine-tuning tasks. To this end, we present single cell, Cell-ontology guided TFM scCello. We introduce cell-type coherence loss and ontology alignment loss, which are minimized along with the masked gene expression prediction loss during the pre-training. The novel loss component guide scCello to learn the cell-type-specific representation and the structural relation between cell types from the cell ontology graph, respectively. We pre-trained scCello on 22 million cells from CellxGene database leveraging their cell-type labels mapped to the cell ontology graph from Open Biological and Biomedical Ontology Foundry. Our TFM demonstrates competitive generalization and transferability performance over the existing TFMs on biologically important tasks including identifying novel cell types of unseen cells, prediction of cell-type-specific marker genes, and cancer drug responses.

arxiv情報

著者 Xinyu Yuan,Zhihao Zhan,Zuobai Zhang,Manqi Zhou,Jianan Zhao,Boyu Han,Yue Li,Jian Tang
発行日 2025-02-28 17:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Cell-ontology guided transcriptome foundation model はコメントを受け付けていません

Modeling Human Beliefs about AI Behavior for Scalable Oversight

要約

AIアライメントにおける現代の仕事は、多くの場合、人間のフィードバックに依存して、AIシステムを人間の好みと価値を教えることです。
しかし、AIシステムがより能力が高まるにつれて、人間のフィードバックはますます信頼できなくなります。
これにより、スケーラブルな監視の問題が発生します。人間の能力を超えるAIシステムを監督するにはどうすればよいですか?
この作業では、人間のフィードバックをよりよく解釈するために、AIシステムの行動に関する人間の評価者の信念をモデル化することを提案します。
私たちは人間の信念モデルを形式化し、理論的に人間の価値を推測する役割を分析します。
次に、この推論と曖昧さが消える条件に残りのあいまいさを特徴付けます。
正確な信念モデルへの依存を緩和するために、人間の信念モデルのカバーの緩和を紹介します。
最後に、基礎モデルを使用して信念モデルをカバーすることを提案し、スケーラブルな監視に対する新しい潜在的なアプローチを提供します。

要約(オリジナル)

Contemporary work in AI alignment often relies on human feedback to teach AI systems human preferences and values. Yet as AI systems grow more capable, human feedback becomes increasingly unreliable. This raises the problem of scalable oversight: How can we supervise AI systems that exceed human capabilities? In this work, we propose to model the human evaluator’s beliefs about the AI system’s behavior to better interpret the human’s feedback. We formalize human belief models and theoretically analyze their role in inferring human values. We then characterize the remaining ambiguity in this inference and conditions for which the ambiguity disappears. To mitigate reliance on exact belief models, we then introduce the relaxation of human belief model covering. Finally, we propose using foundation models to construct covering belief models, providing a new potential approach to scalable oversight.

arxiv情報

著者 Leon Lang,Patrick Forré
発行日 2025-02-28 17:39:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Modeling Human Beliefs about AI Behavior for Scalable Oversight はコメントを受け付けていません

RuCCoD: Towards Automated ICD Coding in Russian

要約

この研究では、生物医学的資源が限られている言語であるロシア語での臨床コーディングの自動化の実現可能性を調査しています。
ICDコーディング用の新しいデータセットを提示します。これには、10,000を超えるエンティティと1,500を超える独自のICDコードが注釈が付けられた電子ヘルスレコード(EHR)の診断フィールドが含まれます。
このデータセットは、BERT、LORAを含むLlama、RAGを含むいくつかの最先端モデルのベンチマークとして機能し、ドメイン全体(PubMed Abstractsから医療診断まで)および用語(UMLS概念からICDコードまで)を越えた転送学習を調べる追加の実験があります。
次に、最高のパフォーマンスモデルを適用して、2017年から2021年までの患者の歴史を含む社内EHRデータセットにラベルを付けます。慎重にキュレーションされたテストセットで実施された実験は、自動予測コードでのトレーニングが、物理学者からの手動注釈付きデータと比較して精度が大幅に改善されることを示しています。
私たちの調査結果は、ロシア語のようなリソース制限言語で臨床コーディングを自動化する可能性についての貴重な洞察を提供し、これらの文脈での臨床効率とデータの精度を高めることができると考えています。

要約(オリジナル)

This study investigates the feasibility of automating clinical coding in Russian, a language with limited biomedical resources. We present a new dataset for ICD coding, which includes diagnosis fields from electronic health records (EHRs) annotated with over 10,000 entities and more than 1,500 unique ICD codes. This dataset serves as a benchmark for several state-of-the-art models, including BERT, LLaMA with LoRA, and RAG, with additional experiments examining transfer learning across domains (from PubMed abstracts to medical diagnosis) and terminologies (from UMLS concepts to ICD codes). We then apply the best-performing model to label an in-house EHR dataset containing patient histories from 2017 to 2021. Our experiments, conducted on a carefully curated test set, demonstrate that training with the automated predicted codes leads to a significant improvement in accuracy compared to manually annotated data from physicians. We believe our findings offer valuable insights into the potential for automating clinical coding in resource-limited languages like Russian, which could enhance clinical efficiency and data accuracy in these contexts.

arxiv情報

著者 Aleksandr Nesterov,Andrey Sakhovskiy,Ivan Sviridov,Airat Valiev,Vladimir Makharev,Petr Anokhin,Galina Zubkova,Elena Tutubalina
発行日 2025-02-28 17:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | RuCCoD: Towards Automated ICD Coding in Russian はコメントを受け付けていません

ReaLJam: Real-Time Human-AI Music Jamming with Reinforcement Learning-Tuned Transformers

要約

生成人工知能(AI)の最近の進歩により、高品質の音楽コンテンツ生成が可能なモデルが作成されました。
ただし、重要な必要な機能のために、これらのモデルをリアルタイムまたは協力的なジャミングミュージカルアプリケーションに使用する方法についてはほとんど考慮されていません:低遅延、計画的アクションを伝える能力、およびユーザー入力にリアルタイムで適応する能力。
これらのニーズをサポートするために、RealJamは、人間と強化学習で訓練されたトランスベースのAIエージェントの間のライブミュージカルジャミングセッションのインターフェイスとプロトコルであるRealJamを紹介します。
エージェントがパフォーマンスがどのように展開されるかを継続的に予測し、ユーザーに計画を視覚的に伝える予測の概念を使用して、リアルタイムのインタラクションを有効にします。
私たちは、経験豊富なミュージシャンがRealjamを通じてエージェントとリアルタイムでジャムするユーザー調査を実施しています。
私たちの結果は、Realjamが楽しく音楽的に興味深いセッションを可能にし、将来の仕事のための重要な持ち帰りを明らかにすることを示しています。

要約(オリジナル)

Recent advances in generative artificial intelligence (AI) have created models capable of high-quality musical content generation. However, little consideration is given to how to use these models for real-time or cooperative jamming musical applications because of crucial required features: low latency, the ability to communicate planned actions, and the ability to adapt to user input in real-time. To support these needs, we introduce ReaLJam, an interface and protocol for live musical jamming sessions between a human and a Transformer-based AI agent trained with reinforcement learning. We enable real-time interactions using the concept of anticipation, where the agent continually predicts how the performance will unfold and visually conveys its plan to the user. We conduct a user study where experienced musicians jam in real-time with the agent through ReaLJam. Our results demonstrate that ReaLJam enables enjoyable and musically interesting sessions, and we uncover important takeaways for future work.

arxiv情報

著者 Alexander Scarlatos,Yusong Wu,Ian Simon,Adam Roberts,Tim Cooijmans,Natasha Jaques,Cassie Tarakajian,Cheng-Zhi Anna Huang
発行日 2025-02-28 17:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | ReaLJam: Real-Time Human-AI Music Jamming with Reinforcement Learning-Tuned Transformers はコメントを受け付けていません