MERaLiON-AudioLLM: Bridging Audio and Language with Large Language Models

要約

シンガポールの多言語および多文化環境に合わせて調整された初の音声テキスト モデルである MERaLiON-AudioLLM (Multimodal Empathetic Reasoning and Learning in One Network) を紹介します。
シンガポールの National Large Language Models Funding Initiative のもとで開発された MERaLiON-AudioLLM は、高度な音声およびテキスト処理を統合して、現地のアクセントや方言の多様な言語的ニュアンスに対処し、複雑な多言語環境におけるアクセシビリティと使いやすさを強化します。
私たちの結果は、音声認識とタスク固有の理解の両方の向上を示しており、MERaLiON-AudioLLM を地域固有の AI アプリケーションの先駆的なソリューションとして位置づけています。
私たちは、このリリースが、グローバルな枠組みでローカライズされた言語および文化的文脈に対処するように設計された将来のモデルの前例となることを想定しています。

要約(オリジナル)

We introduce MERaLiON-AudioLLM (Multimodal Empathetic Reasoning and Learning in One Network), the first speech-text model tailored for Singapore’s multilingual and multicultural landscape. Developed under the National Large Language Models Funding Initiative, Singapore, MERaLiON-AudioLLM integrates advanced speech and text processing to address the diverse linguistic nuances of local accents and dialects, enhancing accessibility and usability in complex, multilingual environments. Our results demonstrate improvements in both speech recognition and task-specific understanding, positioning MERaLiON-AudioLLM as a pioneering solution for region specific AI applications. We envision this release to set a precedent for future models designed to address localised linguistic and cultural contexts in a global framework.

arxiv情報

著者 Yingxu He,Zhuohan Liu,Shuo Sun,Bin Wang,Wenyu Zhang,Xunlong Zou,Nancy F. Chen,Ai Ti Aw
発行日 2025-01-16 03:29:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク