GENERator: A Long-Context Generative Genomic Foundation Model

要約

DNAシーケンス技術の進歩により、ゲノムシーケンスをデコードする能力が大幅に向上しました。
ただし、これらのシーケンスの予測と解釈は、遺伝物質の複雑な性質のために困難なままです。
大規模な言語モデル(LLM)は、生物学的配列分析の新しい機会を導入しました。
ゲノム言語モデルの最近の開発により、DNA配列の解読におけるLLMの可能性が強調されています。
それにもかかわらず、既存のモデルは、主にモデルの構造とトレーニングデータスケールの制約が原因で、堅牢性とアプリケーションの範囲の制限に直面することがよくあります。
これらの制限に対処するために、98K塩基対(BP)と1.2Bのパラメーターのコンテキスト長を備えた生成ゲノム基礎モデルであるジェネレーターを提示します。
386b bpの真核DNAで構成される広大なデータセットで訓練されたジェネレーターは、確立されたベンチマークと新たに提案されたベンチマークの両方で最先端のパフォーマンスを示しています。
このモデルは、分子生物学の中心的な教義に準拠しており、既知のファミリーに構造的に類似したタンパク質に変換されるタンパク質コーディング配列を正確に生成します。
また、特に特定のアクティビティプロファイルを備えたエンハンサー配列の迅速な応答性生成を通じて、順番の最適化において大きな約束を示しています。
これらの機能は、ジェネレーターをゲノム研究とバイオテクノロジーの進歩のための極めて重要なツールとして配置し、複雑な生物学的システムを解釈および予測する能力を高め、正確なゲノム介入を可能にします。
実装の詳細と補足リソースは、https://github.com/generteam/generatorで入手できます。

要約(オリジナル)

Advancements in DNA sequencing technologies have significantly improved our ability to decode genomic sequences. However, the prediction and interpretation of these sequences remain challenging due to the intricate nature of genetic material. Large language models (LLMs) have introduced new opportunities for biological sequence analysis. Recent developments in genomic language models have underscored the potential of LLMs in deciphering DNA sequences. Nonetheless, existing models often face limitations in robustness and application scope, primarily due to constraints in model structure and training data scale. To address these limitations, we present GENERator, a generative genomic foundation model featuring a context length of 98k base pairs (bp) and 1.2B parameters. Trained on an expansive dataset comprising 386B bp of eukaryotic DNA, the GENERator demonstrates state-of-the-art performance across both established and newly proposed benchmarks. The model adheres to the central dogma of molecular biology, accurately generating protein-coding sequences that translate into proteins structurally analogous to known families. It also shows significant promise in sequence optimization, particularly through the prompt-responsive generation of enhancer sequences with specific activity profiles. These capabilities position the GENERator as a pivotal tool for genomic research and biotechnological advancement, enhancing our ability to interpret and predict complex biological systems and enabling precise genomic interventions. Implementation details and supplementary resources are available at https://github.com/GenerTeam/GENERator.

arxiv情報

著者 Wei Wu,Qiuyi Li,Mingyang Li,Kun Fu,Fuli Feng,Jieping Ye,Hui Xiong,Zheng Wang
発行日 2025-04-01 03:14:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.GN | GENERator: A Long-Context Generative Genomic Foundation Model はコメントを受け付けていません

CodingTeachLLM: Empowering LLM’s Coding Ability via AST Prior Knowledge

要約

この論文では、コーディング教育用に設計された大規模な言語モデル(LLM)であるCodingTeachllmを紹介します。
特に、LLMのコーディング能力を高め、教育のコンテキストでより良い教育モードに導くことを目指しています。
したがって、エンドツーエンドの以前のベースの3フェーズ監視された微調整モデルを提案します。これは、従来の微調整方法よりも競争力があることが証明されています。
より具体的には、私たちのモデルは、教育知識の構造分解と増分ガイドの出力を実現します。
この目的のために、サンプラーとオーバーラップの推定ニューラルネットワークを介して3つのタイプのデータ分類を堅牢にし、ロラの微調整のために3つのバッチで事前訓練を受けたモデルに前処理データセットを注入します。
次に、以前のモジュールカップルシステムプロンプト、ベクトルデータベース、および抽象的な構文ツリータスクセグメンテーションを設計します。
最後に、圧縮方法と正則化の制約が以前のベースの微調整モデルに適用され、その後、出力端にテキストフィルターが続き、増分ガイド結果を得ます。
私たちのモデルは、豊富な教育知識、段階的なインクリメンタルな誘導出力、および回答の非開示の特徴を備えた家庭教師の役割を真に具体化する最初の研究努力を表しています。
広範な実験は、私たちのモデルがオープンソースモデルと比較して最先端のコード能力を達成し、Humaneval(@Pass 1)ベンチマークで印象的な75.10%に達することを報告しています。
さらに、我々のモデルは強力な会話機能を維持し、13Bの量子化バージョンはそれぞれMMLU、C-Eval、およびAgieval(5ショット)ダイアログ評価ベンチマークで56.34、50.60、および45.27のスコアを達成します。

要約(オリジナル)

In this paper, we introduce CodingTeachLLM, a large language model (LLM) designed for coding teaching. Specially, we aim to enhance the coding ability of LLM and lead it to better teaching mode in education context. Thus, we propose an end-to-end prior-based three-phases supervised fine-tuned model, which is proved more competitive than traditional fine-tuning method. More specifically, our model realizes the structural disassembly and incremental guided output of educational knowledge. To this end, we robustify data classification of three types via a sampler and overlap estimation neural network, and inject the preprocessing datasets into pre-trained model in three batches for LORA fine-tuning. Then, we design a prior module couples system prompt, vector databases, and abstract syntax tree task segmentation. Finally, the compression method and regularization constraint are applied to the prior-based fine-tuned model, followed by text filter at the output end to obtain incremental guided results. Our model represents the first research effort to truly embody the tutor role with the features of abundant educational knowledge, step-by-step incremental guided outputs and non-disclosure of answers. Extensive experiments report that our model also achieves state-of-the-art in code abilities compared to open-source models, reaching an impressive 75.10% on the HumanEval (@pass 1) benchmark. Additionally, our model maintains strong conversational capabilities, with the 13B quantized version achieving scores of 56.34, 50.60, and 45.27 respectively on the MMLU, C-Eval, and AGIEval (5 shot) dialogue evaluation benchmarks.

arxiv情報

著者 Zhangquan Chen,Chunjiang Liu,Haobin Duan
発行日 2025-04-01 03:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 | CodingTeachLLM: Empowering LLM’s Coding Ability via AST Prior Knowledge はコメントを受け付けていません

Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method

要約

大規模な言語モデル(LLMS)のトレーニングコーパスの規模が増えると、モデル開発者はデータの詳細を開示することにますます消極的になります。
この透明性の欠如は、科学的評価と倫理的展開に課題をもたらします。
最近、特定のテキストがブラックボックスアクセスを介したLLMのトレーニングデータの一部であるかどうかを推測する事前削除データ検出アプローチが調査されています。
最先端の結果を達成したMin-K \%Probメソッドは、非訓練の例には、トークンの確率が低いいくつかの外れ値の単語が含まれている傾向があると想定しています。
ただし、LLMSによって予測される高い確率を持つ多くの一般的な単語を含む非トレーニングテキストを誤分類する傾向があるため、有効性は制限される場合があります。
この問題に対処するために、Divergence-from-Randomnessコンセプトに触発された発散ベースのキャリブレーション方法を紹介し、データ検出前のトークン確率を調整します。
トークン確率分布とトークン頻度分布との間の交差エントロピー(つまり、発散)を計算して、検出スコアを導き出します。
中国語のテキストでのLLMSの検出アプローチのパフォーマンスを評価するために、中国語のベンチマークであるPatentmiaを開発しました。
英語のベンチマークとPatentmiaの実験結果は、提案された方法が既存の方法を大幅に上回ることを示しています。
当社のコードとPatentmiaのベンチマークは、https://github.com/zhang-wei-chao/dc-pddで入手できます。

要約(オリジナル)

As the scale of training corpora for large language models (LLMs) grows, model developers become increasingly reluctant to disclose details on their data. This lack of transparency poses challenges to scientific evaluation and ethical deployment. Recently, pretraining data detection approaches, which infer whether a given text was part of an LLM’s training data through black-box access, have been explored. The Min-K\% Prob method, which has achieved state-of-the-art results, assumes that a non-training example tends to contain a few outlier words with low token probabilities. However, the effectiveness may be limited as it tends to misclassify non-training texts that contain many common words with high probabilities predicted by LLMs. To address this issue, we introduce a divergence-based calibration method, inspired by the divergence-from-randomness concept, to calibrate token probabilities for pretraining data detection. We compute the cross-entropy (i.e., the divergence) between the token probability distribution and the token frequency distribution to derive a detection score. We have developed a Chinese-language benchmark, PatentMIA, to assess the performance of detection approaches for LLMs on Chinese text. Experimental results on English-language benchmarks and PatentMIA demonstrate that our proposed method significantly outperforms existing methods. Our code and PatentMIA benchmark are available at https://github.com/zhang-wei-chao/DC-PDD.

arxiv情報

著者 Weichao Zhang,Ruqing Zhang,Jiafeng Guo,Maarten de Rijke,Yixing Fan,Xueqi Cheng
発行日 2025-04-01 05:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method はコメントを受け付けていません

Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service

要約

低リソースの機械翻訳(MT)は、コミュニティのニーズとアプリケーションの課題の多様性を示しています。
回答者の小さなサンプルに依存する傾向のある調査とフォーカスグループを補完するために、Tetun.orgの実際の使用パターンに関する観察研究を提案します。
100,000の翻訳要求の分析により、既存のコーパスに基づいた仮定に挑戦するパターンが明らかになります。
モバイルデバイスの学生の多くは、通常、科学、ヘルスケア、日常生活などの多様なドメインを越えて、高リソースの言語からTetunにテキストを翻訳します。
これは、政府や社会問題をカバーするニュース記事が支配している利用可能なTetun Corporaとは鋭く対照的です。
私たちの結果は、Tetunのような制度化された少数言語のMTシステムは、教育的文脈に関連するドメインの精度を優先する必要があることを示唆しています。

要約(オリジナル)

Low-resource machine translation (MT) presents a diversity of community needs and application challenges that remain poorly understood. To complement surveys and focus groups, which tend to rely on small samples of respondents, we propose an observational study on actual usage patterns of tetun.org, a specialized MT service for the Tetun language, which is the lingua franca in Timor-Leste. Our analysis of 100,000 translation requests reveals patterns that challenge assumptions based on existing corpora. We find that users, many of them students on mobile devices, typically translate text from a high-resource language into Tetun across diverse domains including science, healthcare, and daily life. This contrasts sharply with available Tetun corpora, which are dominated by news articles covering government and social issues. Our results suggest that MT systems for institutionalized minority languages like Tetun should prioritize accuracy on domains relevant to educational contexts, in the high-resource to low-resource direction.More broadly, this study demonstrates how observational analysis can inform low-resource language technology development, by grounding research in practical community needs.

arxiv情報

著者 Raphael Merx,Adérito José Guterres Correia,Hanna Suominen,Ekaterina Vylomova
発行日 2025-04-01 05:19:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service はコメントを受け付けていません

GME: Improving Universal Multimodal Retrieval by Multimodal LLMs

要約

ユニバーサルマルチモーダル検索(UMR)は、クエリと候補者が純粋なテキスト、画像、または両方の組み合わせで構成できる統一モデルを使用して、さまざまなモダリティ全体で検索を可能にすることを目的としています。
以前の研究では、マルチモーダルの大手言語モデル(MLLM)を採用して、テキストデータのみを使用してUMRを実現しようとしました。
ただし、予備的な実験は、より多様なマルチモーダルトレーニングデータがMLLMの可能性をさらにロックすることができることを示しています。
その有効性にもかかわらず、既存のマルチモーダルトレーニングデータは、モダリティの点で非常に不均衡であり、トレーニングデータ合成パイプラインを開発し、大規模で高品質の融合モーダルトレーニングデータセットを構築するように動機付けています。
合成トレーニングデータに基づいて、UMR向けに設計されたMLLMベースの密なレトリバーであるGeneral Multimodal Embedder(GME)を開発します。
さらに、アプローチの有効性を評価するために、包括的なUMRベンチマーク(UMRB)を構築します。
実験結果は、我々の方法が既存のUMRメソッド間で最先端のパフォーマンスを達成することを示しています。
最後に、モデルのスケーリングとトレーニング戦略の詳細な分析を提供し、モデルデータと合成データの両方でアブレーション研究を実行します。

要約(オリジナル)

Universal Multimodal Retrieval (UMR) aims to enable search across various modalities using a unified model, where queries and candidates can consist of pure text, images, or a combination of both. Previous work has attempted to adopt multimodal large language models (MLLMs) to realize UMR using only text data. However, our preliminary experiments demonstrate that more diverse multimodal training data can further unlock the potential of MLLMs. Despite its effectiveness, the existing multimodal training data is highly imbalanced in terms of modality, which motivates us to develop a training data synthesis pipeline and construct a large-scale, high-quality fused-modal training dataset. Based on the synthetic training data, we develop the General Multimodal Embedder (GME), an MLLM-based dense retriever designed for UMR. Furthermore, we construct a comprehensive UMR Benchmark (UMRB) to evaluate the effectiveness of our approach. Experimental results show that our method achieves state-of-the-art performance among existing UMR methods. Last, we provide in-depth analyses of model scaling and training strategies, and perform ablation studies on both the model and synthetic data.

arxiv情報

著者 Xin Zhang,Yanzhao Zhang,Wen Xie,Mingxin Li,Ziqi Dai,Dingkun Long,Pengjun Xie,Meishan Zhang,Wenjie Li,Min Zhang
発行日 2025-04-01 08:48:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | GME: Improving Universal Multimodal Retrieval by Multimodal LLMs はコメントを受け付けていません

A Survey on Personalized Alignment — The Missing Piece for Large Language Models in Real-World Applications

要約

大規模な言語モデル(LLMS)は顕著な能力を実証していますが、実際のアプリケーションへの移行は重要な制限を明らかにしています。普遍的な人間の価値との調整を維持しながら、個々の好みに適応できないことです。
現在のアライメント手法では、ユーザーの多様な背景やニーズに対応できない、すべてのサイズのアプローチを採用しています。
このペーパーでは、LLMが個々の好みに基づいて倫理的境界内で行動を適応させることができるパラダイムであるパラダイムの最初の包括的な調査を紹介します。
優先メモリ管理、パーソナライズされた生成、フィードバックベースのアラインメントを含む統一フレームワークを提案し、実装アプローチを体系的に分析し、さまざまなシナリオでの有効性を評価します。
現在の手法、潜在的なリスク、将来の課題を調べることにより、この調査は、より適応性があり倫理的に整合したLLMを開発するための構造化された基盤を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities, yet their transition to real-world applications reveals a critical limitation: the inability to adapt to individual preferences while maintaining alignment with universal human values. Current alignment techniques adopt a one-size-fits-all approach that fails to accommodate users’ diverse backgrounds and needs. This paper presents the first comprehensive survey of personalized alignment-a paradigm that enables LLMs to adapt their behavior within ethical boundaries based on individual preferences. We propose a unified framework comprising preference memory management, personalized generation, and feedback-based alignment, systematically analyzing implementation approaches and evaluating their effectiveness across various scenarios. By examining current techniques, potential risks, and future challenges, this survey provides a structured foundation for developing more adaptable and ethically-aligned LLMs.

arxiv情報

著者 Jian Guan,Junfei Wu,Jia-Nan Li,Chuanqi Cheng,Wei Wu
発行日 2025-04-01 09:33:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Survey on Personalized Alignment — The Missing Piece for Large Language Models in Real-World Applications はコメントを受け付けていません

KTCR: Improving Implicit Hate Detection with Knowledge Transfer driven Concept Refinement

要約

新たな社会運動や政治的出来事によって駆動される社会的および政治的文脈の絶え間ない変化は、憎悪の内容と、機械学習モデルが捉えていないかもしれない以前に認識されていなかった憎悪パターンの新しい形態につながります。
いくつかの最近の文献では、新しい暗黙の憎悪パターンを明らかにするサンプルを組み込むことにより、既存の憎悪データセットを豊かにするためのデータ増強ベースの手法を提案しています。
このアプローチは、ドメイン外の暗黙の憎悪インスタンスでのモデルのパフォーマンスを改善することを目的としています。
増強のためにより多くのサンプルをさらに追加すると、モデルの性能が低下することが観察されています。
この作業では、概念のアクティブ化ベクトルに基づいたデータ増強とともに、新しいプロトタイプのアライメントと概念の損失を介して、暗黙の憎悪サンプルに関連する概念を蒸留および改良する知識移転駆動型の概念精製方法を提案します。
いくつかの公開されたデータセットを使用した実験は、概念の改良を通じて新しい憎悪パターンを反映した追加の暗黙的なサンプルを組み込むことで、モデルのパフォーマンスが向上し、クロスダタセット一般化能力を維持しながらベースラインの結果を超えることが示されています。

要約(オリジナル)

The constant shifts in social and political contexts, driven by emerging social movements and political events, lead to new forms of hate content and previously unrecognized hate patterns that machine learning models may not have captured. Some recent literature proposes data augmentation-based techniques to enrich existing hate datasets by incorporating samples that reveal new implicit hate patterns. This approach aims to improve the model’s performance on out-of-domain implicit hate instances. It is observed, that further addition of more samples for augmentation results in the decrease of the performance of the model. In this work, we propose a Knowledge Transfer-driven Concept Refinement method that distills and refines the concepts related to implicit hate samples through novel prototype alignment and concept losses, alongside data augmentation based on concept activation vectors. Experiments with several publicly available datasets show that incorporating additional implicit samples reflecting new hate patterns through concept refinement enhances the model’s performance, surpassing baseline results while maintaining cross-dataset generalization capabilities.

arxiv情報

著者 Samarth Garg,Vivek Hruday Kavuri,Gargi Shroff,Rahul Mishra
発行日 2025-04-01 09:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | KTCR: Improving Implicit Hate Detection with Knowledge Transfer driven Concept Refinement はコメントを受け付けていません

In-game Toxic Language Detection: Shared Task and Attention Residuals

要約

ゲーム内の有毒言語は、ゲーム業界とコミュニティのホットポテトになります。
いくつかのオンラインゲーム毒性分析フレームワークとモデルが提案されています。
ただし、ゲーム内チャットの性質により毒性を検出することは依然として困難です。これは非常に短い長さです。
この論文では、ゲーム内の有毒言語共有タスクが、実際のゲーム内チャットデータを使用してどのように確立されたかについて説明します。
さらに、ゲーム内チャットから有毒な言語トークンタグ付け(スロットフィリング)のモデル/フレームワークを提案および紹介します。
関連するコードは、githubで公開されています:https://github.com/yuanzhe-jia/in-game-toxic-setection

要約(オリジナル)

In-game toxic language becomes the hot potato in the gaming industry and community. There have been several online game toxicity analysis frameworks and models proposed. However, it is still challenging to detect toxicity due to the nature of in-game chat, which has extremely short length. In this paper, we describe how the in-game toxic language shared task has been established using the real-world in-game chat data. In addition, we propose and introduce the model/framework for toxic language token tagging (slot filling) from the in-game chat. The relevant code is publicly available on GitHub: https://github.com/Yuanzhe-Jia/In-Game-Toxic-Detection

arxiv情報

著者 Yuanzhe Jia,Weixuan Wu,Feiqi Cao,Soyeon Caren Han
発行日 2025-04-01 10:12:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | In-game Toxic Language Detection: Shared Task and Attention Residuals はコメントを受け付けていません

FsPONER: Few-shot Prompt Optimization for Named Entity Recognition in Domain-specific Scenarios

要約

大規模な言語モデル(LLMS)は、名前付きエンティティ認識(NER)タスクの新しい経路を提供しています。
微調整と比較して、LLM駆動のプロンプト方法は、トレーニングの必要性を回避し、実質的な計算リソースを節約し、最小限の注釈データに依存します。
以前の研究では、一般的なNERベンチマークでの完全に監視されたBertベースの微調整アプローチと同等のパフォーマンスを達成しています。
ただし、以前のアプローチのいずれも、ドメイン固有のシナリオでのLLMベースの少ないショット学習の効率を調査していません。
このギャップに対処するために、FSPONERを紹介します。FSPONERは、少数のショットプロンプトを最適化するための新しいアプローチを紹介し、産業製造とメンテナンスに焦点を当て、GPT-4-32K、GPT-3.5-TURBO、LLAMA 2-CHAT、およびVICUNAを使用しながら、産業製造とメンテナンスに重点を置いて、ドメイン固有のNERデータセットのパフォーマンスを評価します。
FSPONERは、ランダムサンプリング、TF-IDFベクター、および両方の組み合わせに基づいた3つの少数の選択方法で構成されています。
これらの方法を、少数のショットの例の数が増加し、微調整されたBertおよびLlama 2-chatに対する最適なNERパフォーマンスを評価するため、これらの方法を汎用GPT-nerメソッドと比較します。
データ不足を備えた考慮された現実世界のシナリオでは、TF-IDFを備えたFSPONERは、F1スコアで微調整されたモデルを約10%上回ります。

要約(オリジナル)

Large Language Models (LLMs) have provided a new pathway for Named Entity Recognition (NER) tasks. Compared with fine-tuning, LLM-powered prompting methods avoid the need for training, conserve substantial computational resources, and rely on minimal annotated data. Previous studies have achieved comparable performance to fully supervised BERT-based fine-tuning approaches on general NER benchmarks. However, none of the previous approaches has investigated the efficiency of LLM-based few-shot learning in domain-specific scenarios. To address this gap, we introduce FsPONER, a novel approach for optimizing few-shot prompts, and evaluate its performance on domain-specific NER datasets, with a focus on industrial manufacturing and maintenance, while using multiple LLMs — GPT-4-32K, GPT-3.5-Turbo, LLaMA 2-chat, and Vicuna. FsPONER consists of three few-shot selection methods based on random sampling, TF-IDF vectors, and a combination of both. We compare these methods with a general-purpose GPT-NER method as the number of few-shot examples increases and evaluate their optimal NER performance against fine-tuned BERT and LLaMA 2-chat. In the considered real-world scenarios with data scarcity, FsPONER with TF-IDF surpasses fine-tuned models by approximately 10% in F1 score.

arxiv情報

著者 Yongjian Tang,Rakebul Hasan,Thomas Runkler
発行日 2025-04-01 10:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | FsPONER: Few-shot Prompt Optimization for Named Entity Recognition in Domain-specific Scenarios はコメントを受け付けていません

Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation

要約

音声品質評価では、通常、平均意見スコア(MOS)やスピーカーの類似性(SIM)\などの複数の側面からのオーディオを評価する必要があります。
この論文では、自動音声品質評価のために最近導入された聴覚大規模な言語モデル(LLM)を最近導入することを提案します。
タスク固有のプロンプトを採用することにより、聴覚LLMは、テキスト間システムの評価に一般的に使用されるMO、SIM、A/Bテストの結果を予測するために微調整されます。
さらに、Finetuned聴覚LLMは、騒音、歪み、不連続性、全体的な品質などの側面を評価する自然言語の説明を生成し、より解釈可能な出力を提供することができます。
Salmonn、Qwen-Audio、Qwen2-Audioなどのオープンソース聴覚LLMを使用して、NISQA、BVCC、SOMOS、およびVOXSIM音声品質データセットで広範な実験が行われました。
自然言語の説明タスクでは、商用モデルのGoogle Gemini 1.5 Proも評価されています。
結果は、聴覚LLMがMOとSIMの予測において最先端のタスク固有の小さなモデルと比較して競争力のあるパフォーマンスを達成すると同時に、A/Bテストと自然言語の説明で有望な結果をもたらすことを示しています。
データ処理スクリプトとFinetunedモデルチェックポイントは、https://github.com/bytedance/salmonnにあります。

要約(オリジナル)

Speech quality assessment typically requires evaluating audio from multiple aspects, such as mean opinion score (MOS) and speaker similarity (SIM) \etc., which can be challenging to cover using one small model designed for a single task. In this paper, we propose leveraging recently introduced auditory large language models (LLMs) for automatic speech quality assessment. By employing task-specific prompts, auditory LLMs are finetuned to predict MOS, SIM and A/B testing results, which are commonly used for evaluating text-to-speech systems. Additionally, the finetuned auditory LLM is able to generate natural language descriptions assessing aspects like noisiness, distortion, discontinuity, and overall quality, providing more interpretable outputs. Extensive experiments have been performed on the NISQA, BVCC, SOMOS and VoxSim speech quality datasets, using open-source auditory LLMs such as SALMONN, Qwen-Audio, and Qwen2-Audio. For the natural language descriptions task, a commercial model Google Gemini 1.5 Pro is also evaluated. The results demonstrate that auditory LLMs achieve competitive performance compared to state-of-the-art task-specific small models in predicting MOS and SIM, while also delivering promising results in A/B testing and natural language descriptions. Our data processing scripts and finetuned model checkpoints can be found at https://github.com/bytedance/SALMONN.

arxiv情報

著者 Siyin Wang,Wenyi Yu,Yudong Yang,Changli Tang,Yixuan Li,Jimin Zhuang,Xianzhao Chen,Xiaohai Tian,Jun Zhang,Guangzhi Sun,Lu Lu,Yuxuan Wang,Chao Zhang
発行日 2025-04-01 12:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation はコメントを受け付けていません