The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs

要約

「LLM-As-An-Annotator」および「LLM-As-A-Judge」のパラダイムは、人間が伝統的に実行するタスクのアノテーター、審査員、および評価者として大きな言語モデル(LLM)を採用しています。
LLMアノテーションは、NLPの研究だけでなく、医学、心理学、社会科学などの分野でも広く使用されています。
研究の結果と洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的または厳密な手順はありません。
この論文では、LLMアノテーションを使用して正当化するために注釈付き例の控えめなサブセットのみを必要とする新しい統計的手順である代替アノテーターテスト(ALTテスト)を提案します。
さらに、LLMアノテーターと審査員を比較するための多目的で解釈可能な尺度を紹介します。
手順を実証するために、言語とビジョン言語のタスクで構成される10個のデータセットの多様なコレクションをキュレーションし、6つのLLMSと4つのプロンプト技術で実験を実施しました。
私たちの結果は、LLMが人間をクローズドソースLLM(GPT-4Oなど)に置き換え、調べたオープンソースLLMを上回ることがあり、促す技術がさまざまな品質の裁判官をもたらすことを示しています。
この研究が、より厳密で信頼できる実践を奨励することを願っています。

要約(オリジナル)

The ‘LLM-as-an-annotator’ and ‘LLM-as-a-judge’ paradigms employ Large Language Models (LLMs) as annotators, judges, and evaluators in tasks traditionally performed by humans. LLM annotations are widely used, not only in NLP research but also in fields like medicine, psychology, and social science. Despite their role in shaping study results and insights, there is no standard or rigorous procedure to determine whether LLMs can replace human annotators. In this paper, we propose a novel statistical procedure, the Alternative Annotator Test (alt-test), that requires only a modest subset of annotated examples to justify using LLM annotations. Additionally, we introduce a versatile and interpretable measure for comparing LLM annotators and judges. To demonstrate our procedure, we curated a diverse collection of ten datasets, consisting of language and vision-language tasks, and conducted experiments with six LLMs and four prompting techniques. Our results show that LLMs can sometimes replace humans with closed-source LLMs (such as GPT-4o), outperforming the open-source LLMs we examine, and that prompting techniques yield judges of varying quality. We hope this study encourages more rigorous and reliable practices.

arxiv情報

著者 Nitay Calderon,Roi Reichart,Rotem Dror
発行日 2025-06-17 16:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs はコメントを受け付けていません

Bridging Social Media and Search Engines: Dredge Words and the Detection of Unreliable Domains

要約

プロアクティブなコンテンツモデレートには、プラットフォームがWebサイトの信頼性を迅速かつ継続的に評価する必要があります。
ユーザーが信頼性の低いWebサイトに従う直接および間接パスを活用して、WebGraphと大規模なソーシャルメディアコンテキストの両方を統合するWebサイトの信頼性分類および発見システムを開発します。
さらに、信頼できないドメインが検索エンジンで高度にランク付けされているdr末の単語、用語、またはフレーズの概念を紹介し、ソーシャルメディアでの使用の最初の調査を提供します。
Webグラフとソーシャルメディアのコンテキストを組み合わせたグラフニューラルネットワークは、Webサイトの信頼性分類で最先端の結果に生成され、信頼できないドメインのトップKの識別を大幅に改善します。
さらに、ソーシャルメディアとオンラインコマースプラットフォームの両方との強力なつながりを強調して、Dredge Wordsの新しいデータセットをリリースします。

要約(オリジナル)

Proactive content moderation requires platforms to rapidly and continuously evaluate the credibility of websites. Leveraging the direct and indirect paths users follow to unreliable websites, we develop a website credibility classification and discovery system that integrates both webgraph and large-scale social media contexts. We additionally introduce the concept of dredge words, terms or phrases for which unreliable domains rank highly on search engines, and provide the first exploration of their usage on social media. Our graph neural networks that combine webgraph and social media contexts generate to state-of-the-art results in website credibility classification and significantly improves the top-k identification of unreliable domains. Additionally, we release a novel dataset of dredge words, highlighting their strong connections to both social media and online commerce platforms.

arxiv情報

著者 Evan M. Williams,Peter Carragher,Kathleen M. Carley
発行日 2025-06-17 16:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.SI | Bridging Social Media and Search Engines: Dredge Words and the Detection of Unreliable Domains はコメントを受け付けていません

Reparameterized LLM Training via Orthogonal Equivalence Transformation

要約

大規模な言語モデル(LLM)が人工知能の急速な進歩を推進していますが、これらの大規模なモデルは、フィールドの最も重要な課題の1つであり続けています。
この課題に対処するために、私たちは詩人を提案します。詩人は、直交の等価変換を使用してニューロンを最適化する新しい再分析されたトレーニングアルゴリズムを提案します。
具体的には、詩人は、学習可能な2つの直交行列と固定ランダム重量マトリックスで各ニューロンを修復します。
重量マトリックスのスペクトル特性の証明可能な保存のため、詩人は一般化を改善することで目的関数を安定に最適化することができます。
さらに、大規模なニューラルネットワークをトレーニングするために詩人を柔軟にスケーラブルにする効率的な近似を開発します。
広範な実験では、LLMSの訓練における詩人の有効性とスケーラビリティを検証します。

要約(オリジナル)

While large language models (LLMs) are driving the rapid advancement of artificial intelligence, effectively and reliably training these large models remains one of the field’s most significant challenges. To address this challenge, we propose POET, a novel reParameterized training algorithm that uses Orthogonal Equivalence Transformation to optimize neurons. Specifically, POET reparameterizes each neuron with two learnable orthogonal matrices and a fixed random weight matrix. Because of its provable preservation of spectral properties of weight matrices, POET can stably optimize the objective function with improved generalization. We further develop efficient approximations that make POET flexible and scalable for training large-scale neural networks. Extensive experiments validate the effectiveness and scalability of POET in training LLMs.

arxiv情報

著者 Zeju Qiu,Simon Buchholz,Tim Z. Xiao,Maximilian Dax,Bernhard Schölkopf,Weiyang Liu
発行日 2025-06-17 16:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Reparameterized LLM Training via Orthogonal Equivalence Transformation はコメントを受け付けていません

OrgAccess: A Benchmark for Role Based Access Control in Organization Scale LLMs

要約

ロールベースのアクセス制御(RBAC)と階層構造は、事実上すべての組織内で情報の流れと決定がどのように行われるかについて基本的です。
大規模な言語モデル(LLM)が統一された知識リポジトリとして機能し、エンタープライズ設定のインテリジェントアシスタントとして機能する可能性がますます明らかになります。
実際の企業データとアクセス制御ポリシーの性質。
さまざまな組織の役割とレベルで一般的に関連する40の異なるタイプのアクセス許可で構成される合成でありながら代表的な\ textBf {orgaccess}ベンチマークを紹介します。
さらに、40,000のEasy(1許可)、10,000培地(3容量のタプル)、および20,000のハード(5節のタプル)の3つのタイプのアクセス許可を作成し、これらの許可を正確に評価し、特定の階層的ルールに厳密に付着する応答を生成するLLMSの能力をテストします。
私たちの調査結果は、最先端のLLMでさえ、2つ以上の競合する権限を含む相互作用をナビゲートするときに、明示的な指示を伴う役割ベースの構造へのコンプライアンスを維持するのに大いに苦労していることを明らかにしています。
具体的には、vet \ textbf {gpt-4.1は、最も硬いベンチマークで0.27のF1スコアのみを達成します}。
これは、LLMSの複雑な規則における標準的な事実上のベンチマークまたはSTEMベースのベンチマークを超えた構成の推論機能における重要な制限を示しており、実用的で構造化された環境への適合性を評価するための新しいパラダイムを開きます。

要約(オリジナル)

Role-based access control (RBAC) and hierarchical structures are foundational to how information flows and decisions are made within virtually all organizations. As the potential of Large Language Models (LLMs) to serve as unified knowledge repositories and intelligent assistants in enterprise settings becomes increasingly apparent, a critical, yet under explored, challenge emerges: \textit{can these models reliably understand and operate within the complex, often nuanced, constraints imposed by organizational hierarchies and associated permissions?} Evaluating this crucial capability is inherently difficult due to the proprietary and sensitive nature of real-world corporate data and access control policies. We introduce a synthetic yet representative \textbf{OrgAccess} benchmark consisting of 40 distinct types of permissions commonly relevant across different organizational roles and levels. We further create three types of permissions: 40,000 easy (1 permission), 10,000 medium (3-permissions tuple), and 20,000 hard (5-permissions tuple) to test LLMs’ ability to accurately assess these permissions and generate responses that strictly adhere to the specified hierarchical rules, particularly in scenarios involving users with overlapping or conflicting permissions. Our findings reveal that even state-of-the-art LLMs struggle significantly to maintain compliance with role-based structures, even with explicit instructions, with their performance degrades further when navigating interactions involving two or more conflicting permissions. Specifically, even \textbf{GPT-4.1 only achieves an F1-Score of 0.27 on our hardest benchmark}. This demonstrates a critical limitation in LLMs’ complex rule following and compositional reasoning capabilities beyond standard factual or STEM-based benchmarks, opening up a new paradigm for evaluating their fitness for practical, structured environments.

arxiv情報

著者 Debdeep Sanyal,Umakanta Maharana,Yash Sinha,Hong Ming Tan,Shirish Karande,Mohan Kankanhalli,Murari Mandal
発行日 2025-06-17 16:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | OrgAccess: A Benchmark for Role Based Access Control in Organization Scale LLMs はコメントを受け付けていません

Adaptive Accompaniment with ReaLchords

要約

ジャミングには、ミュージシャン間の調整、期待、共同の創造性が必要です。
音楽の現在の生成モデルは表情豊かな出力を生成しますが、他のミュージシャン(人間またはその他)と同時に\ emphing {オンライン}マナーで生成することはできません。
ユーザーメロディーに伴奏伴奏伴奏を即興で即興するためのオンライン生成モデルであるRealChordsを提案します。
私たちは、最尤で事前に処理されたオンラインモデルから始め、補強学習を使用して、オンラインで使用するためにモデルを微調整します。
Finetuningの目的は、メロディーとコードの間の高調波と時間的一貫性の両方に関するフィードバックを提供する新しい報酬モデルと、将来のメロディーを見ることができる教師モデルからの新しいタイプの蒸留を実装する発散用語の両方を活用します。
定量的実験とリスニングテストを通じて、結果のモデルがなじみのない入力に適応し、フィッティング伴奏を生成することを実証します。
RealChordsは、ライブジャミングへの扉を開き、他のモダリティでの同時の共創を開きます。

要約(オリジナル)

Jamming requires coordination, anticipation, and collaborative creativity between musicians. Current generative models of music produce expressive output but are not able to generate in an \emph{online} manner, meaning simultaneously with other musicians (human or otherwise). We propose ReaLchords, an online generative model for improvising chord accompaniment to user melody. We start with an online model pretrained by maximum likelihood, and use reinforcement learning to finetune the model for online use. The finetuning objective leverages both a novel reward model that provides feedback on both harmonic and temporal coherency between melody and chord, and a divergence term that implements a novel type of distillation from a teacher model that can see the future melody. Through quantitative experiments and listening tests, we demonstrate that the resulting model adapts well to unfamiliar input and produce fitting accompaniment. ReaLchords opens the door to live jamming, as well as simultaneous co-creation in other modalities.

arxiv情報

著者 Yusong Wu,Tim Cooijmans,Kyle Kastner,Adam Roberts,Ian Simon,Alexander Scarlatos,Chris Donahue,Cassie Tarakajian,Shayegan Omidshafiei,Aaron Courville,Pablo Samuel Castro,Natasha Jaques,Cheng-Zhi Anna Huang
発行日 2025-06-17 16:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD | Adaptive Accompaniment with ReaLchords はコメントを受け付けていません

Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models

要約

人間とロボットの間でコントロールが共有されている支援的なテレオ操作は、多様で構造化されていない環境で効率的かつ直感的な人間のロボットコラボレーションを可能にします。
現実世界の支援的なテレオ操作の中心的な課題は、ロボットがユーザー制御入力からの幅広い人間の意図を推測し、ユーザーが正しいアクションで支援することです。
既存の方法は、シンプルで定義されたシナリオに限定されているか、トレーニング時のタスク固有のデータ分布に限定されているため、実際の支援に対するサポートが制限されます。
リアルタイムの意図の推論と柔軟なスキル実行のために、事前に訓練された視覚言語モデル(VLMS)に組み込まれた常識的な知識を活用する支援的な視聴システムであるCasperを紹介します。
Casperには、新しいオブジェクトとシーンの一般化された理解のためのオープンワールド認識モジュール、Commonsenseの推論メカニズムが、テレオペレーションされたユーザー入力のスニペットを解釈するためのコモンセンスな推論を活用するVLMを駆動する意図的推論メカニズム、および多様な飼育動物操作タスクをサポートするための以前の支援的なテレオ覚醒システムの範囲を拡大するスキルライブラリを取り入れています。
人間の研究やシステムアブレーションを含む広範な経験的評価は、キャスパーがタスクのパフォーマンスを改善し、人間の認知負荷を削減し、直接的なテレオ操作と補助的なテレオ操作ベースラインよりも高いユーザーの満足度を達成することを示しています。

要約(オリジナル)

Assistive teleoperation, where control is shared between a human and a robot, enables efficient and intuitive human-robot collaboration in diverse and unstructured environments. A central challenge in real-world assistive teleoperation is for the robot to infer a wide range of human intentions from user control inputs and to assist users with correct actions. Existing methods are either confined to simple, predefined scenarios or restricted to task-specific data distributions at training, limiting their support for real-world assistance. We introduce Casper, an assistive teleoperation system that leverages commonsense knowledge embedded in pre-trained visual language models (VLMs) for real-time intent inference and flexible skill execution. Casper incorporates an open-world perception module for a generalized understanding of novel objects and scenes, a VLM-powered intent inference mechanism that leverages commonsense reasoning to interpret snippets of teleoperated user input, and a skill library that expands the scope of prior assistive teleoperation systems to support diverse, long-horizon mobile manipulation tasks. Extensive empirical evaluation, including human studies and system ablations, demonstrates that Casper improves task performance, reduces human cognitive load, and achieves higher user satisfaction than direct teleoperation and assistive teleoperation baselines.

arxiv情報

著者 Huihan Liu,Rutav Shah,Shuijing Liu,Jack Pittenger,Mingyo Seo,Yuchen Cui,Yonatan Bisk,Roberto Martín-Martín,Yuke Zhu
発行日 2025-06-17 17:06:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models はコメントを受け付けていません

AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes

要約

知識の蒸留は、出力または内部表現を整列させることにより、大規模な言語モデル(LLMS)を小さなものに圧縮するための成熟した分野になりましたが、計画、メモリ、およびツールの使用を伴うLLMベースのエージェントの蒸留は、比較的露出度の低いままです。
既存のエージェント蒸留方法は通常、完全な教師の軌跡を再生するか、段階的な教師ツールの使用を模倣しますが、学生エージェントを訓練して、新しい環境で動的に計画し行動するのに苦労します。
エージェントディスチルは、教師が自動的に生成した構造化および再利用可能なタスク解決モジュールをモデルコンテキストプロトコル(MCPS)の直接再利用を介して効率的でスケーラブルな知識転送を可能にする、斬新でトレーニングのないエージェント蒸留フレームワークを提案します。
これらの蒸留MCPの再利用により、学生エージェントはドメイン全体で能力を一般化し、監督や人間の介入を最小限に抑えて新しい問題を解決できます。
生物医学的および数学的ベンチマークに関する実験は、小言語モデルに基づいて構築された蒸留された学生エージェントが、OctoTools(GPT-4O)などの大規模なLLMを使用して高度なシステムに匹敵するパフォーマンスを実現できることを示しており、スケーラブルで費用効率の高いインテリジェントエージェントを構築する際のフレームワークの有効性を強調しています。

要約(オリジナル)

While knowledge distillation has become a mature field for compressing large language models (LLMs) into smaller ones by aligning their outputs or internal representations, the distillation of LLM-based agents, which involve planning, memory, and tool use, remains relatively underexplored. Existing agent distillation methods typically replay full teacher trajectories or imitate step-by-step teacher tool usage, but they often struggle to train student agents to dynamically plan and act in novel environments. We propose AgentDistill, a novel, training-free agent distillation framework that enables efficient and scalable knowledge transfer via direct reuse of Model-Context-Protocols (MCPs), which are structured and reusable task-solving modules autonomously generated by teacher agents. The reuse of these distilled MCPs enables student agents to generalize their capabilities across domains and solve new problems with minimal supervision or human intervention. Experiments on biomedical and mathematical benchmarks demonstrate that our distilled student agents, built on small language models, can achieve performance comparable to advanced systems using large LLMs such as OctoTools (GPT-4o), highlighting the effectiveness of our framework in building scalable and cost-efficient intelligent agents.

arxiv情報

著者 Jiahao Qiu,Xinzhe Juan,Yimin Wang,Ling Yang,Xuan Qi,Tongcheng Zhang,Jiacheng Guo,Yifu Lu,Zixin Yao,Hongru Wang,Shilong Liu,Xun Jiang,Liu Leqi,Mengdi Wang
発行日 2025-06-17 17:08:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes はコメントを受け付けていません

Deep Learning Model Acceleration and Optimization Strategies for Real-Time Recommendation Systems

要約

インターネットサービスの急速な成長に伴い、推奨システムは、パーソナライズされたコンテンツの提供において中心的な役割を果たします。
大規模なユーザーリクエストと複雑なモデルアーキテクチャに直面して、リアルタイム推奨システムの重要な課題は、推奨品質を犠牲にすることなく推論のレイテンシを削減し、システムスループットを増やす方法です。
このペーパーでは、モデリングおよびシステムレベルの加速と最適化戦略の組み合わせセットを提案することにより、リアルタイム設定での深い学習モデルの高い計算コストとリソースのボトルネックに対処します。
モデルレベルでは、軽量ネットワーク設計、構造化された剪定、および重量量子化を通じて、パラメーターカウントと計算要件を劇的に削減します。
システムレベルでは、複数の不均一コンピューティングプラットフォームと高性能推論ライブラリを統合し、リアルタイムの負荷特性に基づいて弾性推論スケジューリングと負荷分散メカニズムを設計します。
実験では、元の推奨精度を維持しながら、私たちの方法は、レイテンシをベースラインの30%未満、および二重システムスループット以上に削減し、大規模なオンライン推奨サービスを展開するための実用的なソリューションを提供することを示しています。

要約(オリジナル)

With the rapid growth of Internet services, recommendation systems play a central role in delivering personalized content. Faced with massive user requests and complex model architectures, the key challenge for real-time recommendation systems is how to reduce inference latency and increase system throughput without sacrificing recommendation quality. This paper addresses the high computational cost and resource bottlenecks of deep learning models in real-time settings by proposing a combined set of modeling- and system-level acceleration and optimization strategies. At the model level, we dramatically reduce parameter counts and compute requirements through lightweight network design, structured pruning, and weight quantization. At the system level, we integrate multiple heterogeneous compute platforms and high-performance inference libraries, and we design elastic inference scheduling and load-balancing mechanisms based on real-time load characteristics. Experiments show that, while maintaining the original recommendation accuracy, our methods cut latency to less than 30% of the baseline and more than double system throughput, offering a practical solution for deploying large-scale online recommendation services.

arxiv情報

著者 Junli Shao,Jing Dong,Dingzhou Wang,Kowei Shih,Dannier Li,Chengrui Zhou
発行日 2025-06-17 17:08:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | Deep Learning Model Acceleration and Optimization Strategies for Real-Time Recommendation Systems はコメントを受け付けていません

Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs

要約

効率的で堅牢な推論能力を実現するために、強化学習(RL)を介して最適化された、エンサリの混合物(MOE)ベースの大きな言語モデルを提示します。
27億5,000万のアクティブ化されたパラメーターを備えた168億パラメーターモデルである公開されているLing-Liteモデルに基づいて構築されたこのアプローチは、挑戦的なベンチマーク(例えば、AIME、LiveCodeBench、GPQA-Diamond)での最先端の(SOTA)小規模な推論モデルのパフォーマンスと一致します。
これを達成するために、RLと蒸留を統合する共同トレーニングパイプラインを導入し、MOE RLトレーニングにおける文書化されていない課題を明らかにします。
まず、RLトレーニング中の最適化の不安定性を特定し、トレーニングの安定性を高め、アルゴリズムシステムの共同設計方法を介して計算スループットを改善する新しいアプローチである、制約付きコンテキスト計算ポリシー最適化(C3PO)を提案します。
第二に、検証メトリックではなく、RLトレーニングのエントロピー損失に基づいて蒸留チェックポイントを選択すると、その後のRLトレーニングで優れたパフォーマンス効率のトレードオフが生じることを経験的に実証します。
最後に、マルチドメインデータ統合を調和させるための2段階のトレーニングパラダイムを開発し、混合データセットでのトレーニングで生じるドメインの競合に対処します。
モデル、データセット、およびコードをリリースします。

要約(オリジナル)

We present Ring-lite, a Mixture-of-Experts (MoE)-based large language model optimized via reinforcement learning (RL) to achieve efficient and robust reasoning capabilities. Built upon the publicly available Ling-lite model, a 16.8 billion parameter model with 2.75 billion activated parameters, our approach matches the performance of state-of-the-art (SOTA) small-scale reasoning models on challenging benchmarks (e.g., AIME, LiveCodeBench, GPQA-Diamond) while activating only one-third of the parameters required by comparable models. To accomplish this, we introduce a joint training pipeline integrating distillation with RL, revealing undocumented challenges in MoE RL training. First, we identify optimization instability during RL training, and we propose Constrained Contextual Computation Policy Optimization(C3PO), a novel approach that enhances training stability and improves computational throughput via algorithm-system co-design methodology. Second, we empirically demonstrate that selecting distillation checkpoints based on entropy loss for RL training, rather than validation metrics, yields superior performance-efficiency trade-offs in subsequent RL training. Finally, we develop a two-stage training paradigm to harmonize multi-domain data integration, addressing domain conflicts that arise in training with mixed dataset. We will release the model, dataset, and code.

arxiv情報

著者 Ring Team,Bin Hu,Cai Chen,Deng Zhao,Ding Liu,Dingnan Jin,Feng Zhu,Hao Dai,Hongzhi Luan,Jia Guo,Jiaming Liu,Jiewei Wu,Jun Mei,Jun Zhou,Junbo Zhao,Junwu Xiong,Kaihong Zhang,Kuan Xu,Lei Liang,Liang Jiang,Liangcheng Fu,Longfei Zheng,Qiang Gao,Qing Cui,Quan Wan,Shaomian Zheng,Shuaicheng Li,Tongkai Yang,Wang Ren,Xiaodong Yan,Xiaopei Wan,Xiaoyun Feng,Xin Zhao,Xinxing Yang,Xinyu Kong,Xuemin Yang,Yang Li,Yingting Wu,Yongkang Liu,Zhankai Xu,Zhenduo Zhang,Zhenglei Zhou,Zhenyu Huang,Zhiqiang Zhang,Zihao Wang,Zujie Wen
発行日 2025-06-17 17:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs はコメントを受け付けていません

Exploring Speaker Diarization with Mixture of Experts

要約

このホワイトペーパーでは、メモリ対応のマルチスピーカー埋め込みを使用して、シーケンスからアウェアのマルチスピーカー埋め込みモジュールをシーケンスツーシーケンスアーキテクチャと統合するメモリ認識マルチスピーカー埋め込みを使用して、新しいニューラルスピーカーダイアリゼーションシステムを提案します。
このシステムは、メモリモジュールを活用してスピーカーの埋め込みを強化し、SEQ2SEQフレームワークを採用して、音響機能をスピーカーラベルに効率的にマッピングします。
さらに、スピーカーダイアリゼーションへの専門家の混合物の適用を調査し、モデルバイアスをさらに軽減し、パフォーマンスを向上させるために、専門家(SS-MOE)モジュールの共有とソフトな混合物を導入します。
SS-MOEを組み込むと、拡張モデルNSD-MS2S-SSMOEにつながります。
Chime-6、Dipco、Mixer 6、Dihard-III評価セットを含む複数の複雑な音響データセットの実験は、堅牢性と一般化の有意義な改善を示しています。
提案された方法は、最先端の結果を達成し、挑戦的な現実世界のシナリオにおける有効性を紹介します。

要約(オリジナル)

In this paper, we propose a novel neural speaker diarization system using memory-aware multi-speaker embedding with sequence-to-sequence architecture (NSD-MS2S), which integrates a memory-aware multi-speaker embedding module with a sequence-to-sequence architecture. The system leverages a memory module to enhance speaker embeddings and employs a Seq2Seq framework to efficiently map acoustic features to speaker labels. Additionally, we explore the application of mixture of experts in speaker diarization, and introduce a Shared and Soft Mixture of Experts (SS-MoE) module to further mitigate model bias and enhance performance. Incorporating SS-MoE leads to the extended model NSD-MS2S-SSMoE. Experiments on multiple complex acoustic datasets, including CHiME-6, DiPCo, Mixer 6 and DIHARD-III evaluation sets, demonstrate meaningful improvements in robustness and generalization. The proposed methods achieve state-of-the-art results, showcasing their effectiveness in challenging real-world scenarios.

arxiv情報

著者 Gaobin Yang,Maokui He,Shutong Niu,Ruoyu Wang,Hang Chen,Jun Du
発行日 2025-06-17 17:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD | Exploring Speaker Diarization with Mixture of Experts はコメントを受け付けていません