From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

要約

大規模な言語モデル(LLM)は、複数の言語とタスクにわたって顕著なパフォーマンスと一般化機能を示しており、マルチモダリティ統合(画像や音声など)の非常に魅力的なターゲットになっています。
この作業では、既存のLLMを音声離散化と継続前のトレーニングを介して音声モダリティに拡張します。
特に、Towerなどの多言語LLMに関心があります。トレーニング前の設定により、離散化された音声入力を追加の翻訳言語として扱うことができます。
結果として得られるオープンソースモデルであるSpireは、翻訳関連のタスクでタワーの元のパフォーマンスを維持しながら、英語の音声入力を転写および翻訳することができ、LLM適応中に追加の言語として離散した音声入力統合が実行可能であることを示します。
コードとモデルをコミュニティが利用できるようにします。

要約(オリジナル)

Large language models (LLMs) have shown remarkable performance and generalization capabilities across multiple languages and tasks, making them very attractive targets for multi-modality integration (e.g., images or speech). In this work, we extend an existing LLM to the speech modality via speech discretization and continued pre-training. In particular, we are interested in multilingual LLMs, such as TOWER, as their pre-training setting allows us to treat discretized speech input as an additional translation language. The resulting open-source model, SPIRE, is able to transcribe and translate English speech input while maintaining TOWER’s original performance on translation-related tasks, showcasing that discretized speech input integration as an additional language is feasible during LLM adaptation. We make our code and models available to the community.

arxiv情報

著者 Kshitij Ambilduke,Ben Peters,Sonal Sannigrahi,Anil Keshwani,Tsz Kin Lam,Bruno Martins,Marcely Zanon Boito,André F. T. Martins
発行日 2025-03-13 17:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM はコメントを受け付けていません

Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention

要約

半監視学習は、労働集約的なピクセルレベルのラベル付けの負担を軽減するために、リモートセンシング(RS)画像セグメンテーションの魅力的なソリューションを提供します。
ただし、RS画像は、豊富なマルチスケール機能やクラス間の類似性が高いなど、独自の課題をもたらします。
これらの問題に対処するために、このペーパーでは、RS画像セマンティックセグメンテーションタスクの新しいセミスケールのマルチスケールの不確実性とクロスチーチャーと学生の注意(MUCA)モデルを提案します。
具体的には、MUCAは、マルチスケールの不確実性の一貫性の正則化を導入することにより、ネットワークの異なるレイヤーでの機能マップ間の一貫性を制約します。
ラベル付けされていないデータ上の半監視アルゴリズムのマルチスケール学習能力を改善します。
さらに、MUCAは、教師ネットワークを導くために、クロス教師と学生の注意メカニズムを利用して学生ネットワークを導き、教師ネットワークからの補完的な機能を通じてより差別的な機能表現を構築するように導きます。
この設計は、弱くて強い増強(WAおよびSA)を効果的に統合して、セグメンテーションのパフォーマンスをさらに高めます。
モデルの有効性を検証するために、ISPRS-PotsDamおよびLovedaデータセットで広範な実験を実施します。
実験結果は、最先端の半監視方法に対する私たちの方法の優位性を示しています。
特に、私たちのモデルは、非常に類似したオブジェクトを区別することに優れており、半監視されたRS画像セグメンテーションタスクを進める可能性を示しています。

要約(オリジナル)

Semi-supervised learning offers an appealing solution for remote sensing (RS) image segmentation to relieve the burden of labor-intensive pixel-level labeling. However, RS images pose unique challenges, including rich multi-scale features and high inter-class similarity. To address these problems, this paper proposes a novel semi-supervised Multi-Scale Uncertainty and Cross-Teacher-Student Attention (MUCA) model for RS image semantic segmentation tasks. Specifically, MUCA constrains the consistency among feature maps at different layers of the network by introducing a multi-scale uncertainty consistency regularization. It improves the multi-scale learning capability of semi-supervised algorithms on unlabeled data. Additionally, MUCA utilizes a Cross-Teacher-Student attention mechanism to guide the student network, guiding the student network to construct more discriminative feature representations through complementary features from the teacher network. This design effectively integrates weak and strong augmentations (WA and SA) to further boost segmentation performance. To verify the effectiveness of our model, we conduct extensive experiments on ISPRS-Potsdam and LoveDA datasets. The experimental results show the superiority of our method over state-of-the-art semi-supervised methods. Notably, our model excels in distinguishing highly similar objects, showcasing its potential for advancing semi-supervised RS image segmentation tasks.

arxiv情報

著者 Shanwen Wang,Xin Sun,Changrui Chen,Danfeng Hong,Jungong Han
発行日 2025-03-13 14:18:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention はコメントを受け付けていません

The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence

要約

マルチエージェントシステムは、人工知能(AI)ファンデーションモデルのアクセシビリティとスケーラビリティの問題に対処します。これは、多くの場合、大規模な言語モデルで表されます。
私たちは、複数のAI基礎モデル間の相互作用を調整し、現代の進化理論に従うことによって自然界で観察された動物の群れの行動を模倣するフレームワーク – 「Hivemindの社会」(SOHM) – を開発します。
一方で、SOHMは、主に実際の知識を必要とするタスクに無視できる利益を提供することがわかります。
一方、集中的な論理的推論を必要とするタスクの大幅な改善に注意して、マルチエージェントシステムが個々のエージェントと比較して集団の推論能力を高めることができることを示しています。
私たちの調査結果は、多数の多様なAIファンデーションモデルを組み合わせて、特定の環境との相互作用を通じて自己改善が可能な人工的な群れインテリジェンスを形成する可能性を示しています。

要約(オリジナル)

Multi-agent systems address issues of accessibility and scalability of artificial intelligence (AI) foundation models, which are often represented by large language models. We develop a framework – the ‘Society of HiveMind’ (SOHM) – that orchestrates the interaction between multiple AI foundation models, imitating the observed behavior of animal swarms in nature by following modern evolutionary theories. On the one hand, we find that the SOHM provides a negligible benefit on tasks that mainly require real-world knowledge. On the other hand, we remark a significant improvement on tasks that require intensive logical reasoning, indicating that multi-agent systems are capable of increasing the reasoning capabilities of the collective compared to the individual agents. Our findings demonstrate the potential of combining a multitude of diverse AI foundation models to form an artificial swarm intelligence capable of self-improvement through interactions with a given environment.

arxiv情報

著者 Noah Mamie,Susie Xi Rao
発行日 2025-03-13 14:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence はコメントを受け付けていません

PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm

要約

Video Virtual Try-Onは、視覚的な忠実度と時間的一貫性の両方を維持しながら、ビデオのターゲット担当者に参照衣服をシームレスに転送することを目的としています。
既存の方法は、通常、マスクの入力に依存して試行領域を定義し、シンプルなシーンの正確な衣服の転送を可能にします(たとえば、ショップ内のビデオなど)。
ただし、これらのマスクベースのアプローチは、複雑な現実世界のシナリオと格闘しています。これは、過度に大きくて一貫性のないマスクが空間的情報を破壊し、歪んだ結果につながるためです。
マスクフリーの方法はこの問題を軽減しますが、特にダイナミックな体の動きを持つビデオのトライオンエリアを正確に決定する際に課題に直面しています。
これらの制限に対処するために、PEMF-VTOを提案します。PEMF-VTOは、スパースポイントアラインメントを活用して衣服移動を明示的にガイドする新しいポイント強化されたビデオバーチャルトライドオンフレームワークです。
私たちの主要な革新は、ポイント強化ガイダンスの導入です。これは、空間レベルの衣服の転送と時間レベルのビデオコヒーレンスの両方を柔軟で信頼できる制御を提供します。
具体的には、2つのコアコンポーネントを備えたポイント強化変圧器(PET)を設計します。ポイント強度の空間的注意(PSA)は、フレームクロスポイントアラインメントを使用して衣服移動を正確に導き、ポイント強度の時間的注意(PTA)を設計します。
広範な実験は、PEMF-VTOが最先端の方法を上回り、特に挑戦的なワイルドシナリオのために、より自然で一貫した、視覚的に魅力的なトライオンビデオを生成することを示しています。

要約(オリジナル)

Video Virtual Try-on aims to seamlessly transfer a reference garment onto a target person in a video while preserving both visual fidelity and temporal coherence. Existing methods typically rely on inpainting masks to define the try-on area, enabling accurate garment transfer for simple scenes (e.g., in-shop videos). However, these mask-based approaches struggle with complex real-world scenarios, as overly large and inconsistent masks often destroy spatial-temporal information, leading to distorted results. Mask-free methods alleviate this issue but face challenges in accurately determining the try-on area, especially for videos with dynamic body movements. To address these limitations, we propose PEMF-VTO, a novel Point-Enhanced Mask-Free Video Virtual Try-On framework that leverages sparse point alignments to explicitly guide garment transfer. Our key innovation is the introduction of point-enhanced guidance, which provides flexible and reliable control over both spatial-level garment transfer and temporal-level video coherence. Specifically, we design a Point-Enhanced Transformer (PET) with two core components: Point-Enhanced Spatial Attention (PSA), which uses frame-cloth point alignments to precisely guide garment transfer, and Point-Enhanced Temporal Attention (PTA), which leverages frame-frame point correspondences to enhance temporal coherence and ensure smooth transitions across frames. Extensive experiments demonstrate that our PEMF-VTO outperforms state-of-the-art methods, generating more natural, coherent, and visually appealing try-on videos, particularly for challenging in-the-wild scenarios.

arxiv情報

著者 Tianyu Chang,Xiaohao Chen,Zhichao Wei,Xuanpu Zhang,Qing-Guo Chen,Weihua Luo,Peipei Song,Xun Yang
発行日 2025-03-13 14:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm はコメントを受け付けていません

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models

要約

単一のフレームワーク内の多様な画像生成タスクを統合することは、視覚生成における根本的な課題のままです。
大規模な言語モデル(LLM)は、タスクに依存しないデータと生成を通じて統一を実現しますが、既存の視覚生成モデルはこれらの原則を満たすことができません。
現在のアプローチは、タスクごとのデータセットと大規模なトレーニングに依存しているか、タスク固有の変更を加えて事前に訓練された画像モデルを適応させ、一般化を制限しています。
この作業では、統一された画像生成の基礎としてビデオモデルを探索し、時間的相関をモデル化する固有の能力を活用します。
LLMSでのコンテキスト内学習に類似した、画像生成を条件付きフレーム予測タスクとして再フォーマル化する新しいフレームワークであるRealGeneralを紹介します。
ビデオモデルと条件イメージのペアの間のギャップを埋めるために、(1)マルチモーダルアライメントのための統一された条件付き埋め込みモジュールと、(2)分離された適応レイヤーームと注意マスクを備えた統一ストリームDITブロックを提案します。
RealGeneralは、複数の重要な視覚生成タスクの有効性を実証しています。たとえば、カスタマイズされた生成の被験者の類似性の14.5%の改善と、Canny-to-Imageタスクの画質の10%の向上を実現します。
プロジェクトページ:https://lyne1.github.io/realgeneral/

要約(オリジナル)

Unifying diverse image generation tasks within a single framework remains a fundamental challenge in visual generation. While large language models (LLMs) achieve unification through task-agnostic data and generation, existing visual generation models fail to meet these principles. Current approaches either rely on per-task datasets and large-scale training or adapt pre-trained image models with task-specific modifications, limiting their generalizability. In this work, we explore video models as a foundation for unified image generation, leveraging their inherent ability to model temporal correlations. We introduce RealGeneral, a novel framework that reformulates image generation as a conditional frame prediction task, analogous to in-context learning in LLMs. To bridge the gap between video models and condition-image pairs, we propose (1) a Unified Conditional Embedding module for multi-modal alignment and (2) a Unified Stream DiT Block with decoupled adaptive LayerNorm and attention mask to mitigate cross-modal interference. RealGeneral demonstrates effectiveness in multiple important visual generation tasks, e.g., it achieves a 14.5% improvement in subject similarity for customized generation and a 10% enhancement in image quality for canny-to-image task. Project page: https://lyne1.github.io/RealGeneral/

arxiv情報

著者 Yijing Lin,Mengqi Huang,Shuhan Zhuang,Zhendong Mao
発行日 2025-03-13 14:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models はコメントを受け付けていません

dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

要約

Federated Learningは、医療分野で幅広い用途を持っています。
これにより、患者のプライバシーを保護しながら、さまざまな医療機関間で知識共有を可能にします。
ただし、既存のフェデレーション学習システムは通常集中化されており、クライアントが集約のためにクライアント固有の知識を中央サーバーにアップロードする必要があります。
この集中化されたアプローチは、各クライアントの知識を集中サーバーに統合し、各クライアントに戻る前に集中統合中に知識がすでに損なわれています。
また、集中化されたアプローチは、セントラルサーバーへの依存性も生成します。これは、サーバーの誤動作または接続が不安定な場合のトレーニングの安定性に影響を与える可能性があります。
これらの問題に対処するために、DFLMOEという名前の分散化された連邦学習フレームワークを提案します。
私たちのフレームワークでは、クライアントは軽量のヘッドモデルを互いに直接交換します。
交換後、各クライアントはローカルモデルと受信したヘッドモデルの両方を個々の専門家として扱い、クライアント固有の専門家(MOE)アプローチの混合物を利用して、集合的な決定を下します。
この設計により、クライアント固有の集約による知識のダメージが軽減されるだけでなく、フレームワークの堅牢性を高めるために中央サーバーへの依存性を削除します。
複数の医療タスクに関するフレームワークを検証し、モデルの均一性と不均一性の両方の設定の下で、この方法が最先端のアプローチを明らかに上回ることを実証します。

要約(オリジナル)

Federated learning has wide applications in the medical field. It enables knowledge sharing among different healthcare institutes while protecting patients’ privacy. However, existing federated learning systems are typically centralized, requiring clients to upload client-specific knowledge to a central server for aggregation. This centralized approach would integrate the knowledge from each client into a centralized server, and the knowledge would be already undermined during the centralized integration before it reaches back to each client. Besides, the centralized approach also creates a dependency on the central server, which may affect training stability if the server malfunctions or connections are unstable. To address these issues, we propose a decentralized federated learning framework named dFLMoE. In our framework, clients directly exchange lightweight head models with each other. After exchanging, each client treats both local and received head models as individual experts, and utilizes a client-specific Mixture of Experts (MoE) approach to make collective decisions. This design not only reduces the knowledge damage with client-specific aggregations but also removes the dependency on the central server to enhance the robustness of the framework. We validate our framework on multiple medical tasks, demonstrating that our method evidently outperforms state-of-the-art approaches under both model homogeneity and heterogeneity settings.

arxiv情報

著者 Luyuan Xie,Tianyu Luan,Wenyuan Cai,Guochen Yan,Zhaoyu Chen,Nan Xi,Yuejian Fang,Qingni Shen,Zhonghai Wu,Junsong Yuan
発行日 2025-03-13 14:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis はコメントを受け付けていません

Similarity Equivariant Graph Neural Networks for Homogenization of Metamaterials

要約

柔らかく多孔質の機械的メタマテリアルは、柔らかいロボット工学、音の還元、生物医学に重要な用途を持つ可能性のあるパターン変換を示します。
これらの革新的な材料を設計するには、機械的特性を調整するために、それらを正確かつ迅速にシミュレートできるようにすることが重要です。
有限要素法を使用した従来のシミュレーションには高い計算コストが必要であるため、この記事では、代理モデルとして機能するために好意的にスケーリングする機械学習ベースのアプローチを開発することを目指しています。
モデルがトレーニング中に遭遇しなかったものを含むさまざまな微細構造も処理できるようにするために、ネットワーク入力の一部として微細構造を含めます。
したがって、グローバルな量(エネルギー、応力剛性)と発生するパターン変換(運動学)を予測するグラフニューラルネットワークを導入します。
モデルを可能な限り正確かつデータ効率の良いものにするために、さまざまな対称性がモデルに組み込まれています。
出発点は、周期的な境界条件を持つ(つまり、RVEの選択に関して/等量である)e(n)equivariantグラフニューラルネットワーク(翻訳、回転、反射を尊重する)です。
スケール等量の組み込みにより、ユークリッドグループE(n)がサブグループである類似性グループとのモデル等量が等しくなります。
このネットワークは、より少ない対称性を持つグラフニューラルネットワークよりも正確でデータ効率が高いことを示しています。
有限要素離散化の効率的なグラフ表現を作成するために、有限要素メッシュからの内部幾何学的穴境界のみを使用して、メッシュサイズでより良いスピードアップとスケーリングを実現します。

要約(オリジナル)

Soft, porous mechanical metamaterials exhibit pattern transformations that may have important applications in soft robotics, sound reduction and biomedicine. To design these innovative materials, it is important to be able to simulate them accurately and quickly, in order to tune their mechanical properties. Since conventional simulations using the finite element method entail a high computational cost, in this article we aim to develop a machine learning-based approach that scales favorably to serve as a surrogate model. To ensure that the model is also able to handle various microstructures, including those not encountered during training, we include the microstructure as part of the network input. Therefore, we introduce a graph neural network that predicts global quantities (energy, stress stiffness) as well as the pattern transformations that occur (the kinematics). To make our model as accurate and data-efficient as possible, various symmetries are incorporated into the model. The starting point is an E(n)-equivariant graph neural network (which respects translation, rotation and reflection) that has periodic boundary conditions (i.e., it is in-/equivariant with respect to the choice of RVE), is scale in-/equivariant, can simulate large deformations, and can predict scalars, vectors as well as second and fourth order tensors (specifically energy, stress and stiffness). The incorporation of scale equivariance makes the model equivariant with respect to the similarities group, of which the Euclidean group E(n) is a subgroup. We show that this network is more accurate and data-efficient than graph neural networks with fewer symmetries. To create an efficient graph representation of the finite element discretization, we use only the internal geometrical hole boundaries from the finite element mesh to achieve a better speed-up and scaling with the mesh size.

arxiv情報

著者 Fleur Hendriks,Vlado Menkovski,Martin Doškář,Marc G. D. Geers,Ondřej Rokoš
発行日 2025-03-13 14:48:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.soft, cs.AI, cs.LG | Similarity Equivariant Graph Neural Networks for Homogenization of Metamaterials はコメントを受け付けていません

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

要約

この論文では、具体化されたマルチエージェント協力の問題を調査します。そこでは、分散型のエージェントが世界のエゴセントリックな見解のみを考えると協力しなければなりません。
この設定で効果的に計画するには、単一エージェントシナリオで世界のダイナミクスを学ぶこととは対照的に、世界の部分的なエゴセントリックな視覚観測のみが与えられた任意の数のエージェントのアクションを条件付けられた世界のダイナミクスをシミュレートする必要があります。
部分的な観察可能性のこの問題に対処するために、最初に生成モデルを訓練して、部分的なエゴセントリックな観察を与えられた世界全体の状態を推定します。
この世界状態での複数のアクションセットの正確なシミュレーションを有効にするために、複数のエージェントの自然に構成可能な共同アクションを考慮し、世界状態に条件付けられたビデオを構成することにより、マルチエージェント協力の構成世界モデルを学習することを提案します。
この構成の世界モデルを活用して、ビジョン言語モデルと組み合わせて他のエージェントのアクションを推測することにより、ツリー検索手順を使用してこれらのモジュールを統合し、オンライン協同組合計画を促進できます。
2〜4エージェントとの3つの挑戦的なベンチマークでの方法を評価します。
結果は、私たちの構成世界モデルが効果的であり、フレームワークにより、具体化されたエージェントがさまざまなタスクや任意の数のエージェントにわたってさまざまなエージェントと効率的に協力し、提案された方法の有望な未来を示していることを示しています。
その他のビデオは、https://embodied-agi.cs.umass.edu/combo/をご覧ください。

要約(オリジナル)

In this paper, we investigate the problem of embodied multi-agent cooperation, where decentralized agents must cooperate given only egocentric views of the world. To effectively plan in this setting, in contrast to learning world dynamics in a single-agent scenario, we must simulate world dynamics conditioned on an arbitrary number of agents’ actions given only partial egocentric visual observations of the world. To address this issue of partial observability, we first train generative models to estimate the overall world state given partial egocentric observations. To enable accurate simulation of multiple sets of actions on this world state, we then propose to learn a compositional world model for multi-agent cooperation by factorizing the naturally composable joint actions of multiple agents and compositionally generating the video conditioned on the world state. By leveraging this compositional world model, in combination with Vision Language Models to infer the actions of other agents, we can use a tree search procedure to integrate these modules and facilitate online cooperative planning. We evaluate our methods on three challenging benchmarks with 2-4 agents. The results show our compositional world model is effective and the framework enables the embodied agents to cooperate efficiently with different agents across various tasks and an arbitrary number of agents, showing the promising future of our proposed methods. More videos can be found at https://embodied-agi.cs.umass.edu/combo/.

arxiv情報

著者 Hongxin Zhang,Zeyuan Wang,Qiushi Lyu,Zheyuan Zhang,Sunli Chen,Tianmin Shu,Behzad Dariush,Kwonjoon Lee,Yilun Du,Chuang Gan
発行日 2025-03-13 14:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MA | COMBO: Compositional World Models for Embodied Multi-Agent Cooperation はコメントを受け付けていません

Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings

要約

多言語設定でのスピーカーの識別は、特に従来のモデルが主に英語のデータでトレーニングされている場合、ユニークな課題を提示します。
このホワイトペーパーでは、WSI(ささやきスピーカーの識別)を提案します。これは、オンラインのハードトリップレットマイニングと自動監督された温度温度補給式腸喪失喪失をレバレッジする共同損失最適化戦略を介して、広範な多言語データで事前に訓練されたささやきの自動音声認識モデルのエンコーダを再利用するフレームワークです。
ささやき言語に依存しない音響表現を活用することにより、私たちのアプローチは、多様な言語と記録条件でスピーカーを効果的に区別します。
Voxtube(多言語)、JVS(日本)、Callhome(ドイツ語、スペイン語、中国語、日本語)、VoxConverse(英語)を含む複数のコーパスに関する広範な評価は、WSIが常に最先端のベースラインを上回ることを示しています。
これらの結果は、多言語の事前訓練を受けたASRエンコーダーと共同損失の最適化が、非英語言語のスピーカー識別パフォーマンスを大幅に改善するという仮説を検証します。

要約(オリジナル)

Speaker identification in multilingual settings presents unique challenges, particularly when conventional models are predominantly trained on English data. In this paper, we propose WSI (Whisper Speaker Identification), a framework that repurposes the encoder of the Whisper automatic speech recognition model pre trained on extensive multilingual data to generate robust speaker embeddings via a joint loss optimization strategy that leverages online hard triplet mining and self supervised Normalized Temperature-scaled Cross Entropy loss. By capitalizing on Whisper language-agnostic acoustic representations, our approach effectively distinguishes speakers across diverse languages and recording conditions. Extensive evaluations on multiple corpora, including VoxTube (multilingual), JVS (Japanese), CallHome (German, Spanish, Chinese, and Japanese), and Voxconverse (English), demonstrate that WSI consistently outperforms state-of-the-art baselines, namely Pyannote Embedding, ECAPA TDNN, and Xvector, in terms of lower equal error rates and higher AUC scores. These results validate our hypothesis that a multilingual pre-trained ASR encoder, combined with joint loss optimization, substantially improves speaker identification performance in non-English languages.

arxiv情報

著者 Jakaria Islam Emon,Md Abu Salek,Kazi Tamanna Alam
発行日 2025-03-13 15:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS, I.2 | Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings はコメントを受け付けていません

DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation

要約

大規模な言語モデル(LLMS)の急速な進歩により、コード生成タスクでのパフォーマンスが大幅に向上しました。
ただし、既存のコードベンチマークは静的なままであり、事前に定義された問題を抱える固定データセットで構成されています。
これにより、トレーニング中の記憶に対して脆弱になります。これにより、LLMは新しい問題に一般化する代わりに特定のテストケースを思い出し、データの汚染と信頼できない評価結果につながります。
これらの問題に対処するために、静的データセットの制限を克服する動的で複雑なベンチマークであるDynacodeを導入します。
Dynacodeは、コードの複雑さとコールグラフ構造の両方を組み込んだ複雑さ対応メトリックを使用してLLMSを体系的に評価します。
Dynacodeは大規模な多様性を達成し、ユニットと呼ばれる4つの異なるレベルのコード複雑さと16種類のコールグラフにわたって最大1億8900万個の一意のネストされたコードの問題を生成します。
12の最新のLLMの結果は、静的コード生成ベンチマークであるMBPP+と比較して、平均パフォーマンス低下が16.8%〜45.7%であり、複雑さが増加するにつれてパフォーマンスが徐々に減少します。
これは、LLMを効果的に区別するDynacodeの能力を示しています。
さらに、コールグラフを活用することにより、LLMの動作、特にネストされたコード内のサブ機能相互作用を処理することに対する好みに関する洞察が得られます。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has significantly improved their performance in code generation tasks. However, existing code benchmarks remain static, consisting of fixed datasets with predefined problems. This makes them vulnerable to memorization during training, where LLMs recall specific test cases instead of generalizing to new problems, leading to data contamination and unreliable evaluation results. To address these issues, we introduce DynaCode, a dynamic, complexity-aware benchmark that overcomes the limitations of static datasets. DynaCode evaluates LLMs systematically using a complexity-aware metric, incorporating both code complexity and call-graph structures. DynaCode achieves large-scale diversity, generating up to 189 million unique nested code problems across four distinct levels of code complexity, referred to as units, and 16 types of call graphs. Results on 12 latest LLMs show an average performance drop of 16.8% to 45.7% compared to MBPP+, a static code generation benchmark, with performance progressively decreasing as complexity increases. This demonstrates DynaCode’s ability to effectively differentiate LLMs. Additionally, by leveraging call graphs, we gain insights into LLM behavior, particularly their preference for handling subfunction interactions within nested code.

arxiv情報

著者 Wenhao Hu,Jinhao Duan,Chunchen Wei,Li Zhang,Yue Zhang,Kaidi Xu
発行日 2025-03-13 15:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation はコメントを受け付けていません