SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training

要約

低ランクの勾配ベースの最適化方法により、大規模な言語モデル(LLM)のトレーニング中にメモリ効率が大幅に改善され、パフォーマンスを犠牲にすることなく制約されたハードウェア内の操作が可能になります。
しかし、これらの方法は主に記憶の節約を強調し、多くの場合、標準的な等方性が最も急な降下技術に依存しているため、収束の潜在的な加速を見落とします。
この論文では、動的に適応した低次元サブスペース内での正確な直交化のために正確な単数値分解(SVD)を使用するオプティマイザーであるSUMO(サブスペースを意識したモーメント正統派)を提案し、標準誘導の急な降下最適化ステップを促進します。
最適化ステップを損失状況のスペクトル特性と明示的に整列させることにより、SUMOは、Newton-Schulz Orthogonalization近似のような一般的に使用される方法に関連する近似エラーを効果的に軽減します。
理論的には、これらの近似誤差の上限を確立し、モーメントの条件数に依存していることを証明し、LLMトレーニング中に分析的に実証する条件を証明します。
さらに、私たちは理論的にも経験的にも、SVDを介した正確な直交化が収束率を大幅に改善し、全体的な複雑さを減らすことを示しています。
経験的評価は、SUMOが収束を加速し、安定性を向上させ、パフォーマンスを向上させ、最新の方法と比較してメモリ要件を最大20%削減することを確認します。

要約(オリジナル)

Low-rank gradient-based optimization methods have significantly improved memory efficiency during the training of large language models (LLMs), enabling operations within constrained hardware without sacrificing performance. However, these methods primarily emphasize memory savings, often overlooking potential acceleration in convergence due to their reliance on standard isotropic steepest descent techniques, which can perform suboptimally in the highly anisotropic landscapes typical of deep networks, particularly LLMs. In this paper, we propose SUMO (Subspace-Aware Moment-Orthogonalization), an optimizer that employs exact singular value decomposition (SVD) for moment orthogonalization within a dynamically adapted low-dimensional subspace, enabling norm-inducing steepest descent optimization steps. By explicitly aligning optimization steps with the spectral characteristics of the loss landscape, SUMO effectively mitigates approximation errors associated with commonly used methods like Newton-Schulz orthogonalization approximation. We theoretically establish an upper bound on these approximation errors, proving their dependence on the condition numbers of moments, conditions we analytically demonstrate are encountered during LLM training. Furthermore, we both theoretically and empirically illustrate that exact orthogonalization via SVD substantially improves convergence rates while reducing overall complexity. Empirical evaluations confirm that SUMO accelerates convergence, enhances stability, improves performance, and reduces memory requirements by up to 20% compared to state-of-the-art methods.

arxiv情報

著者 Yehonathan Refael,Guy Smorodinsky,Tom Tirer,Ofir Lindenbaum
発行日 2025-05-30 16:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, math.OC | SUMO: Subspace-Aware Moment-Orthogonalization for Accelerating Memory-Efficient LLM Training はコメントを受け付けていません

LGAR: Zero-Shot LLM-Guided Neural Ranking for Abstract Screening in Systematic Literature Reviews

要約

科学文献は急速に成長しており、最先端を追跡するのが難しくなっています。
体系的な文献レビュー(SLR)は、トピックに関するすべての関連する論文を特定して評価することを目的としています。
一連の候補論文を取得した後、抽象スクリーニングフェーズは初期の関連性を決定します。
現在までに、大きな言語モデル(LLM)を使用した抽象スクリーニング方法は、バイナリ分類設定に焦点を当てています。
既存の質問応答(QA)ベースのランキングアプローチは、エラーの伝播に苦しんでいます。
LLMSは、SLRの包含および除外基準を評価するユニークな機会を提供しますが、既存のベンチマークはそれらを徹底的に提供しません。
これらの基準と57のSLRの研究質問を手動で抽出し、主に医療ドメインで、アプローチ間の原則的な比較を可能にします。
さらに、LLMベースの段階的関連性のスコアラーと密な再ランカーで構成されるゼロショットLLMガイド付き抽象ランカーであるLGARを提案します。
私たちの広範な実験は、LGAが平均平均精度で既存のQAベースの方法を5-10 ppで上回ることを示しています。
私たちのコードとデータは公開されています。

要約(オリジナル)

The scientific literature is growing rapidly, making it hard to keep track of the state-of-the-art. Systematic literature reviews (SLRs) aim to identify and evaluate all relevant papers on a topic. After retrieving a set of candidate papers, the abstract screening phase determines initial relevance. To date, abstract screening methods using large language models (LLMs) focus on binary classification settings; existing question answering (QA) based ranking approaches suffer from error propagation. LLMs offer a unique opportunity to evaluate the SLR’s inclusion and exclusion criteria, yet, existing benchmarks do not provide them exhaustively. We manually extract these criteria as well as research questions for 57 SLRs, mostly in the medical domain, enabling principled comparisons between approaches. Moreover, we propose LGAR, a zero-shot LLM Guided Abstract Ranker composed of an LLM based graded relevance scorer and a dense re-ranker. Our extensive experiments show that LGAR outperforms existing QA-based methods by 5-10 pp. in mean average precision. Our code and data is publicly available.

arxiv情報

著者 Christian Jaumann,Andreas Wiedholz,Annemarie Friedrich
発行日 2025-05-30 16:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LGAR: Zero-Shot LLM-Guided Neural Ranking for Abstract Screening in Systematic Literature Reviews はコメントを受け付けていません

From Macro to Micro: Probing Dataset Diversity in Language Model Fine-Tuning

要約

データセットの多様性は、特に大規模な言語モデル(LLM)開発の監視付き微調整(SFT)段階で、多くの機械学習モデルの成功したトレーニングのために極めて重要な役割を果たします。
その重要性の認識が高まっているにもかかわらず、データセットの多様性の体系的な分析は依然として不足していません。
このギャップに対処するために、この作業は、主に命令コンポーネントに焦点を当てた既存の多様性制御戦略の体系的な分類法を提示し、巨視的なレベル(命令セマンティクス全体)またはメソスコピックレベル(命令単位)で動作し、さらに応答コンポーネント内の顕微鏡多様性の微視的多様性の新しい分析を導入し、SFTトレーニングの統計的分析を特異的に分析します。
実験的評価では、117,000のオープンソースSFTサンプルのコーパスから固定サイズのデータ​​セット(それぞれ10,000サンプル)を構築し、マクロ、メソ、およびメソ、および微視的レベルにまたがる6つの異なる多様性制御戦略を組み込んでおり、命令と応答の両方に適用されます。
次に、これらのデータセットでLLMSを微調整して、6つの多様性制御戦略を評価します。
結果は、巨視的および中鏡戦略が多様性の増加に伴うパフォーマンスを高める一方で、応答の微視的戦略は、モデルパフォーマンスと多様性の程度と、すべての戦略にわたって最大の多様性を備えた優れたパフォーマンスとの間のより強い相関の両方を示すことを明らかにしています。
これらの調査結果は、高性能SFTデータセットを構築するための実用的な洞察を提供します。

要約(オリジナル)

Dataset diversity plays a pivotal role for the successful training of many machine learning models, particularly in the supervised fine-tuning (SFT) stage of large language model (LLM) development. Despite increasing recognition of its importance, systematic analyses of dataset diversity still remain underexplored. To address this gap, this work presents a systematic taxonomy of existing diversity-control strategies, which primarily focus on the instruction component, operating at either macroscopic (entire instruction semantics) or mesoscopic levels (instruction units), and furthermore introduces a novel analysis of microscopic diversity within the response component, specifically analyzing the statistical distribution of tokens in SFT training samples. In the experimental evaluation, we construct fixed-size datasets (e.g., 10,000 samples each) from a corpus of 117,000 open-source SFT samples, incorporating six distinct diversity-control strategies spanning macro-, meso-, and microscopic levels applied to both instructions and responses. We then fine-tune LLMs on these datasets to assess the six diversity-control strategies. Results reveal that while macroscopic and mesoscopic strategies lead to higher performance with increasing diversity, the microscopic strategy in responses exhibits both a stronger correlation between model performance and the degree of diversity and superior performance with maximum diversity across all strategies. These findings offer actionable insights for constructing high-performance SFT datasets.

arxiv情報

著者 Haoyu Li,Xuhong Li,Yiming Dong,Kun Liu
発行日 2025-05-30 16:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Macro to Micro: Probing Dataset Diversity in Language Model Fine-Tuning はコメントを受け付けていません

MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering

要約

視覚的な質問応答(VQA)には視覚的およびテキストのモダリティ全体の推論が必要ですが、大きなビジョン言語モデル(LVLM)が統合された常識的な知識を欠いていることが多く、現実世界のシナリオでの堅牢性を制限します。
これに対処するために、Commonsenseの知識をLVLMSと体系的に統合することにより、VQAを強化する新しいフレームワークであるMagic-VQAを紹介します。
Magic-VQAは、3段階のプロセスを採用しています。(1)外部ソースからの明示的な知識統合、(2)コンテキストの洗練のためのバイタイプのポストプロセッシング、および(3)構造化された推論のためのグラフニューラルネットワーク(GNN)を使用した暗黙の知識増強。
GNNSは構造化された推論により深みを帯びますが、LVLMを超えて優れたリレーショナル推論を可能にします。
Magic-VQAは、LVLM駆動型の推論でCommonsensseの知識を統合することにより、重要なギャップを橋渡しし、広範なトレーニングまたは複雑な迅速なチューニングの必要性を排除します。
私たちのフレームワークは、ベンチマークデータセットで最先端のパフォーマンスを実現し、VQAの常識的な推論を大幅に改善します。

要約(オリジナル)

Visual Question Answering (VQA) requires reasoning across visual and textual modalities, yet Large Vision-Language Models (LVLMs) often lack integrated commonsense knowledge, limiting their robustness in real-world scenarios. To address this, we introduce MAGIC-VQA, a novel framework that enhances VQA by systematically integrating commonsense knowledge with LVLMs. MAGIC-VQA employs a three-stage process: (1) Explicit Knowledge Integration from external sources, (2) By-Type Post-Processing for contextual refinement, and (3) Implicit Knowledge Augmentation using a Graph Neural Network (GNN) for structured reasoning. While GNNs bring greater depth to structured inference, they enable superior relational inference beyond LVLMs. MAGIC-VQA bridges a key gap by unifying commonsensse knowledge with LVLM-driven reasoning, eliminating the need for extensive pre-training or complex prompt tuning. Our framework achieves state-of-the-art performance on benchmark datasets, significantly improving commonsense reasoning in VQA.

arxiv情報

著者 Shuo Yang,Siwen Luo,Soyeon Caren Han,Eduard Hovy
発行日 2025-05-30 16:34:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering はコメントを受け付けていません

Contrastive Learning for Task-Independent SpeechLLM-Pretraining

要約

大規模な言語モデル(LLM)は自然言語処理に優れていますが、これらのLLMを音声処理タスクに効率的に適応させることは簡単ではありません。
直接タスク固有の微調整は、リスク、データ要件、および計算コストに過度に適合することにより制限されます。
これらの課題に対処するために、スケーラブルな2段階のトレーニングアプローチを提案します。(1)すべてのレイヤーにテキストと音声表現を整列させるための対照学習を使用したタスクに依存しない音声前段階を提案し、次に(2)最小限のデータを必要とするタスク固有の微調整段階を続けます。
このアプローチは、従来のASR事前トレーニングを上回り、モデルが音声翻訳と質問の回答に特化したモデルを上回り、タスク固有のデータの10%のみで訓練されています。

要約(オリジナル)

Large language models (LLMs) excel in natural language processing but adapting these LLMs to speech processing tasks efficiently is not straightforward. Direct task-specific fine-tuning is limited by overfitting risks, data requirements, and computational costs. To address these challenges, we propose a scalable, two-stage training approach: (1) A task-independent speech pretraining stage using contrastive learning to align text and speech representations over all layers, followed by (2) a task-specific fine-tuning stage requiring minimal data. This approach outperforms traditional ASR pretraining and enables the model to surpass models specialized on speech translation and question answering while being trained on only 10% of the task-specific data.

arxiv情報

著者 Maike Züfle,Jan Niehues
発行日 2025-05-30 16:35:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Contrastive Learning for Task-Independent SpeechLLM-Pretraining はコメントを受け付けていません

Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models’ Uncertainty?

要約

大規模な言語モデル(LLM)がハイステークスドメインでますます使用されているため、自信を正確に評価することが重要です。
人間は通常、数値の代わりに認識論的マーカー(例えば、「かなり自信」)を通じて自信を表します。
ただし、さまざまなマーカーに関連する不確実性を定量化することが難しいため、LLMSがこれらのマーカーを一貫して使用して固有の信頼を反映するかどうかは不明のままです。
このギャップに対処するために、最初にモデルが認識的マーカーを使用したときに観察された精度としてマーカー信頼を定義します。
オープンソースと独自のLLMSの分散型および分散排出設定の両方で、複数の質問回答データセットにわたってその安定性を評価します。
私たちの結果は、マーカーが同じ分布内でよく一般化する一方で、彼らの自信は分散除外シナリオに矛盾していることを示しています。
これらの発見は、信頼性推定のための認識的マーカーの信頼性に関する重大な懸念を提起し、マーカーベースの信頼性と実際のモデルの不確実性との間の改善されたアライメントの必要性を強調しています。
私たちのコードは、https://github.com/hkust-knowcomp/marconで入手できます。

要約(オリジナル)

As large language models (LLMs) are increasingly used in high-stakes domains, accurately assessing their confidence is crucial. Humans typically express confidence through epistemic markers (e.g., ‘fairly confident’) instead of numerical values. However, it remains unclear whether LLMs consistently use these markers to reflect their intrinsic confidence due to the difficulty of quantifying uncertainty associated with various markers. To address this gap, we first define marker confidence as the observed accuracy when a model employs an epistemic marker. We evaluate its stability across multiple question-answering datasets in both in-distribution and out-of-distribution settings for open-source and proprietary LLMs. Our results show that while markers generalize well within the same distribution, their confidence is inconsistent in out-of-distribution scenarios. These findings raise significant concerns about the reliability of epistemic markers for confidence estimation, underscoring the need for improved alignment between marker based confidence and actual model uncertainty. Our code is available at https://github.com/HKUST-KnowComp/MarCon.

arxiv情報

著者 Jiayu Liu,Qing Zong,Weiqi Wang,Yangqiu Song
発行日 2025-05-30 16:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models’ Uncertainty? はコメントを受け付けていません

ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models

要約

ツール学習は、大規模な言語モデル(LLM)が外部ツールとの相互作用を通じて複雑な現実世界のタスクを解決する重要な機能として浮上しています。
既存のアプローチは、手作りのプロンプトへの依存、マルチステップ計画の難しさ、正確なエラー診断と反射メカニズムの欠如など、重大な課題に直面しています。
ツールコーダーを提案します。これは、ツール学習をコード生成タスクとして再フォーマルする新しいフレームワークです。
ソフトウェアエンジニアリングの原則に触発されたToolCoderは、自然言語のクエリを構造化されたPython関数の足場に変換し、記述的なコメントでタスクを体系的に分解し、LLMが複雑な推論と計画のためにコーディングパラダイムを活用できるようにします。
次に、機能の実装を生成および実行して、最終応答を取得します。
さらに、ツールコーダーはリポジトリで機能を正常に実行してコードの再利用を促進し、体系的なデバッグのためのエラートレースバックメカニズムを活用し、実行効率と堅牢性の両方を最適化しました。
実験は、ツールコーダーが既存のアプローチと比較してタスク完了の精度と実行の信頼性で優れたパフォーマンスを達成し、ツール学習におけるコード中心のアプローチの有効性を確立することを示しています。

要約(オリジナル)

Tool learning has emerged as a crucial capability for large language models (LLMs) to solve complex real-world tasks through interaction with external tools. Existing approaches face significant challenges, including reliance on hand-crafted prompts, difficulty in multi-step planning, and lack of precise error diagnosis and reflection mechanisms. We propose ToolCoder, a novel framework that reformulates tool learning as a code generation task. Inspired by software engineering principles, ToolCoder transforms natural language queries into structured Python function scaffold and systematically breaks down tasks with descriptive comments, enabling LLMs to leverage coding paradigms for complex reasoning and planning. It then generates and executes function implementations to obtain final responses. Additionally, ToolCoder stores successfully executed functions in a repository to promote code reuse, while leveraging error traceback mechanisms for systematic debugging, optimizing both execution efficiency and robustness. Experiments demonstrate that ToolCoder achieves superior performance in task completion accuracy and execution reliability compared to existing approaches, establishing the effectiveness of code-centric approaches in tool learning.

arxiv情報

著者 Hanxing Ding,Shuchang Tao,Liang Pang,Zihao Wei,Jinyang Gao,Bolin Ding,Huawei Shen,Xueqi Cheng
発行日 2025-05-30 16:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models はコメントを受け付けていません

Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models

要約

ビデオ言語モデル(VLMS)の評価は困難な作業です。
その透明性のため、多重選択質問応答(MCQA)は、精度を通じてこれらのモデルのパフォーマンスを測定するために広く使用されています。
ただし、既存のMCQAベンチマークは、トレーニング中に観察された位置パターンに基づいてモデルが不均衡に特定の回答オプションを支持する場合、選択バイアスのためにVLMの完全な推論機能をキャプチャできません。
この作業では、複雑なビデオ中心の推論を評価するために設計された主要なデータセット全体で、いくつかのVLMアーキテクチャの包括的な経験的分析を実施します。
バイアスが最も顕著である場所を特定し、回答位置などの任意のパターンや表面的な手がかりへの依存とは対照的に、モデル応答がビデオコンテンツと関連する質問の真の理解をどの程度反映しているかを示します。
MCQAタスクを分解し、公平性バイアスメトリックをVLMSに適応させることにより、このバイアスのバランスをとるために、後処理キャリブレーション手法を大胆に導入します。
我々の結果は、選択バイアスを減らすことで、衰弱メトリックだけでなく、精度やF1平均スコアなど、全体的なモデルパフォーマンスも改善することを示しています。
私たちの方法は、「盲目の推測」を抑制することにより、既存の手法と比較して選択バイアスを軽減するためのよりコストおよび時間効果の高いアプローチを提供します。
この研究は、ビデオからテキストへのLLM駆動モデルにおける選択バイアスの最初の焦点を絞った調査を表しています。

要約(オリジナル)

Evaluating Video Language Models (VLMs) is a challenging task. Due to its transparency, Multiple-Choice Question Answering (MCQA) is widely used to measure the performance of these models through accuracy. However, existing MCQA benchmarks fail to capture the full reasoning capabilities of VLMs due to selection bias, when models disproportionately favor certain answer options based on positional patterns observed during training. In this work, we conduct a comprehensive empirical analysis of several VLM architectures across major datasets designed to assess complex video-focused reasoning. We identify where the bias is most pronounced and demonstrate to what extent model responses reflect genuine understanding of video content and related questions, as opposed to reliance on arbitrary patterns or superficial cues, such as answer position. By decomposing the MCQA task and adapting fairness bias metrics to VLMs, we introduce a post-processing calibration technique BOLD to balance this bias. Our results show that reducing selection bias improves not only debiasing metrics but also overall model performance, including Accuracy and F1 Mean score. Our method, by suppressing ‘blind guessing’, offers a more cost- and time-effective approach to mitigating selection bias compared to existing techniques. This study represents the first focused investigation of selection bias in video-to-text LLM-powered models.

arxiv情報

著者 Olga Loginova,Oleksandr Bezrukov,Ravi Shekhar,Alexey Kravets
発行日 2025-05-30 17:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models はコメントを受け付けていません

Guiding Generative Storytelling with Knowledge Graphs

要約

大規模な言語モデル(LLM)は、自動化されたストーリー生成に大きな可能性を示していますが、長い形式の一貫性を維持し、ユーザーに直感的で効果的な制御を提供することに課題が残っています。
検索された生成(RAG)は、テキスト生成の幻覚を減らすのに効果的であることが証明されています。
ただし、生成的なストーリーテリングをサポートするために構造化されたデータを使用することは、未定のままです。
このホワイトペーパーでは、ナレーションの品質を向上させ、ユーザー駆動型の変更を可能にすることにより、知識グラフ(KG)がLLMベースのストーリーテリングをどのように強化できるかを調査します。
KG支援のストーリーテリングパイプラインを提案し、15人の参加者を含むユーザー調査を通じてその有効性を評価します。
参加者は、物語を形作るために独自のストーリープロンプト、生成されたストーリー、編集された知識グラフを作成しました。
定量的および定性的分析を通じて、我々の調査結果は、知識グラフがシステム設定内のアクション指向および構造化された物語のストーリー品質を大幅に向上させることを示しています。
さらに、ナレッジグラフを編集すると、ユーザーの制御感が向上し、ストーリーテリングがより魅力的でインタラクティブで遊び心があります。

要約(オリジナル)

Large Language Models (LLMs) have shown great potential in automated story generation, but challenges remain in maintaining long-form coherence and providing users with intuitive and effective control. Retrieval-Augmented Generation (RAG) has proven effective in reducing hallucinations in text generation; however, the use of structured data to support generative storytelling remains underexplored. This paper investigates how knowledge graphs (KGs) can enhance LLM-based storytelling by improving narrative quality and enabling user-driven modifications. We propose a KG-assisted storytelling pipeline and evaluate its effectiveness through a user study with 15 participants. Participants created their own story prompts, generated stories, and edited knowledge graphs to shape their narratives. Through quantitative and qualitative analysis, our findings demonstrate that knowledge graphs significantly enhance story quality in action-oriented and structured narratives within our system settings. Additionally, editing the knowledge graph increases users’ sense of control, making storytelling more engaging, interactive, and playful.

arxiv情報

著者 Zhijun Pan,Antonios Andronis,Eva Hayek,Oscar AP Wilkinson,Ilya Lasy,Annette Parry,Guy Gadney,Tim J. Smith,Mick Grierson
発行日 2025-05-30 17:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Guiding Generative Storytelling with Knowledge Graphs はコメントを受け付けていません

Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach

要約

サブグループの格差とパフォーマンスバイアスは計算研究でますます研究されていますが、カテゴリの音声感情認識(SER)の公平性は採用されていないままです。
既存の方法は、多くの場合、プライバシーの懸念のために取得するのが難しい明示的な人口統計ラベルに依存しています。
この制限に対処するために、Serのバイアスを緩和するためにK-Meansクラスタリングを使用して、事前に訓練されたモデルから擬似標識と監視されていない学習を活用する暗黙的な人口統計推論(IDI)モジュールを導入します。
我々の実験は、擬似標識IDIがサブグループの格差を減らし、Serの精度が2%未満で28%以上の公平性メトリックを改善することを示しています。
また、監視されていないIDIは、SERパフォーマンスが3.6%未満の低下で、公平性メトリックの4.6%以上の改善をもたらします。
さらなる分析により、監視されていないIDIが人種と年齢の格差を一貫して軽減し、明示的な人口統計情報が利用できない場合の可能性を示しています。

要約(オリジナル)

While subgroup disparities and performance bias are increasingly studied in computational research, fairness in categorical Speech Emotion Recognition (SER) remains underexplored. Existing methods often rely on explicit demographic labels, which are difficult to obtain due to privacy concerns. To address this limitation, we introduce an Implicit Demography Inference (IDI) module that leverages pseudo-labeling from a pre-trained model and unsupervised learning using k-means clustering to mitigate bias in SER. Our experiments show that pseudo-labeling IDI reduces subgroup disparities, improving fairness metrics by over 28% with less than a 2% decrease in SER accuracy. Also, the unsupervised IDI yields more than a 4.6% improvement in fairness metrics with a drop of less than 3.6% in SER performance. Further analyses reveal that the unsupervised IDI consistently mitigates race and age disparities, demonstrating its potential when explicit demographic information is unavailable.

arxiv情報

著者 Yi-Cheng Lin,Huang-Cheng Chou,Hung-yi Lee
発行日 2025-05-30 17:10:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach はコメントを受け付けていません