ELMI: Interactive and Intelligent Sign Language Translation of Lyrics for Song Signing

要約

D/聴覚障害者と聴覚監視は、ビデオ共有プラットフォーム全体で一般的になりましたが、曲を手話に翻訳することは面倒でアクセスできません。
私たちの形成的研究では、翻訳におけるセマンティック、構文、表現力のある、リズミカルな考慮事項など、Song-Signersが直面する課題が明らかになりました。
Elmiは、歌詞を手話に翻訳するのに役立つアクセス可能な曲署名ツールです。
Elmiを使用すると、ユーザーはリアルタイムの歌詞やミュージックビデオのスニペットを使用して、Line-by-lineのGlossesを編集できます。
ユーザーは、大規模な言語モデル駆動型AIとチャットして、意味、光沢、感情、およびタイミングについて議論することもできます。
13個の歌の署名者を使用した探索的研究を通じて、Elmiがワークフローをどのように促進するか、およびSong-Signersが翻訳用のLLM駆動型チャットを活用して受信する方法を調べました。
参加者は、エルミをソング署名に成功裏に採用し、積極的に議論しました。
彼らはまた、翻訳に対する自信と独立の改善を報告し、エルミが励まし、建設的で、有益であると感じました。
アクセスしやすく、文化的に敏感な歌の署名翻訳ツールの研究とデザインの意味について説明します。

要約(オリジナル)

d/Deaf and hearing song-signers have become prevalent across video-sharing platforms, but translating songs into sign language remains cumbersome and inaccessible. Our formative study revealed the challenges song-signers face, including semantic, syntactic, expressive, and rhythmic considerations in translations. We present ELMI, an accessible song-signing tool that assists in translating lyrics into sign language. ELMI enables users to edit glosses line-by-line, with real-time synced lyric and music video snippets. Users can also chat with a large language model-driven AI to discuss meaning, glossing, emoting, and timing. Through an exploratory study with 13 song-signers, we examined how ELMI facilitates their workflows and how song-signers leverage and receive an LLM-driven chat for translation. Participants successfully adopted ELMI to song-signing, with active discussions throughout. They also reported improved confidence and independence in their translations, finding ELMI encouraging, constructive, and informative. We discuss research and design implications for accessible and culturally sensitive song-signing translation tools.

arxiv情報

著者 Suhyeon Yoo,Khai N. Truong,Young-Ho Kim
発行日 2025-02-21 18:40:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, H.5.2 | ELMI: Interactive and Intelligent Sign Language Translation of Lyrics for Song Signing はコメントを受け付けていません

Multi-Agent Architecture in Distributed Environment Control Systems: vision, challenges, and opportunities

要約

大規模なインフラストラクチャ、特にデータセンターにおけるエネルギー効率の高いソリューションに対する需要の増加には、環境管理システムを最適化するための高度な制御戦略が必要です。
データセンターで空冷チラーシステムの分散制御のためのマルチエージェントアーキテクチャを提案します。
私たちのビジョンは、自律剤を採用して、ローカルな運用パラメーターを監視および調節し、システム全体の効率を最適化します。
このアプローチが、システムの応答性、運用上の堅牢性、エネルギー効率をどのように改善し、持続可能なインフラストラクチャ管理のより広い目標に貢献するかを示します。

要約(オリジナル)

The increasing demand for energy-efficient solutions in large-scale infrastructure, particularly data centers, requires advanced control strategies to optimize environmental management systems. We propose a multi-agent architecture for distributed control of air-cooled chiller systems in data centers. Our vision employs autonomous agents to monitor and regulate local operational parameters and optimize system-wide efficiency. We demonstrate how this approach improves the responsiveness, operational robustness, and energy efficiency of the system, contributing to the broader goal of sustainable infrastructure management.

arxiv情報

著者 Natasha Astudillo,Fernando Koch
発行日 2025-02-21 18:41:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Multi-Agent Architecture in Distributed Environment Control Systems: vision, challenges, and opportunities はコメントを受け付けていません

Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing

要約

テキスト生成のための大規模な言語モデル(LLMS)の使用の増加により、AIが生成されたコンテンツ検出に関する広範な懸念が生じました。
ただし、見落とされがちな課題は、AIが作成したテキストで、人間が作成したコンテンツがAIツールを使用して微妙な改良を受けます。
これは重要な疑問を提起します:最小限に磨かれたテキストをAIの生成として分類する必要がありますか?
誤分類は、虚偽の盗作の告発と、オンラインコンテンツのAIの有病率に関する誤解を招く主張につながる可能性があります。
この研究では、AIポーリングテキスト評価(APT-EVAL)データセットを使用して、11.7K $ $サンプルを含むAI関与レベルで洗練されたサンプルを含む11の最先端のAI-Text検出器を体系的に評価します。
私たちの調査結果は、検出器がAIの生成として最小限に磨かれたテキストでさえ誤って誤分類し、AIの関与の程度を区別するのに苦労し、古いモデルとより小さなモデルに対してバイアスを示すことを頻繁に誤分類することを明らかにしています。
これらの制限は、より微妙な検出方法論の緊急の必要性を強調しています。

要約(オリジナル)

The growing use of large language models (LLMs) for text generation has led to widespread concerns about AI-generated content detection. However, an overlooked challenge is AI-polished text, where human-written content undergoes subtle refinements using AI tools. This raises a critical question: should minimally polished text be classified as AI-generated? Misclassification can lead to false plagiarism accusations and misleading claims about AI prevalence in online content. In this study, we systematically evaluate eleven state-of-the-art AI-text detectors using our AI-Polished-Text Evaluation (APT-Eval) dataset, which contains $11.7K$ samples refined at varying AI-involvement levels. Our findings reveal that detectors frequently misclassify even minimally polished text as AI-generated, struggle to differentiate between degrees of AI involvement, and exhibit biases against older and smaller models. These limitations highlight the urgent need for more nuanced detection methodologies.

arxiv情報

著者 Shoumik Saha,Soheil Feizi
発行日 2025-02-21 18:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing はコメントを受け付けていません

Schema Augmentation for Zero-Shot Domain Adaptation in Dialogue State Tracking

要約

ダイアログ状態追跡(DST)のゼロショットドメイン適応は、タスク指向のダイアログ(TOD)システムの困難な問題のままです。ここでは、トレーニング時に見えないドメインをターゲットにするためにモデルを一般化する必要があります。
ゼロショットドメインの適応のための現在の大規模な言語モデルアプローチは、ターゲットドメインに関する知識を導入するよう促すことに依存しています。
ただし、それらの有効性は、迅速なエンジニアリングと、基礎となる言語モデルのゼロショット能力に大きく依存します。
この作業では、微調整を通じて言語モデルのゼロショットドメイン適応を改善する新しいデータ増強アプローチ、スキーマ増強を考案します。
スキーマ拡張は、プロンプトで提供されるスキーマ内にスロット名のバリエーションを導入することにより、一般化を強化するシンプルだが効果的な手法です。
マルチウォズとスポークスウォスの実験により、提案されたアプローチがベースラインよりも大幅に改善されたことが示されました。これは、すべてのドメインで平等または優れたパフォーマンスを維持しながら、目に見えないドメインよりも2倍の精度の増加を達成するいくつかの実験であります。

要約(オリジナル)

Zero-shot domain adaptation for dialogue state tracking (DST) remains a challenging problem in task-oriented dialogue (TOD) systems, where models must generalize to target domains unseen at training time. Current large language model approaches for zero-shot domain adaptation rely on prompting to introduce knowledge pertaining to the target domains. However, their efficacy strongly depends on prompt engineering, as well as the zero-shot ability of the underlying language model. In this work, we devise a novel data augmentation approach, Schema Augmentation, that improves the zero-shot domain adaptation of language models through fine-tuning. Schema Augmentation is a simple but effective technique that enhances generalization by introducing variations of slot names within the schema provided in the prompt. Experiments on MultiWOZ and SpokenWOZ showed that the proposed approach resulted in a substantial improvement over the baseline, in some experiments achieving over a twofold accuracy gain over unseen domains while maintaining equal or superior performance over all domains.

arxiv情報

著者 Christopher Richardson,Roshan Sharma,Neeraj Gaur,Parisa Haghani,Anirudh Sundar,Bhuvana Ramabhadran
発行日 2025-02-21 18:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Schema Augmentation for Zero-Shot Domain Adaptation in Dialogue State Tracking はコメントを受け付けていません

AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind

要約

心の理論(TOM)は、行動に基づいて人々の精神的変数を理解する能力であり、社会的にインテリジェントなエージェントを発達させるための鍵です。
心の推論理論への現在のアプローチは、系統的なエラーを起こしやすい大規模な言語モデル(LLM)の促進に依存するか、より堅牢であるが異なるドメイン間で一般化することはできません。
この作業では、自動化されたベイジアンマインドの理論法であるAutotomを紹介します。
AutoTomは、任意のドメインで動作し、あらゆる精神変数を推測し、あらゆる順序の心の堅牢な理論を実施できます。
心の推論の理論の問題を考えると、AutoTomは最初に初期BTOMモデルを提案します。
次に、提案されたモデルに基づいて自動化されたベイジアン逆計画を実施し、LLMをバックエンドとして活用します。
推論の不確実性に基づいて、追加の精神変数を導入するか、コンテキストにより多くのタイムステップを組み込むことにより、モデルを繰り返し改良します。
マインドベンチマークの複数の理論にわたる経験的評価は、オートトムが一貫して最先端のパフォーマンスを達成し、機械理論にスケーラブルで堅牢で解釈可能なアプローチを提供することを示しています。

要約(オリジナル)

Theory of Mind (ToM), the ability to understand people’s mental variables based on their behavior, is key to developing socially intelligent agents. Current approaches to Theory of Mind reasoning either rely on prompting Large Language Models (LLMs), which are prone to systematic errors, or use rigid, handcrafted Bayesian Theory of Mind (BToM) models, which are more robust but cannot generalize across different domains. In this work, we introduce AutoToM, an automated Bayesian Theory of Mind method for achieving open-ended machine Theory of Mind. AutoToM can operate in any domain, infer any mental variable, and conduct robust Theory of Mind reasoning of any order. Given a Theory of Mind inference problem, AutoToM first proposes an initial BToM model. It then conducts automated Bayesian inverse planning based on the proposed model, leveraging an LLM as the backend. Based on the uncertainty of the inference, it iteratively refines the model, by introducing additional mental variables and/or incorporating more timesteps in the context. Empirical evaluations across multiple Theory of Mind benchmarks demonstrate that AutoToM consistently achieves state-of-the-art performance, offering a scalable, robust, and interpretable approach to machine Theory of Mind.

arxiv情報

著者 Zhining Zhang,Chuanyang Jin,Mung Yao Jia,Tianmin Shu
発行日 2025-02-21 18:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AutoToM: Automated Bayesian Inverse Planning and Model Discovery for Open-ended Theory of Mind はコメントを受け付けていません

FLEKE: Federated Locate-then-Edit Knowledge Editing

要約

Locate-Then-Edit Knowledge Editing(Leke)は、完全な再訓練なしで大規模な言語モデル(LLM)を更新するための重要な手法です。
ただし、既存の方法は、単一ユーザーの設定を想定し、現実世界の多クライアントシナリオでは非効率になります。このシナリオでは、分散型組織(病院、金融機関など)が重複する知識を独立して更新し、冗長なメディエーター知識ベクター(MKV)のコンピューティングとプライバシーにつながります。
懸念事項。
これらの課題に対処するために、複数のクライアントがプライバシーを維持し、計算オーバーヘッドを削減しながら、複数のクライアントがレケを共同で実行できるようにする新しいタスクであるFederated Locate-Then-Edit Knowledge Editing(Fleke)を導入します。
これを達成するために、MKVの選択と再利用を最適化する2段階のフレームワークであるFedEditを提案します。
最初の段階では、クライアントはLekeを地元で適用し、計算されたMKVをアップロードします。
第2段階では、サーバーベースのMKV共有のみに依存するのではなく、Flekeを使用すると、COSINEの類似性に基づいて関連するMKVを取得し、知識の再編集を可能にし、冗長な計算を最小限に抑えます。
2つのベンチマークデータセットでの実験結果は、FedEditが非拡張されたLekeのパフォーマンスの96%以上を保持しながら、FEDAVGベースのベースラインを約2倍に上回ることを示しています。
それに加えて、MemitはFrekeDitのフレームワークを使用して、FlekeタスクでPMETよりも一貫してパフォーマンスを発揮していることがわかります。
私たちのコードは、https://github.com/zongkaiz/flekeで入手できます。

要約(オリジナル)

Locate-then-Edit Knowledge Editing (LEKE) is a key technique for updating large language models (LLMs) without full retraining. However, existing methods assume a single-user setting and become inefficient in real-world multi-client scenarios, where decentralized organizations (e.g., hospitals, financial institutions) independently update overlapping knowledge, leading to redundant mediator knowledge vector (MKV) computations and privacy concerns. To address these challenges, we introduce Federated Locate-then-Edit Knowledge Editing (FLEKE), a novel task that enables multiple clients to collaboratively perform LEKE while preserving privacy and reducing computational overhead. To achieve this, we propose FedEdit, a two-stage framework that optimizes MKV selection and reuse. In the first stage, clients locally apply LEKE and upload the computed MKVs. In the second stage, rather than relying solely on server-based MKV sharing, FLEKE allows clients retrieve relevant MKVs based on cosine similarity, enabling knowledge re-edit and minimizing redundant computations. Experimental results on two benchmark datasets demonstrate that FedEdit retains over 96% of the performance of non-federated LEKE while significantly outperforming a FedAvg-based baseline by approximately twofold. Besides, we find that MEMIT performs more consistently than PMET in the FLEKE task with our FedEdit framework. Our code is available at https://github.com/zongkaiz/FLEKE.

arxiv情報

著者 Zongkai Zhao,Guozeng Xu,Xiuhua Li,Kaiwen Wei,Jiang Zhong
発行日 2025-02-21 18:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | FLEKE: Federated Locate-then-Edit Knowledge Editing はコメントを受け付けていません

SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training

要約

Adam(Kingma&BA、2015)などの適応オプティマイザーは、大規模な言語モデルの成功の中心となっています。
ただし、多くの場合、トレーニング全体でオプティマイザー状態を維持する必要があります。これにより、モデルフットプリントの数倍のメモリ要件が発生する可能性があります。
このオーバーヘッドは、スケーラビリティと計算効率に制約を課します。
対照的に、確率勾配降下(SGD)は、トレーニング中に状態変数を追跡しないため、ステートレスオプティマイザーです。
その結果、最適なメモリ効率を達成します。
ただし、LLMトレーニングにおけるその能力は限られています(Zhao et al。、2024b)。
この作業では、前処理SGDがステートレスの方法で行われることが、LLMトレーニングのAdam Optimizerと同じパフォーマンスを達成しながら、メモリコストを大幅に削減できることを示しています。
具体的には、正規化とホワイトニングを使用して、瞬時の確率勾配を前処理することを提案します。
正規化が勾配分布を安定させ、ホワイトニングが損失状況の局所曲率に対抗することを示します。
これにより、SWAN(ホワイトニングと正規化を備えたSGD)は、オプティマイザーの状態を保存する必要性を排除する確率的オプティマイザーです。
経験的には、SwanはSGDと同じメモリフットプリントを持ち、Adamと比較して総エンドツーエンドメモリで$ 50 \%$削減を達成しています。
言語モデリングのタスクでは、SwanはAdamよりも同等のパフォーマンスまたはさらに良いパフォーマンスを示します。350mと1.3bのパラメーターを使用してLlamaモデルを事前に訓練するとき、Swanは、同じ評価にぴったりのトークンを使用して2倍のスピードアップを達成します。

要約(オリジナル)

Adaptive optimizers such as Adam (Kingma & Ba, 2015) have been central to the success of large language models. However, they often require to maintain optimizer states throughout training, which can result in memory requirements several times greater than the model footprint. This overhead imposes constraints on scalability and computational efficiency. Stochastic Gradient Descent (SGD), in contrast, is a stateless optimizer, as it does not track state variables during training. Consequently, it achieves optimal memory efficiency. However, its capability in LLM training is limited (Zhao et al., 2024b). In this work, we show that pre-processing SGD in a stateless manner can achieve the same performance as the Adam optimizer for LLM training, while drastically reducing the memory cost. Specifically, we propose to pre-process the instantaneous stochastic gradients using normalization and whitening. We show that normalization stabilizes gradient distributions, and whitening counteracts the local curvature of the loss landscape. This results in SWAN (SGD with Whitening And Normalization), a stochastic optimizer that eliminates the need to store any optimizer states. Empirically, SWAN has the same memory footprint as SGD, achieving $\approx 50\%$ reduction on total end-to-end memory compared to Adam. In language modeling tasks, SWAN demonstrates comparable or even better performance than Adam: when pre-training the LLaMA model with 350M and 1.3B parameters, SWAN achieves a 2x speedup by reaching the same evaluation perplexity using half as many tokens.

arxiv情報

著者 Chao Ma,Wenbo Gong,Meyer Scetbon,Edward Meeds
発行日 2025-02-21 18:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training はコメントを受け付けていません

Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning

要約

視覚的なプロンプトチューニング(VPT)は最近、事前に訓練されたビジョンモデルをダウンストリームタスクに適応させるための強力な方法として浮上しました。
学習可能なプロンプトトークンをタスク固有の命令として導入することにより、VPTは事前に訓練されたトランスモデルを最小限のオーバーヘッドで効果的にガイドします。
その経験的な成功にもかかわらず、VPTの包括的な理論的理解は、積極的な研究分野のままです。
専門家の混合と迅速なアプローチとの関係に関する最近の洞察に基づいて、VPTの重要な制限を特定します。
この制限に対処するために、視覚的な適応プロンプトチューニング(VAPT)を提案します。これは、入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトです。
私たちの理論分析は、このシンプルでありながら直感的なアプローチが最適なサンプル効率を達成することを示しています。
VTAB-1KとFGVCの経験的結果は、それぞれ完全に微調整されたベースラインよりもパフォーマンスの向上を伴うVAPTの有効性をさらに示しています。
特に、VAPTはまた、より少ないパラメーターを使用しながら、VPTをかなりのマージンで上回ります。
これらの結果は、私たちの方法の有効性と効率性の両方を強調し、将来の研究への道を開き、適応プロンプトの可能性を探求します。
私たちのコードは、https://github.com/minhchuyentoancbn/vaptで公開されています

要約(オリジナル)

Visual Prompt Tuning (VPT) has recently emerged as a powerful method for adapting pre-trained vision models to downstream tasks. By introducing learnable prompt tokens as task-specific instructions, VPT effectively guides pre-trained transformer models with minimal overhead. Despite its empirical success, a comprehensive theoretical understanding of VPT remains an active area of research. Building on recent insights into the connection between mixture of experts and prompt-based approaches, we identify a key limitation in VPT: the restricted functional expressiveness in prompt formulation. To address this limitation, we propose Visual Adaptive Prompt Tuning (VAPT), a new generation of prompts that redefines prompts as adaptive functions of the input. Our theoretical analysis shows that this simple yet intuitive approach achieves optimal sample efficiency. Empirical results on VTAB-1K and FGVC further demonstrate VAPT’s effectiveness, with performance gains of 7.34% and 1.04% over fully fine-tuning baselines, respectively. Notably, VAPT also surpasses VPT by a substantial margin while using fewer parameters. These results highlight both the effectiveness and efficiency of our method and pave the way for future research to explore the potential of adaptive prompts. Our code is publicly available at https://github.com/Minhchuyentoancbn/VAPT

arxiv情報

著者 Minh Le,Anh Nguyen,Huy Nguyen,Chau Nguyen,Nhat Ho
発行日 2025-02-21 10:05:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning はコメントを受け付けていません

M2LADS Demo: A System for Generating Multimodal Learning Analytics Dashboards

要約

M2LADS(「マルチモーダル学習分析ダッシュボードを生成するためのシステム」と呼ばれるWebベースのシステムのデモンストレーションを提示します。
このシステムは、さまざまな生理学的および活動ベースのメトリックに関する詳細な洞察を提供し、Webベースのダッシュボード上のさまざまな生体認証データと行動データを提供します。
視覚化されたマルチモーダルデータには、注意と脳の活動を評価するための脳波(EEG)データ、心拍数メトリック、視覚的注意、ウェブカメラビデオ録画、監視対象タスクのアクティビティログを測定するためのデータが含まれます。
M2LADSは、2つの重要な方法でデータ科学者を支援することを目指しています。(1)参加者の経験の包括的な見解を提供し、参加者が関与する活動によって分類されたすべてのデータを表示し、(2)すべてのバイオシグナルとビデオを同期させ、簡単に促進することにより、
アクティビティ情報にエラーが含まれている場合は、データリライベリング。

要約(オリジナル)

We present a demonstration of a web-based system called M2LADS (‘System for Generating Multimodal Learning Analytics Dashboards’), designed to integrate, synchronize, visualize, and analyze multimodal data recorded during computer-based learning sessions with biosensors. This system presents a range of biometric and behavioral data on web-based dashboards, providing detailed insights into various physiological and activity-based metrics. The multimodal data visualized include electroencephalogram (EEG) data for assessing attention and brain activity, heart rate metrics, eye-tracking data to measure visual attention, webcam video recordings, and activity logs of the monitored tasks. M2LADS aims to assist data scientists in two key ways: (1) by providing a comprehensive view of participants’ experiences, displaying all data categorized by the activities in which participants are engaged, and (2) by synchronizing all biosignals and videos, facilitating easier data relabeling if any activity information contains errors.

arxiv情報

著者 Alvaro Becerra,Roberto Daza,Ruth Cobos,Aythami Morales,Julian Fierrez
発行日 2025-02-21 10:22:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | M2LADS Demo: A System for Generating Multimodal Learning Analytics Dashboards はコメントを受け付けていません

I2CKD : Intra- and Inter-Class Knowledge Distillation for Semantic Segmentation

要約

このペーパーでは、画像セマンティックセグメンテーションに合わせて調整された新しい知識蒸留方法を提案し、クラス内およびクラス間の知識蒸留(I2CKD)と呼ばれます。
この方法の焦点は、教師の中間層(面倒なモデル)と生徒(コンパクトモデル)の間で知識をキャプチャして転送することです。
知識抽出のために、機能マップから派生したクラスのプロトタイプを活用します。
知識移転を促進するために、クラス内の変動を最小限に抑え、教師と学生のプロトタイプ間のクラス間の分散を最大化するために、トリプレットの損失を採用しています。
その結果、I2CKDにより、生徒は各クラスの教師の特徴表現をよりよく模倣し、それによりコンパクトネットワークのセグメンテーションパフォーマンスを向上させることができます。
さまざまな教師と学生のネットワークペアを使用して、3つのセグメンテーションデータセット、つまりPascal Voc、Camvidの広範な実験は、提案された方法の有効性を示しています。

要約(オリジナル)

This paper proposes a new knowledge distillation method tailored for image semantic segmentation, termed Intra- and Inter-Class Knowledge Distillation (I2CKD). The focus of this method is on capturing and transferring knowledge between the intermediate layers of teacher (cumbersome model) and student (compact model). For knowledge extraction, we exploit class prototypes derived from feature maps. To facilitate knowledge transfer, we employ a triplet loss in order to minimize intra-class variances and maximize inter-class variances between teacher and student prototypes. Consequently, I2CKD enables the student to better mimic the feature representation of the teacher for each class, thereby enhancing the segmentation performance of the compact network. Extensive experiments on three segmentation datasets, i.e., Cityscapes, Pascal VOC and CamVid, using various teacher-student network pairs demonstrate the effectiveness of the proposed method.

arxiv情報

著者 Ayoub Karine,Thibault Napoléon,Maher Jridi
発行日 2025-02-21 10:22:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | I2CKD : Intra- and Inter-Class Knowledge Distillation for Semantic Segmentation はコメントを受け付けていません