SecureGaze: Defending Gaze Estimation Against Backdoor Attacks

要約

視線推定モデルは、ドライバーの注意監視や人間コンピューターの相互作用などのアプリケーションで広く使用されています。
視線の推定のための多くの方法は存在しますが、高性能を達成するためにデータに飢えた深い学習に大きく依存しています。
この信頼は、しばしば、実務家に未確認の公開データセットからのトレーニングデータを収穫すること、モデルトレーニングのアウトソーシング、または事前に訓練されたモデルに依存することを強制します。
ただし、そのような慣行は、視線の推定モデルをバックドア攻撃にさらす。
このような攻撃では、敵はトレーニングデータを中毒し、バックドアの脆弱性を作成することによりバックドアトリガーを注入します。モデルは良性の入力で正常に機能しますが、特定のトリガーが存在すると操作された視線の方向を生成します。
これにより、モデルがドライバーの注意の追跡に失敗するなど、多くの視線ベースのアプリケーションのセキュリティが損なわれます。
現在までに、視線推定モデルに対するバックドア攻撃に対処する防御はありません。
これに応じて、SecureGazeを紹介します。SecureGazeは、そのような攻撃から視線推定モデルを保護するために設計された最初のソリューションです。
分類モデルとは異なり、防御視線の推定は、その継続的な出力スペースとグローバルにアクティブ化されたバックドアの動作により、独自の課題をもたらします。
バックdoした視線推定モデルの特徴を識別することにより、信頼できるバックドア検出のためのトリガー関数をリバースエンジニアリングするための斬新で効果的なアプローチを開発します。
デジタルと物理の両方の世界での広範な評価は、Securegazeがさまざまなバックドア攻撃を効果的にカウンターし、分類モデルから適応した7つの最先端の防御を上回ることを示しています。

要約(オリジナル)

Gaze estimation models are widely used in applications such as driver attention monitoring and human-computer interaction. While many methods for gaze estimation exist, they rely heavily on data-hungry deep learning to achieve high performance. This reliance often forces practitioners to harvest training data from unverified public datasets, outsource model training, or rely on pre-trained models. However, such practices expose gaze estimation models to backdoor attacks. In such attacks, adversaries inject backdoor triggers by poisoning the training data, creating a backdoor vulnerability: the model performs normally with benign inputs, but produces manipulated gaze directions when a specific trigger is present. This compromises the security of many gaze-based applications, such as causing the model to fail in tracking the driver’s attention. To date, there is no defense that addresses backdoor attacks on gaze estimation models. In response, we introduce SecureGaze, the first solution designed to protect gaze estimation models from such attacks. Unlike classification models, defending gaze estimation poses unique challenges due to its continuous output space and globally activated backdoor behavior. By identifying distinctive characteristics of backdoored gaze estimation models, we develop a novel and effective approach to reverse-engineer the trigger function for reliable backdoor detection. Extensive evaluations in both digital and physical worlds demonstrate that SecureGaze effectively counters a range of backdoor attacks and outperforms seven state-of-the-art defenses adapted from classification models.

arxiv情報

著者 Lingyu Du,Yupei Liu,Jinyuan Jia,Guohao Lan
発行日 2025-02-27 17:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SecureGaze: Defending Gaze Estimation Against Backdoor Attacks はコメントを受け付けていません

Mobius: Text to Seamless Looping Video Generation via Latent Shift

要約

Mobiusは、ユーザーの注釈なしでテキストの説明から直接シームレスにループするビデオを生成し、マルチメディアプレゼンテーション用の新しい視覚資料を作成する新しい方法を提示します。
私たちの方法は、トレーニングなしでテキストプロンプトからループビデオを生成するための事前に訓練されたビデオ潜在拡散モデルを再利用します。
推論中に、ビデオの開始ノイズと終了ノイズを接続することにより、最初に潜在サイクルを構築します。
動画拡散モデルのコンテキストによって時間的一貫性が維持できることを考えると、各ステップで最初のフレームの潜在を徐々にシフトすることにより、マルチフレーム潜在除去を実行します。
その結果、推論プロセス全体で一貫性を維持しながら、除去のコンテキストは各ステップで異なります。
さらに、私たちの方法の潜在サイクルは、任意の長さである可能性があります。
これにより、ビデオ拡散モデルのコンテキストの範囲を超えてシームレスなループビデオを生成するための潜在的なシフトアプローチが拡張されます。
以前の映画とは異なり、提案された方法では、生成された結果の動きを制限する外観としての画像を必要としません。
代わりに、私たちの方法は、より動的な動きとより良い視覚品質を生み出すことができます。
提案された方法の有効性を検証するために、複数の実験と比較を実施し、さまざまなシナリオでその有効性を示します。
すべてのコードが利用可能になります。

要約(オリジナル)

We present Mobius, a novel method to generate seamlessly looping videos from text descriptions directly without any user annotations, thereby creating new visual materials for the multi-media presentation. Our method repurposes the pre-trained video latent diffusion model for generating looping videos from text prompts without any training. During inference, we first construct a latent cycle by connecting the starting and ending noise of the videos. Given that the temporal consistency can be maintained by the context of the video diffusion model, we perform multi-frame latent denoising by gradually shifting the first-frame latent to the end in each step. As a result, the denoising context varies in each step while maintaining consistency throughout the inference process. Moreover, the latent cycle in our method can be of any length. This extends our latent-shifting approach to generate seamless looping videos beyond the scope of the video diffusion model’s context. Unlike previous cinemagraphs, the proposed method does not require an image as appearance, which will restrict the motions of the generated results. Instead, our method can produce more dynamic motion and better visual quality. We conduct multiple experiments and comparisons to verify the effectiveness of the proposed method, demonstrating its efficacy in different scenarios. All the code will be made available.

arxiv情報

著者 Xiuli Bi,Jianfei Yuan,Bo Liu,Yong Zhang,Xiaodong Cun,Chi-Man Pun,Bin Xiao
発行日 2025-02-27 17:33:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mobius: Text to Seamless Looping Video Generation via Latent Shift はコメントを受け付けていません

FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction

要約

この作業は、視覚的自己回帰モデリングの残留予測パラダイムに挑戦し、新しい柔軟な視覚的自己回帰画像生成パラダイムであるFlexVarを提示します。
FlexVarは、グラウンドトゥルース予測で自己回帰学習を促進し、各ステップがもっともらしい画像を独立して作成できるようにします。
このシンプルで直感的なアプローチは、視覚的分布を迅速に学習し、生成プロセスをより柔軟で適応性のあるものにします。
低解像度の画像($ \ leq $ 256px)でのみトレーニングされているFlexvar Can:(1)トレーニング画像の解像度を超えて、さまざまな解像度とアスペクト比の画像を生成します。
(2)画像の洗練、イン/アウトペインティング、画像拡張など、さまざまな画像から画像間タスクをサポートします。
(3)さまざまな自己回帰の手順に適応し、より少ないステップでより速い推論を可能にしたり、より多くのステップで画質を向上させたりします。
1.0Bモデルは、Imagenet 256 $ \ Times $ 256ベンチマークのVARカウンターパートよりも優れています。
さらに、ゼロショットの場合、画像生成プロセスを13ステップで転送すると、パフォーマンスはさらに2.08 FIDに改善され、最先端のオートレーフモデルが0.25/0.28 FID、および一般的な拡散モデルLDM/DITを1.52/0.19 FIDよりも優れています。
1.0BモデルをImagenet 512 $ \ Times 512 $ 512ベンチマークにゼロショット方法で転送する場合、FlexVarはVAR 2.3Bモデルと比較して競争上の結果を達成します。

要約(オリジナル)

This work challenges the residual prediction paradigm in visual autoregressive modeling and presents FlexVAR, a new Flexible Visual AutoRegressive image generation paradigm. FlexVAR facilitates autoregressive learning with ground-truth prediction, enabling each step to independently produce plausible images. This simple, intuitive approach swiftly learns visual distributions and makes the generation process more flexible and adaptable. Trained solely on low-resolution images ($\leq$ 256px), FlexVAR can: (1) Generate images of various resolutions and aspect ratios, even exceeding the resolution of the training images. (2) Support various image-to-image tasks, including image refinement, in/out-painting, and image expansion. (3) Adapt to various autoregressive steps, allowing for faster inference with fewer steps or enhancing image quality with more steps. Our 1.0B model outperforms its VAR counterpart on the ImageNet 256$\times$256 benchmark. Moreover, when zero-shot transfer the image generation process with 13 steps, the performance further improves to 2.08 FID, outperforming state-of-the-art autoregressive models AiM/VAR by 0.25/0.28 FID and popular diffusion models LDM/DiT by 1.52/0.19 FID, respectively. When transferring our 1.0B model to the ImageNet 512$\times$512 benchmark in a zero-shot manner, FlexVAR achieves competitive results compared to the VAR 2.3B model, which is a fully supervised model trained at 512$\times$512 resolution.

arxiv情報

著者 Siyu Jiao,Gengwei Zhang,Yinlong Qian,Jiancheng Huang,Yao Zhao,Humphrey Shi,Lin Ma,Yunchao Wei,Zequn Jie
発行日 2025-02-27 17:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction はコメントを受け付けていません

Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds

要約

Masked Autoencoders(MAE)は、ビジョンおよびそれ以降の自己監視学習(SSL)の大きな可能性を示しています。
ただし、3Dボリュームの広い領域が空であるため、自動運転で使用されるLIDARSのポイントクラウドはMAEにとって特に困難です。
その結果、既存の作業は占有情報をデコーダーに漏らすことに苦しんでおり、重要な計算の複雑さを持ち、SSLの事前トレーニングを実際に2D鳥のアイビューエンコーダーのみに制限します。
この作業では、マスクされていないボクセルの近くでのみマスクされた占有再建を採用することにより、前述の課題を克服する新しい近隣の占有MAE(NOMAE)を提案します。
ポイントクラウドのさまざまなサイズのオブジェクトの特徴をキャプチャするために、提案された階層マスク生成技術を使用して、複数のスケールでボクセルマスキングと占有再構成を組み込みます。
NOMAESは非常に柔軟であり、既存の3DアーキテクチャではSSLに直接採用できます。
意味セグメンテーションと3Dオブジェクト検出のダウンストリーム認識タスクのために、ヌスセンとWaymoオープンデータセットについて広範な評価を実行し、識別的および生成的SSLメソッドの両方と比較します。
結果は、Nomaeが複数のポイントクラウドの知覚タスクに対して複数のベンチマークに新しい最先端のベンチマークを設定することを示しています。

要約(オリジナル)

Masked autoencoders (MAE) have shown tremendous potential for self-supervised learning (SSL) in vision and beyond. However, point clouds from LiDARs used in automated driving are particularly challenging for MAEs since large areas of the 3D volume are empty. Consequently, existing work suffers from leaking occupancy information into the decoder and has significant computational complexity, thereby limiting the SSL pre-training to only 2D bird’s eye view encoders in practice. In this work, we propose the novel neighborhood occupancy MAE (NOMAE) that overcomes the aforementioned challenges by employing masked occupancy reconstruction only in the neighborhood of non-masked voxels. We incorporate voxel masking and occupancy reconstruction at multiple scales with our proposed hierarchical mask generation technique to capture features of objects of different sizes in the point cloud. NOMAEs are extremely flexible and can be directly employed for SSL in existing 3D architectures. We perform extensive evaluations on the nuScenes and Waymo Open datasets for the downstream perception tasks of semantic segmentation and 3D object detection, comparing with both discriminative and generative SSL methods. The results demonstrate that NOMAE sets the new state-of-the-art on multiple benchmarks for multiple point cloud perception tasks.

arxiv情報

著者 Mohamed Abdelsamad,Michael Ulrich,Claudius Gläser,Abhinav Valada
発行日 2025-02-27 17:42:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Multi-Scale Neighborhood Occupancy Masked Autoencoder for Self-Supervised Learning in LiDAR Point Clouds はコメントを受け付けていません

UniTok: A Unified Tokenizer for Visual Generation and Understanding

要約

視覚生成と理解の間の表現の格差は、これらの機能を単一のフレームワークに統合することに重大なギャップを課します。
このギャップを埋めるために、Unitokを導入します。これは、理解のための高レベルのセマンティクスをキャプチャしながら、生成のための細かい詳細をコードする離散視覚トークネイザーです。
これらの目的がトレーニングに損失の対立を誘発する可能性があることが最近の研究にもかかわらず、基礎となるボトルネックが離散トークンの限られた表現能力に由来することが明らかになりました。
これに対処し、マルチコードブックの量子化を導入します。これは、ベクトル量子化をいくつかの独立したサブコードブックと分割して、潜在的な特徴スペースを拡張しながら、コードブックによって引き起こされるトレーニングの不安定性を回避します。
私たちの方法は、統一された離散トークナザーの上限を大幅に上げて、ドメイン固有の連続トナイザーに合わせたり、それを上回ったりします。
たとえば、Unitokは0.38の驚くべきRFID(SD-VAEの場合は0.87)、イメージネットの78.6%(クリップで76.2%)のゼロショット精度を達成します。
私たちのコードは、https://github.com/foundationvision/unitokで入手できます。

要約(オリジナル)

The representation disparity between visual generation and understanding imposes a critical gap in integrating these capabilities into a single framework. To bridge this gap, we introduce UniTok, a discrete visual tokenizer that encodes fine-grained details for generation while also capturing high-level semantics for understanding. Despite recent studies have shown that these objectives could induce loss conflicts in training, we reveal that the underlying bottleneck stems from limited representational capacity of discrete tokens. We address this by introducing multi-codebook quantization, which divides vector quantization with several independent sub-codebooks to expand the latent feature space, while avoiding training instability caused by overlarge codebooks. Our method significantly raises the upper limit of unified discrete tokenizers to match or even surpass domain-specific continuous tokenizers. For instance, UniTok achieves a remarkable rFID of 0.38 (versus 0.87 for SD-VAE) and a zero-shot accuracy of 78.6% (versus 76.2% for CLIP) on ImageNet. Our code is available at https://github.com/FoundationVision/UniTok.

arxiv情報

著者 Chuofan Ma,Yi Jiang,Junfeng Wu,Jihan Yang,Xin Yu,Zehuan Yuan,Bingyue Peng,Xiaojuan Qi
発行日 2025-02-27 17:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | UniTok: A Unified Tokenizer for Visual Generation and Understanding はコメントを受け付けていません

ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model

要約

音声駆動型の3Dフェイシャルアニメーションは、任意のオーディオクリップから3Dヘッドモデルの現実的な唇の動きと表情を生成することを目的としています。
既存の拡散ベースの方法は自然な動きを生成することができますが、その遅い発電速度はアプリケーションの可能性を制限します。
このペーパーでは、スピーチからマルチスケールモーションコードブックまでのマッピングを学習することにより、非常に同期したリップの動きとリアルなヘッドポーズと目の瞬きをリアルタイムで生成する新しい自己回帰モデルを紹介します。
さらに、私たちのモデルは、サンプルモーションシーケンスを使用して目に見えないスピーキングスタイルに適応し、トレーニング中に見られるアイデンティティを超えたユニークな個人スタイルを持つ3Dトーキングアバターの作成を可能にします。
広範な評価とユーザー研究は、私たちの方法が、唇の同期の精度と知覚品質の既存のアプローチよりも優れていることを示しています。

要約(オリジナル)

Speech-driven 3D facial animation aims to generate realistic lip movements and facial expressions for 3D head models from arbitrary audio clips. Although existing diffusion-based methods are capable of producing natural motions, their slow generation speed limits their application potential. In this paper, we introduce a novel autoregressive model that achieves real-time generation of highly synchronized lip movements and realistic head poses and eye blinks by learning a mapping from speech to a multi-scale motion codebook. Furthermore, our model can adapt to unseen speaking styles using sample motion sequences, enabling the creation of 3D talking avatars with unique personal styles beyond the identities seen during training. Extensive evaluations and user studies demonstrate that our method outperforms existing approaches in lip synchronization accuracy and perceived quality.

arxiv情報

著者 Xuangeng Chu,Nabarun Goswami,Ziteng Cui,Hanqin Wang,Tatsuya Harada
発行日 2025-02-27 17:49:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model はコメントを受け付けていません

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation

要約

3Dロボット操作のための模倣学習の最近の進歩により、拡散ベースのポリシーで有望な結果が示されています。
ただし、人間レベルの器用さを達成するには、幾何学的精度とセマンティック理解のシームレスな統合が必要です。
基礎モデルを活用することにより、動的でオブジェクト中心の3Dセマンティック表現であるリアルタイムセマンティックフローを構築する新しいフレームワークであるG3Flowを紹介します。
当社のアプローチは、デジタルツイン作成のための3D生成モデル、セマンティック機能抽出のためのVision Foundationモデル、および連続セマンティックフローの更新のための堅牢なポーズ追跡をユニークに組み合わせています。
この統合により、閉塞下でも完全なセマンティック理解が可能になり、手動注釈要件が排除されます。
セマンティックフローを拡散ポリシーに組み込むことにより、末期制約の操作とクロスオブジェクトの一般化の両方に大幅な改善を示します。
5つのシミュレーションタスクにわたる広範な実験では、G3Flowが既存のアプローチを常に上回り、ターミナルが制約した操作とクロスオブジェクトの一般化タスクでそれぞれ最大68.3%および50.1%の平均成功率を達成することが示されています。
我々の結果は、ロボット操作ポリシーのリアルタイム動的セマンティックフィーチャの理解を強化する際のG3Flowの有効性を示しています。

要約(オリジナル)

Recent advances in imitation learning for 3D robotic manipulation have shown promising results with diffusion-based policies. However, achieving human-level dexterity requires seamless integration of geometric precision and semantic understanding. We present G3Flow, a novel framework that constructs real-time semantic flow, a dynamic, object-centric 3D semantic representation by leveraging foundation models. Our approach uniquely combines 3D generative models for digital twin creation, vision foundation models for semantic feature extraction, and robust pose tracking for continuous semantic flow updates. This integration enables complete semantic understanding even under occlusions while eliminating manual annotation requirements. By incorporating semantic flow into diffusion policies, we demonstrate significant improvements in both terminal-constrained manipulation and cross-object generalization. Extensive experiments across five simulation tasks show that G3Flow consistently outperforms existing approaches, achieving up to 68.3% and 50.1% average success rates on terminal-constrained manipulation and cross-object generalization tasks respectively. Our results demonstrate the effectiveness of G3Flow in enhancing real-time dynamic semantic feature understanding for robotic manipulation policies.

arxiv情報

著者 Tianxing Chen,Yao Mu,Zhixuan Liang,Zanxin Chen,Shijia Peng,Qiangyu Chen,Mingkun Xu,Ruizhen Hu,Hongyuan Zhang,Xuelong Li,Ping Luo
発行日 2025-02-27 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO, cs.SY, eess.SY | G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation はコメントを受け付けていません

T1-PILOT: Optimized Trajectories for T1 Mapping Acceleration

要約

心臓T1マッピングは、心筋組織組成に関する重要な定量的洞察を提供し、線維症、炎症、浮腫などの病理学の評価を可能にします。
ただし、心臓の本質的に動的な性質は、獲得時間に厳格な制限を課し、高解像度T1を永続的な課題にします。
圧縮センシング(CS)アプローチは、Kスペースをアンダーサンプリングし、部分データから画像を再構築することによりスキャン期間を削減し、最近の研究では、再構築ネットワークとアンダーサンプリングパターンを共同で最適化することでパフォーマンスを大幅に改善できることが示されています。
それでも、現在のT1マッピングパイプラインのほとんどは、完全な加速と精度の可能性を活用しない静的な手作りのマスクに依存しています。
この作業では、T1パイロット:T1信号緩和モデルをサンプリング再構築フレームワークに明示的に組み込んだエンドツーエンドの方法を紹介して、非カルテアン軌道、クロスフレームアライメント、およびT1減衰推定の学習を導きます。
CMRXRECONデータセットでの広範な実験を通じて、T1パイロットはいくつかのベースライン戦略(学習シングルマスクおよび固定ラジアルまたはゴールデンアングルサンプリングスキームを含む)を大幅に上回り、より高い加速係数でより高いT1 MAP忠実度を達成します。
特に、既存の方法と比較してPSNRとVIFの一貫した利益と、より細かい心筋構造の描写の著しい改善が観察されます。
私たちの結果は、物理的緩和モデルと連携してサンプリング軌道を最適化することで、定量的精度と獲得時間の短縮の両方につながることを強調しています。
すべての結果を再現するためのコードは、公開時に公開されます。

要約(オリジナル)

Cardiac T1 mapping provides critical quantitative insights into myocardial tissue composition, enabling the assessment of pathologies such as fibrosis, inflammation, and edema. However, the inherently dynamic nature of the heart imposes strict limits on acquisition times, making high-resolution T1 mapping a persistent challenge. Compressed sensing (CS) approaches have reduced scan durations by undersampling k-space and reconstructing images from partial data, and recent studies show that jointly optimizing the undersampling patterns with the reconstruction network can substantially improve performance. Still, most current T1 mapping pipelines rely on static, hand-crafted masks that do not exploit the full acceleration and accuracy potential. In this work, we introduce T1-PILOT: an end-to-end method that explicitly incorporates the T1 signal relaxation model into the sampling-reconstruction framework to guide the learning of non-Cartesian trajectories, crossframe alignment, and T1 decay estimation. Through extensive experiments on the CMRxRecon dataset, T1-PILOT significantly outperforms several baseline strategies (including learned single-mask and fixed radial or golden-angle sampling schemes), achieving higher T1 map fidelity at greater acceleration factors. In particular, we observe consistent gains in PSNR and VIF relative to existing methods, along with marked improvements in delineating finer myocardial structures. Our results highlight that optimizing sampling trajectories in tandem with the physical relaxation model leads to both enhanced quantitative accuracy and reduced acquisition times. Code for reproducing all results will be made publicly available upon publication.

arxiv情報

著者 Tamir Shor,Moti Freiman,Chaim Baskin,Alex Bronstein
発行日 2025-02-27 18:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | T1-PILOT: Optimized Trajectories for T1 Mapping Acceleration はコメントを受け付けていません

The Evolution of Dataset Distillation: Toward Scalable and Generalizable Solutions

要約

大規模なデータセットをコンパクトな合成表現に凝縮するデータセット蒸留は、最新の深い学習モデルを効率的にトレーニングするための重要なソリューションとして浮上しています。
以前の調査は2023年以前に開発に焦点を当てていますが、この作業は最近の進歩を包括的にレビューし、Imagenet-1KやImagenet-21Kなどの大規模なデータセットのスケーラビリティを強調しています。
進捗状況を、いくつかの重要な方法論に分類します:軌道マッチング、勾配マッチング、分布マッチング、スケーラブルな生成アプローチ、およびデカップリング最適化メカニズム。
最近のデータセット蒸留の進歩の包括的な調査として、この調査は画期的な革新を強調しています。効率的かつ効果的な凝縮のためのSRE2Lフレームワーク、モデルの精度を大幅に向上させるソフトラベル戦略、およびパフォーマンスを維持しながら圧縮を最大化するロスレス蒸留技術。
これらの方法論的進歩を超えて、敵対的およびバックドア攻撃に対する堅牢性、非IIDデータ分布の効果的な取り扱いなど、重要な課題に対処します。
さらに、ビデオおよびオーディオ処理、マルチモーダル学習、医療イメージング、科学的コンピューティングの新しいアプリケーションを調査し、ドメインの汎用性を強調しています。
幅広いパフォーマンスの比較と実用的な研究の方向性を提供することにより、この調査では、研究者と実践者が効率的で一般化可能なデータセットの蒸留を促進するための実用的な洞察を備え、将来の革新への道を開きます。

要約(オリジナル)

Dataset distillation, which condenses large-scale datasets into compact synthetic representations, has emerged as a critical solution for training modern deep learning models efficiently. While prior surveys focus on developments before 2023, this work comprehensively reviews recent advances, emphasizing scalability to large-scale datasets such as ImageNet-1K and ImageNet-21K. We categorize progress into a few key methodologies: trajectory matching, gradient matching, distribution matching, scalable generative approaches, and decoupling optimization mechanisms. As a comprehensive examination of recent dataset distillation advances, this survey highlights breakthrough innovations: the SRe2L framework for efficient and effective condensation, soft label strategies that significantly enhance model accuracy, and lossless distillation techniques that maximize compression while maintaining performance. Beyond these methodological advancements, we address critical challenges, including robustness against adversarial and backdoor attacks, effective handling of non-IID data distributions. Additionally, we explore emerging applications in video and audio processing, multi-modal learning, medical imaging, and scientific computing, highlighting its domain versatility. By offering extensive performance comparisons and actionable research directions, this survey equips researchers and practitioners with practical insights to advance efficient and generalizable dataset distillation, paving the way for future innovations.

arxiv情報

著者 Ping Liu,Jiawei Du
発行日 2025-02-27 18:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Evolution of Dataset Distillation: Toward Scalable and Generalizable Solutions はコメントを受け付けていません

A Unifying Information-theoretic Perspective on Evaluating Generative Models

要約

生成モデルの出力を解釈することの難しさを考慮すると、意味のある評価メトリックの決定に焦点を当てた重要な現在の研究があります。
いくつかの最近のアプローチでは、分類ドメインから借りた「精度」と「リコール」を利用して、それぞれ出力の忠実度(リアリズム)と出力の多様性(実際のデータの変動の表現)を個別に定量化します。
メトリック提案の増加に伴い、統一された視点が必要であり、それらの利点と欠点の比較が容易になり、より明確な説明が可能になります。
この目的のために、KNN密度推定からのアプローチを使用して、情報理論レンズの下で、KTH-Nearest-Neighbors(KNN)ベースのメトリックのクラスを統合します。
さらに、精密な交差エントロピー(PCE)、リコール交差点(RCE)、およびエントロピー(RE)をリコールする三次元メトリックを提案します。
エントロピーと交差エントロピーの情報理論的概念から導出されたドメインに依存しないメトリックは、サンプルレベルとモードレベルの両方の分析のために分析できます。
詳細な実験結果は、メトリックコンポーネントのそれぞれの品質に対する感度を示し、他のメトリックの望ましくない行動を明らかにします。

要約(オリジナル)

Considering the difficulty of interpreting generative model output, there is significant current research focused on determining meaningful evaluation metrics. Several recent approaches utilize ‘precision’ and ‘recall,’ borrowed from the classification domain, to individually quantify the output fidelity (realism) and output diversity (representation of the real data variation), respectively. With the increase in metric proposals, there is a need for a unifying perspective, allowing for easier comparison and clearer explanation of their benefits and drawbacks. To this end, we unify a class of kth-nearest-neighbors (kNN)-based metrics under an information-theoretic lens using approaches from kNN density estimation. Additionally, we propose a tri-dimensional metric composed of Precision Cross-Entropy (PCE), Recall Cross-Entropy (RCE), and Recall Entropy (RE), which separately measure fidelity and two distinct aspects of diversity, inter- and intra-class. Our domain-agnostic metric, derived from the information-theoretic concepts of entropy and cross-entropy, can be dissected for both sample- and mode-level analysis. Our detailed experimental results demonstrate the sensitivity of our metric components to their respective qualities and reveal undesirable behaviors of other metrics.

arxiv情報

著者 Alexis Fox,Samarth Swarup,Abhijin Adiga
発行日 2025-02-27 18:25:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | A Unifying Information-theoretic Perspective on Evaluating Generative Models はコメントを受け付けていません