Object Detection and Tracking

要約

効率的で正確なオブジェクト検出は、コンピュータービジョンシステムの開発における重要なトピックです。
深い学習技術の出現により、オブジェクト検出の精度は大幅に増加しています。
このプロジェクトの目的は、リアルタイムのパフォーマンスで高精度を達成することを目的として、オブジェクト検出のための最新の手法を統合することを目的としています。
多くのオブジェクト識別システムにおける他のコンピュータービジョンアルゴリズムへの依存は、パフォーマンスが低下し、効果のないパフォーマンスをもたらしますが、重大な障害です。
この研究では、深い学習技術を使用して、エンドツーエンドのオブジェクト検出問題を完全に解決します。
ネットワークは、年間のアイテム検出チャレンジに使用される最も困難な公開データセットを使用してトレーニングされています。
オブジェクト検出が必要なアプリケーションは、システムの迅速かつ正確な発見に役立つ可能性があります。

要約(オリジナル)

Efficient and accurate object detection is an important topic in the development of computer vision systems. With the advent of deep learning techniques, the accuracy of object detection has increased significantly. The project aims to integrate a modern technique for object detection with the aim of achieving high accuracy with real-time performance. The reliance on other computer vision algorithms in many object identification systems, which results in poor and ineffective performance, is a significant obstacle. In this research, we solve the end-to-end object detection problem entirely using deep learning techniques. The network is trained using the most difficult publicly available dataset, which is used for an annual item detection challenge. Applications that need object detection can benefit the system’s quick and precise finding.

arxiv情報

著者 Md Pranto,Omar Faruk
発行日 2025-02-14 17:13:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY | Object Detection and Tracking はコメントを受け付けていません

The Devil is in the Prompts: De-Identification Traces Enhance Memorization Risks in Synthetic Chest X-Ray Generation

要約

生成モデル、特にテキストからイメージ(T2I)拡散モデルは、医療画像分析において重要な役割を果たします。
ただし、これらのモデルはデータの記憶をトレーニングする傾向があり、患者のプライバシーに重大なリスクをもたらします。
合成胸部X線生成は、このタスクの主要なデータリポジトリとして機能するMIMIC-CXRデータセットを備えた医療画像分析における最も一般的なアプリケーションの1つです。
この研究では、データの記憶のトレーニングに最も貢献するMimic-CXRのプロンプトとテキストトークンを特定する最初の体系的な試みを提示します。
私たちの分析では、2つの予期しない発見が明らかになりました。(1)脱同意手順の痕跡を含むプロンプト(保護された健康情報を隠すために導入されたマーカー)が最も記憶されており、(2)すべてのトークンの中で、識別マーカーは暗記に最も貢献します。
これは、標準的な匿名化プラクティスとMIMIC-CXRを使用したT2I合成に関するより広範な問題を強調しています。
悪化させるために、既存の推論時間記憶緩和戦略は効果がなく、記憶されたテキストトークンへのモデルの依存を十分に減らすことができません。
この面では、さまざまな利害関係者がプライバシーを強化し、医療イメージングにおける生成モデルの信頼性を向上させるための実用的な戦略を提案します。
最後に、我々の結果は、MIMIC-CXRデータセットを使用して、合成胸部X線生成のための記憶緩和技術の開発とベンチマークに関する将来の作業の基盤を提供します。
匿名化されたコードは、https://anonymous.4open.science/r/diffusion_memorization-8011/で入手できます。

要約(オリジナル)

Generative models, particularly text-to-image (T2I) diffusion models, play a crucial role in medical image analysis. However, these models are prone to training data memorization, posing significant risks to patient privacy. Synthetic chest X-ray generation is one of the most common applications in medical image analysis with the MIMIC-CXR dataset serving as the primary data repository for this task. This study presents the first systematic attempt to identify prompts and text tokens in MIMIC-CXR that contribute the most to training data memorization. Our analysis reveals two unexpected findings: (1) prompts containing traces of de-identification procedures (markers introduced to hide Protected Health Information) are the most memorized, and (2) among all tokens, de-identification markers contribute the most towards memorization. This highlights a broader issue with the standard anonymization practices and T2I synthesis with MIMIC-CXR. To exacerbate, existing inference-time memorization mitigation strategies are ineffective and fail to sufficiently reduce the model’s reliance on memorized text tokens. On this front, we propose actionable strategies for different stakeholders to enhance privacy and improve the reliability of generative models in medical imaging. Finally, our results provide a foundation for future work on developing and benchmarking memorization mitigation techniques for synthetic chest X-ray generation using the MIMIC-CXR dataset. The anonymized code is available at https://anonymous.4open.science/r/diffusion_memorization-8011/

arxiv情報

著者 Raman Dutt
発行日 2025-02-14 17:24:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | The Devil is in the Prompts: De-Identification Traces Enhance Memorization Risks in Synthetic Chest X-Ray Generation はコメントを受け付けていません

Solving the enigma: Enhancing faithfulness and comprehensibility in explanations of deep networks

要約

人工知能(AI)の加速進行は、さまざまなドメインで深い学習モデルを普及させていますが、特にヘルスケア、医学、地球科学などの重要な分野では、その固有の不透明度が課題をもたらします。
説明可能なAI(XAI)がこれらの「ブラックボックス」モデルに光を当てるために現れ、意思決定プロセスを解読することを支援しています。
ただし、XaIメソッドが異なることが多い場合、多くの場合、かなり異なる説明が生成され、不確実性を高め、深いネットワークの予測に対する信頼を損なう高いメソッド間変動性が高くなります。
この研究では、説明の精度と包括性の両方を最大化することに二重に焦点を当てることにより、深いネットワークの説明可能性を高めるために設計された新しいフレームワークを導入することにより、この課題に対処します。
当社のフレームワークは、複数の確立されたXAIメソッドからの出力を統合し、「説明オプティマイザー」と呼ばれる非線形ニューラルネットワークモデルをレバレッジして、統一された最適な説明を構築します。
Optimizerは、2つの重要なメトリックを使用して説明を評価します:忠実さ(ネットワークの決定を反映する正確さ)と複雑さ(妥当性)。
これらのバランスをとることにより、正確でアクセスしやすい説明を提供し、重要なXaiの制限に対処します。
2Dオブジェクトと3Dニューロサイエンスイメージングのマルチクラスおよびバイナリ分類の実験は、その有効性を確認します。
オプティマイザーは、それぞれ3Dタスクと2Dタスクで最高のXaiメソッドよりも155%および63%高く忠実なスコアを達成しましたが、より良い理解のために複雑さを減らしました。
これらの結果は、特定の品質基準に基づいた最適な説明が達成可能であり、現在のXAI文献におけるメソッド間変動の問題の解決策を提供し、より信頼できるディープネットワーク予測をサポートすることを示しています。

要約(オリジナル)

The accelerated progress of artificial intelligence (AI) has popularized deep learning models across various domains, yet their inherent opacity poses challenges, particularly in critical fields like healthcare, medicine, and the geosciences. Explainable AI (XAI) has emerged to shed light on these ‘black box’ models, aiding in deciphering their decision-making processes. However, different XAI methods often produce significantly different explanations, leading to high inter-method variability that increases uncertainty and undermines trust in deep networks’ predictions. In this study, we address this challenge by introducing a novel framework designed to enhance the explainability of deep networks through a dual focus on maximizing both accuracy and comprehensibility in the explanations. Our framework integrates outputs from multiple established XAI methods and leverages a non-linear neural network model, termed the ‘explanation optimizer,’ to construct a unified, optimal explanation. The optimizer evaluates explanations using two key metrics: faithfulness (accuracy in reflecting the network’s decisions) and complexity (comprehensibility). By balancing these, it provides accurate and accessible explanations, addressing a key XAI limitation. Experiments on multi-class and binary classification in 2D object and 3D neuroscience imaging confirm its efficacy. Our optimizer achieved faithfulness scores 155% and 63% higher than the best XAI methods in 3D and 2D tasks, respectively, while also reducing complexity for better understanding. These results demonstrate that optimal explanations based on specific quality criteria are achievable, offering a solution to the issue of inter-method variability in the current XAI literature and supporting more trustworthy deep network predictions

arxiv情報

著者 Michail Mamalakis,Antonios Mamalakis,Ingrid Agartz,Lynn Egeland Mørch-Johnsen,Graham Murray,John Suckling,Pietro Lio
発行日 2025-02-14 17:28:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Solving the enigma: Enhancing faithfulness and comprehensibility in explanations of deep networks はコメントを受け付けていません

Ocular Disease Classification Using CNN with Deep Convolutional Generative Adversarial Network

要約

畳み込みニューラルネットワーク(CNN)は、その強力な学習能力のため、画像分類で印象的なパフォーマンスを示しています。
ただし、効果的なトレーニングには、実質的でバランスの取れたデータセットが必要です。
それ以外の場合、ネットワークは、新しい例に一般化するために、フィッティングや苦労に頻繁に展示します。
眼疾患の眼底画像の公開データセットは、満足のいく精度を達成するために分類モデルを訓練するには不十分です。
したがって、CNNベースの分類モデルをトレーニングするためにデータセットを合成するための生成的敵対的ネットワーク(GAN)ベースのデータ生成手法を提案し、後でモデルをテストするために眼画像を含む元の疾患を使用します。
元の眼画像を使用したモデル分類精度のテスト中、モデルは近視で78.6%、緑内障で88.6%、白内障で84.6%、全体的な分類精度は84.6%です。

要約(オリジナル)

The Convolutional Neural Network (CNN) has shown impressive performance in image classification because of its strong learning capabilities. However, it demands a substantial and balanced dataset for effective training. Otherwise, networks frequently exhibit over fitting and struggle to generalize to new examples. Publicly available dataset of fundus images of ocular disease is insufficient to train any classification model to achieve satisfactory accuracy. So, we propose Generative Adversarial Network(GAN) based data generation technique to synthesize dataset for training CNN based classification model and later use original disease containing ocular images to test the model. During testing the model classification accuracy with the original ocular image, the model achieves an accuracy rate of 78.6% for myopia, 88.6% for glaucoma, and 84.6% for cataract, with an overall classification accuracy of 84.6%.

arxiv情報

著者 Arun Kunwar,Dibakar Raj Pant,Jukka Heikkonen,Rajeev Kanth
発行日 2025-02-14 17:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Ocular Disease Classification Using CNN with Deep Convolutional Generative Adversarial Network はコメントを受け付けていません

Magic 1-For-1: Generating One Minute Video Clips within One Minute

要約

このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的なビデオ生成モデルであるMagic 1-for-1(MAGIC141)を紹介します。
重要なアイデアは単純です。テキストからビデオへの生成タスクを、拡散ステップ蒸留のための2つの別々の簡単なタスク、つまりテキストからイメージの生成と画像間生成に因数分解します。
同じ最適化アルゴリズムを使用して、画像からビデオへのタスクが実際にテキストからビデオへのタスク上で収束しやすいことを確認します。
また、最適化のトリックのバッグを探索して、3つの側面から画像間(I2V)モデルをトレーニングする計算コストを削減します。1)モデルの収束速度速度マルチモーダル事前条件注入を使用して。
2)敵対的なステップ蒸留を適用することにより、推論の遅延速度を上げ、3)パラメーターのスパース化による推論メモリコストの最適化。
これらのテクニックを使用すると、3秒以内に5秒のビデオクリップを生成できます。
テスト時間スライドウィンドウを適用することにより、視覚品質とモーションダイナミクスが大幅に向上し、1分以内に1分以内に1分間のビデオを生成することができ、平均で1秒のビデオクリップを生成するために1秒未満を費やすことができます。
一連の予備調査を実施して、拡散ステップ蒸留中に計算コストとビデオの品質との最適なトレードオフを調べ、これがオープンソース探索の良い基盤モデルになることを願っています。
コードとモデルの重みは、https://github.com/da-group-pku/magic-1-for-1で入手できます。

要約(オリジナル)

In this technical report, we present Magic 1-For-1 (Magic141), an efficient video generation model with optimized memory consumption and inference latency. The key idea is simple: factorize the text-to-video generation task into two separate easier tasks for diffusion step distillation, namely text-to-image generation and image-to-video generation. We verify that with the same optimization algorithm, the image-to-video task is indeed easier to converge over the text-to-video task. We also explore a bag of optimization tricks to reduce the computational cost of training the image-to-video (I2V) models from three aspects: 1) model convergence speedup by using a multi-modal prior condition injection; 2) inference latency speed up by applying an adversarial step distillation, and 3) inference memory cost optimization with parameter sparsification. With those techniques, we are able to generate 5-second video clips within 3 seconds. By applying a test time sliding window, we are able to generate a minute-long video within one minute with significantly improved visual quality and motion dynamics, spending less than 1 second for generating 1 second video clips on average. We conduct a series of preliminary explorations to find out the optimal tradeoff between computational cost and video quality during diffusion step distillation and hope this could be a good foundation model for open-source explorations. The code and the model weights are available at https://github.com/DA-Group-PKU/Magic-1-For-1.

arxiv情報

著者 Hongwei Yi,Shitong Shao,Tian Ye,Jiantong Zhao,Qingyu Yin,Michael Lingelbach,Li Yuan,Yonghong Tian,Enze Xie,Daquan Zhou
発行日 2025-02-14 18:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Magic 1-For-1: Generating One Minute Video Clips within One Minute はコメントを受け付けていません

Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

要約

最近、視覚的質問答(VQA)のビジョン言語モデル(VLMS)を包括的に改善するために、VLMSの推論機能をさらに強化して、VLMSとしてのみ大規模な言語にのみ使用する方法ではなく、VQAタスクに独立して取り組むためにいくつかの方法が提案されています。
モデル(LLMS)。
ただし、これらの方法は、現実の世界からサンプリングされた与えられたVQA画像内の豊富な常識的な知識を無視します。
したがって、最適なパフォーマンスを実現するために、与えられたVQA質問に強力なVLMを完全に使用することはできません。
この制限を克服し、人間のトップダウン推論プロセスに触発され、つまり、関連する問題を体系的に調査して包括的な答えを導き出すために、この作品は、大規模な言語モデルの広範な知識を活用することにより、斬新で説明可能なマルチエージェントコラボレーションフレームワークを紹介します(
LLMS)VLM自体の機能を強化する。
具体的には、私たちのフレームワークは、3つのエージェント、つまりレスポンダー、シーカー、およびインテグレーターで構成され、関連する問題を求め、そのようなトップダウン推論プロセスで最終回答を生成することにより、与えられたVQAの質問に協力して回答します。
VLMベースのレスポンダーエージェントは、質問の回答候補を生成し、他の関連する問題に回答します。
主にLLMに基づくシーカーエージェントは、質問に関連する関連する問題を特定して、レスポンダーエージェントに通知し、LLMのビルドインワールドナレッジを活用することにより、与えられた視覚シーンのマルチビューナレッジベース(MVKB)を構築します。
インテグレーターエージェントは、シーカーエージェントとレスポンダーエージェントからの知識を組み合わせて、最終的なVQA回答を作成します。
さまざまなVLMを備えた多様なVQAデータセットに関する広範かつ包括的な評価は、追加のトレーニングコストなしでゼロショット設定でベースラインメソッドをめぐるフレームワークの優れたパフォーマンスと解釈可能性を示しています。

要約(オリジナル)

Recently, to comprehensively improve Vision Language Models (VLMs) for Visual Question Answering (VQA), several methods have been proposed to further reinforce the inference capabilities of VLMs to independently tackle VQA tasks rather than some methods that only utilize VLMs as aids to Large Language Models (LLMs). However, these methods ignore the rich common-sense knowledge inside the given VQA image sampled from the real world. Thus, they cannot fully use the powerful VLM for the given VQA question to achieve optimal performance. Attempt to overcome this limitation and inspired by the human top-down reasoning process, i.e., systematically exploring relevant issues to derive a comprehensive answer, this work introduces a novel, explainable multi-agent collaboration framework by leveraging the expansive knowledge of Large Language Models (LLMs) to enhance the capabilities of VLMs themselves. Specifically, our framework comprises three agents, i.e., Responder, Seeker, and Integrator, to collaboratively answer the given VQA question by seeking its relevant issues and generating the final answer in such a top-down reasoning process. The VLM-based Responder agent generates the answer candidates for the question and responds to other relevant issues. The Seeker agent, primarily based on LLM, identifies relevant issues related to the question to inform the Responder agent and constructs a Multi-View Knowledge Base (MVKB) for the given visual scene by leveraging the build-in world knowledge of LLM. The Integrator agent combines knowledge from the Seeker agent and the Responder agent to produce the final VQA answer. Extensive and comprehensive evaluations on diverse VQA datasets with a variety of VLMs demonstrate the superior performance and interpretability of our framework over the baseline method in the zero-shot setting without extra training cost.

arxiv情報

著者 Zeqing Wang,Wentao Wan,Qiqing Lao,Runmeng Chen,Minjie Lang,Xiao Wang,Keze Wang,Liang Lin
発行日 2025-02-14 18:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering はコメントを受け付けていません

S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation

要約

トランスは、学習した画像圧縮(LIC)で大幅に成功しており、非線形変換の主流の選択肢としてスウィン変圧器が浮上しています。
一般的な信念は、彼らの洗練された空間的操作が彼らの有効性に最も貢献するということです。
ただし、変圧器アーキテクチャ内のフィードフォワードネットワーク(FFN)ベースのチャネル集約モジュールの重要な役割はほとんど見落とされており、空間操作の過剰設計は、デコードレイテンシとR-Dパフォーマンスの間の最適ではないトレードオフにつながります。
この論文では、LICの変圧器の能力の背後にある重要な要因を再評価します。
空間操作をアイデンティティマッピングに置き換えることで、チャネル操作のみが主要な方法のR-Dパフォーマンスにアプローチできることに驚いています。
このパフォーマンスの強固な下限は、Channel Aggregationの存在が競争力のあるパフォーマンスを達成するためにはChannel Aggregationの存在がより重要であることを強調していますが、以前は複雑な空間的相互作用は部分的に冗長です。
この洞察に基づいて、「S2CFORMER」パラダイムを開始します。これは、空間的相互作用からチャネル集約までのLICの焦点を再配分する一般的なアーキテクチャです。
S2CFORMERの2つのインスタンス化:S2C-CONVとS2C-Attentionを提示します。
それぞれが空間相互作用のためのシンプルな演算子を組み込み、LICモデルの非線形変換ブロックとして機能します。
両方のモデルは、最先端の(SOTA)R-Dパフォーマンスを示し、デコード速度が大幅に高速であることを示しています。
また、これらの結果は、高度なFFN構造のさらなる調査を動機付け、モデルの効率を維持しながらR-Dパフォーマンスを向上させます。
これらの基礎を使用して、さまざまなS2CFORMERインスタンス化の強度を組み合わせた強化されたLICモデルであるS2C-Hybridを導入します。
このモデルは、いくつかのデータセット上のすべての既存のメソッドを上回り、効率的で高性能LICの新しいベンチマークを設定します。

要約(オリジナル)

Transformers have achieved significant success in learned image compression (LIC), with Swin Transformers emerging as the mainstream choice for nonlinear transforms. A common belief is that their sophisticated spatial operations contribute most to their efficacy. However, the crucial role of the feed-forward network (FFN) based Channel Aggregation module within the transformer architecture has been largely overlooked, and the over-design of spatial operations leads to a suboptimal trade-off between decoding latency and R-D performance. In this paper, we reevaluate the key factors behind the competence of transformers in LIC. By replacing spatial operations with identity mapping, we are surprised to find that channel operations alone can approach the R-D performance of the leading methods. This solid lower bound of performance emphasizes that the presence of channel aggregation is more essential for the LIC model to achieve competitive performance, while the previously complex spatial interactions are partly redundant. Based on this insight, we initiate the ‘S2CFormer’ paradigm, a general architecture that reorients the focus of LIC from Spatial Interaction to Channel Aggregation. We present two instantiations of the S2CFormer: S2C-Conv, and S2C-Attention. Each one incorporates a simple operator for spatial interaction and serves as nonlinear transform blocks for our LIC models. Both models demonstrate state-of-the-art (SOTA) R-D performance and significantly faster decoding speed. These results also motivate further exploration of advanced FFN structures to enhance the R-D performance while maintaining model efficiency. With these foundations, we introduce S2C-Hybrid, an enhanced LIC model that combines the strengths of different S2CFormer instantiations. This model outperforms all the existing methods on several datasets, setting a new benchmark for efficient and high-performance LIC.

arxiv情報

著者 Yunuo Chen,Qian Li,Bing He,Donghui Feng,Ronghua Wu,Qi Wang,Li Song,Guo Lu,Wenjun Zhang
発行日 2025-02-14 18:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation はコメントを受け付けていません

ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences

要約

Restyle3Dを紹介します。これは、単一のスタイルの画像から複数のビューで表される現実世界のシーンへのシーンレベルの外観転送の新しいフレームワークです。
この方法は、明示的なセマンティック対応とマルチビューの一貫性を組み合わせて、正確でコヒーレントなスタイリライゼーションを実現します。
参照スタイルをグローバルに適用する従来のスタイリライゼーション方法とは異なり、Restyle3Dはオープンポジブルセグメンテーションを使用して、スタイル画像と実際の画像の間に密集したインスタンスレベルの対応を確立します。
これにより、各オブジェクトが意味的に一致したテクスチャで様式化されます。
最初に、拡散モデルのトレーニングなしのセマンティックアテナンスメカニズムを使用して、スタイルを単一ビューに転送します。
次に、単眼の深さとピクセルごとの対応によって導かれる学習したワープアンドリファインネットワークを介して、スタイリライゼーションを追加のビューに持ち上げます。
実験は、Restyle3Dが、構造の保存、知覚スタイルの類似性、およびマルチビューコヒーレンスの以前の方法よりも一貫して優れていることを示しています。
ユーザー調査は、写真を整えた、意味的に忠実な結果を生み出す能力をさらに検証します。
インテリアデザイン、仮想ステージング、および3D結合的なスタイリライゼーションの新しいアプリケーションをサポートするために、当社のコード、前提型モデル、およびデータセットが公開されます。

要約(オリジナル)

We introduce ReStyle3D, a novel framework for scene-level appearance transfer from a single style image to a real-world scene represented by multiple views. The method combines explicit semantic correspondences with multi-view consistency to achieve precise and coherent stylization. Unlike conventional stylization methods that apply a reference style globally, ReStyle3D uses open-vocabulary segmentation to establish dense, instance-level correspondences between the style and real-world images. This ensures that each object is stylized with semantically matched textures. It first transfers the style to a single view using a training-free semantic-attention mechanism in a diffusion model. It then lifts the stylization to additional views via a learned warp-and-refine network guided by monocular depth and pixel-wise correspondences. Experiments show that ReStyle3D consistently outperforms prior methods in structure preservation, perceptual style similarity, and multi-view coherence. User studies further validate its ability to produce photo-realistic, semantically faithful results. Our code, pretrained models, and dataset will be publicly released, to support new applications in interior design, virtual staging, and 3D-consistent stylization.

arxiv情報

著者 Liyuan Zhu,Shengqu Cai,Shengyu Huang,Gordon Wetzstein,Naji Khosravan,Iro Armeni
発行日 2025-02-14 18:54:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences はコメントを受け付けていません

Simplifying DINO via Coding Rate Regularization

要約

DINOとDINOV2は、大規模で無効な画像データから表現を学習するために広く使用されている2つのモデルファミリです。
彼らの学んだ表現は、多くの場合、画像分類やセグメンテーションなどの下流タスクの最先端のパフォーマンスを可能にします。
しかし、彼らは多くの経験的に動機付けられた設計の選択を採用しており、彼らのトレーニングパイプラインは非常に複雑で不安定です – 多くのハイパーパラメーターは、表現が崩壊しないように慎重に調整する必要があります – これはそれらを改善または新しいドメインに適応させるのがかなりの困難をもたらします

この作業では、トレーニング前のパイプラインでこのような運動型の特異性を削除できると仮定し、表現の崩壊を避けるために損失関数に明示的なコーディング速度項を追加するだけです。
その結果、それぞれSimdinoとSimdinov2と呼ばれるDinoとDinov2の非常に単純化されたバリアントを取得します。
驚くべきことに、これらの単純化されたモデルは、ネットワークアーキテクチャやハイパーパラメーターなど、さまざまな設計の選択肢に対してより堅牢であり、下流タスクのパフォーマンスで測定され、対応するDINOおよびDINOV2モデルのパレート改善を提供する高品質の表現を学習します。
この作業は、デザインの原則を単純化するために、深い学習の経験的実践を改善する可能性を強調しています。

要約(オリジナル)

DINO and DINOv2 are two model families being widely used to learn representations from unlabeled imagery data at large scales. Their learned representations often enable state-of-the-art performance for downstream tasks, such as image classification and segmentation. However, they employ many empirically motivated design choices and their training pipelines are highly complex and unstable — many hyperparameters need to be carefully tuned to ensure that the representations do not collapse — which poses considerable difficulty to improving them or adapting them to new domains. In this work, we posit that we can remove most such-motivated idiosyncrasies in the pre-training pipelines, and only need to add an explicit coding rate term in the loss function to avoid collapse of the representations. As a result, we obtain highly simplified variants of the DINO and DINOv2 which we call SimDINO and SimDINOv2, respectively. Remarkably, these simplified models are more robust to different design choices, such as network architecture and hyperparameters, and they learn even higher-quality representations, measured by performance on downstream tasks, offering a Pareto improvement over the corresponding DINO and DINOv2 models. This work highlights the potential of using simplifying design principles to improve the empirical practice of deep learning.

arxiv情報

著者 Ziyang Wu,Jingyuan Zhang,Druv Pai,XuDong Wang,Chandan Singh,Jianwei Yang,Jianfeng Gao,Yi Ma
発行日 2025-02-14 18:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Simplifying DINO via Coding Rate Regularization はコメントを受け付けていません

Region-Adaptive Sampling for Diffusion Transformers

要約

拡散モデル(DM)は、多様なドメイン全体の生成タスクの主要な選択となっています。
ただし、複数のシーケンシャルフォワードパスへの依存により、リアルタイムのパフォーマンスが大幅に制限されます。
以前の加速方法は、主にサンプリングステップの数を減らすか、中間結果の再利用に焦点を合わせており、畳み込みのU-NET構造の制約のために画像内の空間領域全体の変動を活用できません。
さまざまな数のトークンを処理する際の拡散変圧器(DIT)の柔軟性を活用することにより、DITモデルの焦点に基づいて画像内の領域に異なるサンプリング比を動的に割り当てる斬新なトレーニングフリーサンプリング戦略であるRASを導入します。
私たちの重要な観察では、各サンプリングステップ中に、モデルは意味的に意味のある領域に集中し、これらの焦点領域は連続したステップにわたって強い連続性を示すことです。
この洞察を活用して、RASは現在焦点を合わせている地域のみを更新し、他の領域は前のステップからのキャッシュノイズを使用して更新されます。
モデルの焦点は、前のステップからの出力に基づいて決定され、観察した時間的一貫性を活用します。
安定した拡散3とLumina-Next-T2IでRAを評価し、それぞれ最大2.36倍と2.51倍までのスピードアップを達成し、生成品質の低下を最小限に抑えます。
さらに、ユーザー調査では、RASが1.6倍のスピードアップを達成しながら、人間の評価の下で同等の品質を提供することが明らかになりました。
私たちのアプローチは、より効率的な拡散トランスに向けて重要な一歩を踏み出し、リアルタイムアプリケーションの可能性を高めます。

要約(オリジナル)

Diffusion models (DMs) have become the leading choice for generative tasks across diverse domains. However, their reliance on multiple sequential forward passes significantly limits real-time performance. Previous acceleration methods have primarily focused on reducing the number of sampling steps or reusing intermediate results, failing to leverage variations across spatial regions within the image due to the constraints of convolutional U-Net structures. By harnessing the flexibility of Diffusion Transformers (DiTs) in handling variable number of tokens, we introduce RAS, a novel, training-free sampling strategy that dynamically assigns different sampling ratios to regions within an image based on the focus of the DiT model. Our key observation is that during each sampling step, the model concentrates on semantically meaningful regions, and these areas of focus exhibit strong continuity across consecutive steps. Leveraging this insight, RAS updates only the regions currently in focus, while other regions are updated using cached noise from the previous step. The model’s focus is determined based on the output from the preceding step, capitalizing on the temporal consistency we observed. We evaluate RAS on Stable Diffusion 3 and Lumina-Next-T2I, achieving speedups up to 2.36x and 2.51x, respectively, with minimal degradation in generation quality. Additionally, a user study reveals that RAS delivers comparable qualities under human evaluation while achieving a 1.6x speedup. Our approach makes a significant step towards more efficient diffusion transformers, enhancing their potential for real-time applications.

arxiv情報

著者 Ziming Liu,Yifan Yang,Chengruidong Zhang,Yiqi Zhang,Lili Qiu,Yang You,Yuqing Yang
発行日 2025-02-14 18:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Region-Adaptive Sampling for Diffusion Transformers はコメントを受け付けていません