Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets

要約

一般に、ターゲットのダウンストリームタスクでデータセットを収集することにより大きな拡散モデルをトレーニングしますが、専門家によって設計された、または小規模データセットから学習されたいくつかの報酬機能を備えた、前処理された拡散モデルを調整および微調整することがしばしば望まれます。
拡散モデルの報酬の微調整のための既存のトレーニング後の方法は、通常、生成されたサンプルの多様性の欠如、事前の保存の欠如、および/または微調整のゆっくりした収束に苦しんでいます。
生成フローネットワーク(Gflownets)での最近の成功に触発され、報酬関数の非正規化密度でサンプリングする確率モデルのクラスでは、Nabla-Gflownet(\ Methodnameとして略された)と呼ばれる新しいGflownetメソッドを提案します。
以前の拡散微調整のため。
私たちの提案された方法は、さまざまな現実的な報酬関数で、大規模なテキスト条件の画像拡散モデルである、安定した拡散の高速でありながら多様性および以前の予測の微調整を達成することを示しています。

要約(オリジナル)

While one commonly trains large diffusion models by collecting datasets on target downstream tasks, it is often desired to align and finetune pretrained diffusion models with some reward functions that are either designed by experts or learned from small-scale datasets. Existing post-training methods for reward finetuning of diffusion models typically suffer from lack of diversity in generated samples, lack of prior preservation, and/or slow convergence in finetuning. Inspired by recent successes in generative flow networks (GFlowNets), a class of probabilistic models that sample with the unnormalized density of a reward function, we propose a novel GFlowNet method dubbed Nabla-GFlowNet (abbreviated as \methodname), the first GFlowNet method that leverages the rich signal in reward gradients, together with an objective called \graddb plus its variant \resgraddb designed for prior-preserving diffusion finetuning. We show that our proposed method achieves fast yet diversity- and prior-preserving finetuning of Stable Diffusion, a large-scale text-conditioned image diffusion model, on different realistic reward functions.

arxiv情報

著者 Zhen Liu,Tim Z. Xiao,Weiyang Liu,Yoshua Bengio,Dinghuai Zhang
発行日 2025-03-06 15:15:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets はコメントを受け付けていません

GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving

要約

場所の認識は、自律型の車両がGPS除去された環境でローカリゼーション結果を取得できるようにする重要なコンポーネントです。
近年、マルチモーダルの場所認識方法が注目を集めています。
彼らは、異なるモダリティからの補完的な情報を活用することにより、ユニモーダルセンサーシステムの弱点を克服します。
ただし、ほとんどの既存の方法は、解釈可能性の欠如に苦しんでいる機能レベルまたは記述子レベルの融合を介した交差モダリティの相関を調査します。
逆に、最近提案された3Dガウスの飛び散は、異なるモダリティを明示的なシーン表現に調和させることにより、マルチモーダル融合に関する新しい視点を提供します。
この論文では、GSPRと呼ばれる3Dガウスのスプラッティングベースのマルチモーダル場所認識ネットワークを提案します。
マルチビューRGB画像とライダーポイントクラウドを、提案されたマルチモーダルガウススプラッティングとともに、時空間的に統一されたシーン表現に明示的に組み合わせています。
3Dグラフの畳み込みと変圧器で構成されるネットワークは、場所認識のためにガウスシーンから時空間的特徴とグローバルな記述子を抽出するように設計されています。
3つのデータセットでの広範な評価は、この方法がマルチビューカメラとLIDARの両方の補完的な強さを効果的に活用し、ソタの場所認識パフォーマンスを実現しながら、強固な一般化能力を維持できることを示しています。
当社のオープンソースコードは、https://github.com/qizs-bit/gsprでリリースされます。

要約(オリジナル)

Place recognition is a crucial component that enables autonomous vehicles to obtain localization results in GPS-denied environments. In recent years, multimodal place recognition methods have gained increasing attention. They overcome the weaknesses of unimodal sensor systems by leveraging complementary information from different modalities. However, most existing methods explore cross-modality correlations through feature-level or descriptor-level fusion, suffering from a lack of interpretability. Conversely, the recently proposed 3D Gaussian Splatting provides a new perspective on multimodal fusion by harmonizing different modalities into an explicit scene representation. In this paper, we propose a 3D Gaussian Splatting-based multimodal place recognition network dubbed GSPR. It explicitly combines multi-view RGB images and LiDAR point clouds into a spatio-temporally unified scene representation with the proposed Multimodal Gaussian Splatting. A network composed of 3D graph convolution and transformer is designed to extract spatio-temporal features and global descriptors from the Gaussian scenes for place recognition. Extensive evaluations on three datasets demonstrate that our method can effectively leverage complementary strengths of both multi-view cameras and LiDAR, achieving SOTA place recognition performance while maintaining solid generalization ability. Our open-source code will be released at https://github.com/QiZS-BIT/GSPR.

arxiv情報

著者 Zhangshuo Qi,Junyi Ma,Jingyi Xu,Zijie Zhou,Luqi Cheng,Guangming Xiong
発行日 2025-03-06 15:32:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving はコメントを受け付けていません

ViT-VS: On the Applicability of Pretrained Vision Transformer Features for Generalizable Visual Servoing

要約

ビジュアルサーボにより、ロボットはターゲットオブジェクトに対してエンドエフェクターを正確に配置できます。
古典的な方法は手作りの機能に依存しているため、タスク固有のトレーニングなしでは普遍的に適用可能ですが、閉塞や環境の変動に苦労することがよくありますが、学習ベースのアプローチは堅牢性を改善しますが、通常は広範なトレーニングが必要です。
セマンティックフィーチャ抽出のために前処理された視力変圧器を活用し、両方のパラダイムの利点を組み合わせた視覚サーボアプローチを提示し、提供されたサンプルを超えて一般化することもできます。
私たちのアプローチは、動揺していないシナリオで完全な収束を達成し、摂動シナリオで最大31.2 \%の相対的な改善による古典的な画像ベースの視覚サーボを上回ります。
学習ベースの方法の収束率でさえ、タスクまたはオブジェクト固有のトレーニングを必要としないにもかかわらず一致します。
実際の評価では、同じカテゴリの参照のみを使用して、エンドエフェクターのポジショニング、産業用ボックス操作、目に見えないオブジェクトの把握における堅牢なパフォーマンスを確認します。
コードとシミュレーションの環境は、https://alessandroscherl.github.io/vit-vs/で入手できます。

要約(オリジナル)

Visual servoing enables robots to precisely position their end-effector relative to a target object. While classical methods rely on hand-crafted features and thus are universally applicable without task-specific training, they often struggle with occlusions and environmental variations, whereas learning-based approaches improve robustness but typically require extensive training. We present a visual servoing approach that leverages pretrained vision transformers for semantic feature extraction, combining the advantages of both paradigms while also being able to generalize beyond the provided sample. Our approach achieves full convergence in unperturbed scenarios and surpasses classical image-based visual servoing by up to 31.2\% relative improvement in perturbed scenarios. Even the convergence rates of learning-based methods are matched despite requiring no task- or object-specific training. Real-world evaluations confirm robust performance in end-effector positioning, industrial box manipulation, and grasping of unseen objects using only a reference from the same category. Our code and simulation environment are available at: https://alessandroscherl.github.io/ViT-VS/

arxiv情報

著者 Alessandro Scherl,Stefan Thalhammer,Bernhard Neuberger,Wilfried Wöber,José Gracía-Rodríguez
発行日 2025-03-06 15:33:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ViT-VS: On the Applicability of Pretrained Vision Transformer Features for Generalizable Visual Servoing はコメントを受け付けていません

X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability

要約

LLMSの安全アライメント技術の急速な発展にもかかわらず、マルチターンの脱獄に対する防御は依然として困難な作業です。
この論文では、包括的な比較を実施し、いくつかの既存の防御方法が、多ターンの脱獄に対するLLMの堅牢性を改善するが、使いやすさを妥協すること、つまり一般的な能力を低下させるか、過剰な問題を引き起こすことができることを明らかにします。
LLMSのメカニズムの解釈可能性の観点から、これらの方法が安全で有害な特徴表現を正確に区別する境界を確立できないことがわかります。
したがって、有害な表現に近い境界セーフ表現は必然的に混乱し、使いやすさが低下します。
この問題に対処するために、有害な表現を境界セーフ表現から遠ざけ、正確な区別境界を取得するためにXバウンダリーを提案します。
このようにして、有害な表現は、安全な表現を中断することなく正確に消去できます。
実験結果は、X結合がマルチターンの脱獄に対して最先端の防衛パフォーマンスを達成し、過剰反復率を約20%削減し、ほぼ完全な一般的な能力を維持することを示しています。
さらに、X結合がトレーニング中に収束プロセスを加速できることを理論的に証明し、経験的に検証します。
https://github.com/ai45lab/x-boundaryのコードをご覧ください。

要約(オリジナル)

Despite the rapid development of safety alignment techniques for LLMs, defending against multi-turn jailbreaks is still a challenging task. In this paper, we conduct a comprehensive comparison, revealing that some existing defense methods can improve the robustness of LLMs against multi-turn jailbreaks but compromise usability, i.e., reducing general capabilities or causing the over-refusal problem. From the perspective of mechanism interpretability of LLMs, we discover that these methods fail to establish a boundary that exactly distinguishes safe and harmful feature representations. Therefore, boundary-safe representations close to harmful representations are inevitably disrupted, leading to a decline in usability. To address this issue, we propose X-Boundary to push harmful representations away from boundary-safe representations and obtain an exact distinction boundary. In this way, harmful representations can be precisely erased without disrupting safe ones. Experimental results show that X-Boundary achieves state-of-the-art defense performance against multi-turn jailbreaks, while reducing the over-refusal rate by about 20% and maintaining nearly complete general capability. Furthermore, we theoretically prove and empirically verify that X-Boundary can accelerate the convergence process during training. Please see our code at: https://github.com/AI45Lab/X-Boundary.

arxiv情報

著者 Xiaoya Lu,Dongrui Liu,Yi Yu,Luxin Xu,Jing Shao
発行日 2025-03-06 15:38:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV, cs.LG | X-Boundary: Establishing Exact Safety Boundary to Shield LLMs from Multi-Turn Jailbreaks without Compromising Usability はコメントを受け付けていません

Omnidirectional Multi-Object Tracking

要約

360 {\ deg}の視野を備えたパノラマ画像は、周囲のオブジェクトの空間的および時間的関係をキャプチャするマルチオブジェクト追跡(MOT)をサポートする包括的な情報を提供します。
ただし、ほとんどのMOTアルゴリズムは、ビューが限られているピンホール画像に合わせて調整されており、パノラマ設定での有効性が損なわれます。
さらに、解像度損失、幾何学的変形、不均一な照明などのパノラマ画像の歪みは、既存のMOTメソッドの直接的な適応を妨げ、パフォーマンスの大幅な劣化につながります。
これらの課題に対処するために、トラックレット管理を組み込んだ全方向性MOTフレームワークであるOmnitrackを提案します。
この統合により、迅速なセンサーの動きの下であっても、大きなフィールドオブビューシナリオでの追跡が可能になります。
パノラマMOTデータセットの欠如を軽減するために、Quadtrackデータセットを紹介します。これは、広範囲の視野、強烈な動き、複雑な環境などの多様な課題を備えた、四足動物によって収集された包括的なパノラマデータセットです。
パブリックJRDBデータセットと新しく導入されたQuadtrackベンチマークに関する広範な実験は、提案されたフレームワークの最先端のパフォーマンスを示しています。
OmnitrackはJRDBで26.92%のHotaスコアを達成し、3.43%の改善を表し、さらにクアッドトラックで23.45%を達成し、ベースラインを6.81%超えました。
データセットとコードは、https://github.com/xifen523/omnitrackで公開されます。

要約(オリジナル)

Panoramic imagery, with its 360{\deg} field of view, offers comprehensive information to support Multi-Object Tracking (MOT) in capturing spatial and temporal relationships of surrounding objects. However, most MOT algorithms are tailored for pinhole images with limited views, impairing their effectiveness in panoramic settings. Additionally, panoramic image distortions, such as resolution loss, geometric deformation, and uneven lighting, hinder direct adaptation of existing MOT methods, leading to significant performance degradation. To address these challenges, we propose OmniTrack, an omnidirectional MOT framework that incorporates Tracklet Management to introduce temporal cues, FlexiTrack Instances for object localization and association, and the CircularStatE Module to alleviate image and geometric distortions. This integration enables tracking in large field-of-view scenarios, even under rapid sensor motion. To mitigate the lack of panoramic MOT datasets, we introduce the QuadTrack dataset–a comprehensive panoramic dataset collected by a quadruped robot, featuring diverse challenges such as wide fields of view, intense motion, and complex environments. Extensive experiments on the public JRDB dataset and the newly introduced QuadTrack benchmark demonstrate the state-of-the-art performance of the proposed framework. OmniTrack achieves a HOTA score of 26.92% on JRDB, representing an improvement of 3.43%, and further achieves 23.45% on QuadTrack, surpassing the baseline by 6.81%. The dataset and code will be made publicly available at https://github.com/xifen523/OmniTrack.

arxiv情報

著者 Kai Luo,Hao Shi,Sheng Wu,Fei Teng,Mengfei Duan,Chang Huang,Yuhang Wang,Kaiwei Wang,Kailun Yang
発行日 2025-03-06 15:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | Omnidirectional Multi-Object Tracking はコメントを受け付けていません

A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning

要約

リモートセンシング画像キャプション(RSIC)は、クロスモーダルフィールドブリッジングビジョンと言語であり、リモートセンシング画像の特徴とシーンの自然言語の説明を自動的に生成することを目的としています。
洗練された方法とトレーニングビジョン言語モデル(VLMS)のための大規模なデータセットの開発における大幅な進歩にもかかわらず、2つの重要な課題は続きます。英語以外の記述データセットの希少性と、モデルの多言語能力評価の欠如です。
これらの制限は、特に大規模なVLMの時代において、RSICの進捗と実際の展開を根本的に妨げます。
これらの課題に対処するために、このペーパーでは、この分野へのいくつかの重要な貢献を示しています。
まず、BRSIC(バイリンガルリモートセンシング画像キャプション)を導入および分析します。これは、3つの確立された英語RSICデータセットを中国の説明で濃縮し、68,170のバイリンガルキャプションと組み合わせた13,634の画像を濃縮します。
この基盤の上に構築された私たちは、評価プロトコルにおける一般的な矛盾に対処する体系的な評価フレームワークを開発し、BRSICの標準化された再トレーニング手順を通じてモデルパフォーマンスの厳密な評価を可能にします。
さらに、ゼロショット推論、監視付き微調整、多言語トレーニングなど、複数のパラダイムにわたって能力を調べる、最先端の8つの大規模視覚モデル(LVLMS)の広範な実証研究を提示します。
この包括的な評価は、多言語リモートセンシングタスクの処理における現在のLVLMの強みと制限に関する重要な洞察を提供します。
さらに、クロスダタセット転送実験は興味深い発見を明らかにしています。
コードとデータは、https://github.com/mrazhou/brsicで入手できます。

要約(オリジナル)

Remote Sensing Image Captioning (RSIC) is a cross-modal field bridging vision and language, aimed at automatically generating natural language descriptions of features and scenes in remote sensing imagery. Despite significant advances in developing sophisticated methods and large-scale datasets for training vision-language models (VLMs), two critical challenges persist: the scarcity of non-English descriptive datasets and the lack of multilingual capability evaluation for models. These limitations fundamentally impede the progress and practical deployment of RSIC, particularly in the era of large VLMs. To address these challenges, this paper presents several significant contributions to the field. First, we introduce and analyze BRSIC (Bilingual Remote Sensing Image Captioning), a comprehensive bilingual dataset that enriches three established English RSIC datasets with Chinese descriptions, encompassing 13,634 images paired with 68,170 bilingual captions. Building upon this foundation, we develop a systematic evaluation framework that addresses the prevalent inconsistency in evaluation protocols, enabling rigorous assessment of model performance through standardized retraining procedures on BRSIC. Furthermore, we present an extensive empirical study of eight state-of-the-art large vision-language models (LVLMs), examining their capabilities across multiple paradigms including zero-shot inference, supervised fine-tuning, and multi-lingual training. This comprehensive evaluation provides crucial insights into the strengths and limitations of current LVLMs in handling multilingual remote sensing tasks. Additionally, our cross-dataset transfer experiments reveal interesting findings. The code and data will be available at https://github.com/mrazhou/BRSIC.

arxiv情報

著者 Qing Zhou,Tao Yang,Junyu Gao,Weiping Ni,Junzheng Wu,Qi Wang
発行日 2025-03-06 16:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning はコメントを受け付けていません

Enhancing Multimodal Medical Image Classification using Cross-Graph Modal Contrastive Learning

要約

医療画像の分類は、疾患診断の極めて重要な側面であり、多くの場合、深い学習技術によって強化されます。
ただし、従来のアプローチは通常、単峰性の医療画像データに焦点を当てており、多様な非イメージ患者データの統合を無視しています。
このペーパーでは、医療画像分類を改善するために、異なるデータドメインからのマルチモーダル構造データの新しいクロスグラフモーダルコントラスト学習(CGMCL)フレームワークを提案します。
このモデルは、クロスモダリティグラフを構築し、対照的な学習を活用して共有潜在空間にマルチモーダル機能を調整することにより、画像と非画像の両方のデータを効果的に統合します。
モダリティ間の機能スケーリングモジュールは、不均一なモダリティ間のギャップを削減することにより、表現学習プロセスをさらに最適化します。
提案されたアプローチは、2つのデータセットで評価されます:パーキンソン病(PD)データセットと公共黒色腫データセット。
結果は、CGMCLが、精度、解釈可能性、および早期疾患の予測で従来の単峰性の方法よりも優れていることを示しています。
さらに、この方法は、マルチクラス黒色腫分類における優れた性能を示しています。
CGMCLフレームワークは、医療画像分類に関する貴重な洞察を提供し、疾患の解釈可能性と予測能力を改善します。

要約(オリジナル)

The classification of medical images is a pivotal aspect of disease diagnosis, often enhanced by deep learning techniques. However, traditional approaches typically focus on unimodal medical image data, neglecting the integration of diverse non-image patient data. This paper proposes a novel Cross-Graph Modal Contrastive Learning (CGMCL) framework for multimodal structured data from different data domains to improve medical image classification. The model effectively integrates both image and non-image data by constructing cross-modality graphs and leveraging contrastive learning to align multimodal features in a shared latent space. An inter-modality feature scaling module further optimizes the representation learning process by reducing the gap between heterogeneous modalities. The proposed approach is evaluated on two datasets: a Parkinson’s disease (PD) dataset and a public melanoma dataset. Results demonstrate that CGMCL outperforms conventional unimodal methods in accuracy, interpretability, and early disease prediction. Additionally, the method shows superior performance in multi-class melanoma classification. The CGMCL framework provides valuable insights into medical image classification while offering improved disease interpretability and predictive capabilities.

arxiv情報

著者 Jun-En Ding,Chien-Chin Hsu,Chi-Hsiang Chu,Shuqiang Wang,Feng Liu
発行日 2025-03-06 16:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Enhancing Multimodal Medical Image Classification using Cross-Graph Modal Contrastive Learning はコメントを受け付けていません

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

要約

テキストからビデオへの最近の進歩(T2V)の生成は、自己回帰言語モデルと拡散モデルの2つの競合するパラダイムによって推進されています。
ただし、各パラダイムには本質的な制限があります。言語モデルは視覚的な品質とエラーの蓄積に苦労していますが、拡散モデルには意味的理解と因果モデリングがありません。
この作業では、粗からファインの生成を通じて両方のパラダイムの強さを相乗するハイブリッドフレームワークであるLandiffを提案します。
私たちのアーキテクチャは、3つの重要な革新を導入しています。(1)効率的なセマンティック圧縮により、3D視覚機能をコンパクトな1D離散表現に圧縮し、$ \ SIM $ 14,000 $ \ times $ $圧縮比を達成するセマンティックトークネイザー。
(2)高レベルのセマンティック関係を持つセマンティックトークンを生成する言語モデル。
(3)粗いセマンティクスを高忠実度のビデオに改良するストリーミング拡散モデル。
実験では、5BモデルであるLandiffがVBench T2Vベンチマークで85.43のスコアを達成し、最先端のオープンソースモデルHunyuanビデオ(13b)やSora、Keling、Hailuoなどの他の商用モデルを上回ることが示されています。
さらに、私たちのモデルは、この分野の他のオープンソースモデルを上回る、長いビデオ生成で最先端のパフォーマンスも達成しています。
デモはhttps://landiff.github.io/で見ることができます。

要約(オリジナル)

Recent advancements in text-to-video (T2V) generation have been driven by two competing paradigms: autoregressive language models and diffusion models. However, each paradigm has intrinsic limitations: language models struggle with visual quality and error accumulation, while diffusion models lack semantic understanding and causal modeling. In this work, we propose LanDiff, a hybrid framework that synergizes the strengths of both paradigms through coarse-to-fine generation. Our architecture introduces three key innovations: (1) a semantic tokenizer that compresses 3D visual features into compact 1D discrete representations through efficient semantic compression, achieving a $\sim$14,000$\times$ compression ratio; (2) a language model that generates semantic tokens with high-level semantic relationships; (3) a streaming diffusion model that refines coarse semantics into high-fidelity videos. Experiments show that LanDiff, a 5B model, achieves a score of 85.43 on the VBench T2V benchmark, surpassing the state-of-the-art open-source models Hunyuan Video (13B) and other commercial models such as Sora, Keling, and Hailuo. Furthermore, our model also achieves state-of-the-art performance in long video generation, surpassing other open-source models in this field. Our demo can be viewed at https://landiff.github.io/.

arxiv情報

著者 Aoxiong Yin,Kai Shen,Yichong Leng,Xu Tan,Xinyu Zhou,Juncheng Li,Siliang Tang
発行日 2025-03-06 16:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation はコメントを受け付けていません

Self-supervised pre-training with diffusion model for few-shot landmark detection in x-ray images

要約

深いニューラルネットワークは、画像分類、セグメンテーション、ランドマーク検出など、さまざまなタスクに医療ドメインに広く適用されています。
ただし、利用可能な注釈と画像の両方の点で、それらのアプリケーションはしばしばデータ不足によって妨げられます。
この研究では、X線イメージングにおける限られた注釈データの課題に特に対処する、ランドマーク検出タスクに拡散確率モデル(DDPMS)を除去する新しいアプリケーションを紹介します。
私たちの主要な革新は、このドメインで以前に説明されていないアプローチであるランドマーク検出における自己監督の事前トレーニングのためにDDPMを活用することにあります。
この方法により、最小限の注釈付きトレーニングデータ(わずか50の画像)で正確なランドマーク検出が可能になり、3つの一般的なX線ベンチマークデータセットにわたって、イメージネットの監督された事前トレーニングと従来の自己監視技術の両方を上回ります。
私たちの知る限り、この作業は、データの希少性を緩和するための少数のショット体制で貴重なトレーニング前アプローチを提供する可能性のあるランドマーク検出における自己監視学習のための拡散モデルの最初の応用を表しています。

要約(オリジナル)

Deep neural networks have been extensively applied in the medical domain for various tasks, including image classification, segmentation, and landmark detection. However, their application is often hindered by data scarcity, both in terms of available annotations and images. This study introduces a novel application of denoising diffusion probabilistic models (DDPMs) to the landmark detection task, specifically addressing the challenge of limited annotated data in x-ray imaging. Our key innovation lies in leveraging DDPMs for self-supervised pre-training in landmark detection, a previously unexplored approach in this domain. This method enables accurate landmark detection with minimal annotated training data (as few as 50 images), surpassing both ImageNet supervised pre-training and traditional self-supervised techniques across three popular x-ray benchmark datasets. To our knowledge, this work represents the first application of diffusion models for self-supervised learning in landmark detection, which may offer a valuable pre-training approach in few-shot regimes, for mitigating data scarcity.

arxiv情報

著者 Roberto Di Via,Francesca Odone,Vito Paolo Pastore
発行日 2025-03-06 17:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Self-supervised pre-training with diffusion model for few-shot landmark detection in x-ray images はコメントを受け付けていません

Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning

要約

安定した拡散(SD)微調整による制御可能な生成は、忠実度、安全性、および人間の指導との調整を改善することを目的としています。
通常、人間のフィードバック方法からの既存の強化学習は、通常、事前に定義されたヒューリスティックな報酬機能または大規模なデータセットに基づいて構築された前提条件の報酬モデルに依存しており、そのようなデータの収集が費用または困難なシナリオに適用可能性を制限します。
人間のフィードバックを効果的かつ効率的に利用するために、モデル学習中に収集されたオンラインの人間のフィードバックを活用するフレームワーク、ヒーローを開発します。
具体的には、Heroは2つの重要なメカニズムを特徴としています。(1)フィードバックに沿った表現学習、人間のフィードバックをキャプチャし、微調整のための有益な学習信号を提供するオンライントレーニング方法、および(2)フィードバックガイド付き画像生成。
Heroは、最良の既存の方法と比較して、身体部分の異常補正のオンラインフィードバックにより4倍効率的であることを実証します。
さらに、実験では、ヒーローがわずか0.5kのオンラインフィードバックでNSFWコンテンツをカウント、カウント、パーソナライズ、削減などのタスクを効果的に処理できることが示されています。

要約(オリジナル)

Controllable generation through Stable Diffusion (SD) fine-tuning aims to improve fidelity, safety, and alignment with human guidance. Existing reinforcement learning from human feedback methods usually rely on predefined heuristic reward functions or pretrained reward models built on large-scale datasets, limiting their applicability to scenarios where collecting such data is costly or difficult. To effectively and efficiently utilize human feedback, we develop a framework, HERO, which leverages online human feedback collected on the fly during model learning. Specifically, HERO features two key mechanisms: (1) Feedback-Aligned Representation Learning, an online training method that captures human feedback and provides informative learning signals for fine-tuning, and (2) Feedback-Guided Image Generation, which involves generating images from SD’s refined initialization samples, enabling faster convergence towards the evaluator’s intent. We demonstrate that HERO is 4x more efficient in online feedback for body part anomaly correction compared to the best existing method. Additionally, experiments show that HERO can effectively handle tasks like reasoning, counting, personalization, and reducing NSFW content with only 0.5K online feedback.

arxiv情報

著者 Ayano Hiranaka,Shang-Fu Chen,Chieh-Hsin Lai,Dongjun Kim,Naoki Murata,Takashi Shibuya,Wei-Hsiang Liao,Shao-Hua Sun,Yuki Mitsufuji
発行日 2025-03-06 17:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG | Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning はコメントを受け付けていません