Self-Supervised Data Generation for Precision Agriculture: Blending Simulated Environments with Real Imagery

要約

精密な農業では、ラベル付きのデータと重要な共変量シフトの希少性は、機械学習モデルをトレーニングするためのユニークな課題をもたらします。
この希少性は、環境の動的な性質と生物としての農業被験者の進化する外観のために、特に問題があります。
これらの課題に対処するために、現実的な合成データを生成するための新しいシステムを提案します。
Unityエンジンに基づいたブドウ園シミュレーターを利用して、当社のシステムは、合成環境から正確な写真と現実的な画像とラベルを生成して、検出アルゴリズムを訓練するために、幾何学的な一貫性の考慮事項を備えたカットアンドペースト技術を採用しています。
このアプローチは、さまざまな視点や照明条件にわたって多様なデータサンプルを生成します。
テーブルブドウの栽培に方法を適用することにより、最先端の検出器のトレーニングにおいてかなりのパフォーマンスの改善を示します。
技術の組み合わせは、農業慣行における採用のためにますます重要な考慮事項である、手法の組み合わせを簡単に自動化できます。

要約(オリジナル)

In precision agriculture, the scarcity of labeled data and significant covariate shifts pose unique challenges for training machine learning models. This scarcity is particularly problematic due to the dynamic nature of the environment and the evolving appearance of agricultural subjects as living things. We propose a novel system for generating realistic synthetic data to address these challenges. Utilizing a vineyard simulator based on the Unity engine, our system employs a cut-and-paste technique with geometrical consistency considerations to produce accurate photo-realistic images and labels from synthetic environments to train detection algorithms. This approach generates diverse data samples across various viewpoints and lighting conditions. We demonstrate considerable performance improvements in training a state-of-the-art detector by applying our method to table grapes cultivation. The combination of techniques can be easily automated, an increasingly important consideration for adoption in agricultural practice.

arxiv情報

著者 Leonardo Saraceni,Ionut Marian Motoi,Daniele Nardi,Thomas Alessandro Ciarfuglia
発行日 2025-02-25 16:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, I.5.2 | Self-Supervised Data Generation for Precision Agriculture: Blending Simulated Environments with Real Imagery はコメントを受け付けていません

From Vision to Sound: Advancing Audio Anomaly Detection with Vision-Based Algorithms

要約

視覚異常検出(VAD)の最近の進歩により、事前に訓練された特徴抽出器によって生成された埋め込みを活用する洗練されたアルゴリズムが導入されました。
これらの開発に触発されて、オーディオ異常検出(AAD)の問題に対処するために、このようなアルゴリズムのオーディオドメインへの適応を調査します。
主に異常なサンプルを分類するほとんどの既存のAADメソッドとは異なり、私たちのアプローチは、スペクトログラム内の異常のきめ細かい時間周波数局在化を導入し、説明可能性を大幅に改善します。
この機能により、アノマリーがどこでいつ発生するかをより正確に理解することで、結果をエンドユーザーにとってより実用的にします。
産業および環境のベンチマークに関するアプローチを評価し、オーディオ信号の異常の検出におけるVAD技術の有効性を実証します。
さらに、局所的な異常識別を可能にすることにより、説明可能性を向上させ、オーディオの異常検出システムをより解釈可能かつ実用的にします。

要約(オリジナル)

Recent advances in Visual Anomaly Detection (VAD) have introduced sophisticated algorithms leveraging embeddings generated by pre-trained feature extractors. Inspired by these developments, we investigate the adaptation of such algorithms to the audio domain to address the problem of Audio Anomaly Detection (AAD). Unlike most existing AAD methods, which primarily classify anomalous samples, our approach introduces fine-grained temporal-frequency localization of anomalies within the spectrogram, significantly improving explainability. This capability enables a more precise understanding of where and when anomalies occur, making the results more actionable for end users. We evaluate our approach on industrial and environmental benchmarks, demonstrating the effectiveness of VAD techniques in detecting anomalies in audio signals. Moreover, they improve explainability by enabling localized anomaly identification, making audio anomaly detection systems more interpretable and practical.

arxiv情報

著者 Manuel Barusco,Francesco Borsatti,Davide Dalle Pezze,Francesco Paissan,Elisabetta Farella,Gian Antonio Susto
発行日 2025-02-25 16:22:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | From Vision to Sound: Advancing Audio Anomaly Detection with Vision-Based Algorithms はコメントを受け付けていません

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation

要約

多層画像生成は、ユーザーが特定の画像レイヤーを分離、選択、編集し、生成モデルとの相互作用に革命をもたらすことを可能にする基本的なタスクです。
このホワイトペーパーでは、グローバルなテキストプロンプトと匿名の領域レイアウトに基づいて、可変多層透過画像の直接生成を促進する匿名地域トランス(ART)を紹介します。
スキーマ理論に触発されたものは、知識がフレームワーク(スキーマ)で編成されていることを示唆していることを示唆しているため、人々はそれを事前の知識にリンクすることで新しい情報から解釈して学習できるようにします。
画像生成タスクの以前に支配的なセマンティックレイアウトとは対照的に、どのテキストトークンと一致します。
さらに、各匿名領域に属する視覚トークンのみを選択する層ごとの領域作物メカニズムは、注意計算コストを大幅に削減し、多数の異なる層(50+など)で効率的な生成画像を有効にします。
完全な注意アプローチと比較すると、私たちの方法は12倍以上速く、層の競合が少なくなります。
さらに、共同で可変多層画像の透明度の直接エンコードとデコードをサポートする高品質のマルチレイヤー透明画像自動エンコーダーを提案します。
正確な制御とスケーラブルなレイヤー生成を可能にすることにより、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。

要約(オリジナル)

Multi-layer image generation is a fundamental task that enables users to isolate, select, and edit specific image layers, thereby revolutionizing interactions with generative models. In this paper, we introduce the Anonymous Region Transformer (ART), which facilitates the direct generation of variable multi-layer transparent images based on a global text prompt and an anonymous region layout. Inspired by Schema theory suggests that knowledge is organized in frameworks (schemas) that enable people to interpret and learn from new information by linking it to prior knowledge.}, this anonymous region layout allows the generative model to autonomously determine which set of visual tokens should align with which text tokens, which is in contrast to the previously dominant semantic layout for the image generation task. In addition, the layer-wise region crop mechanism, which only selects the visual tokens belonging to each anonymous region, significantly reduces attention computation costs and enables the efficient generation of images with numerous distinct layers (e.g., 50+). When compared to the full attention approach, our method is over 12 times faster and exhibits fewer layer conflicts. Furthermore, we propose a high-quality multi-layer transparent image autoencoder that supports the direct encoding and decoding of the transparency of variable multi-layer images in a joint manner. By enabling precise control and scalable layer generation, ART establishes a new paradigm for interactive content creation.

arxiv情報

著者 Yifan Pu,Yiming Zhao,Zhicong Tang,Ruihong Yin,Haoxing Ye,Yuhui Yuan,Dong Chen,Jianmin Bao,Sirui Zhang,Yanbin Wang,Lin Liang,Lijuan Wang,Ji Li,Xiu Li,Zhouhui Lian,Gao Huang,Baining Guo
発行日 2025-02-25 16:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation はコメントを受け付けていません

Near-Shore Mapping for Detection and Tracking of Vessels

要約

自律的な表面容器(ASV)がドッキングするには、ドッキングエリアに近い他の船舶を追跡する必要があります。
カヤックは、ドックに近接し、比較的小さいサイズのために特定の課題を提示します。
海上ターゲット追跡は、通常、土地とドックを除外するために土地マスキングを採用しています。
ただし、不正確な土地マスキングにより、近くのオブジェクトを追跡することが困難です。
私たちのアプローチでは、光検出と範囲(LIDAR)データを使用し、ドッキングエリアをオフラインでマッピングします。
正確な3D測定により、正確なマップ作成が可能になります。
ただし、マッピングは静的でありながら潜在的に移動するオブジェクトをマッピングする可能性があります。
画像データを使用して、Lidarデータから移動する可能性のあるオブジェクトを検出および除外します。
視覚容器の検出およびセグメンテーション法は、ラベル付きデータでトレーニングされたニューラルネットワークです。
正確なマップにより陸上追跡が改善され、最近収集された実際のデータセットで実証されています。
データセットには、自律フェリーのプロトタイプとの衝突パスで、ドックの近くに移動するカヤックと1日の巡洋艦の複数のシーケンスが含まれています。

要約(オリジナル)

For an autonomous surface vessel (ASV) to dock, it must track other vessels close to the docking area. Kayaks present a particular challenge due to their proximity to the dock and relatively small size. Maritime target tracking has typically employed land masking to filter out land and the dock. However, imprecise land masking makes it difficult to track close-to-dock objects. Our approach uses Light Detection And Ranging (LiDAR) data and maps the docking area offline. The precise 3D measurements allow for precise map creation. However, the mapping could result in static, yet potentially moving, objects being mapped. We detect and filter out potentially moving objects from the LiDAR data by utilizing image data. The visual vessel detection and segmentation method is a neural network that is trained on our labeled data. Close-to-shore tracking improves with an accurate map and is demonstrated on a recently gathered real-world dataset. The dataset contains multiple sequences of a kayak and a day cruiser moving close to the dock, in a collision path with an autonomous ferry prototype.

arxiv情報

著者 Nicholas Dalhaug,Annette Stahl,Rudolf Mester,Edmund Førland Brekke
発行日 2025-02-25 17:03:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Near-Shore Mapping for Detection and Tracking of Vessels はコメントを受け付けていません

ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation

要約

テキストからビデオへのモデルは最近、急速かつ実質的な進歩を遂げました。
それにもかかわらず、データと計算リソースの制限により、リッチなモーションダイナミクスを備えた長いビデオの効率的な生成を達成することは依然として重要な課題です。
高品質、動的、および一時的に一貫した長いビデオを生成するために、このペーパーでは、ARモデルによって提供される粗い空間的および長距離時間情報を統合することにより、長いビデオ生成のための自己格付けモデルで拡散変圧器を強化する新しいフレームワークであるArlonを紹介します。
DITモデルをガイドします。
具体的には、Arlonにはいくつかの重要な革新が組み込まれています。1)潜在的なベクトル量子化された変動自動エンコーダー(VQ-VAE)は、DITモデルの入力潜在スペースをコンパクトな視覚トークンに圧縮し、ARとDITモデルを埋め、学習の複雑さと情報密度のバランスを取ります。
2)Adaptive Normベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDITモデルに統合し、ビデオ生成中の効果的なガイダンスを確保します。
3)AR推論から導入されたノイズの許容範囲を強化するために、DITモデルは、不確実性サンプリングモジュールに組み込まれた粗い視覚潜在トークンでトレーニングされます。
実験結果は、ArlonがVbenchから選択された11のメトリックの8つでベースラインOpensora-V1.2を大幅に上回ることを示しており、動的程度と美的品質の顕著な改善が、残りの3つで競争結果を提供し、同時に発電プロセスを加速します。
さらに、アーロンは長いビデオ生成で最先端のパフォーマンスを達成しています。
プログレッシブテキストプロンプトを使用して長いビデオの生成を示す実用的なアプリケーションとともに、推論効率の改善の詳細な分析が提示されています。
http://aka.ms/arlonのArlonのDemosを参照してください。

要約(オリジナル)

Text-to-video models have recently undergone rapid and substantial advancements. Nevertheless, due to limitations in data and computational resources, achieving efficient generation of long videos with rich motion dynamics remains a significant challenge. To generate high-quality, dynamic, and temporally consistent long videos, this paper presents ARLON, a novel framework that boosts diffusion Transformers with autoregressive models for long video generation, by integrating the coarse spatial and long-range temporal information provided by the AR model to guide the DiT model. Specifically, ARLON incorporates several key innovations: 1) A latent Vector Quantized Variational Autoencoder (VQ-VAE) compresses the input latent space of the DiT model into compact visual tokens, bridging the AR and DiT models and balancing the learning complexity and information density; 2) An adaptive norm-based semantic injection module integrates the coarse discrete visual units from the AR model into the DiT model, ensuring effective guidance during video generation; 3) To enhance the tolerance capability of noise introduced from the AR inference, the DiT model is trained with coarser visual latent tokens incorporated with an uncertainty sampling module. Experimental results demonstrate that ARLON significantly outperforms the baseline OpenSora-V1.2 on eight out of eleven metrics selected from VBench, with notable improvements in dynamic degree and aesthetic quality, while delivering competitive results on the remaining three and simultaneously accelerating the generation process. In addition, ARLON achieves state-of-the-art performance in long video generation. Detailed analyses of the improvements in inference efficiency are presented, alongside a practical application that demonstrates the generation of long videos using progressive text prompts. See demos of ARLON at http://aka.ms/arlon.

arxiv情報

著者 Zongyi Li,Shujie Hu,Shujie Liu,Long Zhou,Jeongsoo Choi,Lingwei Meng,Xun Guo,Jinyu Li,Hefei Ling,Furu Wei
発行日 2025-02-25 17:06:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation はコメントを受け付けていません

EgoSim: An Egocentric Multi-view Simulator and Real Dataset for Body-worn Cameras during Motion and Activity

要約

コンピュータービジョンにおけるエゴセントリックタスクに関する研究は、主に魚眼のカメラや没入型ヘッドセット内に埋め込まれたカメラなどのヘッドマウントカメラに焦点を当てています。
光学センサーの小型化が増加すると、さまざまな場所にあるより多くの身体装着デバイスへのカメラの積極的な統合につながると主張します。
これにより、コンピュータービジョンにおける確立されたタスクに新たな視点がもたらされ、人間のモーショントラッキング、ボディポーズの​​推定、アクション認識などの重要な領域があります。
この論文では、身体の体全体で複数の視点から現実的なエゴセントリックレンダリングを生成する身体装飾カメラの新しいシミュレーターであるエゴシムを紹介します。
エゴシムの重要な特徴は、モーションアーティファクトをレンダリングするための実際のモーションキャプチャデータを使用することです。これは、腕や脚の装飾カメラで特に顕著です。
さらに、いくつかのアクティビティ中に、6つのボディウォーンカメラとグラウンドトゥルースフルボディ3Dポーズからのエゴセントリック映像のデータセットであるMultigoViewを紹介します。
6つのGoProカメラを使用して、XSENSモーションキャプチャスーツからの3Dボディポーズ参照を使用して、13人の参加者から5時間の実世界のモーションデータで増強します。
エンドツーエンドのビデオのみの3Dポーズ推定ネットワークをトレーニングすることにより、エゴシムの有効性を実証します。
ドメインのギャップを分析すると、データセットとシミュレーターが実際のデータへの推論のためのトレーニングを実質的に支援することを示します。
Egosim Code&Multiegoviewデータセット:https://siplab.org/projects/egosim

要約(オリジナル)

Research on egocentric tasks in computer vision has mostly focused on head-mounted cameras, such as fisheye cameras or embedded cameras inside immersive headsets. We argue that the increasing miniaturization of optical sensors will lead to the prolific integration of cameras into many more body-worn devices at various locations. This will bring fresh perspectives to established tasks in computer vision and benefit key areas such as human motion tracking, body pose estimation, or action recognition — particularly for the lower body, which is typically occluded. In this paper, we introduce EgoSim, a novel simulator of body-worn cameras that generates realistic egocentric renderings from multiple perspectives across a wearer’s body. A key feature of EgoSim is its use of real motion capture data to render motion artifacts, which are especially noticeable with arm- or leg-worn cameras. In addition, we introduce MultiEgoView, a dataset of egocentric footage from six body-worn cameras and ground-truth full-body 3D poses during several activities: 119 hours of data are derived from AMASS motion sequences in four high-fidelity virtual environments, which we augment with 5 hours of real-world motion data from 13 participants using six GoPro cameras and 3D body pose references from an Xsens motion capture suit. We demonstrate EgoSim’s effectiveness by training an end-to-end video-only 3D pose estimation network. Analyzing its domain gap, we show that our dataset and simulator substantially aid training for inference on real-world data. EgoSim code & MultiEgoView dataset: https://siplab.org/projects/EgoSim

arxiv情報

著者 Dominik Hollidt,Paul Streli,Jiaxi Jiang,Yasaman Haghighi,Changlin Qian,Xintong Liu,Christian Holz
発行日 2025-02-25 17:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | EgoSim: An Egocentric Multi-view Simulator and Real Dataset for Body-worn Cameras during Motion and Activity はコメントを受け付けていません

SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

要約

画像間生成の方法は、印象的な写真と現実的な品質を達成しています。
ただし、オブジェクトモーションやカメラの動きなどの生成されたビデオで特定の要素を調整することは、多くの場合、試行錯誤の退屈なプロセスであり、たとえば、さまざまなランダムシードでビデオを再生成することを含みます。
最近の手法は、訓練を受けた事前に訓練されたモデルを微調整して、境界ボックスやポイント軌道などのコンディショニング信号に従うことにより、この問題に対処しています。
しかし、この微調整手順は計算的に高価である可能性があり、注釈付きオブジェクトモーションを備えたデータセットが必要であるため、調達が困難です。
この作業では、事前に訓練された画像に存在する知識のみに依存することによりゼロショット制御を提供する自己ガイド付き$ \ unicode {x2013} $である制御可能な画像からビデオへの生成のフレームワークであるSG-I2Vを紹介します。
– 微調整や外部の知識を必要とせずに、ビデオから拡散モデル。
当社のゼロショットメソッドは、監視されていないベースラインよりも優れていますが、視覚的な品質とモーションフィデリティの観点から、パフォーマンスのギャップを監視されたモデルと大幅に絞り込みます。
追加の詳細とビデオの結果は、プロジェクトページのページで入手できます:https://kmcode1.github.io/projects/sg-i2v

要約(オリジナル)

Methods for image-to-video generation have achieved impressive, photo-realistic quality. However, adjusting specific elements in generated videos, such as object motion or camera movement, is often a tedious process of trial and error, e.g., involving re-generating videos with different random seeds. Recent techniques address this issue by fine-tuning a pre-trained model to follow conditioning signals, such as bounding boxes or point trajectories. Yet, this fine-tuning procedure can be computationally expensive, and it requires datasets with annotated object motion, which can be difficult to procure. In this work, we introduce SG-I2V, a framework for controllable image-to-video generation that is self-guided$\unicode{x2013}$offering zero-shot control by relying solely on the knowledge present in a pre-trained image-to-video diffusion model without the need for fine-tuning or external knowledge. Our zero-shot method outperforms unsupervised baselines while significantly narrowing down the performance gap with supervised models in terms of visual quality and motion fidelity. Additional details and video results are available on our project page: https://kmcode1.github.io/Projects/SG-I2V

arxiv情報

著者 Koichi Namekata,Sherwin Bahmani,Ziyi Wu,Yash Kant,Igor Gilitschenski,David B. Lindell
発行日 2025-02-25 17:27:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation はコメントを受け付けていません

Improved Detection of Latent Diffusion-Generated Images through Aligned Datasets

要約

潜在的な拡散モデル(LDM)が画像生成機能を民主化するにつれて、偽の画像を検出する必要性が高まっています。
優れた検出器は、セマンティックコンテンツ、解像度、ファイル形式などの画像プロパティを無視しながら、生成モデルの指紋に焦点を合わせる必要があります。偽の画像検出器は、通常、モデルが実際の画像から分離するようにトレーニングされるようにトレーニングされるデータ駆動型の方法で構築されます。
既存の作品は、主にネットワークアーキテクチャの選択とトレーニングレシピを調査します。
この作業では、これらのアルゴリズムの選択に加えて、堅牢な検出器を訓練するために、実際の/偽画像の適切に整合したデータセットも必要であると主張します。
LDMSのファミリーのために、これを達成するための非常に簡単な方法を提案します。LDMSオートエンコーダーを使用してすべての実際の画像を再構築し、除去操作なしに再構築します。
次に、モデルをトレーニングして、これらの実際の画像を再構成から分離します。
この方法で作成されたフェイクは、ほぼすべての面(サイズ、アスペクト比、セマンティックコンテンツなど)の実際のものと非常に似ており、モデルにLDMデコーダーアーティファクトを探すように強制します。
また、計算上の高価な除去プロセスを回避するアライメントされた実際の/偽のデータセットを作成するこの方法は、非常に人気のある既存の方法が感受性のあるものである偽の相関にあまり焦点を当てていない検出器を構築するのに役立つことを経験的に示します。
最後に、データセットのアライメントがどれほど効果的であるかを示すために、自然なオブジェクトではない画像を使用して検出器を構築し、有望な結果を提示します。
全体として、私たちの仕事は、偽の画像検出器をトレーニングするときに発生する微妙であるが重要な問題を特定し、これらの問題に対処するためのシンプルで安価なソリューションを提案します。

要約(オリジナル)

As latent diffusion models (LDMs) democratize image generation capabilities, there is a growing need to detect fake images. A good detector should focus on the generative models fingerprints while ignoring image properties such as semantic content, resolution, file format, etc. Fake image detectors are usually built in a data driven way, where a model is trained to separate real from fake images. Existing works primarily investigate network architecture choices and training recipes. In this work, we argue that in addition to these algorithmic choices, we also require a well aligned dataset of real/fake images to train a robust detector. For the family of LDMs, we propose a very simple way to achieve this: we reconstruct all the real images using the LDMs autoencoder, without any denoising operation. We then train a model to separate these real images from their reconstructions. The fakes created this way are extremely similar to the real ones in almost every aspect (e.g., size, aspect ratio, semantic content), which forces the model to look for the LDM decoders artifacts. We empirically show that this way of creating aligned real/fake datasets, which also sidesteps the computationally expensive denoising process, helps in building a detector that focuses less on spurious correlations, something that a very popular existing method is susceptible to. Finally, to demonstrate just how effective the alignment in a dataset can be, we build a detector using images that are not natural objects, and present promising results. Overall, our work identifies the subtle but significant issues that arise when training a fake image detector and proposes a simple and inexpensive solution to address these problems.

arxiv情報

著者 Anirudh Sundara Rajan,Utkarsh Ojha,Jedidiah Schloesser,Yong Jae Lee
発行日 2025-02-25 17:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Improved Detection of Latent Diffusion-Generated Images through Aligned Datasets はコメントを受け付けていません

IG-CFAT: An Improved GAN-Based Framework for Effectively Exploiting Transformers in Real-World Image Super-Resolution

要約

シングル画像のスーパー解像度(SISR)の分野では、トランスベースのモデルが重要な進歩を示しています。
ただし、現実世界の画像超解像度などの適用された分野でのこれらのモデルの潜在的および効率性はあまり気づかれておらず、改善の大きな機会があります。
最近、Composite Fusion Attunes Transformer(CFAT)は、古典的な画像超解像度で以前の最先端(SOTA)モデルよりも優れていました。
このホワイトペーパーでは、CFATモデルを組み込んで、実際の画像超解像度で変圧器のパフォーマンスを効果的に活用することにより、新しいGanベースのフレームワークを提案します。
提案されたアプローチでは、セマンティックアウェアの判別器を統合して、詳細をより正確に再構築し、適応劣化モデルを採用して、実際の劣化をよりよくシミュレートします。
さらに、GANベースのモデルの損失関数にウェーブレット損失を追加して、高周波の詳細をよりよく回復することにより、損失関数の新しい組み合わせを導入します。
経験的結果は、Ig-CFATが定量的および定性的指標の両方で既存のSOTAモデルを大幅に上回ることを示しています。
提案されているモデルは、現実世界のイメージの超解像度の分野に革命をもたらし、細かい詳細を回復し、現実的なテクスチャを生成する際に大幅に優れたパフォーマンスを示しています。
IG-CFATの導入は、現実世界の画像スーパー解像度タスクの堅牢で適応性のあるソリューションを提供します。

要約(オリジナル)

In the field of single image super-resolution (SISR), transformer-based models, have demonstrated significant advancements. However, the potential and efficiency of these models in applied fields such as real-world image super-resolution have been less noticed and there are substantial opportunities for improvement. Recently, composite fusion attention transformer (CFAT), outperformed previous state-of-the-art (SOTA) models in classic image super-resolution. In this paper, we propose a novel GAN-based framework by incorporating the CFAT model to effectively exploit the performance of transformers in real-world image super-resolution. In our proposed approach, we integrate a semantic-aware discriminator to reconstruct fine details more accurately and employ an adaptive degradation model to better simulate real-world degradations. Moreover, we introduce a new combination of loss functions by adding wavelet loss to loss functions of GAN-based models to better recover high-frequency details. Empirical results demonstrate that IG-CFAT significantly outperforms existing SOTA models in both quantitative and qualitative metrics. Our proposed model revolutionizes the field of real-world image super-resolution and demonstrates substantially better performance in recovering fine details and generating realistic textures. The introduction of IG-CFAT offers a robust and adaptable solution for real-world image super-resolution tasks.

arxiv情報

著者 Alireza Aghelan,Ali Amiryan,Abolfazl Zarghani,Modjtaba Rouhani
発行日 2025-02-25 17:52:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | IG-CFAT: An Improved GAN-Based Framework for Effectively Exploiting Transformers in Real-World Image Super-Resolution はコメントを受け付けていません

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

要約

オープンソースのマルチモーダル大手言語モデル(MLLM)の最近の進歩は、主に基礎能力の強化に焦点を当てており、人間の好みの調整に大きなギャップを残しています。
このペーパーでは、Omnialign-Vを紹介します。これは、多様な画像、複雑な質問、MLLMの人間の好みとの整合を改善するための多様な画像、複雑な質問、さまざまな応答形式を特徴とする200K高品質のトレーニングサンプルの包括的なデータセットです。
また、MM-Alignbenchは、MLLMのアライメントを人間の価値と評価するために特別に設計された人間が解釈したベンチマークを提示します。
実験結果は、監視された微調整(SFT)または直接優先最適化(DPO)を使用して、Omnialign-Vを使用したMLLMSを獲得することにより、標準のVQAベンチマークのパフォーマンスを維持または強化し、基本的な機能を維持しながら、人間の優先順位のアライメントを大幅に向上させることを示しています。
データセット、ベンチマーク、コード、およびチェックポイントは、https://github.com/phoenixz810/omnialign-vでリリースされています。

要約(オリジナル)

Recent advancements in open-source multi-modal large language models (MLLMs) have primarily focused on enhancing foundational capabilities, leaving a significant gap in human preference alignment. This paper introduces OmniAlign-V, a comprehensive dataset of 200K high-quality training samples featuring diverse images, complex questions, and varied response formats to improve MLLMs’ alignment with human preferences. We also present MM-AlignBench, a human-annotated benchmark specifically designed to evaluate MLLMs’ alignment with human values. Experimental results show that finetuning MLLMs with OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO), significantly enhances human preference alignment while maintaining or enhancing performance on standard VQA benchmarks, preserving their fundamental capabilities. Our datasets, benchmark, code and checkpoints have been released at https://github.com/PhoenixZ810/OmniAlign-V.

arxiv情報

著者 Xiangyu Zhao,Shengyuan Ding,Zicheng Zhang,Haian Huang,Maosong Cao,Weiyun Wang,Jiaqi Wang,Xinyu Fang,Wenhai Wang,Guangtao Zhai,Haodong Duan,Hua Yang,Kai Chen
発行日 2025-02-25 18:05:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference はコメントを受け付けていません