Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments

要約

過去数年間、屋内環境のオブジェクトへの視覚的ナビゲーションへの研究の関心は大幅に増加しています。
この成長は、GibsonやMatterport3dなどの写真と現実的なシミュレーション環境での大きなナビゲーションデータセットの最近の利用可能性に起因する可能性があります。
ただし、これらのデータセットでサポートされているナビゲーションタスクは、多くの場合、取得時に環境に存在するオブジェクトに制限されます。
また、ターゲットオブジェクトが類似のオブジェクトと簡単に混同され、環境内の複数の場所にあるユーザー固有のインスタンスである現実的なシナリオを説明できません。
これらの制限に対処するために、具体化されたエージェントが同じカテゴリの複数のインスタンスで区別することにより、特定の個人オブジェクトの位置を特定して到達するように任されるパーソナライズされたインスタンスベースのナビゲーション(PIN)の新しいタスクを提案します。
タスクには、追加の3Dオブジェクトで補強された写真リアルなシーンで構成される専用の新しいデータセットが付随しています。
各エピソードでは、ターゲットオブジェクトが2つのモダリティを使用してエージェントに提示されます。ニュートラルな背景上の視覚的参照画像のセットと手動で注釈付きのテキスト説明です。
包括的な評価と分析を通じて、PINタスクの課題と、モジュール式およびエンドツーエンドのエージェントを考慮して、オブジェクト駆動型ナビゲーション向けに設計された現在利用可能な方法のパフォーマンスと欠点を紹介します。

要約(オリジナル)

In the last years, the research interest in visual navigation towards objects in indoor environments has grown significantly. This growth can be attributed to the recent availability of large navigation datasets in photo-realistic simulated environments, like Gibson and Matterport3D. However, the navigation tasks supported by these datasets are often restricted to the objects present in the environment at acquisition time. Also, they fail to account for the realistic scenario in which the target object is a user-specific instance that can be easily confused with similar objects and may be found in multiple locations within the environment. To address these limitations, we propose a new task denominated Personalized Instance-based Navigation (PIN), in which an embodied agent is tasked with locating and reaching a specific personal object by distinguishing it among multiple instances of the same category. The task is accompanied by PInNED, a dedicated new dataset composed of photo-realistic scenes augmented with additional 3D objects. In each episode, the target object is presented to the agent using two modalities: a set of visual reference images on a neutral background and manually annotated textual descriptions. Through comprehensive evaluations and analyses, we showcase the challenges of the PIN task as well as the performance and shortcomings of currently available methods designed for object-driven navigation, considering modular and end-to-end agents.

arxiv情報

著者 Luca Barsellotti,Roberto Bigazzi,Marcella Cornia,Lorenzo Baraldi,Rita Cucchiara
発行日 2025-02-19 17:31:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments はコメントを受け付けていません

GroundCap: A Visually Grounded Image Captioning Dataset

要約

現在の画像キャプションシステムには、説明テキストを特定の視覚要素にリンクする機能がなく、出力を検証するのが難しくなります。
最近のアプローチはいくつかの接地機能を提供しますが、複数の参照にわたってオブジェクトのアイデンティティを追跡したり、アクションとオブジェクトの両方を同時に接地することはできません。
一貫したオブジェクト参照追跡とアクションオブジェクトのリンクを可能にする新しいIDベースの接地システムを提案し、77ムービーの52,016画像を含むデータセットを提示し、344の人間が解決し、52,016が自動的に生成されたキャプションを備えています。
各キャプションは、対応するオブジェクトにアクションをリンクしながらオブジェクトのIDを維持するタグシステムを使用して、検出されたオブジェクト(132クラス)とアクション(51クラス)に接地されています。
私たちのアプローチは、参照追跡、明示的なアクションオブジェクトのリンク、およびK-Meansクラスタリングによる背景要素のセグメンテーションのための永続的なオブジェクトIDを特徴としています。
Gmeteorを提案します。これは、キャプションの品質と接地精度を組み合わせたメトリックを提案し、Pixtral-12bを微調整することによりベースラインパフォーマンスを確立します。
人間の評価は、コヒーレントオブジェクト参照を使用して検証可能な説明を作成する際のアプローチの有効性を示しています。

要約(オリジナル)

Current image captioning systems lack the ability to link descriptive text to specific visual elements, making their outputs difficult to verify. While recent approaches offer some grounding capabilities, they cannot track object identities across multiple references or ground both actions and objects simultaneously. We propose a novel ID-based grounding system that enables consistent object reference tracking and action-object linking, and present GroundCap, a dataset containing 52,016 images from 77 movies, with 344 human-annotated and 52,016 automatically generated captions. Each caption is grounded on detected objects (132 classes) and actions (51 classes) using a tag system that maintains object identity while linking actions to the corresponding objects. Our approach features persistent object IDs for reference tracking, explicit action-object linking, and segmentation of background elements through K-means clustering. We propose gMETEOR, a metric combining caption quality with grounding accuracy, and establish baseline performance by fine-tuning Pixtral-12B. Human evaluation demonstrates our approach’s effectiveness in producing verifiable descriptions with coherent object references.

arxiv情報

著者 Daniel A. P. Oliveira,Lourenço Teodoro,David Martins de Matos
発行日 2025-02-19 17:31:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, I.2.10 | GroundCap: A Visually Grounded Image Captioning Dataset はコメントを受け付けていません

Qwen2.5-VL Technical Report

要約

QWEN Vision-Languageシリーズの最新のフラッグシップモデルであるQWEN2.5-VLを紹介します。これは、基礎能力と革新的な機能の両方に大きな進歩を示しています。
QWEN2.5-VLは、視覚認識の強化、正確なオブジェクトのローカリゼーション、堅牢なドキュメント解析、および長距離理解を通じて、世界を理解し、相互作用することにおいて大きな飛躍を達成します。
QWEN2.5-VLの傑出した機能は、境界ボックスまたはポイントを正確に使用してオブジェクトをローカライズする機能です。
請求書、フォーム、テーブルからの堅牢な構造化データ抽出、およびチャート、図、レイアウトの詳細な分析を提供します。
複雑な入力を処理するために、QWEN2.5-VLは動的解像度の処理と絶対時間エンコードを導入し、第2レベルのイベントローカリゼーションで、延長期間(最大時間)のさまざまなサイズとビデオの画像を処理できるようにします。
これにより、モデルは、従来の正規化手法に依存することなく、空間スケールと時間的ダイナミクスをネイティブに知覚できます。
ネイティブの動的解像度ビジョントランス(VIT)をゼロからトレーニングし、ウィンドウの注意を組み込むことにより、ネイティブ解像度を維持しながら計算オーバーヘッドを減らします。
その結果、QWEN2.5-VLは、静的な画像と文書の理解だけでなく、推論、ツールの使用、およびタスクの実行が、コンピューターの操作やモバイルデバイスなどの実際のシナリオでのタスクの実行が可能なインタラクティブな視覚エージェントとしても優れています。
QWEN2.5-VLは3つのサイズで利用でき、Edge AIから高性能コンピューティングまでの多様なユースケースに対処します。
フラッグシップQWEN2.5-VL-72Bモデルは、特に文書や図の理解に優れているGPT-4OやClaude 3.5ソネットなどの最先端モデルと一致しています。
さらに、QWEN2.5-VLは堅牢な言語パフォーマンスを維持し、QWEN2.5 LLMのコア言語能力を維持します。

要約(オリジナル)

We introduce Qwen2.5-VL, the latest flagship model of Qwen vision-language series, which demonstrates significant advancements in both foundational capabilities and innovative functionalities. Qwen2.5-VL achieves a major leap forward in understanding and interacting with the world through enhanced visual recognition, precise object localization, robust document parsing, and long-video comprehension. A standout feature of Qwen2.5-VL is its ability to localize objects using bounding boxes or points accurately. It provides robust structured data extraction from invoices, forms, and tables, as well as detailed analysis of charts, diagrams, and layouts. To handle complex inputs, Qwen2.5-VL introduces dynamic resolution processing and absolute time encoding, enabling it to process images of varying sizes and videos of extended durations (up to hours) with second-level event localization. This allows the model to natively perceive spatial scales and temporal dynamics without relying on traditional normalization techniques. By training a native dynamic-resolution Vision Transformer (ViT) from scratch and incorporating Window Attention, we reduce computational overhead while maintaining native resolution. As a result, Qwen2.5-VL excels not only in static image and document understanding but also as an interactive visual agent capable of reasoning, tool usage, and task execution in real-world scenarios such as operating computers and mobile devices. Qwen2.5-VL is available in three sizes, addressing diverse use cases from edge AI to high-performance computing. The flagship Qwen2.5-VL-72B model matches state-of-the-art models like GPT-4o and Claude 3.5 Sonnet, particularly excelling in document and diagram understanding. Additionally, Qwen2.5-VL maintains robust linguistic performance, preserving the core language competencies of the Qwen2.5 LLM.

arxiv情報

著者 Shuai Bai,Keqin Chen,Xuejing Liu,Jialin Wang,Wenbin Ge,Sibo Song,Kai Dang,Peng Wang,Shijie Wang,Jun Tang,Humen Zhong,Yuanzhi Zhu,Mingkun Yang,Zhaohai Li,Jianqiang Wan,Pengfei Wang,Wei Ding,Zheren Fu,Yiheng Xu,Jiabo Ye,Xi Zhang,Tianbao Xie,Zesen Cheng,Hang Zhang,Zhibo Yang,Haiyang Xu,Junyang Lin
発行日 2025-02-19 18:00:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Qwen2.5-VL Technical Report はコメントを受け付けていません

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images

要約

最近の研究では、大きなビジョン言語モデル(VLM)が画像コンテンツを無視し、言語モデルの前症を過度に格付けする傾向があり、視覚的に接地されたタスクと幻覚に誤りをもたらすことが示されています。
既存のVLMが明確に訓練されていないため、この問題は、きめ細かい画像の詳細に正確に接地されたテキストを生成するために明示的に訓練されていないために発生すると仮定します。
VLMトレーニング中の視覚フィードバックを強化するために、S-VCO(対称的な視覚対照的最適化)を提案します。これは、重要な視覚詳細をキャプチャし、対応するテキストトークンに合わせてモデルを導く新しい微調整目的です。
この詳細なアラインメントをさらに促進するために、視覚的な反事実データを自動的にフィルタリングおよび増強して構築して構築されたペアの画像テキストデータセットであるMVCを導入し、最小限の視覚コントラストを含むハードコントラストケースでモデルに挑戦します。
実験では、この方法がさまざまな能力とドメインをカバーする多様なベンチマーク全体で一貫してVLMパフォーマンスを改善し、幻覚が最大22%減少し、視覚中心および一般的なタスクの大幅な利益を達成することを示しています。
特に、これらの改善は、より高い視覚依存性を備えたベンチマークでますます顕著になります。
要するに、S-VCOは、モデルの一般的な能力を保持または改善しながら、VLMの視覚依存性タスクパフォ​​ーマンスを大幅に強化します。
https://s-vco.github.io/でコードをopensource

要約(オリジナル)

Recent studies have shown that Large Vision-Language Models (VLMs) tend to neglect image content and over-rely on language-model priors, resulting in errors in visually grounded tasks and hallucinations. We hypothesize that this issue arises because existing VLMs are not explicitly trained to generate texts that are accurately grounded in fine-grained image details. To enhance visual feedback during VLM training, we propose S-VCO (Symmetrical Visual Contrastive Optimization), a novel finetuning objective that steers the model toward capturing important visual details and aligning them with corresponding text tokens. To further facilitate this detailed alignment, we introduce MVC, a paired image-text dataset built by automatically filtering and augmenting visual counterfactual data to challenge the model with hard contrastive cases involving Minimal Visual Contrasts. Experiments show that our method consistently improves VLM performance across diverse benchmarks covering various abilities and domains, achieving up to a 22% reduction in hallucinations, and significant gains in vision-centric and general tasks. Notably, these improvements become increasingly pronounced in benchmarks with higher visual dependency. In short, S-VCO offers a significant enhancement of VLM’s visually-dependent task performance while retaining or even improving the model’s general abilities. We opensource our code at https://s-vco.github.io/

arxiv情報

著者 Shengguang Wu,Fan-Yun Sun,Kaiyue Wen,Nick Haber
発行日 2025-02-19 18:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images はコメントを受け付けていません

Continually Learning Structured Visual Representations via Network Refinement with Rerelation

要約

現在の機械学習のパラダイムは、問題の構造を直接学習するのではなく、アウトカムを概算するためにパラメーターを繰り返し調整するニューラルネットワークのような連続表現に依存しています。
これにより、ネットワーク全体に情報が広がり、環境ダイナミクスモデリングの以前の作業に基づいて情報の損失や理解不能性の構築などの問題を引き起こし、構造化された継続的な方法で視覚空間を学習する方法を提案します。
私たちのアプローチは、ネットワークを改良して、オブジェクトのコア構造をキャプチャしながら、構造内の重要なサブバリアントを効率的に表しています。
これを2D形状検出で実証し、知識を上書きせず、コンパクトで理解可能な表現を作成することなく、MNISTの増分学習を示します。
これらの結果は、視覚処理のための従来のニューラルネットワークに代わる、透明で継続的に学習する透明性に向けた有望なステップを提供します。

要約(オリジナル)

Current machine learning paradigm relies on continuous representations like neural networks, which iteratively adjust parameters to approximate outcomes rather than directly learning the structure of problem. This spreads information across the network, causing issues like information loss and incomprehensibility Building on prior work in environment dynamics modeling, we propose a method that learns visual space in a structured, continual manner. Our approach refines networks to capture the core structure of objects while representing significant subvariants in structure efficiently. We demonstrate this with 2D shape detection, showing incremental learning on MNIST without overwriting knowledge and creating compact, comprehensible representations. These results offer a promising step toward a transparent, continually learning alternative to traditional neural networks for visual processing.

arxiv情報

著者 Zeki Doruk Erden,Boi Faltings
発行日 2025-02-19 18:18:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Continually Learning Structured Visual Representations via Network Refinement with Rerelation はコメントを受け付けていません

Explaining the Impact of Training on Vision Models via Activation Clustering

要約

Visionモデル向けの説明可能な人工知能(XAI)の分野での最近の開発は、機能エンコーダーによって抽出された情報を調査します。
この取り組みに貢献し、神経活性化ビジョンの説明(NAVE)を提案します。これは、説明するためにフローズンネットワークの機能アクティベーションをクラスタリングすることにより、エンコーダーによってキャプチャされた情報を抽出します。
この方法は、モデルの予測を説明することではなく、どの部分が同様に処理されるか、どの情報がより深い層に保持されるかなどの質問に答えることを目的としています。
実験的に、身廊を活用して、トレーニングデータセットと監督レベルがどの概念がキャプチャされているかに影響することを示します。
さらに、私たちの方法は、視力変圧器(VIT)に対するレジスタの影響と、トレーニングセットの透かし式ハンズ効果によって引き起こされる情報の飽和を明らかにしています。

要約(オリジナル)

Recent developments in the field of explainable artificial intelligence (XAI) for vision models investigate the information extracted by their feature encoder. We contribute to this effort and propose Neuro-Activated Vision Explanations (NAVE), which extracts the information captured by the encoder by clustering the feature activations of the frozen network to be explained. The method does not aim to explain the model’s prediction but to answer questions such as which parts of the image are processed similarly or which information is kept in deeper layers. Experimentally, we leverage NAVE to show that the training dataset and the level of supervision affect which concepts are captured. In addition, our method reveals the impact of registers on vision transformers (ViT) and the information saturation caused by the watermark Clever Hans effect in the training set.

arxiv情報

著者 Ahcène Boubekki,Samuel G. Fadel,Sebastian Mair
発行日 2025-02-19 18:21:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Explaining the Impact of Training on Vision Models via Activation Clustering はコメントを受け付けていません

Image compositing is all you need for data augmentation

要約

このペーパーでは、オブジェクト検出モデルのパフォーマンスに対するさまざまなデータ増強技術の影響を調査します。
具体的には、古典的な増強方法、画像の構成、および安定した拡散XLやコントロールネットなどの高度な生成モデルを探ります。
この作業の目的は、特に限られた注釈付きデータを使用する場合、モデルの堅牢性を高め、検出精度を向上させることです。
Yolov8を使用して、さまざまな増強戦略を適用して、市販の航空機と軍用機で構成されるカスタムデータセットでモデルを微調整します。
私たちの実験では、画像合成が、精度、リコール、平均平均精度(map@0.50)で測定されるように、検出性能の最大の改善を提供することが示されています。
安定した拡散XLやControlNetを含む他の方法も、オブジェクト検出タスクの高度なデータ増強技術の可能性を強調している大幅な利益を示しています。
結果は、現実世界のアプリケーションでより良い一般化とパフォーマンスを達成する上でのデータセットの多様性と増強の重要性を強調しています。
将来の作業では、半監視学習方法の統合と、より大きく複雑なデータセット全体でモデルのパフォーマンスを向上させるためのさらなる最適化を探ります。

要約(オリジナル)

This paper investigates the impact of various data augmentation techniques on the performance of object detection models. Specifically, we explore classical augmentation methods, image compositing, and advanced generative models such as Stable Diffusion XL and ControlNet. The objective of this work is to enhance model robustness and improve detection accuracy, particularly when working with limited annotated data. Using YOLOv8, we fine-tune the model on a custom dataset consisting of commercial and military aircraft, applying different augmentation strategies. Our experiments show that image compositing offers the highest improvement in detection performance, as measured by precision, recall, and mean Average Precision (mAP@0.50). Other methods, including Stable Diffusion XL and ControlNet, also demonstrate significant gains, highlighting the potential of advanced data augmentation techniques for object detection tasks. The results underline the importance of dataset diversity and augmentation in achieving better generalization and performance in real-world applications. Future work will explore the integration of semi-supervised learning methods and further optimizations to enhance model performance across larger and more complex datasets.

arxiv情報

著者 Ang Jia Ning Shermaine,Michalis Lazarou,Tania Stathaki
発行日 2025-02-19 18:24:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Image compositing is all you need for data augmentation はコメントを受け付けていません

A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models

要約

大規模なデータで事前に処理されている大規模なビジョンと言語モデルは、視覚的および言語的事前の事前をエンコードするため、より自然で現実的な画像と言語を簡単に生成できます。
それにもかかわらず、特にトレーニングデータのみがトレーニングに利用できる少ないショット設定でトレーニングデータが不足している場合、ビジョンと言語のモダリティの間にはまだ重要なドメインギャップがあります。
この問題を軽減するために、これら2つの大きなモデルを接続する調整可能なプロンプトを導入することにより、2つの凍結された前提条件の大きなビジョンと言語モデルの間のギャップを埋めるために、マルチモーダルメタラーニングフレームワークが提案されています。
少数のショット画像キャプションの場合、既存のマルチモデルメタラーニングフレームワークは、入力画像の視覚的特徴を蓄積するためのワンステッププロンプトスキームを使用して、少数のトレーニングサンプルで正確な画像の説明を生成するのに苦労しています。

代わりに、人間が画像をどのように説明するかをよりよく模倣するためのマルチステップ画像キャプションの手順として、考え方のチェーン(COT)メタラーニングスキームを提案します。
さらに、干渉を避けるために、個別の部分空間の各COTステップに対応するモデルのさまざまなメタパラメータを学習することをさらに提案します。
いくつかのショット設定の下で、一般的に使用されている3つの画像キャプションデータセット、つまりMscoco、Flickr8K、およびFlickr30Kのメソッドを評価しました。
私たちの実験の結果は、私たちの考え方のサブスペースメタラーニング戦略が、異なるメトリックで測定されたさまざまなデータセットのパフォーマンスの点でベースラインよりも優れていることを示しています。

要約(オリジナル)

A large-scale vision and language model that has been pretrained on massive data encodes visual and linguistic prior, which makes it easier to generate images and language that are more natural and realistic. Despite this, there is still a significant domain gap between the modalities of vision and language, especially when training data is scarce in few-shot settings, where only very limited data are available for training. In order to mitigate this issue, a multi-modal meta-learning framework has been proposed to bridge the gap between two frozen pretrained large vision and language models by introducing a tunable prompt connecting these two large models. For few-shot image captioning, the existing multi-model meta-learning framework utilizes a one-step prompting scheme to accumulate the visual features of input images to guide the language model, which struggles to generate accurate image descriptions with only a few training samples. Instead, we propose a chain-of-thought (CoT) meta-learning scheme as a multi-step image captioning procedure to better imitate how humans describe images. In addition, we further propose to learn different meta-parameters of the model corresponding to each CoT step in distinct subspaces to avoid interference. We evaluated our method on three commonly used image captioning datasets, i.e., MSCOCO, Flickr8k, and Flickr30k, under few-shot settings. The results of our experiments indicate that our chain-of-thought subspace meta-learning strategy is superior to the baselines in terms of performance across different datasets measured by different metrics.

arxiv情報

著者 Hao Huang,Shuaihang Yuan,Yu Hao,Congcong Wen,Yi Fang
発行日 2025-02-19 18:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models はコメントを受け付けていません

Carefully Blending Adversarial Training, Purification, and Aggregation Improves Adversarial Robustness

要約

この作業では、イメージ分類のための新しい敵対的な防御メカニズム – カルソ – 相乗的な堅牢性を向上させる方法での敵対的訓練と敵対的浄化のパラダイムをブレンドすることを提案します。
この方法は、敵対的に訓練された分類器の上に構築され、潜在的に混乱した入力に関連する内部表現を暫定的なクリーン再構成の分布にマッピングすることを学びます。
このような分布からの複数のサンプルは、同じ敵対的に訓練されたモデルによって分類され、その出力の慎重に選択された集約は、最終的に関心の強い予測を構成します。
さまざまな画像データセットにわたる強力な適応攻撃の確立されたベンチマークによる実験的評価は、Carsoが確率的防御のために考案された適応エンドツーエンドのホワイトボックス攻撃から身を守ることができることを示しています。
控えめなクリーン精度の料金を支払うと、私たちの方法は、CIFAR-10、CIFAR-100、およびTinyImagenet-200の最先端の最先端を大幅に改善します。
コード、および事前に訓練されたモデルを取得するための手順は、https://github.com/emaballarin/carsoで入手できます。

要約(オリジナル)

In this work, we propose a novel adversarial defence mechanism for image classification – CARSO – blending the paradigms of adversarial training and adversarial purification in a synergistic robustness-enhancing way. The method builds upon an adversarially-trained classifier, and learns to map its internal representation associated with a potentially perturbed input onto a distribution of tentative clean reconstructions. Multiple samples from such distribution are classified by the same adversarially-trained model, and a carefully chosen aggregation of its outputs finally constitutes the robust prediction of interest. Experimental evaluation by a well-established benchmark of strong adaptive attacks, across different image datasets, shows that CARSO is able to defend itself against adaptive end-to-end white-box attacks devised for stochastic defences. Paying a modest clean accuracy toll, our method improves by a significant margin the state-of-the-art for Cifar-10, Cifar-100, and TinyImageNet-200 $\ell_\infty$ robust classification accuracy against AutoAttack. Code, and instructions to obtain pre-trained models are available at: https://github.com/emaballarin/CARSO .

arxiv情報

著者 Emanuele Ballarin,Alessio Ansuini,Luca Bortolussi
発行日 2025-02-19 18:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | Carefully Blending Adversarial Training, Purification, and Aggregation Improves Adversarial Robustness はコメントを受け付けていません

GPU-Friendly Laplacian Texture Blending

要約

テクスチャと材料ブレンドは、レンダリングされた仮想世界に多様性を追加し、複合材料の作成、手続き的コンテンツを生成するための主要な方法の1つです。
素朴に行われると、目に見える縫い目またはコントラストの損失のいずれかを導入し、ブレンドテクスチャを表していない不自然な外観につながります。
以前の作業では、慎重な手動パラメーターチューニング、テクスチャごとの長い統計の事前計算、ルックアップテーブル、またはディープニューラルネットワークのトレーニングを通じて、この問題に対処することを提案しました。
この作業では、画像処理とラプラシアンピラミッドブレンドからの洞察に基づいた代替アプローチを提案します。
私たちのアプローチでは、記憶の使用量の増加を必要とせず(通常の非ラプラシアンのテクスチャマップチェーンの存在を除く)、ゴーストを生成せず、鋭いローカル機能を保存し、GPUでリアルタイムで実行できます。
いくつかの追加の低いMIPMAPテクスチャタップのコスト。

要約(オリジナル)

Texture and material blending is one of the leading methods for adding variety to rendered virtual worlds, creating composite materials, and generating procedural content. When done naively, it can introduce either visible seams or contrast loss, leading to an unnatural look not representative of blended textures. Earlier work proposed addressing this problem through careful manual parameter tuning, lengthy per-texture statistics precomputation, look-up tables, or training deep neural networks. In this work, we propose an alternative approach based on insights from image processing and Laplacian pyramid blending. Our approach does not require any precomputation or increased memory usage (other than the presence of a regular, non-Laplacian, texture mipmap chain), does not produce ghosting, preserves sharp local features, and can run in real time on the GPU at the cost of a few additional lower mipmap texture taps.

arxiv情報

著者 Bartlomiej Wronski
発行日 2025-02-19 18:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | GPU-Friendly Laplacian Texture Blending はコメントを受け付けていません