Sampling Theory for Super-Resolution with Implicit Neural Representations

要約

暗黙の神経表現(INR)は、コンピュータービジョンと計算イメージングにおける逆問題を解決するための強力なツールとして浮上しています。
INRは、空間座標を入力として取るニューラルネットワークによって実現される連続ドメイン関数として画像を表します。
ただし、従来のピクセル表現とは異なり、線形逆問題のコンテキストでINRを使用して画像を推定するサンプルの複雑さについてはほとんど知られていません。
この目的に向けて、単一の隠れレイヤーINRをRelu Activationとフーリエ機能の重量減衰の正規化を使用してフーリエ機能層に適合させることにより、低パスフーリエサンプルから連続ドメイン画像の回復のためのサンプリング要件を研究します。
私たちの重要な洞察は、この非凸パラメーター空間最適化問題の最小化を、無限の次元の測定空間で定義された凸ペナルティの最小化器に関連付けることです。
INRトレーニングの問題を解決することにより、INRによって実現された画像が正確に回復可能である十分な数のフーリエサンプルを特定します。
私たちの理論を検証するために、低幅の単一の隠れ層INRによって実現された画像の正確な回復を達成する確率を経験的に評価し、連続ドメインファントム画像の超解像度回復に関するINRのパフォーマンスを示します。

要約(オリジナル)

Implicit neural representations (INRs) have emerged as a powerful tool for solving inverse problems in computer vision and computational imaging. INRs represent images as continuous domain functions realized by a neural network taking spatial coordinates as inputs. However, unlike traditional pixel representations, little is known about the sample complexity of estimating images using INRs in the context of linear inverse problems. Towards this end, we study the sampling requirements for recovery of a continuous domain image from its low-pass Fourier samples by fitting a single hidden-layer INR with ReLU activation and a Fourier features layer using a generalized form of weight decay regularization. Our key insight is to relate minimizers of this non-convex parameter space optimization problem to minimizers of a convex penalty defined over an infinite-dimensional space of measures. We identify a sufficient number of Fourier samples for which an image realized by an INR is exactly recoverable by solving the INR training problem. To validate our theory, we empirically assess the probability of achieving exact recovery of images realized by low-width single hidden-layer INRs, and illustrate the performance of INRs on super-resolution recovery of continuous domain phantom images.

arxiv情報

著者 Mahrokh Najaf,Gregory Ongie
発行日 2025-06-11 17:18:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Sampling Theory for Super-Resolution with Implicit Neural Representations はコメントを受け付けていません

UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

要約

ポイントクラウドデータのスケールの多様性は、3Dビジョンのための統一された表現学習技術の開発において重要な課題を示しています。
現在、統一された3Dモデルはほとんどなく、オブジェクトレベルのポイントクラウドとシーンレベルの両方のポイントクラウドに等しく効果的な既存のトレーニング方法はありません。
このホワイトペーパーでは、任意のスケールのポイントクラウドとあらゆるアーキテクチャの3Dモデルにシームレスに適用できる最初の統一前訓練方法であるUnipre3Dを紹介します。
私たちのアプローチは、ガウスプリミティブをトレーニング前のタスクとして予測し、微分可能なガウスのスプラッティングを使用して画像をレンダリングし、正確なピクセルレベルの監督とエンドツーエンドの最適化を可能にします。
トレーニング前のタスクの複雑さをさらに調節し、モデルの焦点を幾何学的構造に向けるために、事前に訓練された画像モデルの2D機能を統合して、確立されたテクスチャ知識を組み込みます。
さまざまなポイントクラウドモデルをバックボーンとして使用して、さまざまなオブジェクトレベルおよびシーンレベルのタスクにわたる広範な実験を通じて、提案された方法の普遍的な有効性を検証します。
コードはhttps://github.com/wangzy22/unipre3dで入手できます。

要約(オリジナル)

The scale diversity of point cloud data presents significant challenges in developing unified representation learning techniques for 3D vision. Currently, there are few unified 3D models, and no existing pre-training method is equally effective for both object- and scene-level point clouds. In this paper, we introduce UniPre3D, the first unified pre-training method that can be seamlessly applied to point clouds of any scale and 3D models of any architecture. Our approach predicts Gaussian primitives as the pre-training task and employs differentiable Gaussian splatting to render images, enabling precise pixel-level supervision and end-to-end optimization. To further regulate the complexity of the pre-training task and direct the model’s focus toward geometric structures, we integrate 2D features from pre-trained image models to incorporate well-established texture knowledge. We validate the universal effectiveness of our proposed method through extensive experiments across a variety of object- and scene-level tasks, using diverse point cloud models as backbones. Code is available at https://github.com/wangzy22/UniPre3D.

arxiv情報

著者 Ziyi Wang,Yanran Zhang,Jie Zhou,Jiwen Lu
発行日 2025-06-11 17:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting はコメントを受け付けていません

Outside Knowledge Conversational Video (OKCV) Dataset — Dialoguing over Videos

要約

外部の知識視覚的質問(OK-VQA)では、モデルは画像内に関連する視覚情報を特定し、外部の知識を組み込んで質問に正確に応答する必要があります。
このタスクを動画に基づいて視覚的に接地されたダイアログ設定に拡張すると、会話モデルは時間の経過とともに適切な視覚的詳細を認識し、必要な情報が必ずしも視覚情報に存在するわけではない質問に答える必要があります。
さらに、会話全体のコンテキストは、その後の対話のために考慮されなければなりません。
このタスクを探索するために、40,954ドルのインターリーブ対話ターンで構成される5,986ドルの人間が解釈した対話を含む2,017ドルのビデオで構成されるデータセットを紹介します。
対話のコンテキストは特定のビデオセグメントに視覚的に接地されていますが、質問には視覚的に存在しない外部の知識がさらに必要です。
したがって、モデルは、関連するビデオパーツを特定するだけでなく、外部の知識を活用して対話内で会話する必要があります。
さらに、データセットで評価されたいくつかのベースラインを提供し、このタスクに関連する将来の課題を示します。
データセットは、https://github.com/c-patsch/okcvで公開されています。

要約(オリジナル)

In outside knowledge visual question answering (OK-VQA), the model must identify relevant visual information within an image and incorporate external knowledge to accurately respond to a question. Extending this task to a visually grounded dialogue setting based on videos, a conversational model must both recognize pertinent visual details over time and answer questions where the required information is not necessarily present in the visual information. Moreover, the context of the overall conversation must be considered for the subsequent dialogue. To explore this task, we introduce a dataset comprised of $2,017$ videos with $5,986$ human-annotated dialogues consisting of $40,954$ interleaved dialogue turns. While the dialogue context is visually grounded in specific video segments, the questions further require external knowledge that is not visually present. Thus, the model not only has to identify relevant video parts but also leverage external knowledge to converse within the dialogue. We further provide several baselines evaluated on our dataset and show future challenges associated with this task. The dataset is made publicly available here: https://github.com/c-patsch/OKCV.

arxiv情報

著者 Benjamin Reichman,Constantin Patsch,Jack Truxal,Atishay Jain,Larry Heck
発行日 2025-06-11 17:23:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Outside Knowledge Conversational Video (OKCV) Dataset — Dialoguing over Videos はコメントを受け付けていません

Vision Generalist Model: A Survey

要約

最近、私たちは自然言語加工におけるジェネラリストモデルの大成功を目撃しました。
ジェネラリストモデルは、大規模なデータで訓練された一般的なフレームワークであり、さまざまな下流タスクを同時に処理できます。
彼らの印象的なパフォーマンスに励まされ、ますます多くの研究者がこれらのモデルをコンピュータービジョンタスクに適用する領域に挑戦しています。
ただし、ビジョンタスクの入力と出力はより多様であり、統一された表現としてそれらを要約することは困難です。
この論文では、Vision Generalist Modelsの包括的な概要を説明し、フィールド内の特性と能力を掘り下げています。
まず、データセット、タスク、ベンチマークなどの背景を確認します。
次に、既存の研究で提案されているフレームワークの設計を掘り下げ、そのパフォーマンスを向上させるために採用された技術を導入します。
研究者がこの地域を理解するために、私たちは関連するドメインへの短い遠足を取り、相互接続と潜在的な相乗効果に光を当てます。
結論として、いくつかの実際のアプリケーションシナリオを提供し、持続的な課題の徹底的な調査を行い、将来の研究の努力のための可能な方向性に関する洞察を提供します。

要約(オリジナル)

Recently, we have witnessed the great success of the generalist model in natural language processing. The generalist model is a general framework trained with massive data and is able to process various downstream tasks simultaneously. Encouraged by their impressive performance, an increasing number of researchers are venturing into the realm of applying these models to computer vision tasks. However, the inputs and outputs of vision tasks are more diverse, and it is difficult to summarize them as a unified representation. In this paper, we provide a comprehensive overview of the vision generalist models, delving into their characteristics and capabilities within the field. First, we review the background, including the datasets, tasks, and benchmarks. Then, we dig into the design of frameworks that have been proposed in existing research, while also introducing the techniques employed to enhance their performance. To better help the researchers comprehend the area, we take a brief excursion into related domains, shedding light on their interconnections and potential synergies. To conclude, we provide some real-world application scenarios, undertake a thorough examination of the persistent challenges, and offer insights into possible directions for future research endeavors.

arxiv情報

著者 Ziyi Wang,Yongming Rao,Shuofeng Sun,Xinrun Liu,Yi Wei,Xumin Yu,Zuyan Liu,Yanbo Wang,Hongmin Liu,Jie Zhou,Jiwen Lu
発行日 2025-06-11 17:23:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Vision Generalist Model: A Survey はコメントを受け付けていません

Canonical Latent Representations in Conditional Diffusion Models

要約

条件付き拡散モデル(CDM)は、さまざまな生成タスクで印象的なパフォーマンスを示しています。
完全なデータ分布をモデル化する能力は、下流の識別学習における分析による新しい手段を開きました。
ただし、この同じモデリング容量により、CDMは無関係なコンテキストでクラスを定義する機能を巻き込み、堅牢で解釈可能な表現を抽出するための課題を提起します。
この目的のために、内部CDMが非差別的な信号を破棄しながら重要なカテゴリ情報を保持している潜在コードである標準的な潜在表現(CLAREPS)を特定します。
デコードされると、Clarepsは各クラスの代表的なサンプルを生成し、最小限の無関係な詳細を備えたコアクラスセマンティクスの解釈可能でコンパクトな要約を提供します。
クラレップを利用して、新しい拡散ベースの特徴留置パラダイム、Cadistillを開発します。
生徒はトレーニングセットに完全にアクセスできますが、CDMは教師としてのClarepsを介してのみコアクラスの知識を転送します。これは、サイズのトレーニングデータの10%にすぎません。
トレーニング後、学生は強い敵対的な堅牢性と一般化能力を達成し、偽の背景キューの代わりにクラス信号に重点を置いています。
私たちの調査結果は、CDMが画像ジェネレーターとしてだけでなく、堅牢な表現学習を駆動できるコンパクトで解釈可能な教師としても機能できることを示唆しています。

要約(オリジナル)

Conditional diffusion models (CDMs) have shown impressive performance across a range of generative tasks. Their ability to model the full data distribution has opened new avenues for analysis-by-synthesis in downstream discriminative learning. However, this same modeling capacity causes CDMs to entangle the class-defining features with irrelevant context, posing challenges to extracting robust and interpretable representations. To this end, we identify Canonical LAtent Representations (CLAReps), latent codes whose internal CDM features preserve essential categorical information while discarding non-discriminative signals. When decoded, CLAReps produce representative samples for each class, offering an interpretable and compact summary of the core class semantics with minimal irrelevant details. Exploiting CLAReps, we develop a novel diffusion-based feature-distillation paradigm, CaDistill. While the student has full access to the training set, the CDM as teacher transfers core class knowledge only via CLAReps, which amounts to merely 10 % of the training data in size. After training, the student achieves strong adversarial robustness and generalization ability, focusing more on the class signals instead of spurious background cues. Our findings suggest that CDMs can serve not just as image generators but also as compact, interpretable teachers that can drive robust representation learning.

arxiv情報

著者 Yitao Xu,Tong Zhang,Ehsan Pajouheshgar,Sabine Süsstrunk
発行日 2025-06-11 17:28:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Canonical Latent Representations in Conditional Diffusion Models はコメントを受け付けていません

Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy

要約

医学的視覚的質問応答(MEDVQA)は、臨床的意思決定支援システムを開発するための有望な分野ですが、多くの場合、利用可能なデータセットによって進歩が制限されます。
これらのギャップに対処するために、胃腸(GI)内視鏡検査のための新しい大規模なデータセットであるKvasir-VQA-X1を導入します。
私たちの研究は、より深い臨床推論をテストするように設計された159,549の新しい質問回答ペアを組み込むことにより、元のKvasir-VQAを大幅に拡大します。
これらの質問を生成するために大規模な言語モデルを使用して体系的な方法を開発しました。これは、モデルの推論機能をよりよく評価するために複雑さによって層別化されます。
データセットが実際の臨床シナリオのモデルを準備するために、一般的なイメージングアーティファクトを模倣するさまざまな視覚的増強も導入しました。
データセットは、2つの主要な評価トラックをサポートするように構成されています。1つは標準のVQAパフォーマンス用、もう1つはこれらの視覚摂動に対するモデルの堅牢性をテストするためです。
より挑戦的で臨床的に関連するベンチマークを提供することにより、Kvasir-VQA-X1は、臨床環境で使用するためのより信頼性が高く効果的なマルチモーダルAIシステムの開発を加速することを目指しています。
データセットは完全にアクセスしやすく、公正なデータ原則を順守しているため、より広い研究コミュニティにとって貴重なリソースになります。
コードとデータ:https://github.com/simula/kvasir-vqa-x1およびhttps://huggingface.co/datasets/simulamet/kvasir-vqa-x1

要約(オリジナル)

Medical Visual Question Answering (MedVQA) is a promising field for developing clinical decision support systems, yet progress is often limited by the available datasets, which can lack clinical complexity and visual diversity. To address these gaps, we introduce Kvasir-VQA-x1, a new, large-scale dataset for gastrointestinal (GI) endoscopy. Our work significantly expands upon the original Kvasir-VQA by incorporating 159,549 new question-answer pairs that are designed to test deeper clinical reasoning. We developed a systematic method using large language models to generate these questions, which are stratified by complexity to better assess a model’s inference capabilities. To ensure our dataset prepares models for real-world clinical scenarios, we have also introduced a variety of visual augmentations that mimic common imaging artifacts. The dataset is structured to support two main evaluation tracks: one for standard VQA performance and another to test model robustness against these visual perturbations. By providing a more challenging and clinically relevant benchmark, Kvasir-VQA-x1 aims to accelerate the development of more reliable and effective multimodal AI systems for use in clinical settings. The dataset is fully accessible and adheres to FAIR data principles, making it a valuable resource for the wider research community. Code and data: https://github.com/Simula/Kvasir-VQA-x1 and https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1

arxiv情報

著者 Sushant Gautam,Michael A. Riegler,Pål Halvorsen
発行日 2025-06-11 17:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, 92C55, cs.CV, cs.LG, I.2.10 | Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy はコメントを受け付けていません

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

要約

大規模な言語モデル(LLMS)を使用したテキストの推論が大幅に進歩しているため、大規模なビジョン言語モデル(LVLMS)のマルチモーダル推論能力を高めることに関心が高まっています。
ただし、既存の方法は主にマルチモーダルの推論に近づき、テキスト中心の方法でマルチモーダルの推論に取り組みます。ここでは、推論と回答の両方の派生の両方がテキストを通じて行われ、唯一の違いはマルチモーダル入力の存在です。
その結果、これらの方法は、人間が精神視覚化と操作を通じて達成する正確な幾何学的理解と継続的な空間追跡能力を必要とする空間推論タスクの基本的な制限に遭遇することがよくあります。
制限に対処するために、視覚空間での基本的な描画操作を通じてLVLMが推論できるようにする新しいパラダイムである宇宙での理由への図面を提案します。
モデルに境界ボックスに注釈を付けたり、補助ラインを描画するなど、基本的な描画操作を装備することにより、直接的な視覚操作を通じて空間的関係を表現して分析することができます。
この機能を育むために、3段階のトレーニングフレームワークを開発します。合成データを使用したコールドスタートトレーニング、基本的な描画能力を確立し、自己反射行動を強化するための反射的な拒絶サンプリング、ターゲットの報酬を直接最適化するための学習を強化します。
広範な実験は、Vilasrという名前のモデルが、迷路のナビゲーション、静的な空間推論、ビデオベースの推論、およびマルチビューベースの推論タスクを含む、多様な空間推論ベンチマーク全体で既存の方法を常に上回ることを示しています。

要約(オリジナル)

As textual reasoning with large language models (LLMs) has advanced significantly, there has been growing interest in enhancing the multimodal reasoning capabilities of large vision-language models (LVLMs). However, existing methods primarily approach multimodal reasoning in a straightforward, text-centric manner, where both reasoning and answer derivation are conducted purely through text, with the only difference being the presence of multimodal input. As a result, these methods often encounter fundamental limitations in spatial reasoning tasks that demand precise geometric understanding and continuous spatial tracking-capabilities that humans achieve through mental visualization and manipulation. To address the limitations, we propose drawing to reason in space, a novel paradigm that enables LVLMs to reason through elementary drawing operations in the visual space. By equipping models with basic drawing operations, including annotating bounding boxes and drawing auxiliary lines, we empower them to express and analyze spatial relationships through direct visual manipulation, meanwhile avoiding the performance ceiling imposed by specialized perception tools in previous tool-integrated reasoning approaches. To cultivate this capability, we develop a three-stage training framework: cold-start training with synthetic data to establish basic drawing abilities, reflective rejection sampling to enhance self-reflection behaviors, and reinforcement learning to directly optimize for target rewards. Extensive experiments demonstrate that our model, named VILASR, consistently outperforms existing methods across diverse spatial reasoning benchmarks, involving maze navigation, static spatial reasoning, video-based reasoning, and multi-view-based reasoning tasks, with an average improvement of 18.4%.

arxiv情報

著者 Junfei Wu,Jian Guan,Kaituo Feng,Qiang Liu,Shu Wu,Liang Wang,Wei Wu,Tieniu Tan
発行日 2025-06-11 17:41:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2 | Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing はコメントを受け付けていません

TerraMind: Large-Scale Generative Multimodality for Earth Observation

要約

地球観測のための最初の生成的なマルチモーダル基礎モデル(EO)であるTerramindを提示します。
他のマルチモーダルモデルとは異なり、Terramindは、モダリティ全体のトークンレベルとピクセルレベルの両方のデータを組み合わせたデュアルスケール表現で事前に処理されています。
トークンレベルでは、Terramindは高レベルのコンテキスト情報をエンコードしてクロスモーダルの関係を学習しますが、ピクセルレベルでは、Terramindは微細な表現を活用して重要な空間的ニュアンスをキャプチャします。
グローバルで大規模なデータセットの9つの地理空間モダリティについてテラミンドを前処理しました。
この論文では、(i)Terramindのデュアルスケールの早期融合アプローチは、地球観察のためのゼロショットと少数のショットアプリケーションの範囲のロックを解除することを示しています。
eoがパンゲアのように。
事前トレーニングデータセット、モデルの重み、および私たちのコードは、許容ライセンスの下でオープンソースを受けています。

要約(オリジナル)

We present TerraMind, the first any-to-any generative, multimodal foundation model for Earth observation (EO). Unlike other multimodal models, TerraMind is pretrained on dual-scale representations combining both token-level and pixel-level data across modalities. On a token level, TerraMind encodes high-level contextual information to learn cross-modal relationships, while on a pixel level, TerraMind leverages fine-grained representations to capture critical spatial nuances. We pretrained TerraMind on nine geospatial modalities of a global, large-scale dataset. In this paper, we demonstrate that (i) TerraMind’s dual-scale early fusion approach unlocks a range of zero-shot and few-shot applications for Earth observation, (ii) TerraMind introduces ‘Thinking-in-Modalities’ (TiM) — the capability of generating additional artificial data during finetuning and inference to improve the model output — and (iii) TerraMind achieves beyond state-of-the-art performance in community-standard benchmarks for EO like PANGAEA. The pretraining dataset, the model weights, and our code are open-sourced under a permissive license.

arxiv情報

著者 Johannes Jakubik,Felix Yang,Benedikt Blumenstiel,Erik Scheurer,Rocco Sedona,Stefano Maurogiovanni,Jente Bosmans,Nikolaos Dionelis,Valerio Marsocci,Niklas Kopp,Rahul Ramachandran,Paolo Fraccaro,Thomas Brunschwiler,Gabriele Cavallaro,Juan Bernabe-Moreno,Nicolas Longépé
発行日 2025-06-11 17:44:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TerraMind: Large-Scale Generative Multimodality for Earth Observation はコメントを受け付けていません

HRTR: A Single-stage Transformer for Fine-grained Sub-second Action Segmentation in Stroke Rehabilitation

要約

脳卒中のリハビリテーションでは、多くの場合、患者の動きを正確に追跡して進歩を監視する必要があります。リハビリテーションエクササイズの複雑さは、2つの重要な課題を提示します。微細な(1秒未満の)アクション検出です。
この作業では、高解像度の時間的変圧器(HRTR)を提案し、高解像度(きめ細かい)、単一段階変圧器のサブセカンドアクションを分類し、マルチステージの方法と後処理の必要性を排除することを提案します。
改良なしで、HRTRは、ストローク関連データセットと一般的なデータセットの両方で最先端のシステムを上回り、StrokereHabビデオで70.1、Strokerehab IMUで69.4、50Saladsで88.4を達成します。

要約(オリジナル)

Stroke rehabilitation often demands precise tracking of patient movements to monitor progress, with complexities of rehabilitation exercises presenting two critical challenges: fine-grained and sub-second (under one-second) action detection. In this work, we propose the High Resolution Temporal Transformer (HRTR), to time-localize and classify high-resolution (fine-grained), sub-second actions in a single-stage transformer, eliminating the need for multi-stage methods and post-processing. Without any refinements, HRTR outperforms state-of-the-art systems on both stroke related and general datasets, achieving Edit Score (ES) of 70.1 on StrokeRehab Video, 69.4 on StrokeRehab IMU, and 88.4 on 50Salads.

arxiv情報

著者 Halil Ismail Helvaci,Justin Philip Huber,Jihye Bae,Sen-ching Samson Cheung
発行日 2025-06-11 17:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HRTR: A Single-stage Transformer for Fine-grained Sub-second Action Segmentation in Stroke Rehabilitation はコメントを受け付けていません

Vectorized Region Based Brush Strokes for Artistic Rendering

要約

視覚アートワークのストロークバイストローク進化プロセスの作成は、完成した静的アートワークとその作成プロセスとの間の感情的および教育的なギャップを埋めようとします。
最近のストロークベースの塗装システムは、ストロークパラメーターを予測および繰り返し精製して、入力画像とレンダリングされた出力との類似性を最大化することにより、ストロークの詳細のキャプチャに焦点を当てています。
ただし、これらの方法は、芸術的原則と意図に合わせた脳卒中組成を生成するのに苦労しています。
これに対処するために、(i)ターゲット領域でのブラシストロークのセマンティックガイダンスを促進し、(ii)ブラシストロークパラメーターを計算し、(iii)セグメント間のシーケンスを確立して最終絵画を順番にレンダリングする画像からペインティング方法を探ります。
顔の画像、絵画、写真画像などのさまざまな入力画像タイプの実験結果は、私たちの方法が地域ベースの絵画戦略と一致しながら、高い忠実度と優れたストローク品質の絵画をレンダリングすることを示しています。

要約(オリジナル)

Creating a stroke-by-stroke evolution process of a visual artwork tries to bridge the emotional and educational gap between the finished static artwork and its creation process. Recent stroke-based painting systems focus on capturing stroke details by predicting and iteratively refining stroke parameters to maximize the similarity between the input image and the rendered output. However, these methods often struggle to produce stroke compositions that align with artistic principles and intent. To address this, we explore an image-to-painting method that (i) facilitates semantic guidance for brush strokes in targeted regions, (ii) computes the brush stroke parameters, and (iii) establishes a sequence among segments and strokes to sequentially render the final painting. Experimental results on various input image types, such as face images, paintings, and photographic images, show that our method aligns with a region-based painting strategy while rendering a painting with high fidelity and superior stroke quality.

arxiv情報

著者 Jeripothula Prudviraj,Vikram Jamwal
発行日 2025-06-11 17:45:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.3.3 | Vectorized Region Based Brush Strokes for Artistic Rendering はコメントを受け付けていません