Science-T2I: Addressing Scientific Illusions in Image Synthesis

要約

科学的知識を生成モデルに統合し、画像統合のリアリズムと一貫性を高めるための新しいアプローチを提示します。
まず、Science-T2iを紹介します。これは、9Kプロンプトを備えた敵対的な20K画像ペアを含む専門家に注目した敵対的なデータセットであり、幅広い異なる科学的知識カテゴリをカバーしています。
Science-T2Iを活用すると、科学的知識に基づいて生成された画像の評価を改善するエンドツーエンドの報酬モデルであるSciscoreを提示します。これは、事前に訓練されたCLIPモデルの科学的理解と視覚能力の両方を増強することによって達成されます。
さらに、Sciscoreに基づいて、既存の生成モデルに科学的知識を組み込むために、監視された微調整フェーズとマスクされたオンライン微調整フェーズを含む2段階のトレーニングフレームワークを提案します。
包括的な実験を通じて、生成されたコンテンツの科学的リアリズムを評価するための新しい基準を確立する際のフレームワークの有効性を実証します。
具体的には、Sciscoreは人間レベルに匹敵するパフォーマンスを達成し、経験豊富な人間の評価者が実施した評価と同様の5%の改善を示しています。
さらに、提案された微調整方法をフラックスに適用することにより、Sciscoreで50%を超えるパフォーマンス向上を達成します。

要約(オリジナル)

We present a novel approach to integrating scientific knowledge into generative models, enhancing their realism and consistency in image synthesis. First, we introduce Science-T2I, an expert-annotated adversarial dataset comprising adversarial 20k image pairs with 9k prompts, covering wide distinct scientific knowledge categories. Leveraging Science-T2I, we present SciScore, an end-to-end reward model that refines the assessment of generated images based on scientific knowledge, which is achieved by augmenting both the scientific comprehension and visual capabilities of pre-trained CLIP model. Additionally, based on SciScore, we propose a two-stage training framework, comprising a supervised fine-tuning phase and a masked online fine-tuning phase, to incorporate scientific knowledge into existing generative models. Through comprehensive experiments, we demonstrate the effectiveness of our framework in establishing new standards for evaluating the scientific realism of generated content. Specifically, SciScore attains performance comparable to human-level, demonstrating a 5% improvement similar to evaluations conducted by experienced human evaluators. Furthermore, by applying our proposed fine-tuning method to FLUX, we achieve a performance enhancement exceeding 50% on SciScore.

arxiv情報

著者 Jialuo Li,Wenhao Chai,Xingyu Fu,Haiyang Xu,Saining Xie
発行日 2025-04-17 17:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Science-T2I: Addressing Scientific Illusions in Image Synthesis はコメントを受け付けていません

NTIRE 2025 Challenge on Short-form UGC Video Quality Assessment and Enhancement: Methods and Results

要約

このペーパーでは、短編UGCビデオ品質評価と強化に関するNTIRE 2025チャレンジのレビューを紹介します。
課題は、(i)効率的なビデオ品質評価(KVQ)、および(ii)拡散ベースの画像超解像度(KWAISR)の2つのトラックで構成されています。
トラック1は、モデルのアンサンブル、冗長なウェイト、および以前のIQA/VQA競技でのその他の計算上の高価なコンポーネントへの依存を排除​​することに重点を置いて、軽量で効率的なビデオ品質評価(VQA)モデルの開発を進めることを目的としています。
トラック2では、単一の画像の超​​解像度、つまりKWAISRデータセットに合わせた新しい短編UGCデータセットを紹介します。
合成された1,800個の合成生成されたS-UGC画像ペアと1,900個の実世界のS-UGC画像で構成されており、8:1:1の比率を使用してトレーニング、検証、およびテストセットに分割されています。
課題の主な目的は、KwaiやTiktokなどの短編UGCプラットフォームのユーザーエクスペリエンスに利益をもたらす研究を推進することです。
この課題は266人の参加者を集め、対応するファクトシートで18の有効な最終提出を受け、短い形式のUGC VQAと画像超解像度の進捗に大きく貢献しました。
このプロジェクトは、https://github.com/lixinustc/kvqe- changleecvpr-ntire2025で公開されています。

要約(オリジナル)

This paper presents a review for the NTIRE 2025 Challenge on Short-form UGC Video Quality Assessment and Enhancement. The challenge comprises two tracks: (i) Efficient Video Quality Assessment (KVQ), and (ii) Diffusion-based Image Super-Resolution (KwaiSR). Track 1 aims to advance the development of lightweight and efficient video quality assessment (VQA) models, with an emphasis on eliminating reliance on model ensembles, redundant weights, and other computationally expensive components in the previous IQA/VQA competitions. Track 2 introduces a new short-form UGC dataset tailored for single image super-resolution, i.e., the KwaiSR dataset. It consists of 1,800 synthetically generated S-UGC image pairs and 1,900 real-world S-UGC images, which are split into training, validation, and test sets using a ratio of 8:1:1. The primary objective of the challenge is to drive research that benefits the user experience of short-form UGC platforms such as Kwai and TikTok. This challenge attracted 266 participants and received 18 valid final submissions with corresponding fact sheets, significantly contributing to the progress of short-form UGC VQA and image superresolution. The project is publicly available at https://github.com/lixinustc/KVQE- ChallengeCVPR-NTIRE2025.

arxiv情報

著者 Xin Li,Kun Yuan,Bingchen Li,Fengbin Guan,Yizhen Shao,Zihao Yu,Xijun Wang,Yiting Lu,Wei Luo,Suhang Yao,Ming Sun,Chao Zhou,Zhibo Chen,Radu Timofte,Yabin Zhang,Ao-Xiang Zhang,Tianwu Zhi,Jianzhao Liu,Yang Li,Jingwen Xu,Yiting Liao,Yushen Zuo,Mingyang Wu,Renjie Li,Shengyun Zhong,Zhengzhong Tu,Yufan Liu,Xiangguang Chen,Zuowei Cao,Minhao Tang,Shan Liu,Kexin Zhang,Jingfen Xie,Yan Wang,Kai Chen,Shijie Zhao,Yunchen Zhang,Xiangkai Xu,Hong Gao,Ji Shi,Yiming Bao,Xiugang Dong,Xiangsheng Zhou,Yaofeng Tu,Ying Liang,Yiwen Wang,Xinning Chai,Yuxuan Zhang,Zhengxue Cheng,Yingsheng Qin,Yucai Yang,Rong Xie,Li Song,Wei Sun,Kang Fu,Linhan Cao,Dandan Zhu,Kaiwei Zhang,Yucheng Zhu,Zicheng Zhang,Menghan Hu,Xiongkuo Min,Guangtao Zhai,Zhi Jin,Jiawei Wu,Wei Wang,Wenjian Zhang,Yuhai Lan,Gaoxiong Yi,Hengyuan Na,Wang Luo,Di Wu,MingYin Bai,Jiawang Du,Zilong Lu,Zhenyu Jiang,Hui Zeng,Ziguan Cui,Zongliang Gan,Guijin Tang,Xinglin Xie,Kehuan Song,Xiaoqiang Lu,Licheng Jiao,Fang Liu,Xu Liu,Puhua Chen,Ha Thu Nguyen,Katrien De Moor,Seyed Ali Amirshahi,Mohamed-Chaker Larabi,Qi Tang,Linfeng He,Zhiyong Gao,Zixuan Gao,Guohua Zhang,Zhiye Huang,Yi Deng,Qingmiao Jiang,Lu Chen,Yi Yang,Xi Liao,Nourine Mohammed Nadir,Yuxuan Jiang,Qiang Zhu,Siyue Teng,Fan Zhang,Shuyuan Zhu,Bing Zeng,David Bull,Meiqin Liu,Chao Yao,Yao Zhao
発行日 2025-04-17 17:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | NTIRE 2025 Challenge on Short-form UGC Video Quality Assessment and Enhancement: Methods and Results はコメントを受け付けていません

PCBEAR: Pose Concept Bottleneck for Explainable Action Recognition

要約

人間の行動認識(HAR)は、深い学習モデルで印象的な結果を達成していますが、彼らの意思決定プロセスはブラックボックスの性質のために不透明のままです。
特に透明性と説明責任を必要とする実際のアプリケーションにとって、解釈可能性を確保することが重要です。
既存のビデオXaiメソッドは、主に機能の帰属または静的なテキストの概念に依存しており、どちらも動きのダイナミクスとアクション理解に不可欠な時間的依存関係を捉えるのに苦労しています。
これらの課題に対処するために、説明可能なアクション認識(PCBEAR)のポーズコンセプトボトルネックを提案します。これは、ビデオアクション認識のためのモーション認識で構造化された概念として人間のポーズシーケンスを導入する新しいコンセプトボトルネックフレームワークです。
ピクセルレベルの機能や静的なテキストの説明に基づいた方法とは異なり、PCBearは人間の骨格のポーズを活用します。これは、身体の動きのみに焦点を当て、モーションダイナミクスの堅牢で解釈可能な説明を提供します。
2種類のポーズベースの概念を定義します。個々のフレームでの空間構成の静的なポーズ概念と、複数のフレームにわたるモーションパターンの動的なポーズ概念です。
これらの概念を構築するために、PCBEARはクラスタリングをビデオポーズシーケンスに適用し、手動注釈なしで意味のある概念を自動的に発見できるようにします。
KTH、Penn-compse、およびHAA500でPCBearを検証し、解釈可能なモーション駆動型の説明を提供しながら、高い分類パフォーマンスを達成することを示しています。
私たちの方法は、モデルの推論プロセスに対する強力な予測パフォーマンスと人間に理解しやすい洞察の両方を提供し、モデルの動作をデバッグして改善するためのテスト時間介入を可能にします。

要約(オリジナル)

Human action recognition (HAR) has achieved impressive results with deep learning models, but their decision-making process remains opaque due to their black-box nature. Ensuring interpretability is crucial, especially for real-world applications requiring transparency and accountability. Existing video XAI methods primarily rely on feature attribution or static textual concepts, both of which struggle to capture motion dynamics and temporal dependencies essential for action understanding. To address these challenges, we propose Pose Concept Bottleneck for Explainable Action Recognition (PCBEAR), a novel concept bottleneck framework that introduces human pose sequences as motion-aware, structured concepts for video action recognition. Unlike methods based on pixel-level features or static textual descriptions, PCBEAR leverages human skeleton poses, which focus solely on body movements, providing robust and interpretable explanations of motion dynamics. We define two types of pose-based concepts: static pose concepts for spatial configurations at individual frames, and dynamic pose concepts for motion patterns across multiple frames. To construct these concepts, PCBEAR applies clustering to video pose sequences, allowing for automatic discovery of meaningful concepts without manual annotation. We validate PCBEAR on KTH, Penn-Action, and HAA500, showing that it achieves high classification performance while offering interpretable, motion-driven explanations. Our method provides both strong predictive performance and human-understandable insights into the model’s reasoning process, enabling test-time interventions for debugging and improving model behavior.

arxiv情報

著者 Jongseo Lee,Wooil Lee,Gyeong-Moon Park,Seong Tae Kim,Jinwoo Choi
発行日 2025-04-17 17:50:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PCBEAR: Pose Concept Bottleneck for Explainable Action Recognition はコメントを受け付けていません

$\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

要約

さまざまな複雑さの指示にわたって命令ベースの画像編集モデルを体系的に評価するために設計された包括的なベンチマークである$ \ texttt {complex-edit} $を紹介します。
このベンチマークを開発するために、GPT-4oを利用して、大規模に多様な編集手順を自動的に収集します。
私たちのアプローチは、適切に構造化された「チェーンオブエディット」パイプラインに従います。最初に個々のアトミック編集タスクを個別に生成し、それらを統合してまとまりのある複雑な指示を形成します。
さらに、大規模な評価をサポートするVLMベースの自動評価パイプラインとともに、編集パフォーマンスのさまざまな側面を評価するための一連のメトリックを紹介します。
私たちのベンチマークは、いくつかの顕著な洞察をもたらします。1)オープンソースモデルは、独自のクローズドソースモデルと比較して大幅にパフォーマンスが低く、命令の複雑さが増加するにつれてパフォーマンスギャップが広がります。
2)指導の複雑さの向上は、主に入力画像から重要な要素を保持し、全体的な美的品質を維持するモデルの能力を主に損なう。
3)複雑な命令を一連の原子ステップに分解し、ステップバイステップで実行され、複数のメトリックにわたってパフォーマンスを大幅に低下させます。
4)直接的な編集とステップバイステップのシーケンシャルアプローチの両方の結果を改善します。
5)「合成データの呪い」を観察します。合成データがモデルトレーニングに関与している場合、編集命令の複雑さが上昇するにつれて、このようなモデルからの編集された画像はますます合成される傾向があります。

要約(オリジナル)

We introduce $\texttt{Complex-Edit}$, a comprehensive benchmark designed to systematically evaluate instruction-based image editing models across instructions of varying complexity. To develop this benchmark, we harness GPT-4o to automatically collect a diverse set of editing instructions at scale. Our approach follows a well-structured “Chain-of-Edit” pipeline: we first generate individual atomic editing tasks independently and then integrate them to form cohesive, complex instructions. Additionally, we introduce a suite of metrics to assess various aspects of editing performance, along with a VLM-based auto-evaluation pipeline that supports large-scale assessments. Our benchmark yields several notable insights: 1) Open-source models significantly underperform relative to proprietary, closed-source models, with the performance gap widening as instruction complexity increases; 2) Increased instructional complexity primarily impairs the models’ ability to retain key elements from the input images and to preserve the overall aesthetic quality; 3) Decomposing a complex instruction into a sequence of atomic steps, executed in a step-by-step manner, substantially degrades performance across multiple metrics; 4) A straightforward Best-of-N selection strategy improves results for both direct editing and the step-by-step sequential approach; and 5) We observe a “curse of synthetic data”: when synthetic data is involved in model training, the edited images from such models tend to appear increasingly synthetic as the complexity of the editing instructions rises — a phenomenon that intriguingly also manifests in the latest GPT-4o outputs.

arxiv情報

著者 Siwei Yang,Mude Hui,Bingchen Zhao,Yuyin Zhou,Nataniel Ruiz,Cihang Xie
発行日 2025-04-17 17:51:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | $\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark はコメントを受け付けていません

Readable Twins of Unreadable Models

要約

責任ある人工知能(AI)システムの作成は、AIの作品の現代の研究開発における重要な問題です。
責任あるAIシステムの特性の1つは、その説明可能性です。
論文では、説明可能なディープラーニング(XDL)システムに興味があります。
物理的なオブジェクトのデジタルツインの作成に基づいて、読みやすいディープラーニングモデルのために読みやすい双子(不正確な情報フローモデルの形で)を作成するというアイデアを紹介します。
ディープラーニングモデル(DLM)から不正確な情報フローモデル(IIFM)に切り替えるための完全な手順が表示されます。
提案されたアプローチは、MNISTデータセットから手書きの数字を画像認識するための深い学習分類モデルの例で説明されています。

要約(オリジナル)

Creating responsible artificial intelligence (AI) systems is an important issue in contemporary research and development of works on AI. One of the characteristics of responsible AI systems is their explainability. In the paper, we are interested in explainable deep learning (XDL) systems. On the basis of the creation of digital twins of physical objects, we introduce the idea of creating readable twins (in the form of imprecise information flow models) for unreadable deep learning models. The complete procedure for switching from the deep learning model (DLM) to the imprecise information flow model (IIFM) is presented. The proposed approach is illustrated with an example of a deep learning classification model for image recognition of handwritten digits from the MNIST data set.

arxiv情報

著者 Krzysztof Pancerz,Piotr Kulicki,Michał Kalisz,Andrzej Burda,Maciej Stanisławski,Jaromir Sarzyński
発行日 2025-04-17 17:55:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Readable Twins of Unreadable Models はコメントを受け付けていません

St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World

要約

動的な3D再構成とビデオのポイント追跡は、通常、深いつながりにもかかわらず、個別のタスクとして扱われます。
RGB入力の世界座標フレームの動的なビデオコンテンツを同時に再構築および追跡するフィードフォワードフレームワークであるST4RTRACKを提案します。
これは、さまざまな瞬間にキャプチャされたフレームの2つの適切に定義されたポイントマップを予測することで達成されます。
具体的には、同じ世界で同じ瞬間に両方のポイントマップを予測し、3D対応を維持しながら静的シーンと動的シーンの両方のジオメトリをキャプチャします。
参照フレームに関するビデオシーケンスを介してこれらの予測をチェックすると、3D再構成と3D追跡を効果的に組み合わせて、長距離通信を自然に計算します。
4Dグラウンドトゥルースの監督に大きく依存している以前の方法とは異なり、私たちは、reprojectに基づいた新しい適応スキームを採用しています。
世界フレームの再構築と追跡のための新しい広範なベンチマークを確立し、統一されたデータ駆動型フレームワークの有効性と効率性を実証します。
コード、モデル、およびベンチマークがリリースされます。

要約(オリジナル)

Dynamic 3D reconstruction and point tracking in videos are typically treated as separate tasks, despite their deep connection. We propose St4RTrack, a feed-forward framework that simultaneously reconstructs and tracks dynamic video content in a world coordinate frame from RGB inputs. This is achieved by predicting two appropriately defined pointmaps for a pair of frames captured at different moments. Specifically, we predict both pointmaps at the same moment, in the same world, capturing both static and dynamic scene geometry while maintaining 3D correspondences. Chaining these predictions through the video sequence with respect to a reference frame naturally computes long-range correspondences, effectively combining 3D reconstruction with 3D tracking. Unlike prior methods that rely heavily on 4D ground truth supervision, we employ a novel adaptation scheme based on a reprojection loss. We establish a new extensive benchmark for world-frame reconstruction and tracking, demonstrating the effectiveness and efficiency of our unified, data-driven framework. Our code, model, and benchmark will be released.

arxiv情報

著者 Haiwen Feng,Junyi Zhang,Qianqian Wang,Yufei Ye,Pengcheng Yu,Michael J. Black,Trevor Darrell,Angjoo Kanazawa
発行日 2025-04-17 17:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World はコメントを受け付けていません

Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs

要約

自然言語と3Dジオメトリを橋渡しすることは、柔軟で言語主導のシーンの理解に向けた重要なステップです。
3Dガウススプラッティング(3DG)の最近の進歩により、高速かつ高品質のシーンの再構築が可能になりましたが、研究では3DGSにオープンボキャブラリーの理解を組み込むことも調査されています。
ただし、ほとんどの既存の方法では、2Dセマンティックフィーチャマップごとに反復的な最適化が必要です。これは、非効率性をもたらすだけでなく、ビュー全体で一貫性のない3Dセマンティクスにつながります。
これらの制限に対処するために、ガウスプリミティブから直接スーパーポイントグラフを構築するトレーニングフリーのフレームワークを紹介します。
スーパーポイントグラフは、シーンを空間的にコンパクトで意味的にコヒーレントな領域に分割し、視野整合性の3Dエンティティを形成し、オープンポアブル理解のための構造化された基盤を提供します。
グラフ構造に基づいて、2Dセマンティック機能をスーパーポイントに持ち上げる効率的な再注入戦略を設計し、費用のかかるマルチビュー反復トレーニングを回避します。
結果として生じる表現は、強力な3Dセマンティックコヒーレンスを保証し、階層的理解を自然にサポートし、統一されたセマンティックフィールド内で粗粒と微細なオープンボキャブラリー認識の両方を可能にします。
広範な実験は、この方法が最先端のオープンボキャブラリーセグメンテーションパフォーマンスを達成し、セマンティックフィールドの再構成が30ドル以上の速度を速く完了することを示しています。
私たちのコードは、https://github.com/atrovast/thgsで入手できます。

要約(オリジナル)

Bridging natural language and 3D geometry is a crucial step toward flexible, language-driven scene understanding. While recent advances in 3D Gaussian Splatting (3DGS) have enabled fast and high-quality scene reconstruction, research has also explored incorporating open-vocabulary understanding into 3DGS. However, most existing methods require iterative optimization over per-view 2D semantic feature maps, which not only results in inefficiencies but also leads to inconsistent 3D semantics across views. To address these limitations, we introduce a training-free framework that constructs a superpoint graph directly from Gaussian primitives. The superpoint graph partitions the scene into spatially compact and semantically coherent regions, forming view-consistent 3D entities and providing a structured foundation for open-vocabulary understanding. Based on the graph structure, we design an efficient reprojection strategy that lifts 2D semantic features onto the superpoints, avoiding costly multi-view iterative training. The resulting representation ensures strong 3D semantic coherence and naturally supports hierarchical understanding, enabling both coarse- and fine-grained open-vocabulary perception within a unified semantic field. Extensive experiments demonstrate that our method achieves state-of-the-art open-vocabulary segmentation performance, with semantic field reconstruction completed over $30\times$ faster. Our code will be available at https://github.com/Atrovast/THGS.

arxiv情報

著者 Shaohui Dai,Yansong Qu,Zheyan Li,Xinyang Li,Shengchuan Zhang,Liujuan Cao
発行日 2025-04-17 17:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs はコメントを受け付けていません

AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis

要約

地面と空中の景色の混合物から撮影された画像の幾何学的再構成のタスクを探ります。
現在の最先端の学習ベースのアプローチは、航空機の画像ペア間の極端な視点のバリエーションを処理できません。
私たちの仮説は、トレーニングのための高品質の共同登録された航空機データセットの欠如がこの失敗の主な理由であるということです。
このようなデータは、スケーラブルな方法で再構築することが困難であるため、正確に組み立てることが困難です。
この課題を克服するために、3D都市全体のメッシュ(Google Earthなど)からの擬似合成レンダリングを組み合わせたスケーラブルなフレームワークを、実際の地上レベルのクラウドソース画像(例:Megadepth)と提案します。
擬似合成データは広範囲の航空視点をシミュレートしますが、実際のクラウドソースの画像は、メッシュベースのレンダリングが十分な詳細を欠いている地上レベルの画像の視覚的忠実度を改善し、実際の画像と擬似合成レンダリングの間のドメインギャップを効果的に埋めるのに役立ちます。
このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、現実世界のゼロショット航空機タスクの大幅な改善を実現します。
たとえば、ベースラインDust3Rがカメラ回転エラーの5度以内に空中地のペアの5%未満を局在化し、データを微調整すると正確性が56%近くまで上昇し、大きな視点の変化を処理する大きな障害点に対処することが観察されます。
カメラの推定やシーンの再構築を超えて、データセットは、挑戦的な航空地面シナリオにおけるNow-view合成などの下流タスクのパフォーマンスを向上させ、実際のアプリケーションでのアプローチの実用的な価値を実証します。

要約(オリジナル)

We explore the task of geometric reconstruction of images captured from a mixture of ground and aerial views. Current state-of-the-art learning-based approaches fail to handle the extreme viewpoint variation between aerial-ground image pairs. Our hypothesis is that the lack of high-quality, co-registered aerial-ground datasets for training is a key reason for this failure. Such data is difficult to assemble precisely because it is difficult to reconstruct in a scalable way. To overcome this challenge, we propose a scalable framework combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The pseudo-synthetic data simulates a wide range of aerial viewpoints, while the real, crowd-sourced images help improve visual fidelity for ground-level images where mesh-based renderings lack sufficient detail, effectively bridging the domain gap between real images and pseudo-synthetic renderings. Using this hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve significant improvements on real-world, zero-shot aerial-ground tasks. For example, we observe that baseline DUSt3R localizes fewer than 5% of aerial-ground pairs within 5 degrees of camera rotation error, while fine-tuning with our data raises accuracy to nearly 56%, addressing a major failure point in handling large viewpoint changes. Beyond camera estimation and scene reconstruction, our dataset also improves performance on downstream tasks like novel-view synthesis in challenging aerial-ground scenarios, demonstrating the practical value of our approach in real-world applications.

arxiv情報

著者 Khiem Vuong,Anurag Ghosh,Deva Ramanan,Srinivasa Narasimhan,Shubham Tulsiani
発行日 2025-04-17 17:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis はコメントを受け付けていません

Digital Twin Generation from Visual Data: A Survey

要約

この調査では、ビデオからデジタルツインを生成する最近の開発を調査します。
このようなデジタル双子は、ロボット工学アプリケーション、メディアコンテンツの作成、または設計および建設工事に使用できます。
3Dガウスのスプラッティング、生成的なインペーティング、セマンティックセグメンテーション、および基礎モデルなど、その利点と制限を強調するさまざまなアプローチを分析します。
さらに、閉塞、照明の変動、スケーラビリティなどの課題、および潜在的な将来の研究の方向性について説明します。
この調査の目的は、最新の方法論と現実世界のアプリケーションへの影響の包括的な概要を提供することです。
素晴らしいリスト:https://github.com/ndrwmlnk/awesome-digital-twins

要約(オリジナル)

This survey explores recent developments in generating digital twins from videos. Such digital twins can be used for robotics application, media content creation, or design and construction works. We analyze various approaches, including 3D Gaussian Splatting, generative in-painting, semantic segmentation, and foundation models highlighting their advantages and limitations. Additionally, we discuss challenges such as occlusions, lighting variations, and scalability, as well as potential future research directions. This survey aims to provide a comprehensive overview of state-of-the-art methodologies and their implications for real-world applications. Awesome list: https://github.com/ndrwmlnk/awesome-digital-twins

arxiv情報

著者 Andrew Melnik,Benjamin Alt,Giang Nguyen,Artur Wilkowski,Maciej Stefańczyk,Qirui Wu,Sinan Harms,Helge Rhodin,Manolis Savva,Michael Beetz
発行日 2025-04-17 17:57:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Digital Twin Generation from Visual Data: A Survey はコメントを受け付けていません

Personalized Text-to-Image Generation with Auto-Regressive Models

要約

パーソナライズされた画像合成は、テキストから画像の生成における極めて重要なアプリケーションとして浮上しており、さまざまなコンテキストで特定の主題を特徴とする画像の作成を可能にします。
拡散モデルはこのドメインを支配していますが、テキストと画像モデリングのための統一されたアーキテクチャを備えた自動回帰モデルは、パーソナライズされた画像生成のために拡大していないままです。
このペーパーでは、パーソナライズされた画像合成の自動回帰モデルを最適化する可能性を調査し、固有のマルチモーダル機能を活用してこのタスクを実行します。
テキスト埋め込みの最適化と変圧器層の微調整を組み合わせた2段階のトレーニング戦略を提案します。
自己回帰モデルに関する実験は、この方法が同等の主題の忠実度と、主要な拡散ベースのパーソナライゼーション方法に続く迅速なものを達成することを示しています。
結果は、パーソナライズされた画像生成における自動回帰モデルの有効性を強調し、この分野での将来の研究のための新しい方向性を提供します。

要約(オリジナル)

Personalized image synthesis has emerged as a pivotal application in text-to-image generation, enabling the creation of images featuring specific subjects in diverse contexts. While diffusion models have dominated this domain, auto-regressive models, with their unified architecture for text and image modeling, remain underexplored for personalized image generation. This paper investigates the potential of optimizing auto-regressive models for personalized image synthesis, leveraging their inherent multimodal capabilities to perform this task. We propose a two-stage training strategy that combines optimization of text embeddings and fine-tuning of transformer layers. Our experiments on the auto-regressive model demonstrate that this method achieves comparable subject fidelity and prompt following to the leading diffusion-based personalization methods. The results highlight the effectiveness of auto-regressive models in personalized image generation, offering a new direction for future research in this area.

arxiv情報

著者 Kaiyue Sun,Xian Liu,Yao Teng,Xihui Liu
発行日 2025-04-17 17:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Personalized Text-to-Image Generation with Auto-Regressive Models はコメントを受け付けていません