LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding

要約

暗黙の神経表現(INR)は、多様なデータドメイン全体でタスクモデリングを統合する上で強力なパラダイムであることが証明されており、メモリ効率や解像度の独立性などの重要な利点を提供します。
従来の深い学習モデルは通常、モダリティ依存性であり、多くの場合、さまざまな種類の信号に対してカスタムアーキテクチャと目標が必要です。
ただし、既存のINRフレームワークは、グローバルな潜在性のベクトルに依存することがよくあるか、より幅広い適用性を制限する計算の非効率性を示します。
Meta-Learningを通じてマルチスケール情報をキャプチャすることにより、これらの課題に対処する斬新で高性能のフレームワークであるLiftを紹介します。
リフトは、階層的潜在ジェネレーターと一緒に複数の平行な局所的な暗黙的関数をレバレッジし、ローカル、中間、およびグローバルな特徴に及ぶ統一された潜在表現を生成します。
このアーキテクチャは、ローカル地域間のスムーズな移行を促進し、推論効率を維持しながら表現力を高めます。
さらに、残留接続と表現力のある周波数エンコーディングを組み込んだリフトの強化されたバリアントであるReliftを紹介します。
この簡単なアプローチにより、Reliftは同等の方法で見つかった収束容量のギャップに効果的に対処し、容量を改善し、収束を高速化するための効率的で強力なソリューションを提供します。
経験的結果は、リフトが生成モデリングおよび分類タスクで最先端(SOTA)パフォーマンスを達成し、計算コストを顕著に削減することを示しています。
さらに、シングルタスクの設定では、合理化されたReliftアーキテクチャは、信号表現と逆問題タスクに効果的であることが証明されています。

要約(オリジナル)

Implicit Neural Representations (INRs) are proving to be a powerful paradigm in unifying task modeling across diverse data domains, offering key advantages such as memory efficiency and resolution independence. Conventional deep learning models are typically modality-dependent, often requiring custom architectures and objectives for different types of signals. However, existing INR frameworks frequently rely on global latent vectors or exhibit computational inefficiencies that limit their broader applicability. We introduce LIFT, a novel, high-performance framework that addresses these challenges by capturing multiscale information through meta-learning. LIFT leverages multiple parallel localized implicit functions alongside a hierarchical latent generator to produce unified latent representations that span local, intermediate, and global features. This architecture facilitates smooth transitions across local regions, enhancing expressivity while maintaining inference efficiency. Additionally, we introduce ReLIFT, an enhanced variant of LIFT that incorporates residual connections and expressive frequency encodings. With this straightforward approach, ReLIFT effectively addresses the convergence-capacity gap found in comparable methods, providing an efficient yet powerful solution to improve capacity and speed up convergence. Empirical results show that LIFT achieves state-of-the-art (SOTA) performance in generative modeling and classification tasks, with notable reductions in computational costs. Moreover, in single-task settings, the streamlined ReLIFT architecture proves effective in signal representations and inverse problem tasks.

arxiv情報

著者 Amirhossein Kazerouni,Soroush Mehraban,Michael Brudno,Babak Taati
発行日 2025-03-19 17:00:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding はコメントを受け付けていません

RMDM: Radio Map Diffusion Model with Physics Informed

要約

ワイヤレス通信技術の急速な発展に伴い、スペクトルリソースの効率的な利用、通信品質の最適化、およびインテリジェントコミュニケーションが重要になりました。
ラジオマップの再構築は、高度なアプリケーションを有効にするために不可欠ですが、複雑な信号伝播やまばらなデータなどの課題は正確な再構成を妨げます。
これらの問題に対処するために、**物理学に基づいたニューラルネットワーク(PINN)**を統合する物理学に基づいたフレームワークである**ラジオマップ拡散モデル(RMDM)**を提案します。
RMDMは、デュアルU-NETアーキテクチャを採用しています。1つ目は、PDE残差、境界条件、およびソースの制約を最小限に抑えることで物理的な一貫性を保証し、2番目の拡散ベースの除去を介して予測を改良します。
物理的法則を活用することにより、RMDMは精度、堅牢性、および一般化を大幅に向上させます。
実験は、RMDMが最先端の方法よりも優れていることを示しており、静的RM(SRM)設定の下で0.0031 **の** nmseおよび** rmseの0.0125 **、および0.0047 **の** nmseおよび** rmse 0.0146 **のダイナミックRM(DRM)設定で達成します。
これらの結果は、特にまばらなデータ条件下で、無線マップの再構築に物理情報に基づいたアプローチとデータ駆動型アプローチを統合するための新しいパラダイムを確立します。

要約(オリジナル)

With the rapid development of wireless communication technology, the efficient utilization of spectrum resources, optimization of communication quality, and intelligent communication have become critical. Radio map reconstruction is essential for enabling advanced applications, yet challenges such as complex signal propagation and sparse data hinder accurate reconstruction. To address these issues, we propose the **Radio Map Diffusion Model (RMDM)**, a physics-informed framework that integrates **Physics-Informed Neural Networks (PINNs)** to incorporate constraints like the **Helmholtz equation**. RMDM employs a dual U-Net architecture: the first ensures physical consistency by minimizing PDE residuals, boundary conditions, and source constraints, while the second refines predictions via diffusion-based denoising. By leveraging physical laws, RMDM significantly enhances accuracy, robustness, and generalization. Experiments demonstrate that RMDM outperforms state-of-the-art methods, achieving **NMSE of 0.0031** and **RMSE of 0.0125** under the Static RM (SRM) setting, and **NMSE of 0.0047** and **RMSE of 0.0146** under the Dynamic RM (DRM) setting. These results establish a novel paradigm for integrating physics-informed and data-driven approaches in radio map reconstruction, particularly under sparse data conditions.

arxiv情報

著者 Haozhe Jia,Wenshuo Chen,Zhihui Huang,Hongru Xiao,Nanqian Jia,Keming Wu,Songning Lai,Yutao Yue
発行日 2025-03-19 17:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RMDM: Radio Map Diffusion Model with Physics Informed はコメントを受け付けていません

Visual Position Prompt for MLLM based Visual Grounding

要約

マルチモーダルの大手言語モデル(MLLM)は、さまざまな画像関連のタスクに優れていますが、特に視覚接地などの位置認識タスクで、画像内の空間情報と正確に座標を整合することで課題に遭遇します。
この制限は、2つの重要な要因から生じます。
第一に、MLLMは明示的な空間的参照を欠いているため、テキストの説明を正確な画像の位置に関連付けることが困難です。
第二に、それらの機能抽出プロセスは、細粒の空間的詳細よりもグローバルコンテキストを優先し、ローカリゼーション能力が弱くなります。
この問題に対処するために、視覚的位置プロンプト(VPP)を装備したMLLMであるVPP-llavaを導入して、その接地機能を改善します。
VPP-llavaは、2つの相補的メカニズムを統合します。
グローバルVPPオーバーレイは、入力画像に軸のような埋め込みを学習可能で、構造化された空間キューを提供します。
ローカルVPPは、オブジェクトの位置を示唆する位置認識クエリを組み込むことにより、細粒のローカリゼーションに焦点を当てています。
また、0.6mのサンプルを備えたVPP-SFTデータセットを導入し、高品質の視覚的接地データを効率的なモデルトレーニングのためにコンパクト形式に統合します。
VPPを使用したこのデータセットでのトレーニングは、モデルのパフォーマンスを向上させ、Minigpt-V2などの他のMLLMと比較してより少ないトレーニングサンプルを使用しているにもかかわらず、標準の接地ベンチマークで最先端の結果を達成します。
コードとVPP-SFTデータセットは、受け入れればhttps://github.com/waynetomas/vpp-llavaで入手できます。

要約(オリジナル)

Although Multimodal Large Language Models (MLLMs) excel at various image-related tasks, they encounter challenges in precisely aligning coordinates with spatial information within images, particularly in position-aware tasks such as visual grounding. This limitation arises from two key factors. First, MLLMs lack explicit spatial references, making it difficult to associate textual descriptions with precise image locations. Second, their feature extraction processes prioritize global context over fine-grained spatial details, leading to weak localization capability. To address this issue, we introduce VPP-LLaVA, an MLLM equipped with Visual Position Prompt (VPP) to improve its grounding capability. VPP-LLaVA integrates two complementary mechanisms. The global VPP overlays learnable, axis-like embeddings onto the input image to provide structured spatial cues. The local VPP focuses on fine-grained localization by incorporating position-aware queries, which suggests probable object locations. We also introduce a VPP-SFT dataset with 0.6M samples, consolidating high-quality visual grounding data into a compact format for efficient model training. Training on this dataset with VPP enhances the model’s performance, achieving state-of-the-art results on standard grounding benchmarks despite using fewer training samples compared to other MLLMs like MiniGPT-v2, which rely on much larger datasets ($\sim$21M samples). The code and VPP-SFT dataset will be available at https://github.com/WayneTomas/VPP-LLaVA upon acceptance.

arxiv情報

著者 Wei Tang,Yanpeng Sun,Qinying Gu,Zechao Li
発行日 2025-03-19 17:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Visual Position Prompt for MLLM based Visual Grounding はコメントを受け付けていません

V2X-DG: Domain Generalization for Vehicle-to-Everything Cooperative Perception

要約

LIDARベースの車両からすべての車両(V2X)協同組合の認識は、自律運転の安全性と有効性への影響を実証しています。
現在の協同的認識アルゴリズムは同じデータセットでトレーニングおよびテストされているため、協同的認識システムの一般化能力は未脱カタリングのままです。
このペーパーは、4つの広く使用されているオープンソースデータセットに基づく3D検出のためのLIDARベースのV2X協同的認識(V2X-DG)のドメイン一般化問題を研究する最初の作業です:OPV2V、V2XSET、V2V4REAL、DAIR-V2X。
私たちの研究では、ソースドメイン内だけでなく、ソースドメインでのトレーニングのみを通じて達成される他の目に見えないドメイン全体で高性能を維持しようとしています。
この目的のために、協力的な知覚のドメインギャップ向けに設計された目に見えない協力をシミュレートすることにより、モデルの一般化能力を改善するために、協同組合混合拡張ベースの一般化(CMAG)を提案します。
さらに、CMAGによる一般化された協力の中間に融合した特徴と、ソースドメインでの元の協力の初期の融合機能を整列させる、堅牢な一般化された特徴表現学習:協力機能の一貫性(CFC)の正規化のための制約を提案します。
広範な実験は、他の目に見えないデータセットに一般化するときに、私たちのアプローチが大幅なパフォーマンスの向上を達成することを示していますが、ソースデータセットでも強力なパフォーマンスを維持しています。

要約(オリジナル)

LiDAR-based Vehicle-to-Everything (V2X) cooperative perception has demonstrated its impact on the safety and effectiveness of autonomous driving. Since current cooperative perception algorithms are trained and tested on the same dataset, the generalization ability of cooperative perception systems remains underexplored. This paper is the first work to study the Domain Generalization problem of LiDAR-based V2X cooperative perception (V2X-DG) for 3D detection based on four widely-used open source datasets: OPV2V, V2XSet, V2V4Real and DAIR-V2X. Our research seeks to sustain high performance not only within the source domain but also across other unseen domains, achieved solely through training on source domain. To this end, we propose Cooperative Mixup Augmentation based Generalization (CMAG) to improve the model generalization capability by simulating the unseen cooperation, which is designed compactly for the domain gaps in cooperative perception. Furthermore, we propose a constraint for the regularization of the robust generalized feature representation learning: Cooperation Feature Consistency (CFC), which aligns the intermediately fused features of the generalized cooperation by CMAG and the early fused features of the original cooperation in source domain. Extensive experiments demonstrate that our approach achieves significant performance gains when generalizing to other unseen datasets while it also maintains strong performance on the source dataset.

arxiv情報

著者 Baolu Li,Zongzhe Xu,Jinlong Li,Xinyu Liu,Jianwu Fang,Xiaopeng Li,Hongkai Yu
発行日 2025-03-19 17:17:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | V2X-DG: Domain Generalization for Vehicle-to-Everything Cooperative Perception はコメントを受け付けていません

MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

要約

このペーパーでは、テキストコンディショニングされたストリーミングモーション生成の課題に対処します。これにより、さまざまな長さの歴史的動きと着信テキストに基づいて、次の段階の人間のポーズを予測する必要があります。
既存の方法は、ストリーミングモーション生成を達成するのに苦労しています。たとえば、拡散モデルは事前に定義された運動長によって制約されますが、GPTベースの方法は、離散化された非因果性トークン化による応答と誤差の蓄積の問題に悩まされます。
これらの問題を解決するために、MotionsTreamerを提案します。MotionsStreamerは、継続的な因果潜在スペースを確率的自己回帰モデルに組み込んだ新しいフレームワークです。
連続的な潜伏は、離散化によって引き起こされる情報の損失を軽減し、長期の自己回帰生成中のエラーの蓄積を効果的に減少させます。
さらに、現在と履歴の動きの潜在性と履歴モーションの潜在性の間の時間的因果関係を確立することにより、我々のモデルは利用可能な情報を完全に利用して、正確なオンラインモーションデコードを実現します。
実験は、私たちの方法が既存のアプローチよりも優れていることを示しており、マルチラウンド生成、長期生成、動的運動構成など、より多くのアプリケーションを提供します。
プロジェクトページ:https://zju3dv.github.io/motionstreamer/

要約(オリジナル)

This paper addresses the challenge of text-conditioned streaming motion generation, which requires us to predict the next-step human pose based on variable-length historical motions and incoming texts. Existing methods struggle to achieve streaming motion generation, e.g., diffusion models are constrained by pre-defined motion lengths, while GPT-based methods suffer from delayed response and error accumulation problem due to discretized non-causal tokenization. To solve these problems, we propose MotionStreamer, a novel framework that incorporates a continuous causal latent space into a probabilistic autoregressive model. The continuous latents mitigate information loss caused by discretization and effectively reduce error accumulation during long-term autoregressive generation. In addition, by establishing temporal causal dependencies between current and historical motion latents, our model fully utilizes the available information to achieve accurate online motion decoding. Experiments show that our method outperforms existing approaches while offering more applications, including multi-round generation, long-term generation, and dynamic motion composition. Project Page: https://zju3dv.github.io/MotionStreamer/

arxiv情報

著者 Lixing Xiao,Shunlin Lu,Huaijin Pi,Ke Fan,Liang Pan,Yueer Zhou,Ziyong Feng,Xiaowei Zhou,Sida Peng,Jingbo Wang
発行日 2025-03-19 17:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space はコメントを受け付けていません

Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator

要約

マスクされた拡散モデル(MDMS)は、強力な生成モデリング手法として浮上しています。
彼らの驚くべき結果にもかかわらず、彼らは通常、いくつかのステップでの遅い推論に苦しんでいます。
この論文では、di $ \ mathtt {[m]} $ oを提案します。これは、マスクされた拡散モデルをワンステップジェネレーターに蒸留する新しいアプローチです。
di $ \ mathtt {[m]} $ o 2つの重要な課題に対処します。(1)1段階の生成に中間ステップ情報を使用することの操作性。これは、補助モデルの助けを借りて「オンポリティフレームワーク」によるモデル出力ロジットを最適化するトークンレベルの分布マッチングを通じて解決します。
(2)初期分布におけるエントロピーの欠如。これは、教師のトレーニング分布と類似性を維持しながらランダム性を注入するトークン初期化戦略を通じて対処します。
di $ \ mathtt {[m]} $ oのクラス条件付きおよびテキストコンディショナル画像生成の両方に対する有効性を示し、推論時間を大幅に削減しながら、マルチステップの教師の出力に対して競争力のあるパフォーマンスを印象的に達成します。
私たちの知る限り、私たちはマスクされた拡散モデルのワンステップ蒸留を成功裏に達成した最初の人物であり、テキストからイメージの生成に個別の蒸留を適用し、効率的な生成モデリングのための新しいパスを開きます。

要約(オリジナル)

Masked Diffusion Models (MDMs) have emerged as a powerful generative modeling technique. Despite their remarkable results, they typically suffer from slow inference with several steps. In this paper, we propose Di$\mathtt{[M]}$O, a novel approach that distills masked diffusion models into a one-step generator. Di$\mathtt{[M]}$O addresses two key challenges: (1) the intractability of using intermediate-step information for one-step generation, which we solve through token-level distribution matching that optimizes model output logits by an ‘on-policy framework’ with the help of an auxiliary model; and (2) the lack of entropy in the initial distribution, which we address through a token initialization strategy that injects randomness while maintaining similarity to teacher training distribution. We show Di$\mathtt{[M]}$O’s effectiveness on both class-conditional and text-conditional image generation, impressively achieving performance competitive to multi-step teacher outputs while drastically reducing inference time. To our knowledge, we are the first to successfully achieve one-step distillation of masked diffusion models and the first to apply discrete distillation to text-to-image generation, opening new paths for efficient generative modeling.

arxiv情報

著者 Yuanzhi Zhu,Xi Wang,Stéphane Lathuilière,Vicky Kalogeiton
発行日 2025-03-19 17:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator はコメントを受け付けていません

FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers

要約

拡散モデル(DM)は、テキストからイメージまでの視覚生成プロセスに革命をもたらしました。
ただし、DMSの大きな計算コストとモデルのフットプリントは、特にエッジデバイスでの実用的な展開を妨げます。
トレーニング後の量子化(PTQ)は、トレーニングや微調整を必要とせずにこれらの負担を軽減する軽量の方法です。
最近のDM PTQメソッドは、整数ベースのPTQでW4A8を達成しますが、2つの重要な制限は残ります。最初に、ほとんどの既存のDM PTQメソッドは、逆拡散XL、1.5以前の安定した拡散XLなどの古典的なDMを評価します。
第二に、整数(INT)量子化はDM PTQで普及していますが、ネットワークの重みと活性化の分布とうまく整合していませんが、浮動小数点量子化(FPQ)は依然として投資不足ですが、DITの低ビット設定での重量と活性化分布をよりよく調整する可能性があります。
これに応じて、FP4DITを紹介します。FP4DITは、FPQを活用してW4A6量子化を達成するPTQメソッドです。
具体的には、適応型の丸めPTQ技術を拡張して一般化して、FPQの重量量子化を適切に調整し、DITアクティベーションが入力パッチデータに依存し、堅牢なオンラインアクティベーション量子化技術が必要であることを実証します。
実験結果は、FP4DITがW4A6およびW4A8精度で整数ベースのPTQを上回り、PIXART-$ \ ALPHA $、PIXART-$ \ SIGMA $およびHUNYUANで説得力のある視覚コンテンツを生成することを示しています。

要約(オリジナル)

Diffusion Models (DM) have revolutionized the text-to-image visual generation process. However, the large computational cost and model footprint of DMs hinders practical deployment, especially on edge devices. Post-training quantization (PTQ) is a lightweight method to alleviate these burdens without the need for training or fine-tuning. While recent DM PTQ methods achieve W4A8 on integer-based PTQ, two key limitations remain: First, while most existing DM PTQ methods evaluate on classical DMs like Stable Diffusion XL, 1.5 or earlier, which use convolutional U-Nets, newer Diffusion Transformer (DiT) models like the PixArt series, Hunyuan and others adopt fundamentally different transformer backbones to achieve superior image synthesis. Second, integer (INT) quantization is prevailing in DM PTQ but doesn’t align well with the network weight and activation distribution, while Floating-Point Quantization (FPQ) is still under-investigated, yet it holds the potential to better align the weight and activation distributions in low-bit settings for DiT. In response, we introduce FP4DiT, a PTQ method that leverages FPQ to achieve W4A6 quantization. Specifically, we extend and generalize the Adaptive Rounding PTQ technique to adequately calibrate weight quantization for FPQ and demonstrate that DiT activations depend on input patch data, necessitating robust online activation quantization techniques. Experimental results demonstrate that FP4DiT outperforms integer-based PTQ at W4A6 and W4A8 precision and generates convincing visual content on PixArt-$\alpha$, PixArt-$\Sigma$ and Hunyuan in terms of several T2I metrics such as HPSv2 and CLIP.

arxiv情報

著者 Ruichen Chen,Keith G. Mills,Di Niu
発行日 2025-03-19 17:44:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FP4DiT: Towards Effective Floating Point Quantization for Diffusion Transformers はコメントを受け付けていません

EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining

要約

エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に進歩しています。
人間は完全に3Dの世界と相互作用し、テキストベースの理解を超えて広がる空間的認識を開発します。
ただし、ほとんどの以前の作品は、1Dテキストや、本質的に3Dの理解を欠いている境界ボックスなどの2Dビジュアルキューから学習しています。
このギャップを埋めるために、大規模な3Dに認識されたビデオ事前トレーニングとビデオテキストの対照学習を通じて共同で訓練されたエゴセントリックの深さとテキスト認識モデルであるEgoDTMを紹介します。
EGODTMには、深度推定モデルによって生成された擬似深度マップから3D認識を効率的に学習するために、軽量の3D対応デコーダーが組み込まれています。
3D認識のビデオ事前化をさらに容易にするために、いくつかの基礎モデルを組織することにより、ハンドオブジェクトの視覚的な手がかりで元の短いキャプションを豊かにします。
広範な実験は、多様なダウンストリームタスクにわたるEgoDTMの優れたパフォーマンスを示しており、その優れた3Dに認識された視覚的理解を強調しています。
コードはhttps://github.com/xuboshen/egodtmでリリースされます。

要約(オリジナル)

Egocentric video-language pretraining has significantly advanced video representation learning. Humans perceive and interact with a fully 3D world, developing spatial awareness that extends beyond text-based understanding. However, most previous works learn from 1D text or 2D visual cues, such as bounding boxes, which inherently lack 3D understanding. To bridge this gap, we introduce EgoDTM, an Egocentric Depth- and Text-aware Model, jointly trained through large-scale 3D-aware video pretraining and video-text contrastive learning. EgoDTM incorporates a lightweight 3D-aware decoder to efficiently learn 3D-awareness from pseudo depth maps generated by depth estimation models. To further facilitate 3D-aware video pretraining, we enrich the original brief captions with hand-object visual cues by organically combining several foundation models. Extensive experiments demonstrate EgoDTM’s superior performance across diverse downstream tasks, highlighting its superior 3D-aware visual understanding. Our code will be released at https://github.com/xuboshen/EgoDTM.

arxiv情報

著者 Boshen Xu,Yuting Mei,Xinbi Liu,Sipeng Zheng,Qin Jin
発行日 2025-03-19 17:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining はコメントを受け付けていません

Toward task-driven satellite image super-resolution

要約

超解像度は、低解像度の観測から高解像度の画像を再構築することを目的としています。
深い学習で支えられた最先端のアプローチにより、優れた結果を得て、高い知覚品質の画像を生成できます。
ただし、再構築された詳細が実際のグラウンドトゥルース情報に近いかどうか、およびそれらが画像分析アルゴリズムのより価値のあるソースを構成するかどうかは不明のままです。
報告された研究では、後者の問題に対処し、自動画像分析に悪用できる高解像度画像を生成するのに適したタスク駆動型の方法で超解像度アルゴリズムを学習するための取り組みを提示します。
報告された最初の研究では、スーパー解像度の再構築アルゴリズムの評価に使用できるかどうかという点でコンピュータービジョンタスクを実行する既存のモデルを評価するための方法論的アプローチを提案し、タスク駆動型の方法でトレーニングします。
私たちは実験的研究で分析をサポートし、現実世界の超解像度の能力を前進させる適切なコンピュータービジョンタスクを選択するための強固な基盤を確立することを期待しています。

要約(オリジナル)

Super-resolution is aimed at reconstructing high-resolution images from low-resolution observations. State-of-the-art approaches underpinned with deep learning allow for obtaining outstanding results, generating images of high perceptual quality. However, it often remains unclear whether the reconstructed details are close to the actual ground-truth information and whether they constitute a more valuable source for image analysis algorithms. In the reported work, we address the latter problem, and we present our efforts toward learning super-resolution algorithms in a task-driven way to make them suitable for generating high-resolution images that can be exploited for automated image analysis. In the reported initial research, we propose a methodological approach for assessing the existing models that perform computer vision tasks in terms of whether they can be used for evaluating super-resolution reconstruction algorithms, as well as training them in a task-driven way. We support our analysis with experimental study and we expect it to establish a solid foundation for selecting appropriate computer vision tasks that will advance the capabilities of real-world super-resolution.

arxiv情報

著者 Maciej Ziaja,Pawel Kowaleczko,Daniel Kostrzewa,Nicolas Longépé,Michal Kawulok
発行日 2025-03-19 17:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Toward task-driven satellite image super-resolution はコメントを受け付けていません

Cube: A Roblox View of 3D Intelligence

要約

膨大な量のデータで訓練された基礎モデルは、テキスト、画像、オーディオ、ビデオのドメインで顕著な推論と生成機能を実証しています。
Robloxでの私たちの目標は、3Dオブジェクトやシーンの生成からアニメーションのリギングまで、オブジェクトの動作を説明するプログラマティックスクリプトを作成するまで、Robloxエクスペリエンスのあらゆる側面を生成する開発者をサポートできるモデルである3D Intelligenceのこのような基盤モデルを構築することです。
このような3Dファンデーションモデルの3つの重要な設計要件について説明し、そのようなモデルの構築に向けた最初のステップを提示します。
3D幾何学的形状がコアデータ型になると予想し、3D形状トークン剤のソリューションを説明します。
テキストから形への生成、形状からテキストの生成、テキスト間生成のためのアプリケーションでトークン化スキームをどのように使用できるかを示します。
これらのアプリケーションが既存の大規模な言語モデル(LLM)と協力して、シーン分析と推論を実行する方法を示します。
最後に、3Dインテリジェンスのための完全に統一された基礎モデルを構築するための道のりの概要を説明する議論で結論付けます。

要約(オリジナル)

Foundation models trained on vast amounts of data have demonstrated remarkable reasoning and generation capabilities in the domains of text, images, audio and video. Our goal at Roblox is to build such a foundation model for 3D intelligence, a model that can support developers in producing all aspects of a Roblox experience, from generating 3D objects and scenes to rigging characters for animation to producing programmatic scripts describing object behaviors. We discuss three key design requirements for such a 3D foundation model and then present our first step towards building such a model. We expect that 3D geometric shapes will be a core data type and describe our solution for 3D shape tokenizer. We show how our tokenization scheme can be used in applications for text-to-shape generation, shape-to-text generation and text-to-scene generation. We demonstrate how these applications can collaborate with existing large language models (LLMs) to perform scene analysis and reasoning. We conclude with a discussion outlining our path to building a fully unified foundation model for 3D intelligence.

arxiv情報

著者 Foundation AI Team,Kiran Bhat,Nishchaie Khanna,Karun Channa,Tinghui Zhou,Yiheng Zhu,Xiaoxia Sun,Charles Shang,Anirudh Sudarshan,Maurice Chu,Daiqing Li,Kangle Deng,Jean-Philippe Fauconnier,Tijmen Verhulsdonck,Maneesh Agrawala,Kayvon Fatahalian,Alexander Weiss,Christian Reiser,Ravi Kiran Chirravuri,Ravali Kandur,Alejandro Pelaez,Akash Garg,Michael Palleschi,Jessica Wang,Skylar Litz,Leon Liu,Anying Li,David Harmon,Derek Liu,Liangjun Feng,Denis Goupil,Lukas Kuczynski,Jihyun Yoon,Naveen Marri,Peiye Zhuang,Yinan Zhang,Brian Yin,Haomiao Jiang,Marcel van Workum,Thomas Lane,Bryce Erickson,Salil Pathare,Kyle Price,Anupam Singh,David Baszucki
発行日 2025-03-19 17:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cube: A Roblox View of 3D Intelligence はコメントを受け付けていません