DPMambaIR:All-in-One Image Restoration via Degradation-Aware Prompt State Space Model

要約

オールインワン画像の修復は、単一のモデルを使用して複数の画像劣化の問題に対処することを目的としており、各分解タイプの専用モデルを設計する従来の方法と比較して、トレーニングコストと展開の複雑さを大幅に削減します。
既存のアプローチは、通常、画像の復元を導くために、分解固有のモデルまたは粗粒の分解プロンプトに依存しています。
ただし、マルチタスク競合のバランスをとる際の劣化情報の細かいモデリングと直面の制限がありません。
これらの制限を克服するために、斬新なオールインワン画像修復フレームワークであるDPMambairを提案します。
DPMAMBAIRは、分解を認識したプロンプト状態空間モデル(DP-SSM)と高頻度エンハンスメントブロック(HEB)を統合することにより、複雑な分解情報の微調整されたモデリングと効率的なグローバル統合を可能にし、タスク競合によって引き起こされる高周波の詳細の喪失を軽減します。
具体的には、DP-SSMは事前に訓練された分解抽出器を利用して微調整された劣化の特徴をキャプチャし、それらを動的に状態空間モデリングプロセスに組み込み、モデルの多様な分解タイプへの適応性を高めます。
同時に、HEBは高周波情報をサプリメントし、マルチタスク画像修復シナリオで、エッジやテクスチャなどの重要な詳細の喪失に効果的に対処します。
7つの劣化タイプを含む混合データセットでの広範な実験は、DPMambairがPSNRとSSIMでそれぞれ27.69dBと0.893で最高のパフォーマンスを達成することを示しています。
これらの結果は、オールインワンの画像修復のための統一されたソリューションとしてのDPMambairの潜在的および優位性を強調しています。

要約(オリジナル)

All-in-One image restoration aims to address multiple image degradation problems using a single model, significantly reducing training costs and deployment complexity compared to traditional methods that design dedicated models for each degradation type. Existing approaches typically rely on Degradation-specific models or coarse-grained degradation prompts to guide image restoration. However, they lack fine-grained modeling of degradation information and face limitations in balancing multi-task conflicts. To overcome these limitations, we propose DPMambaIR, a novel All-in-One image restoration framework. By integrating a Degradation-Aware Prompt State Space Model (DP-SSM) and a High-Frequency Enhancement Block (HEB), DPMambaIR enables fine-grained modeling of complex degradation information and efficient global integration, while mitigating the loss of high-frequency details caused by task competition. Specifically, the DP-SSM utilizes a pre-trained degradation extractor to capture fine-grained degradation features and dynamically incorporates them into the state space modeling process, enhancing the model’s adaptability to diverse degradation types. Concurrently, the HEB supplements high-frequency information, effectively addressing the loss of critical details, such as edges and textures, in multi-task image restoration scenarios. Extensive experiments on a mixed dataset containing seven degradation types show that DPMambaIR achieves the best performance, with 27.69dB and 0.893 in PSNR and SSIM, respectively. These results highlight the potential and superiority of DPMambaIR as a unified solution for All-in-One image restoration.

arxiv情報

著者 Zhanwen Liu,Sai Zhou,Yuchao Dai,Yang Wang,Yisheng An,Xiangmo Zhao
発行日 2025-04-24 16:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.4 | DPMambaIR:All-in-One Image Restoration via Degradation-Aware Prompt State Space Model はコメントを受け付けていません

EgoCHARM: Resource-Efficient Hierarchical Activity Recognition using an Egocentric IMU Sensor

要約

SmartGlassesの人間の活動認識(HAR)には、健康/フィットネス追跡やコンテキスト認識AIアシスタントの入力など、さまざまなユースケースがあります。
ただし、エゴセントリックアクティビティ認識の現在のアプローチは、パフォーマンスが低いか、リソース集約型です。
この作業では、単一のエゴセントリック(ヘッドマウント)慣性測定ユニット(IMU)を使用して高レベルと低レベルのアクティビティの両方を認識するために、リソース(メモリ、コンピューティング、電源、サンプル)効率的な機械学習アルゴリズム、EgoCharmを紹介します。
当社の階層アルゴリズムは、低レベルのアクティビティ認識に効果的に利用できる一般化可能な低レベルの動き埋め込みを学習するために、主に高レベルのアクティビティラベルをトレーニングに必要とする半監視学習戦略を採用しています。
9つの高レベルおよび3つの低レベルのアクティビティで、高レベルおよび低レベルのアクティビティ認識でそれぞれ0.826および0.855 F1スコアを達成する3つの低レベルのアクティビティを評価します。高レベルと22kの低レベルモデルパラメーターで、低レベルのエンコーダーを電流IMUチップに直接展開できます。
最後に、感度分析からの結果と洞察を提示し、エゴセントリックIMUを使用した活動認識の機会と制限を強調します。

要約(オリジナル)

Human activity recognition (HAR) on smartglasses has various use cases, including health/fitness tracking and input for context-aware AI assistants. However, current approaches for egocentric activity recognition suffer from low performance or are resource-intensive. In this work, we introduce a resource (memory, compute, power, sample) efficient machine learning algorithm, EgoCHARM, for recognizing both high level and low level activities using a single egocentric (head-mounted) Inertial Measurement Unit (IMU). Our hierarchical algorithm employs a semi-supervised learning strategy, requiring primarily high level activity labels for training, to learn generalizable low level motion embeddings that can be effectively utilized for low level activity recognition. We evaluate our method on 9 high level and 3 low level activities achieving 0.826 and 0.855 F1 scores on high level and low level activity recognition respectively, with just 63k high level and 22k low level model parameters, allowing the low level encoder to be deployed directly on current IMU chips with compute. Lastly, we present results and insights from a sensitivity analysis and highlight the opportunities and limitations of activity recognition using egocentric IMUs.

arxiv情報

著者 Akhil Padmanabha,Saravanan Govindarajan,Hwanmun Kim,Sergio Ortiz,Rahul Rajan,Doruk Senkal,Sneha Kadetotad
発行日 2025-04-24 16:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | EgoCHARM: Resource-Efficient Hierarchical Activity Recognition using an Egocentric IMU Sensor はコメントを受け付けていません

Step1X-Edit: A Practical Framework for General Image Editing

要約

近年、画像編集モデルは驚くべき急速な発展を目撃しています。
GPT-4OやGemini2 Flashなどの最先端のマルチモーダルモデルの最近の発表により、非常に有望な画像編集機能が導入されました。
これらのモデルは、ユーザー駆動型の編集要件の大部分を満たすことに対する印象的な適性を示しており、画像操作の分野での大幅な進歩を示しています。
ただし、これらのクローズドソースモデルを使用して、オープンソースアルゴリズムの間にはまだ大きなギャップがあります。
したがって、この論文では、GPT-4OやGemini2 Flashなどのクローズドソースモデルと同等のパフォーマンスを提供できるStep1x-Editと呼ばれる最先端の画像編集モデルをリリースすることを目指しています。
より具体的には、マルチモーダルLLMを採用して、参照画像とユーザーの編集命令を処理します。
潜在的な埋め込みが抽出され、拡散画像デコーダーと統合されて、ターゲット画像が取得されます。
モデルをトレーニングするために、データ生成パイプラインを構築して高品質のデータセットを作成します。
評価のために、実際のユーザーの指示に根ざした新しいベンチマークであるGEDITベンチを開発します。
GEDITベンチの実験結果は、STEP1X-EDITが既存のオープンソースベースラインを大幅にマージンで上回り、主要な独自モデルのパフォーマンスに近づいていることを示しており、それにより画像編集の分野に多大な貢献をしています。

要約(オリジナル)

In recent years, image editing models have witnessed remarkable and rapid development. The recent unveiling of cutting-edge multimodal models such as GPT-4o and Gemini2 Flash has introduced highly promising image editing capabilities. These models demonstrate an impressive aptitude for fulfilling a vast majority of user-driven editing requirements, marking a significant advancement in the field of image manipulation. However, there is still a large gap between the open-source algorithm with these closed-source models. Thus, in this paper, we aim to release a state-of-the-art image editing model, called Step1X-Edit, which can provide comparable performance against the closed-source models like GPT-4o and Gemini2 Flash. More specifically, we adopt the Multimodal LLM to process the reference image and the user’s editing instruction. A latent embedding has been extracted and integrated with a diffusion image decoder to obtain the target image. To train the model, we build a data generation pipeline to produce a high-quality dataset. For evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world user instructions. Experimental results on GEdit-Bench demonstrate that Step1X-Edit outperforms existing open-source baselines by a substantial margin and approaches the performance of leading proprietary models, thereby making significant contributions to the field of image editing.

arxiv情報

著者 Shiyu Liu,Yucheng Han,Peng Xing,Fukun Yin,Rui Wang,Wei Cheng,Jiaqi Liao,Yingming Wang,Honghao Fu,Chunrui Han,Guopeng Li,Yuang Peng,Quan Sun,Jingwei Wu,Yan Cai,Zheng Ge,Ranchen Ming,Lei Xia,Xianfang Zeng,Yibo Zhu,Binxing Jiao,Xiangyu Zhang,Gang Yu,Daxin Jiang
発行日 2025-04-24 17:25:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Step1X-Edit: A Practical Framework for General Image Editing はコメントを受け付けていません

ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images

要約

医療画像技術の進歩により、疾患の進行を監視するために、同じ患者の繰り返しスキャンを伴う縦方向の画像の収集が可能になりました。
ただし、このようなデータの予測モデリングは、高次元、不規則なサンプリング、およびデータスパースのために困難なままです。
これらの問題に対処するために、空間的な詳細を維持しながら初期画像から疾患の軌跡を予測するように設計された新しいモデルであるImageFlownetを提案します。
ImageFlownetは、最初に患者と時点でマルチスケールの関節表現スペースを学習し、次にポジションパラメーター化されたニューラルODE/SDEフレームワークを使用して、これらのスペース内の決定論的または確率的な流れ場を最適化します。
このモデルは、UNETアーキテクチャを活用して、堅牢なマルチスケール表現を作成し、すべての患者の知識を組み合わせることにより、データ不足を軽減します。
私たちは、ODEの定式化をサポートする理論的洞察を提供し、高レベルの視覚的特徴、潜在的な空間組織、および軌道の滑らかさを含む正則化を動機付けます。
地理的萎縮、多発性硬化症、膠芽腫の進行を描いた3つの縦方向の医療画像データセットでImageFlownetを検証し、疾患の進行を効果的に予測し、既存の方法を上回る能力を示しています。
私たちの貢献には、ImageFlownetの開発、その理論的基盤、および実際のデータセットの経験的検証が含まれます。
公式実装は、https://github.com/krishnaswamylab/imageflownetで入手できます。

要約(オリジナル)

Advances in medical imaging technologies have enabled the collection of longitudinal images, which involve repeated scanning of the same patients over time, to monitor disease progression. However, predictive modeling of such data remains challenging due to high dimensionality, irregular sampling, and data sparsity. To address these issues, we propose ImageFlowNet, a novel model designed to forecast disease trajectories from initial images while preserving spatial details. ImageFlowNet first learns multiscale joint representation spaces across patients and time points, then optimizes deterministic or stochastic flow fields within these spaces using a position-parameterized neural ODE/SDE framework. The model leverages a UNet architecture to create robust multiscale representations and mitigates data scarcity by combining knowledge from all patients. We provide theoretical insights that support our formulation of ODEs, and motivate our regularizations involving high-level visual features, latent space organization, and trajectory smoothness. We validate ImageFlowNet on three longitudinal medical image datasets depicting progression in geographic atrophy, multiple sclerosis, and glioblastoma, demonstrating its ability to effectively forecast disease progression and outperform existing methods. Our contributions include the development of ImageFlowNet, its theoretical underpinnings, and empirical validation on real-world datasets. The official implementation is available at https://github.com/KrishnaswamyLab/ImageFlowNet.

arxiv情報

著者 Chen Liu,Ke Xu,Liangbo L. Shen,Guillaume Huguet,Zilong Wang,Alexander Tong,Danilo Bzdok,Jay Stewart,Jay C. Wang,Lucian V. Del Priore,Smita Krishnaswamy
発行日 2025-04-24 17:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images はコメントを受け付けていません

DiffKillR: Killing and Recreating Diffeomorphisms for Cell Annotation in Dense Microscopy Images

要約

自動化された全体のスライドスキャンの進歩によって駆動されるデジタル顕微鏡画像の増殖は、生物医学研究と臨床診断の重要な機会を提供します。
ただし、これらの画像で密に詰め込まれた情報を正確に注釈することは大きな課題です。
これに対処するために、Archetypeマッチングと画像登録タスクの組み合わせとしてセルアノテーションを再構成する新しいフレームワークであるDiffKillrを紹介します。
diffkillrは、2つの相補的なニューラルネットワークを採用しています。1つは、堅牢なセルマッチングのための違いのない特徴空間を学習し、もう1つは注釈マッピングのためのセル間の正確な歪みフィールドを計算するものです。
注釈付きのアーキタイプの小さなセットを使用して、diffkillrは大きな顕微鏡画像全体で注釈を効率的に伝播し、広範なマニュアルラベル付けの必要性を減らします。
さらに重要なことは、あらゆる種類のピクセルレベルの注釈に適していることです。
diffkillrの理論的特性について説明し、3つの顕微鏡タスクでそれを検証し、既存の監視、半監視、および監視なしの方法に対する利点を示します。
このコードは、https://github.com/krishnaswamylab/diffkillrで入手できます。

要約(オリジナル)

The proliferation of digital microscopy images, driven by advances in automated whole slide scanning, presents significant opportunities for biomedical research and clinical diagnostics. However, accurately annotating densely packed information in these images remains a major challenge. To address this, we introduce DiffKillR, a novel framework that reframes cell annotation as the combination of archetype matching and image registration tasks. DiffKillR employs two complementary neural networks: one that learns a diffeomorphism-invariant feature space for robust cell matching and another that computes the precise warping field between cells for annotation mapping. Using a small set of annotated archetypes, DiffKillR efficiently propagates annotations across large microscopy images, reducing the need for extensive manual labeling. More importantly, it is suitable for any type of pixel-level annotation. We will discuss the theoretical properties of DiffKillR and validate it on three microscopy tasks, demonstrating its advantages over existing supervised, semi-supervised, and unsupervised methods. The code is available at https://github.com/KrishnaswamyLab/DiffKillR.

arxiv情報

著者 Chen Liu,Danqi Liao,Alejandro Parada-Mayorga,Alejandro Ribeiro,Marcello DiStasio,Smita Krishnaswamy
発行日 2025-04-24 17:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DiffKillR: Killing and Recreating Diffeomorphisms for Cell Annotation in Dense Microscopy Images はコメントを受け付けていません

HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding

要約

マルチモーダルの大手言語モデル(MLLM)の進歩にもかかわらず、現在のアプローチは、フレームとコンテキストの長さの制限により、中程度から長いビデオ理解に苦労しています。
その結果、これらのモデルは多くの場合、フレームサンプリングに依存します。フレームサンプリングは、時間の経過とともに重要な情報が欠落しているリスクがあり、タスク固有の関連性を欠いています。
これらの課題に対処するために、LLMのコンテキスト長の制限を避けながら、フレームの必要性をバイパスするためにフレームを順次処理するタスクに対応する階層Q-formerベースのフレームワークであるHierarqを導入します。
軽量の2ストリーム言語誘導機能変調器を導入して、ビデオ理解にタスク認識を組み込むことができます。エンティティストリームは、短いコンテキスト内でフレームレベルのオブジェクト情報をキャプチャし、シーンストリームはより広範な相互作用を識別します。
各ストリームは、提案されているHierachicalクエリトランス(HierARQ)が短期的および長期的なコンテキストを効果的にキャプチャできるようにする専用のメモリバンクによってサポートされています。
ビデオの理解、質問への回答、およびキャプションタスク全体の10のビデオベンチマークに関する広範な評価は、ほとんどのデータセットにわたってHierARQの最先端のパフォーマンスを示し、包括的なビデオ分析のための堅牢性と効率性を証明しています。

要約(オリジナル)

Despite advancements in multimodal large language models (MLLMs), current approaches struggle in medium-to-long video understanding due to frame and context length limitations. As a result, these models often depend on frame sampling, which risks missing key information over time and lacks task-specific relevance. To address these challenges, we introduce HierarQ, a task-aware hierarchical Q-Former based framework that sequentially processes frames to bypass the need for frame sampling, while avoiding LLM’s context length limitations. We introduce a lightweight two-stream language-guided feature modulator to incorporate task awareness in video understanding, with the entity stream capturing frame-level object information within a short context and the scene stream identifying their broader interactions over longer period of time. Each stream is supported by dedicated memory banks which enables our proposed Hierachical Querying transformer (HierarQ) to effectively capture short and long-term context. Extensive evaluations on 10 video benchmarks across video understanding, question answering, and captioning tasks demonstrate HierarQ’s state-of-the-art performance across most datasets, proving its robustness and efficiency for comprehensive video analysis.

arxiv情報

著者 Shehreen Azad,Vibhav Vineet,Yogesh Singh Rawat
発行日 2025-04-24 17:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding はコメントを受け付けていません

The Fourth Monocular Depth Estimation Challenge

要約

このホワイトペーパーでは、第4版のMonocular Depth推定チャレンジ(MDEC)の結果を紹介します。これは、自然と屋内の両方の設定で挑戦的な環境を備えたデータセットであるSyns-Patchesベンチマークのゼロショット一般化に焦点を当てています。
このエディションでは、評価プロトコルを修正して、格差とアフィン不変の予測をサポートするために、2つの自由度で最小二乗アライメントを使用しました。
また、ベースラインを改訂し、人気のある既製の方法:深さV2とマリーゴールドを含めました。
この課題は、テストセットのベースラインを上回る合計24の提出物を受け取りました。
これらのうち10には、アフィン不変の予測に依存しているほとんどの主要な方法で、そのアプローチを説明するレポートが含まれていました。
チャレンジの勝者は、前のエディションの最良の結果で3D Fスコアを改善し、22.58%から23.05%に引き上げました。

要約(オリジナル)

This paper presents the results of the fourth edition of the Monocular Depth Estimation Challenge (MDEC), which focuses on zero-shot generalization to the SYNS-Patches benchmark, a dataset featuring challenging environments in both natural and indoor settings. In this edition, we revised the evaluation protocol to use least-squares alignment with two degrees of freedom to support disparity and affine-invariant predictions. We also revised the baselines and included popular off-the-shelf methods: Depth Anything v2 and Marigold. The challenge received a total of 24 submissions that outperformed the baselines on the test set; 10 of these included a report describing their approach, with most leading methods relying on affine-invariant predictions. The challenge winners improved the 3D F-Score over the previous edition’s best result, raising it from 22.58% to 23.05%.

arxiv情報

著者 Anton Obukhov,Matteo Poggi,Fabio Tosi,Ripudaman Singh Arora,Jaime Spencer,Chris Russell,Simon Hadfield,Richard Bowden,Shuaihang Wang,Zhenxin Ma,Weijie Chen,Baobei Xu,Fengyu Sun,Di Xie,Jiang Zhu,Mykola Lavreniuk,Haining Guan,Qun Wu,Yupei Zeng,Chao Lu,Huanran Wang,Guangyuan Zhou,Haotian Zhang,Jianxiong Wang,Qiang Rao,Chunjie Wang,Xiao Liu,Zhiqiang Lou,Hualie Jiang,Yihao Chen,Rui Xu,Minglang Tan,Zihan Qin,Yifan Mao,Jiayang Liu,Jialei Xu,Yifan Yang,Wenbo Zhao,Junjun Jiang,Xianming Liu,Mingshuai Zhao,Anlong Ming,Wu Chen,Feng Xue,Mengying Yu,Shida Gao,Xiangfeng Wang,Gbenga Omotara,Ramy Farag,Jacket Demby,Seyed Mohamad Ali Tousi,Guilherme N DeSouza,Tuan-Anh Yang,Minh-Quang Nguyen,Thien-Phuc Tran,Albert Luginov,Muhammad Shahzad
発行日 2025-04-24 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Fourth Monocular Depth Estimation Challenge はコメントを受け付けていません

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

要約

言語生成において長く支配的な自己回帰(AR)モデルは、画像合成にますます適用されていますが、拡散ベースのモデルよりも競争力が低いと見なされることがよくあります。
主な制限は、ARモデルに必要なかなりの数の画像トークンであり、トレーニングと推論効率の両方、ならびに画像解像度の両方を制約します。
これに対処するために、Token-Shuffleを提示します。これは、変圧器の画像トークンの数を減らす斬新でシンプルな方法です。
私たちの重要な洞察は、視覚エンコーダーからの低次元の視覚コードが高次元の言語語彙に直接マッピングされるマルチモーダル大手言語モデル(MLLM)における視覚語彙の寸法冗長性です。
これを活用して、2つの重要な操作を検討します。トークンシャッフルは、チャネル寸法に沿って空間的に局所的なトークンをマージして入力トークン数を減少させます。トークン非シャッフルは、変圧器ブロック後に推定されるトークンを解き放ち、出力の空間配置を復元します。
テキストのプロンプトと共同トレーニングを行うと、当社の戦略は追加の前提条件のテキストエンコーダーを必要とせず、MLLMが効率的なトレーニングと推論を維持しながら、統一された次のトークン予測方法で非常に高解像度の画像合成をサポートできるようにします。
初めて、ARテキストからイメージの生成の境界を、満足のいく生成パフォーマンスで2048×2048の解像度に押し上げます。
Genaiベンチマークでは、2.7Bモデルはハードプロンプトで0.77の総合スコアを達成し、ARモデルLlamagenを0.18、拡散モデルLDMを0.15に上回ります。
徹底的な大規模な人間の評価は、テキスト調整、視覚的欠陥、視覚的外観の観点から、私たちの顕著な画像生成能力を示しています。
トークンシャッフルが、MLLM内の効率的な高解像度の画像生成の基礎デザインとして機能することを願っています。

要約(オリジナル)

Autoregressive (AR) models, long dominant in language generation, are increasingly applied to image synthesis but are often considered less competitive than Diffusion-based models. A primary limitation is the substantial number of image tokens required for AR models, which constrains both training and inference efficiency, as well as image resolution. To address this, we present Token-Shuffle, a novel yet simple method that reduces the number of image tokens in Transformer. Our key insight is the dimensional redundancy of visual vocabularies in Multimodal Large Language Models (MLLMs), where low-dimensional visual codes from visual encoder are directly mapped to high-dimensional language vocabularies. Leveraging this, we consider two key operations: token-shuffle, which merges spatially local tokens along channel dimension to decrease the input token number, and token-unshuffle, which untangles the inferred tokens after Transformer blocks to restore the spatial arrangement for output. Jointly training with textual prompts, our strategy requires no additional pretrained text-encoder and enables MLLMs to support extremely high-resolution image synthesis in a unified next-token prediction way while maintaining efficient training and inference. For the first time, we push the boundary of AR text-to-image generation to a resolution of 2048×2048 with gratifying generation performance. In GenAI-benchmark, our 2.7B model achieves 0.77 overall score on hard prompts, outperforming AR models LlamaGen by 0.18 and diffusion models LDM by 0.15. Exhaustive large-scale human evaluations also demonstrate our prominent image generation ability in terms of text-alignment, visual flaw, and visual appearance. We hope that Token-Shuffle can serve as a foundational design for efficient high-resolution image generation within MLLMs.

arxiv情報

著者 Xu Ma,Peize Sun,Haoyu Ma,Hao Tang,Chih-Yao Ma,Jialiang Wang,Kunpeng Li,Xiaoliang Dai,Yujun Shi,Xuan Ju,Yushi Hu,Artsiom Sanakoyeu,Felix Juefei-Xu,Ji Hou,Junjiao Tian,Tao Xu,Tingbo Hou,Yen-Cheng Liu,Zecheng He,Zijian He,Matt Feiszli,Peizhao Zhang,Peter Vajda,Sam Tsai,Yun Fu
発行日 2025-04-24 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models はコメントを受け付けていません

Dynamic Camera Poses and Where to Find Them

要約

カメラの注釈をアノテートすると、ダイナミックなインターネット動画でのポーズが大きくなり、現実的なビデオ生成やシミュレーションなどのフィールドを進めるために重要です。
ただし、ほとんどのインターネットビデオはポーズの推定には不適切であるため、このようなデータセットを収集することは困難です。
さらに、動的なインターネットビデオに注釈を付けて、最先端の方法でも重要な課題を提示します。
この論文では、カメラのポーズが注釈された動的なインターネットビデオの大規模なデータセットであるDynope-100Kを紹介します。
当社のコレクションパイプラインは、慎重に組み合わされたタスク固有とジェネラリストモデルを使用してフィルタリングに対処します。
ポーズ推定のために、ポイント追跡、動的マスキング、および構造からの最新の手法を組み合わせて、最先端のアプローチよりも改善を達成します。
私たちの分析と実験は、Dynpose-100Kがいくつかの重要な属性にわたって大規模で多様であることを示しており、さまざまな下流のアプリケーションでの進歩の手段を開きます。

要約(オリジナル)

Annotating camera poses on dynamic Internet videos at scale is critical for advancing fields like realistic video generation and simulation. However, collecting such a dataset is difficult, as most Internet videos are unsuitable for pose estimation. Furthermore, annotating dynamic Internet videos present significant challenges even for state-of-theart methods. In this paper, we introduce DynPose-100K, a large-scale dataset of dynamic Internet videos annotated with camera poses. Our collection pipeline addresses filtering using a carefully combined set of task-specific and generalist models. For pose estimation, we combine the latest techniques of point tracking, dynamic masking, and structure-from-motion to achieve improvements over the state-of-the-art approaches. Our analysis and experiments demonstrate that DynPose-100K is both large-scale and diverse across several key attributes, opening up avenues for advancements in various downstream applications.

arxiv情報

著者 Chris Rockwell,Joseph Tung,Tsung-Yi Lin,Ming-Yu Liu,David F. Fouhey,Chen-Hsuan Lin
発行日 2025-04-24 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dynamic Camera Poses and Where to Find Them はコメントを受け付けていません

LiDPM: Rethinking Point Diffusion for Lidar Scene Completion

要約

屋外シーンのスケールでライダーポイントで直接動作するトレーニング拡散モデルは、広い視野でホワイトノイズから細かい細部を生成することが難しいために困難です。
拡散モデルによるシーンの完成に対処する最新の作品は、元のDDPMを局所拡散プロセスとして再定式化することにより、この問題に取り組んでいます。
現在、バニラDDPMが使用されているオブジェクトのレベルで操作するという一般的な慣行とは対照的です。
この作業では、これら2つの作業ライン間のギャップを埋めます。
局所拡散定式化の近似を特定し、シーンレベルで動作する必要がないことを示し、適切に選択された出発点を持つバニラDDPMは完了に十分であることを示しています。
最後に、私たちの方法であるLIDPMがSemantickittiのシーン完了においてより良い結果につながることを示しています。
プロジェクトページはhttps://astra-vision.github.io/lidpmです。

要約(オリジナル)

Training diffusion models that work directly on lidar points at the scale of outdoor scenes is challenging due to the difficulty of generating fine-grained details from white noise over a broad field of view. The latest works addressing scene completion with diffusion models tackle this problem by reformulating the original DDPM as a local diffusion process. It contrasts with the common practice of operating at the level of objects, where vanilla DDPMs are currently used. In this work, we close the gap between these two lines of work. We identify approximations in the local diffusion formulation, show that they are not required to operate at the scene level, and that a vanilla DDPM with a well-chosen starting point is enough for completion. Finally, we demonstrate that our method, LiDPM, leads to better results in scene completion on SemanticKITTI. The project page is https://astra-vision.github.io/LiDPM .

arxiv情報

著者 Tetiana Martyniuk,Gilles Puy,Alexandre Boulch,Renaud Marlet,Raoul de Charette
発行日 2025-04-24 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | LiDPM: Rethinking Point Diffusion for Lidar Scene Completion はコメントを受け付けていません