Selecting the Best Sequential Transfer Path for Medical Image Segmentation with Limited Labeled Data

要約

医療画像処理分野では、注釈付きデータが不足しているという重大な問題に直面することがよくあります。
転移学習はソリューションとして登場しましたが、適切なソース タスクを選択し、知識をターゲット タスクに効果的に転送する方法は依然として課題です。
これに対処するために、医療画像に合わせて調整されたタスク アフィニティ メトリックを備えた新しい逐次転送スキームを提案します。
医用画像セグメンテーションタスクの特性を考慮して、タスク間の画像とラベルの類似性を分析し、タスク間の関連性を評価するタスク親和性スコアを計算します。
これに基づいて、適切なソース タスクを選択し、中間ソース タスクを組み込むことで効果的な順次転送戦略を開発し、ドメインの不一致を徐々に縮小し、転送コストを最小限に抑えます。
これにより、特定のターゲット タスクに最適な順次転送パスが特定されます。
FeTS 2022、iSeg-2019、WMH の 3 つの MRI 医療データセットに対する広範な実験により、最適なソース配列を見つける際の私たちの方法の有効性が実証されました。
単一のソース タスクから直接転送した場合と比較して、シーケンシャル転送の結果はターゲット タスクのパフォーマンスが大幅に向上していることを強調しており、セグメンテーション ダイス スコアに関して平均 2.58% の向上を達成しており、特に FeTS 2022 では 6.00% の向上を達成しています。コードは次の場所で入手できます。
gitリポジトリ。

要約(オリジナル)

The medical image processing field often encounters the critical issue of scarce annotated data. Transfer learning has emerged as a solution, yet how to select an adequate source task and effectively transfer the knowledge to the target task remains challenging. To address this, we propose a novel sequential transfer scheme with a task affinity metric tailored for medical images. Considering the characteristics of medical image segmentation tasks, we analyze the image and label similarity between tasks and compute the task affinity scores, which assess the relatedness among tasks. Based on this, we select appropriate source tasks and develop an effective sequential transfer strategy by incorporating intermediate source tasks to gradually narrow the domain discrepancy and minimize the transfer cost. Thereby we identify the best sequential transfer path for the given target task. Extensive experiments on three MRI medical datasets, FeTS 2022, iSeg-2019, and WMH, demonstrate the efficacy of our method in finding the best source sequence. Compared with directly transferring from a single source task, the sequential transfer results underline a significant improvement in target task performance, achieving an average of 2.58% gain in terms of segmentation Dice score, notably, 6.00% for FeTS 2022. Code is available at the git repository.

arxiv情報

著者 Jingyun Yang,Jingge Wang,Guoqing Zhang,Yang Li
発行日 2024-10-09 13:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする

Enforcing 3D Topological Constraints in Composite Objects via Implicit Functions

要約

医療アプリケーションでは、心臓や脊椎など、複数の部分からなる複雑な臓器の正確な 3D 表現が必要になることがよくあります。
適切な機能を確保するには、それらの個々の部分が特定のトポロジ上の制約に従う必要があります。
しかし、深層学習の文献には、この目標を達成するためのメカニズムがほとんどありません。
この論文では、深い暗黙的な符号付き距離関数を使用して 3D オブジェクトの再構築においてトポロジカル制約を強制する新しいアプローチを紹介します。
私たちの方法は心臓と脊椎の再建に焦点を当てていますが、他の用途にも一般化できます。
ボリューム全体でランダムにサンプリングされた点で符号付き距離を評価することにより、3D 形状間のトポロジカル制約を効果的にチェックして強制する、サンプリング ベースの手法を提案します。
nn-UNet アーキテクチャから取得した 3D セグメンテーションを改良することで、それを実証します。

要約(オリジナル)

Medical applications often require accurate 3D representations of complex organs with multiple parts, such as the heart and spine. Their individual parts must adhere to specific topological constraints to ensure proper functionality. Yet, there are very few mechanisms in the deep learning literature to achieve this goal. This paper introduces a novel approach to enforce topological constraints in 3D object reconstruction using deep implicit signed distance functions. Our method focuses on heart and spine reconstruction but is generalizable to other applications. We propose a sampling-based technique that effectively checks and enforces topological constraints between 3D shapes by evaluating signed distances at randomly sampled points throughout the volume. We demonstrate it by refining 3D segmentations obtained from the nn-UNet architecture.

arxiv情報

著者 Hieu Le,Jingyi Xu,Nicolas Talabot,Jiancheng Yang,Pascal Fua
発行日 2024-10-09 13:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Learning from Spatio-temporal Correlation for Semi-Supervised LiDAR Semantic Segmentation

要約

特に低予算のシナリオにおける半教師あり LiDAR セグメンテーション (SSLS) 問題の課題に取り組みます。
低予算の SSLS における 2 つの主な問題は、ラベルのないデータに対する低品質の疑似ラベルと、グラウンド トゥルースと疑似ラベルの間の大幅な不均衡によるパフォーマンスの低下です。
この不均衡はトレーニングの悪循環につながります。
これらの課題を克服するために、時間的に隣接する LiDAR スキャン間の実質的な重複を認識することにより、時空間事前分布を活用します。
我々は、隣接するラベル付きデータとの意味的一貫性を利用して、ラベルなしデータに対して高精度の擬似ラベルを生成する、近接ベースのラベル推定を提案します。
さらに、最も近いラベルのないスキャンから擬似ラベルを段階的に拡張することでこの方法を強化し、動的クラスに関連するエラーを大幅に減らすのに役立ちます。
さらに、データの不均衡によるパフォーマンスの低下を軽減するために、デュアルブランチ構造を採用しています。
実験結果では、低予算設定 (つまり 5% 以下) では顕著なパフォーマンスが示され、通常の予算設定 (つまり 5 ~ 50%) では大幅な改善が見られます。
最後に、私たちの手法は、半教師あり LiDAR セグメンテーションにおける SemanticKITTI と nuScenes で新しい最先端の結果を達成しました。
わずか 5% のラベル付きデータで、完全に監視された対応物と比較して競争力のある結果が得られます。
さらに、nuScenes 上のラベル付きデータのわずか 20% (76.0%) を使用して、100% ラベル付きデータ (75.2%) での以前の最先端のパフォーマンスを上回っています。
コードは https://github.com/halbielee/PLE で入手できます。

要約(オリジナル)

We address the challenges of the semi-supervised LiDAR segmentation (SSLS) problem, particularly in low-budget scenarios. The two main issues in low-budget SSLS are the poor-quality pseudo-labels for unlabeled data, and the performance drops due to the significant imbalance between ground-truth and pseudo-labels. This imbalance leads to a vicious training cycle. To overcome these challenges, we leverage the spatio-temporal prior by recognizing the substantial overlap between temporally adjacent LiDAR scans. We propose a proximity-based label estimation, which generates highly accurate pseudo-labels for unlabeled data by utilizing semantic consistency with adjacent labeled data. Additionally, we enhance this method by progressively expanding the pseudo-labels from the nearest unlabeled scans, which helps significantly reduce errors linked to dynamic classes. Additionally, we employ a dual-branch structure to mitigate performance degradation caused by data imbalance. Experimental results demonstrate remarkable performance in low-budget settings (i.e., <= 5%) and meaningful improvements in normal budget settings (i.e., 5 - 50%). Finally, our method has achieved new state-of-the-art results on SemanticKITTI and nuScenes in semi-supervised LiDAR segmentation. With only 5% labeled data, it offers competitive results against fully-supervised counterparts. Moreover, it surpasses the performance of the previous state-of-the-art at 100% labeled data (75.2%) using only 20% of labeled data (76.0%) on nuScenes. The code is available on https://github.com/halbielee/PLE.

arxiv情報

著者 Seungho Lee,Hwijeong Lee,Hyunjung Shim
発行日 2024-10-09 13:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

HAHA: Highly Articulated Gaussian Human Avatars with Textured Mesh Prior

要約

単眼入力ビデオからアニメーション化可能な人間のアバターを生成する新しいアプローチである HAHA を紹介します。
提案された方法は、効率的で忠実度の高いレンダリングを実現するために、ガウス スプラッティングとテクスチャ メッシュの使用の間のトレードオフを学習することに依存しています。
SMPL-X パラメトリック モデルを介して制御される全身人間アバターのアニメーション化とレンダリングの効率を実証します。
私たちのモデルは、髪の毛やメッシュ外の衣服など、SMPL-X メッシュの必要な領域にのみガウス スプラッティングを適用することを学習します。
これにより、完全なアバターを表現するために使用されるガウス分布が最小限に抑えられ、レンダリングのアーティファクトが減少します。
これにより、従来無視されていた指などの体の小さな部分のアニメーションを処理できるようになります。
SnapshotPeople と X-Humans という 2 つのオープン データセットに対するアプローチの有効性を実証します。
私たちの手法は、ガウス分布の 3 分の 1 未満を使用しながら、SnapshotPeople の最先端技術と同等の再構成品質を示しています。
HAHA は、X-Human の新しいポーズに関して、量的および質的にこれまでの最先端技術を上回っています。

要約(オリジナル)

We present HAHA – a novel approach for animatable human avatar generation from monocular input videos. The proposed method relies on learning the trade-off between the use of Gaussian splatting and a textured mesh for efficient and high fidelity rendering. We demonstrate its efficiency to animate and render full-body human avatars controlled via the SMPL-X parametric model. Our model learns to apply Gaussian splatting only in areas of the SMPL-X mesh where it is necessary, like hair and out-of-mesh clothing. This results in a minimal number of Gaussians being used to represent the full avatar, and reduced rendering artifacts. This allows us to handle the animation of small body parts such as fingers that are traditionally disregarded. We demonstrate the effectiveness of our approach on two open datasets: SnapshotPeople and X-Humans. Our method demonstrates on par reconstruction quality to the state-of-the-art on SnapshotPeople, while using less than a third of Gaussians. HAHA outperforms previous state-of-the-art on novel poses from X-Humans both quantitatively and qualitatively.

arxiv情報

著者 David Svitov,Pietro Morerio,Lourdes Agapito,Alessio Del Bue
発行日 2024-10-09 14:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM

要約

視覚言語追跡 (VLT) は最先端の研究分野として浮上しており、言語データを利用してマルチモーダル入力によるアルゴリズムを強化し、従来の単一オブジェクト追跡 (SOT) の範囲をビデオ理解アプリケーションを包含するまで拡大します。
それにもかかわらず、ほとんどの VLT ベンチマークは依然として、各ビデオに対する人間による注釈付きの簡潔なテキスト説明に依存しています。
これらの説明は、ビデオ コンテンツのダイナミクスのニュアンスを捉えるには不十分であることが多く、均一な詳細レベルと固定された注釈頻度によって制約されるため、言語の文体の多様性に欠けます。
その結果、アルゴリズムはデフォルトで「答えを暗記する」戦略を採用する傾向があり、ビデオ コンテンツをより深く理解するという中心的な目的から逸脱してしまいます。
幸いなことに、ラージ言語モデル (LLM) の出現により、多様なテキストを生成できるようになりました。
この研究では、LLM を利用して、代表的な SOT ベンチマークに対して (テキストの長さと粒度に関して) さまざまなセマンティック アノテーションを生成し、それによって新しいマルチモーダル ベンチマークを確立します。
具体的には、(1) 短期追跡、長期追跡、およびグローバル インスタンス追跡の 3 つのサブタスクを含む 5 つの著名な VLT および SOT ベンチマークに基づいて、DTVLT と呼ばれる、多様なテキストを含む新しい視覚言語追跡ベンチマークを提案します。
(2) 意味情報の範囲と密度を考慮して、ベンチマークでは 4 つの粒度のテキストを提供します。
私たちは、この多粒度の生成戦略により、VLT とビデオ理解の研究に有利な環境が促進されることを期待しています。
(3) 私たちは DTVLT に関する包括的な実験分析を実施し、追跡パフォーマンスに対する多様なテキストの影響を評価し、特定された既存のアルゴリズムのパフォーマンスのボトルネックが VLT とビデオ理解のさらなる研究を支援できることを期待しています。
提案されたベンチマーク、実験結果、およびツールキットは、http://videocube.aitestunion.com/ で段階的にリリースされる予定です。

要約(オリジナル)

Visual language tracking (VLT) has emerged as a cutting-edge research area, harnessing linguistic data to enhance algorithms with multi-modal inputs and broadening the scope of traditional single object tracking (SOT) to encompass video understanding applications. Despite this, most VLT benchmarks still depend on succinct, human-annotated text descriptions for each video. These descriptions often fall short in capturing the nuances of video content dynamics and lack stylistic variety in language, constrained by their uniform level of detail and a fixed annotation frequency. As a result, algorithms tend to default to a ‘memorize the answer’ strategy, diverging from the core objective of achieving a deeper understanding of video content. Fortunately, the emergence of large language models (LLMs) has enabled the generation of diverse text. This work utilizes LLMs to generate varied semantic annotations (in terms of text lengths and granularities) for representative SOT benchmarks, thereby establishing a novel multi-modal benchmark. Specifically, we (1) propose a new visual language tracking benchmark with diverse texts, named DTVLT, based on five prominent VLT and SOT benchmarks, including three sub-tasks: short-term tracking, long-term tracking, and global instance tracking. (2) We offer four granularity texts in our benchmark, considering the extent and density of semantic information. We expect this multi-granular generation strategy to foster a favorable environment for VLT and video understanding research. (3) We conduct comprehensive experimental analyses on DTVLT, evaluating the impact of diverse text on tracking performance and hope the identified performance bottlenecks of existing algorithms can support further research in VLT and video understanding. The proposed benchmark, experimental results and toolkit will be released gradually on http://videocube.aitestunion.com/.

arxiv情報

著者 Xuchen Li,Shiyu Hu,Xiaokun Feng,Dailing Zhang,Meiqi Wu,Jing Zhang,Kaiqi Huang
発行日 2024-10-09 14:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications

要約

車両やロボットなどの自律システムでは、人間と機械の安全なインタラクションのために、周囲の物体の将来の位置と動きに関する初期情報を得るために、信頼性が高く、正確で、高速で、リソース効率が高く、スケーラブルで低遅延の軌道予測が必要です。
さらに、安全な経路計画を提供するために、リスク評価の予測の不確実性を知る必要があります。
この論文では、長期短期記憶と混合密度ネットワークを組み合わせて、これらの要件に対処する軽量な方法を紹介します。
私たちの方法は、後続のリスク管理アプリケーションをサポートするために、位置の不確実性の信頼レベル推定を含む確率分布を予測し、低電力組み込みプラットフォーム上で実行されます。
自動運転車アプリケーションにおける人間の軌跡予測の必須要件について議論し、複数の交通関連データセットを使用して手法のパフォーマンスを実証します。
さらに、信頼性と鮮明さのメトリクスについて説明し、モデルの予測と不確実性評価の正確性と堅牢性を保証するためにそれらがいかに重要であるかを示します。
これらの重要な評価は、これまでのところ正当な理由もなくほとんど注目されていません。
私たちのアプローチは、現実世界への適用性に完全に焦点を当てています。
予測の不確実性とモデルの信頼性を検証することは、自律的な現実世界のアプリケーションの中心です。
私たちのフレームワークとコードは、https://github.com/kav-institute/mdn_trajectory_forecasting から入手できます。

要約(オリジナル)

Autonomous systems, like vehicles or robots, require reliable, accurate, fast, resource-efficient, scalable, and low-latency trajectory predictions to get initial knowledge about future locations and movements of surrounding objects for safe human-machine interaction. Furthermore, they need to know the uncertainty of the predictions for risk assessment to provide safe path planning. This paper presents a lightweight method to address these requirements, combining Long Short-Term Memory and Mixture Density Networks. Our method predicts probability distributions, including confidence level estimations for positional uncertainty to support subsequent risk management applications and runs on a low-power embedded platform. We discuss essential requirements for human trajectory prediction in autonomous vehicle applications and demonstrate our method’s performance using multiple traffic-related datasets. Furthermore, we explain reliability and sharpness metrics and show how important they are to guarantee the correctness and robustness of a model’s predictions and uncertainty assessments. These essential evaluations have so far received little attention for no good reason. Our approach focuses entirely on real-world applicability. Verifying prediction uncertainties and a model’s reliability are central to autonomous real-world applications. Our framework and code are available at: https://github.com/kav-institute/mdn_trajectory_forecasting.

arxiv情報

著者 Manuel Hetzel,Hannes Reichert,Konrad Doll,Bernhard Sick
発行日 2024-10-09 14:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Compositional Entailment Learning for Hyperbolic Vision-Language Models

要約

画像とテキストの表現学習は、視覚言語モデルの基礎を形成し、画像とテキストの説明のペアが共有埋め込み空間内で対照的に配置されます。
視覚的概念とテキスト的概念は自然に階層的であるため、最近の研究では、双曲空間が強力な下流パフォーマンスで視覚言語表現を学習するための高い可能性をもつ多様体として機能できることが示されています。
この研究では、個々の画像とテキストのペアを超えて、双曲線埋め込みの固有の階層的性質を完全に活用する方法を初めて示します。
私たちは双曲線視覚言語モデルのための構成的含意学習を提案します。
その考え方は、画像は文によって説明されるだけでなく、それ自体が複数のオブジェクト ボックスの構成であり、それぞれに独自のテキストによる説明が含まれるということです。
このような情報は、文から名詞を抽出し、公開されている局所的グラウンディング モデルを使用することで自由に取得できます。
対比的かつ含意ベースの目的を通じて、画像、画像ボックス、およびそれらのテキスト説明を階層的に整理する方法を示します。
数百万の画像とテキストのペアでトレーニングされた双曲線視覚言語モデルの経験的評価では、提案された構成学習アプローチが従来のユークリッド CLIP 学習や最近の双曲線代替手法よりも優れており、より優れたゼロショットと検索一般化、および明らかに強力な階層パフォーマンスを備えていることが示されています。

要約(オリジナル)

Image-text representation learning forms a cornerstone in vision-language models, where pairs of images and textual descriptions are contrastively aligned in a shared embedding space. Since visual and textual concepts are naturally hierarchical, recent work has shown that hyperbolic space can serve as a high-potential manifold to learn vision-language representation with strong downstream performance. In this work, for the first time we show how to fully leverage the innate hierarchical nature of hyperbolic embeddings by looking beyond individual image-text pairs. We propose Compositional Entailment Learning for hyperbolic vision-language models. The idea is that an image is not only described by a sentence but is itself a composition of multiple object boxes, each with their own textual description. Such information can be obtained freely by extracting nouns from sentences and using openly available localized grounding models. We show how to hierarchically organize images, image boxes, and their textual descriptions through contrastive and entailment-based objectives. Empirical evaluation on a hyperbolic vision-language model trained with millions of image-text pairs shows that the proposed compositional learning approach outperforms conventional Euclidean CLIP learning, as well as recent hyperbolic alternatives, with better zero-shot and retrieval generalization and clearly stronger hierarchical performance.

arxiv情報

著者 Avik Pal,Max van Spengler,Guido Maria D’Amely di Melendugno,Alessandro Flaborea,Fabio Galasso,Pascal Mettes
発行日 2024-10-09 14:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

要約

Visual Language Tracking (VLT) は、ビデオからの自然言語記述を統合することにより、単一オブジェクト トラッキング (SOT) を強化し、指定されたオブジェクトを正確に追跡します。
VLT は、高レベルのセマンティック情報を活用することでオブジェクト追跡をガイドし、視覚的なモダリティへの依存に伴う制約を軽減します。
それにもかかわらず、ほとんどの VLT ベンチマークには単一の粒度で注釈が付けられており、科学的なガイダンスを提供する一貫したセマンティック フレームワークが欠けています。
さらに、高品質のアノテーションを実現するために人間のアノテーターを調整するのは、手間と時間がかかります。
これらの課題に対処するために、環境の多様性を高めるために広範かつ多粒度のテキストを自動的に生成する DTLLM-VLT を導入します。
(1) DTLLM-VLT は、一貫性のあるプロンプト フレームワークを使用して、科学的で多粒度のテキスト記述を生成します。
簡潔で適応性の高い設計により、さまざまな視覚追跡ベンチマークへのシームレスな統合が可能になります。
(2) アプローチを展開するために、短期追跡、長期追跡、およびグローバル インスタンス追跡の 3 つの著名なベンチマークを選択します。
意味情報の範囲と密度を考慮して、これらのベンチマークに対して 4 つの粒度の組み合わせを提供し、DTLLM-VLT の実用性と多用途性を示しています。
(3) 異なるテキスト粒度の VLT ベンチマークで比較実験を行い、多様なテキストが追跡パフォーマンスに与える影響を評価および分析します。
結論として、この研究では LLM を活用して、効率的かつ多様な観点から VLT タスクに多粒度のセマンティック情報を提供し、マルチモーダル トラッカーのきめ細かい評価を可能にします。
将来的には、この作業をより多くのデータセットに拡張して、視覚データセットの理解をサポートできると考えています。

要約(オリジナル)

Visual Language Tracking (VLT) enhances single object tracking (SOT) by integrating natural language descriptions from a video, for the precise tracking of a specified object. By leveraging high-level semantic information, VLT guides object tracking, alleviating the constraints associated with relying on a visual modality. Nevertheless, most VLT benchmarks are annotated in a single granularity and lack a coherent semantic framework to provide scientific guidance. Moreover, coordinating human annotators for high-quality annotations is laborious and time-consuming. To address these challenges, we introduce DTLLM-VLT, which automatically generates extensive and multi-granularity text to enhance environmental diversity. (1) DTLLM-VLT generates scientific and multi-granularity text descriptions using a cohesive prompt framework. Its succinct and highly adaptable design allows seamless integration into various visual tracking benchmarks. (2) We select three prominent benchmarks to deploy our approach: short-term tracking, long-term tracking, and global instance tracking. We offer four granularity combinations for these benchmarks, considering the extent and density of semantic information, thereby showcasing the practicality and versatility of DTLLM-VLT. (3) We conduct comparative experiments on VLT benchmarks with different text granularities, evaluating and analyzing the impact of diverse text on tracking performance. Conclusionally, this work leverages LLM to provide multi-granularity semantic information for VLT task from efficient and diverse perspectives, enabling fine-grained evaluation of multi-modal trackers. In the future, we believe this work can be extended to more datasets to support vision datasets understanding.

arxiv情報

著者 Xuchen Li,Xiaokun Feng,Shiyu Hu,Meiqi Wu,Dailing Zhang,Jing Zhang,Kaiqi Huang
発行日 2024-10-09 14:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

要約

最近の研究では、(生成) 拡散モデルのノイズ除去プロセスにより、モデル内に意味のある (識別的な) 表現が誘導される可能性があることが示されていますが、これらの表現の品質は、最近の自己教師あり学習手法で学習されたものよりもまだ劣っています。
私たちは、生成のために大規模拡散モデルをトレーニングする際の主なボトルネックの 1 つは、これらの表現を効果的に学習することにあると主張します。
さらに、拡散モデルのみに依存して独立して学習するのではなく、高品質の外部視覚表現を組み込むことでトレーニングが容易になります。
私たちは、REPresentation Alignment (REPA) と呼ばれる直接的な正則化を導入することでこれを研究します。これは、ノイズ除去ネットワーク内のノイズの多い入力隠れ状態の投影を、外部の事前学習済みビジュアル エンコーダーから取得したクリーンな画像表現と位置合わせします。
結果は驚くべきものでした。私たちのシンプルな戦略は、DiT や SiT などの一般的な拡散およびフローベースのトランスフォーマーに適用すると、トレーニング効率と生成品質の両方で大幅な改善をもたらしました。
たとえば、私たちの方法では、SiT トレーニングを 17.5 倍以上高速化でき、40 万ステップ未満で 700 万ステップでトレーニングされた SiT-XL モデルのパフォーマンス (分類器なしのガイダンスなし) に匹敵します。
最終生成の品質に関しては、私たちのアプローチは、ガイダンス間隔を使用した分類子なしのガイダンスを使用して、FID=1.42 という最先端の結果を達成しました。

要約(オリジナル)

Recent studies have shown that the denoising process in (generative) diffusion models can induce meaningful (discriminative) representations inside the model, though the quality of these representations still lags behind those learned through recent self-supervised learning methods. We argue that one main bottleneck in training large-scale diffusion models for generation lies in effectively learning these representations. Moreover, training can be made easier by incorporating high-quality external visual representations, rather than relying solely on the diffusion models to learn them independently. We study this by introducing a straightforward regularization called REPresentation Alignment (REPA), which aligns the projections of noisy input hidden states in denoising networks with clean image representations obtained from external, pretrained visual encoders. The results are striking: our simple strategy yields significant improvements in both training efficiency and generation quality when applied to popular diffusion and flow-based transformers, such as DiTs and SiTs. For instance, our method can speed up SiT training by over 17.5$\times$, matching the performance (without classifier-free guidance) of a SiT-XL model trained for 7M steps in less than 400K steps. In terms of final generation quality, our approach achieves state-of-the-art results of FID=1.42 using classifier-free guidance with the guidance interval.

arxiv情報

著者 Sihyun Yu,Sangkyung Kwak,Huiwon Jang,Jongheon Jeong,Jonathan Huang,Jinwoo Shin,Saining Xie
発行日 2024-10-09 14:34:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

ELMO: Enhanced Real-time LiDAR Motion Capture through Upsampling

要約

このペーパーでは、単一の LiDAR センサー用に設計されたリアルタイム アップサンプリング モーション キャプチャ フレームワークである ELMO を紹介します。
条件付き自己回帰トランスフォーマーベースのアップサンプリング モーション ジェネレーターとしてモデル化された ELMO は、20 fps の LiDAR 点群シーケンスから 60 fps のモーション キャプチャを実現します。
ELMO の主な特徴は、セルフ アテンション メカニズムと、モーションおよび点群用に慎重に設計された埋め込みモジュールを組み合わせて、モーションの品質を大幅に向上させることです。
正確なモーション キャプチャを容易にするために、単一フレームの点群からユーザーのスケルトン オフセットを予測できるワンタイム スケルトン キャリブレーション モデルを開発します。
さらに、LiDAR シミュレーターを利用した新しいデータ拡張手法を導入します。これにより、グローバルな根の追跡が強化され、環境への理解が向上します。
私たちの方法の有効性を実証するために、画像ベースと点群ベースの両方のモーション キャプチャにおける最先端の方法と ELMO を比較します。
さらに、設計原則を検証するためにアブレーション研究を実施します。
ELMO は推論時間が速いため、リアルタイム アプリケーションに最適であり、ライブ ストリーミングとインタラクティブ ゲーム シナリオを特集したデモ ビデオで実証されています。
さらに、さまざまな動作を実行する 20 人の異なる被験者で構成される高品質の LiDAR モーションキャプチャ同期データセットを提供します。これは、将来の研究のための貴重なリソースとして役立ちます。
データセットと評価コードは、{\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}} で入手できます。

要約(オリジナル)

This paper introduces ELMO, a real-time upsampling motion capture framework designed for a single LiDAR sensor. Modeled as a conditional autoregressive transformer-based upsampling motion generator, ELMO achieves 60 fps motion capture from a 20 fps LiDAR point cloud sequence. The key feature of ELMO is the coupling of the self-attention mechanism with thoughtfully designed embedding modules for motion and point clouds, significantly elevating the motion quality. To facilitate accurate motion capture, we develop a one-time skeleton calibration model capable of predicting user skeleton offsets from a single-frame point cloud. Additionally, we introduce a novel data augmentation technique utilizing a LiDAR simulator, which enhances global root tracking to improve environmental understanding. To demonstrate the effectiveness of our method, we compare ELMO with state-of-the-art methods in both image-based and point cloud-based motion capture. We further conduct an ablation study to validate our design principles. ELMO’s fast inference time makes it well-suited for real-time applications, exemplified in our demo video featuring live streaming and interactive gaming scenarios. Furthermore, we contribute a high-quality LiDAR-mocap synchronized dataset comprising 20 different subjects performing a range of motions, which can serve as a valuable resource for future research. The dataset and evaluation code are available at {\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}}

arxiv情報

著者 Deok-Kyeong Jang,Dongseok Yang,Deok-Yun Jang,Byeoli Choi,Donghoon Shin,Sung-hee Lee
発行日 2024-10-09 15:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントする