KnobGen: Controlling the Sophistication of Artwork in Sketch-Based Diffusion Models

要約

拡散モデルの最近の進歩により、テキストから画像への (T2I) 生成が大幅に改善されましたが、きめの細かい精度と高レベルの制御のバランスを取るのに苦労することがよくあります。
ControlNet や T2I-Adapter などのメソッドは、熟練したアーティストによるスケッチを追跡するのに優れていますが、過度に厳格になる傾向があり、初心者ユーザーのスケッチに意図しない欠陥が再現されてしまいます。
一方、スケッチベースの抽象化フレームワークなどの粗粒度の手法は、よりアクセスしやすい入力処理を提供しますが、詳細で専門的な使用に必要な正確な制御が不足しています。
これらの制限に対処するために、さまざまなレベルのスケッチの複雑さとユーザー スキルにシームレスに適応することで、スケッチ ベースの画像生成を民主化するデュアル パスウェイ フレームワークである KnobGen を提案します。
KnobGen は、高レベルのセマンティクスには粗粒度コントローラー (CGC) モジュールを使用し、詳細な調整には細粒度コントローラー (FGC) モジュールを使用します。
これら 2 つのモジュールの相対的な強度は、ユーザーの特定のニーズに合わせてノブ推論メカニズムを通じて調整できます。
これらのメカニズムにより、KnobGen は初心者のスケッチと熟練したアーティストが描いたスケッチの両方から柔軟に画像を生成できます。
これにより、MultiGen-20M データセットと新しく収集されたスケッチ データセットで明らかなように、画像の自然な外観を維持しながら、最終出力の制御が維持されます。

要約(オリジナル)

Recent advances in diffusion models have significantly improved text-to-image (T2I) generation, but they often struggle to balance fine-grained precision with high-level control. Methods like ControlNet and T2I-Adapter excel at following sketches by seasoned artists but tend to be overly rigid, replicating unintentional flaws in sketches from novice users. Meanwhile, coarse-grained methods, such as sketch-based abstraction frameworks, offer more accessible input handling but lack the precise control needed for detailed, professional use. To address these limitations, we propose KnobGen, a dual-pathway framework that democratizes sketch-based image generation by seamlessly adapting to varying levels of sketch complexity and user skill. KnobGen uses a Coarse-Grained Controller (CGC) module for high-level semantics and a Fine-Grained Controller (FGC) module for detailed refinement. The relative strength of these two modules can be adjusted through our knob inference mechanism to align with the user’s specific needs. These mechanisms ensure that KnobGen can flexibly generate images from both novice sketches and those drawn by seasoned artists. This maintains control over the final output while preserving the natural appearance of the image, as evidenced on the MultiGen-20M dataset and a newly collected sketch dataset.

arxiv情報

著者 Pouyan Navard,Amin Karimi Monsefi,Mengxi Zhou,Wei-Lun Chao,Alper Yilmaz,Rajiv Ramnath
発行日 2024-10-11 12:47:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | KnobGen: Controlling the Sophistication of Artwork in Sketch-Based Diffusion Models はコメントを受け付けていません

HpEIS: Learning Hand Pose Embeddings for Multimedia Interactive Systems

要約

我々は、仮想センサーとして新しいハンドポーズエンベディングインタラクティブシステム(HpEIS)を提案します。これは、さまざまな手のポーズで訓練された変分オートエンコーダー(VAE)を使用して、ユーザーの柔軟な手のポーズを二次元の視覚空間にマッピングします。
HpEIS は、外部の手姿勢取得デバイスとしてカメラのみを使用して、マルチメディア コレクション内のユーザー探索を視覚的に解釈可能かつガイド可能なサポートを可能にします。
私たちは、専門家と経験の浅いユーザーによるパイロット実験を通じて、システムの安定性と平滑化要件に関連する一般的なユーザビリティの問題を特定します。
次に、ハンドポーズデータの拡張、損失関数に追加されたアンチジッター正則化項、動きのターニングポイントの後処理の安定化、ワンユーロフィルターに基づく後処理の平滑化など、安定性と平滑化の改善を設計します。
ターゲット選択実験 (n=12) では、ジェスチャ ガイダンス ウィンドウ条件の有無にかかわらず、タスクの完了時間とターゲット ポイントまでの最終距離の測定によって HpEIS を評価します。
実験の結果は、HpEIS が学習可能で柔軟、安定したスムーズな空中の手の動きのインタラクション エクスペリエンスをユーザーに提供することを示しています。

要約(オリジナル)

We present a novel Hand-pose Embedding Interactive System (HpEIS) as a virtual sensor, which maps users’ flexible hand poses to a two-dimensional visual space using a Variational Autoencoder (VAE) trained on a variety of hand poses. HpEIS enables visually interpretable and guidable support for user explorations in multimedia collections, using only a camera as an external hand pose acquisition device. We identify general usability issues associated with system stability and smoothing requirements through pilot experiments with expert and inexperienced users. We then design stability and smoothing improvements, including hand-pose data augmentation, an anti-jitter regularisation term added to loss function, stabilising post-processing for movement turning points and smoothing post-processing based on One Euro Filters. In target selection experiments (n=12), we evaluate HpEIS by measures of task completion time and the final distance to target points, with and without the gesture guidance window condition. Experimental responses indicate that HpEIS provides users with a learnable, flexible, stable and smooth mid-air hand movement interaction experience.

arxiv情報

著者 Songpei Xu,Xuri Ge,Chaitanya Kaul,Roderick Murray-Smith
発行日 2024-10-11 12:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | HpEIS: Learning Hand Pose Embeddings for Multimedia Interactive Systems はコメントを受け付けていません

VideoSAM: Open-World Video Segmentation

要約

ビデオ セグメンテーションは、ロボット工学と自動運転の進歩に不可欠であり、特にビデオ フレーム間での継続的な認識とオブジェクトの関連付けが重要なオープンワールド環境では不可欠です。
Segment Anything Model (SAM) は静的画像のセグメンテーションでは優れていますが、その機能をビデオ セグメンテーションに拡張すると大きな課題が生じます。
私たちは 2 つの大きなハードルに取り組みます。a) フレーム間でオブジェクトを関連付ける際の SAM の埋め込み制限、b) オブジェクトのセグメンテーションにおける粒度の不一致です。
この目的を達成するために、動的環境におけるオブジェクト追跡とセグメンテーションの一貫性を向上させることで、これらの課題に対処するように設計されたエンドツーエンドのフレームワークである VideoSAM を導入します。
VideoSAM は、集約されたバックボーンである RADIO を統合し、類似性メトリクスによるオブジェクトの関連付けを可能にし、安定したオブジェクト追跡のためのメモリ メカニズムを備えた Cycle-ack-Pairs Propagation を導入します。
さらに、フレーム全体で一貫した粒度を維持するために、SAM デコーダ内に自己回帰オブジェクト トークン メカニズムを組み込んでいます。
私たちの手法は、UVO および BURST ベンチマーク、および RoboTAP のロボット ビデオで広範囲に評価され、現実世界のシナリオにおけるその有効性と堅牢性が実証されています。
すべてのコードが利用可能になります。

要約(オリジナル)

Video segmentation is essential for advancing robotics and autonomous driving, particularly in open-world settings where continuous perception and object association across video frames are critical. While the Segment Anything Model (SAM) has excelled in static image segmentation, extending its capabilities to video segmentation poses significant challenges. We tackle two major hurdles: a) SAM’s embedding limitations in associating objects across frames, and b) granularity inconsistencies in object segmentation. To this end, we introduce VideoSAM, an end-to-end framework designed to address these challenges by improving object tracking and segmentation consistency in dynamic environments. VideoSAM integrates an agglomerated backbone, RADIO, enabling object association through similarity metrics and introduces Cycle-ack-Pairs Propagation with a memory mechanism for stable object tracking. Additionally, we incorporate an autoregressive object-token mechanism within the SAM decoder to maintain consistent granularity across frames. Our method is extensively evaluated on the UVO and BURST benchmarks, and robotic videos from RoboTAP, demonstrating its effectiveness and robustness in real-world scenarios. All codes will be available.

arxiv情報

著者 Pinxue Guo,Zixu Zhao,Jianxiong Gao,Chongruo Wu,Tong He,Zheng Zhang,Tianjun Xiao,Wenqiang Zhang
発行日 2024-10-11 12:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoSAM: Open-World Video Segmentation はコメントを受け付けていません

VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model

要約

ビジョン言語モデル (VLM) は、常識的な推論と一般化の能力により、最近ロボット工学に採用されています。
既存の研究では、VLM を適用して、自然言語命令からタスクおよび動作計画を生成し、ロボット学習用のトレーニング データをシミュレートしました。
この研究では、VLM を使用して人間のデモンストレーション ビデオを解釈し、ロボットのタスク計画を生成することを検討します。
私たちのメソッドは、キーフレームの選択、視覚認識、および VLM 推論をパイプラインに統合します。
これを SeeDo と名付けたのは、VLM が人間のデモンストレーションを「見て」、対応する計画をロボットに「実行」させるための説明ができるからです。
私たちのアプローチを検証するために、3 つの多様なカテゴリでピック アンド プレース タスクをデモンストレーションする一連の長期にわたるヒューマン ビデオを収集し、最先端のビデオを含むいくつかのベースラインに対して SeeDo を包括的にベンチマークするための一連の指標を設計しました。
入力 VLM。
実験では、SeeDo の優れたパフォーマンスが実証されました。
さらに、生成されたタスク プランをシミュレーション環境と実際のロボット アームの両方に展開しました。

要約(オリジナル)

Vision Language Models (VLMs) have recently been adopted in robotics for their capability in common sense reasoning and generalizability. Existing work has applied VLMs to generate task and motion planning from natural language instructions and simulate training data for robot learning. In this work, we explore using VLM to interpret human demonstration videos and generate robot task planning. Our method integrates keyframe selection, visual perception, and VLM reasoning into a pipeline. We named it SeeDo because it enables the VLM to ”see” human demonstrations and explain the corresponding plans to the robot for it to ”do”. To validate our approach, we collected a set of long-horizon human videos demonstrating pick-and-place tasks in three diverse categories and designed a set of metrics to comprehensively benchmark SeeDo against several baselines, including state-of-the-art video-input VLMs. The experiments demonstrate SeeDo’s superior performance. We further deployed the generated task plans in both a simulation environment and on a real robot arm.

arxiv情報

著者 Beichen Wang,Juexiao Zhang,Shuwen Dong,Irving Fang,Chen Feng
発行日 2024-10-11 13:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model はコメントを受け付けていません

CoTCoNet: An Optimized Coupled Transformer-Convolutional Network with an Adaptive Graph Reconstruction for Leukemia Detection

要約

迅速かつ正確な血液塗抹標本分析は、白血病やその他の血液悪性腫瘍の効果的な診断方法です。
ただし、手動による白血球数の計測と顕微鏡を使用した形態学的評価は時間がかかり、エラーが発生しやすくなります。
また、従来の画像処理方法では、悪性細胞と良性細胞の形態の視覚的類似性により、細胞の識別に限界がありました。
この制限は、信頼できる適切な特徴の抽出を妨げる歪んだトレーニング データによってさらに悪化します。
これらの課題に対応して、我々は、白血病の分類に最適化された結合変圧器畳み込みネットワーク (CoTCoNet) フレームワークを提案します。このフレームワークは、深い畳み込みネットワークと統合された適切に設計された変換器を採用して、包括的なグローバルな特徴とスケーラブルな空間パターンを効果的にキャプチャし、
複雑かつ大規模な血液学的特徴の特定。
さらに、このフレームワークには、白血球細胞の隠された、または観察されにくい生物学的特徴を明らかにするためのグラフベースの特徴再構成モジュールが組み込まれており、特徴の選択と最適化には集団ベースのメタヒューリスティック アルゴリズムが採用されています。
データの不均衡の問題を軽減するために、合成白血球ジェネレーターを採用しています。
評価フェーズでは、最初に 16,982 個の注釈付きセルを含むデータセットで CoTCoNet を評価し、それぞれ 0.9894 および 0.9893 という顕著な精度と F1 スコア率を達成しました。
モデルの一般化可能性を広げるために、前述のデータセットを含む、公開されている 4 つの多様なデータセットにわたってモデルを評価します。
この評価は、私たちの方法が現在の最先端のアプローチよりも優れていることを示しています。
また、フレームワークのより深い理解を提供するために、セルの注釈と密接に連携した機能の視覚化の形で説明可能性のアプローチも組み込んでいます。

要約(オリジナル)

Swift and accurate blood smear analysis is an effective diagnostic method for leukemia and other hematological malignancies. However, manual leukocyte count and morphological evaluation using a microscope is time-consuming and prone to errors. Conventional image processing methods also exhibit limitations in differentiating cells due to the visual similarity between malignant and benign cell morphology. This limitation is further compounded by the skewed training data that hinders the extraction of reliable and pertinent features. In response to these challenges, we propose an optimized Coupled Transformer Convolutional Network (CoTCoNet) framework for the classification of leukemia, which employs a well-designed transformer integrated with a deep convolutional network to effectively capture comprehensive global features and scalable spatial patterns, enabling the identification of complex and large-scale hematological features. Further, the framework incorporates a graph-based feature reconstruction module to reveal the hidden or unobserved hard-to-see biological features of leukocyte cells and employs a Population-based Meta-Heuristic Algorithm for feature selection and optimization. To mitigate data imbalance issues, we employ a synthetic leukocyte generator. In the evaluation phase, we initially assess CoTCoNet on a dataset containing 16,982 annotated cells, and it achieves remarkable accuracy and F1-Score rates of 0.9894 and 0.9893, respectively. To broaden the generalizability of our model, we evaluate it across four publicly available diverse datasets, which include the aforementioned dataset. This evaluation demonstrates that our method outperforms current state-of-the-art approaches. We also incorporate an explainability approach in the form of feature visualization closely aligned with cell annotations to provide a deeper understanding of the framework.

arxiv情報

著者 Chandravardhan Singh Raghaw,Arnav Sharma,Shubhi Bansa,Mohammad Zia Ur Rehman,Nagendra Kumar
発行日 2024-10-11 13:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoTCoNet: An Optimized Coupled Transformer-Convolutional Network with an Adaptive Graph Reconstruction for Leukemia Detection はコメントを受け付けていません

LIME-Eval: Rethinking Low-light Image Enhancement Evaluation via Object Detection

要約

強調の性質、つまり対になったグラウンドトゥルース情報が存在しないため、最近では、低照度画像強調のパフォーマンスを評価するために高レベルの視覚タスクが使用されています。
広く使用されている方法は、さまざまな候補によって強化された低照度画像でトレーニングされたオブジェクト検出器が、注釈付きの意味ラベルに関してどの程度正確に実行できるかを確認することです。
この論文では、まず、前述のアプローチが一般にオーバーフィッティングの傾向があり、そのため測定の信頼性が低下することを示します。
適切な評価指標を求めて、私たちは LIME-Bench を提案します。これは、低照度補正に対する人間の好みを収集するように設計された初のオンライン ベンチマーク プラットフォームであり、人間の知覚と自動化された評価指標の間の相関関係を検証するための貴重なデータセットを提供します。
次に、オブジェクトの注釈なしで標準照明データセットで事前トレーニングされた検出器を利用する新しい評価フレームワークである LIME-Eval をカスタマイズして、強化された画像の品質を判断します。
出力信頼マップの精度を評価するためにエネルギーベースの戦略を採用することにより、LIME-Eval は検出器の再トレーニングに関連するバイアスをバイパスし、薄暗い画像に対するアノテーションへの依存を同時に回避できます。
LIME-Eval の有効性を明らかにするために、包括的な実験が提供されます。
当社のベンチマーク プラットフォーム (https://huggingface.co/spaces/lime-j/eval) とコード (https://github.com/lime-j/lime-eval) はオンラインで入手できます。

要約(オリジナル)

Due to the nature of enhancement–the absence of paired ground-truth information, high-level vision tasks have been recently employed to evaluate the performance of low-light image enhancement. A widely-used manner is to see how accurately an object detector trained on enhanced low-light images by different candidates can perform with respect to annotated semantic labels. In this paper, we first demonstrate that the mentioned approach is generally prone to overfitting, and thus diminishes its measurement reliability. In search of a proper evaluation metric, we propose LIME-Bench, the first online benchmark platform designed to collect human preferences for low-light enhancement, providing a valuable dataset for validating the correlation between human perception and automated evaluation metrics. We then customize LIME-Eval, a novel evaluation framework that utilizes detectors pre-trained on standard-lighting datasets without object annotations, to judge the quality of enhanced images. By adopting an energy-based strategy to assess the accuracy of output confidence maps, our LIME-Eval can simultaneously bypass biases associated with retraining detectors and circumvent the reliance on annotations for dim images. Comprehensive experiments are provided to reveal the effectiveness of our LIME-Eval. Our benchmark platform (https://huggingface.co/spaces/lime-j/eval) and code (https://github.com/lime-j/lime-eval) are available online.

arxiv情報

著者 Mingjia Li,Hao Zhao,Xiaojie Guo
発行日 2024-10-11 13:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LIME-Eval: Rethinking Low-light Image Enhancement Evaluation via Object Detection はコメントを受け付けていません

One-shot Generative Domain Adaptation in 3D GANs

要約

3D 対応の画像生成には、安定したトレーニングを確保し、オーバーフィッティングのリスクを軽減するために、広範なトレーニング データが必要です。
この論文ではまず、ワンショット 3D ジェネレーティブ ドメイン アダプテーション (GDA) として知られる新しいタスクについて検討します。このタスクは、単一の参照画像のみに依存して、事前トレーニング済み 3D ジェネレーターを 1 つのドメインから新しいドメインに転送することを目的としています。
ワンショット 3D GDA は、特定の属性、つまり高忠実度、大きな多様性、クロスドメインの一貫性、およびマルチビューの一貫性を追求することを特徴としています。
このペーパーでは、多様かつ忠実な生成を実現する初のワンショット 3D GDA 手法である 3D-Adapter を紹介します。
私たちのアプローチは、微調整のために制限された重みセットを慎重に選択することから始まり、その後、適応を容易にするために 4 つの高度な損失関数を活用します。
適応プロセスを強化するために、効率的な漸進的微調整戦略も実装されています。
これら 3 つの技術コンポーネントの相乗効果により、3D-Adapter は、3D GDA のすべての望ましい特性にわたって量的および定性的に実証された顕著なパフォーマンスを達成できるようになります。
さらに、3D アダプターはその機能をゼロショット シナリオまでシームレスに拡張し、補間、再構築、編集などの重要なタスクの可能性を事前トレーニングされたジェネレーターの潜在空間内に保持します。
コードは https://github.com/iceli1007/3D-Adapter で入手できます。

要約(オリジナル)

3D-aware image generation necessitates extensive training data to ensure stable training and mitigate the risk of overfitting. This paper first considers a novel task known as One-shot 3D Generative Domain Adaptation (GDA), aimed at transferring a pre-trained 3D generator from one domain to a new one, relying solely on a single reference image. One-shot 3D GDA is characterized by the pursuit of specific attributes, namely, high fidelity, large diversity, cross-domain consistency, and multi-view consistency. Within this paper, we introduce 3D-Adapter, the first one-shot 3D GDA method, for diverse and faithful generation. Our approach begins by judiciously selecting a restricted weight set for fine-tuning, and subsequently leverages four advanced loss functions to facilitate adaptation. An efficient progressive fine-tuning strategy is also implemented to enhance the adaptation process. The synergy of these three technological components empowers 3D-Adapter to achieve remarkable performance, substantiated both quantitatively and qualitatively, across all desired properties of 3D GDA. Furthermore, 3D-Adapter seamlessly extends its capabilities to zero-shot scenarios, and preserves the potential for crucial tasks such as interpolation, reconstruction, and editing within the latent space of the pre-trained generator. Code will be available at https://github.com/iceli1007/3D-Adapter.

arxiv情報

著者 Ziqiang Li,Yi Wu,Chaoyue Wang,Xue Rui,Bin Li
発行日 2024-10-11 14:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | One-shot Generative Domain Adaptation in 3D GANs はコメントを受け付けていません

Towards virtual painting recolouring using Vision Transformer on X-Ray Fluorescence datacubes

要約

この寄稿では、絵画作品の蛍光 X 線 (XRF) 分析の生データを使用して、仮想絵画の再着色を実行するパイプラインを定義 (およびテスト) します。
データセットのサイズが小さいことを回避するために、XRF スペクトルのデータベースから始めて合成データセットを生成します。
さらに、より優れた汎化能力を確保するため (そしてメモリ内のサイズと推論時間の問題に取り組むため)、XRF スペクトルを低次元の K 平均法に適した計量空間に埋め込むディープ変分埋め込みネットワークを定義します。
したがって、埋め込まれた XRF 画像にカラー画像を割り当てる一連のモデルをトレーニングします。
ここでは、視覚的な品質指標の観点から考案されたパイプラインのパフォーマンスを報告し、結果についての議論を終了します。

要約(オリジナル)

In this contribution, we define (and test) a pipeline to perform virtual painting recolouring using raw data of X-Ray Fluorescence (XRF) analysis on pictorial artworks. To circumvent the small dataset size, we generate a synthetic dataset, starting from a database of XRF spectra; furthermore, to ensure a better generalisation capacity (and to tackle the issue of in-memory size and inference time), we define a Deep Variational Embedding network to embed the XRF spectra into a lower dimensional, K-Means friendly, metric space. We thus train a set of models to assign coloured images to embedded XRF images. We report here the devised pipeline performances in terms of visual quality metrics, and we close on a discussion on the results.

arxiv情報

著者 Alessandro Bombini,Fernando García-Avello Bofías,Francesca Giambi,Chiara Ruberto
発行日 2024-10-11 14:05:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.4.m, physics.app-ph | Towards virtual painting recolouring using Vision Transformer on X-Ray Fluorescence datacubes はコメントを受け付けていません

ELMO: Enhanced Real-time LiDAR Motion Capture through Upsampling

要約

このペーパーでは、単一の LiDAR センサー用に設計されたリアルタイム アップサンプリング モーション キャプチャ フレームワークである ELMO を紹介します。
条件付き自己回帰トランスフォーマーベースのアップサンプリング モーション ジェネレーターとしてモデル化された ELMO は、20 fps の LiDAR 点群シーケンスから 60 fps のモーション キャプチャを実現します。
ELMO の主な特徴は、セルフ アテンション メカニズムと、モーションおよび点群用に慎重に設計された埋め込みモジュールを組み合わせて、モーションの品質を大幅に向上させることです。
正確なモーション キャプチャを容易にするために、単一フレームの点群からユーザーのスケルトン オフセットを予測できるワンタイム スケルトン キャリブレーション モデルを開発します。
さらに、LiDAR シミュレーターを利用した新しいデータ拡張手法を導入します。これにより、グローバルな根の追跡が強化され、環境への理解が向上します。
私たちの方法の有効性を実証するために、ELMO を画像ベースと点群ベースの両方のモーション キャプチャにおける最先端の方法と比較します。
さらに、設計原則を検証するためにアブレーション研究を実施します。
ELMO は推論時間が速いため、リアルタイム アプリケーションに適しています。これは、ライブ ストリーミングとインタラクティブ ゲーム シナリオを特集したデモ ビデオで実証されています。
さらに、さまざまな動作を実行する 20 人の異なる被験者で構成される高品質の LiDAR モーションキャプチャ同期データセットを提供します。これは、将来の研究のための貴重なリソースとして役立ちます。
データセットと評価コードは、{\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}} で入手できます。

要約(オリジナル)

This paper introduces ELMO, a real-time upsampling motion capture framework designed for a single LiDAR sensor. Modeled as a conditional autoregressive transformer-based upsampling motion generator, ELMO achieves 60 fps motion capture from a 20 fps LiDAR point cloud sequence. The key feature of ELMO is the coupling of the self-attention mechanism with thoughtfully designed embedding modules for motion and point clouds, significantly elevating the motion quality. To facilitate accurate motion capture, we develop a one-time skeleton calibration model capable of predicting user skeleton offsets from a single-frame point cloud. Additionally, we introduce a novel data augmentation technique utilizing a LiDAR simulator, which enhances global root tracking to improve environmental understanding. To demonstrate the effectiveness of our method, we compare ELMO with state-of-the-art methods in both image-based and point cloud-based motion capture. We further conduct an ablation study to validate our design principles. ELMO’s fast inference time makes it well-suited for real-time applications, exemplified in our demo video featuring live streaming and interactive gaming scenarios. Furthermore, we contribute a high-quality LiDAR-mocap synchronized dataset comprising 20 different subjects performing a range of motions, which can serve as a valuable resource for future research. The dataset and evaluation code are available at {\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}}

arxiv情報

著者 Deok-Kyeong Jang,Dongseok Yang,Deok-Yun Jang,Byeoli Choi,Donghoon Shin,Sung-hee Lee
発行日 2024-10-11 14:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | ELMO: Enhanced Real-time LiDAR Motion Capture through Upsampling はコメントを受け付けていません

Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars

要約

この論文では、3D ガウス スプラッティング (GS) と単一画像入力で手を対話するためのアニメーション可能なアバターを作成することを提案します。
単一の被験者向けに設計された既存の GS ベースの手法では、限られた入力ビュー、さまざまな手のポーズ、およびオクルージョンにより、満足のいく結果が得られないことがよくあります。
これらの課題に対処するために、被験者間のハンド事前分布を活用し、相互作用する領域の 3D ガウスを洗練する、新しい 2 段階の相互作用対応 GS フレームワークを導入します。
特に、手のバリエーションを処理するために、手の 3D プレゼンテーションを最適化ベースのアイデンティティ マップと学習ベースの潜在的な幾何学的特徴とニューラル テクスチャ マップに分解します。
学習ベースの特徴はトレーニングされたネットワークによってキャプチャされ、ポーズ、形状、テクスチャの信頼できる事前分布を提供します。また、最適化ベースのアイデンティティ マップにより、分布外のハンドの効率的なワンショット フィッティングが可能になります。
さらに、インタラクションを認識した注意モジュールと自己適応ガウス改良モジュールを考案します。
これらのモジュールは、既存の GS ベースの手法の制限を克服し、手内および手の相互作用のある領域での画像レンダリングの品質を向上させます。
私たちが提案した方法は、大規模な InterHand2.6M データセットでの広範な実験によって検証され、画質における最先端のパフォーマンスを大幅に向上させます。
プロジェクト ページ: \url{https://github.com/XuanHuang0/GuassianHand}。

要約(オリジナル)

In this paper, we propose to create animatable avatars for interacting hands with 3D Gaussian Splatting (GS) and single-image inputs. Existing GS-based methods designed for single subjects often yield unsatisfactory results due to limited input views, various hand poses, and occlusions. To address these challenges, we introduce a novel two-stage interaction-aware GS framework that exploits cross-subject hand priors and refines 3D Gaussians in interacting areas. Particularly, to handle hand variations, we disentangle the 3D presentation of hands into optimization-based identity maps and learning-based latent geometric features and neural texture maps. Learning-based features are captured by trained networks to provide reliable priors for poses, shapes, and textures, while optimization-based identity maps enable efficient one-shot fitting of out-of-distribution hands. Furthermore, we devise an interaction-aware attention module and a self-adaptive Gaussian refinement module. These modules enhance image rendering quality in areas with intra- and inter-hand interactions, overcoming the limitations of existing GS-based methods. Our proposed method is validated via extensive experiments on the large-scale InterHand2.6M dataset, and it significantly improves the state-of-the-art performance in image quality. Project Page: \url{https://github.com/XuanHuang0/GuassianHand}.

arxiv情報

著者 Xuan Huang,Hanhui Li,Wanquan Liu,Xiaodan Liang,Yiqiang Yan,Yuhao Cheng,Chengqiang Gao
発行日 2024-10-11 14:14:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars はコメントを受け付けていません