Wasserstein Distances Made Explainable: Insights into Dataset Shifts and Transport Phenomena

要約

Wasserstein距離は、データ分布を比較するための強力なフレームワークを提供します。
それらを使用して、時間の経過とともにプロセスを分析したり、データ内の不均一性を検出したりすることができます。
ただし、ワッサースタインの距離を計算したり、対応するトランスポートマップ(または結合)を分析するだけでは、高いまたは低いワッサースタイン距離に寄与する要因を理解するのに十分ではない場合があります。
この作業では、説明可能なAIに基づいた新しいソリューションを提案します。これにより、データサブグループ、入力機能、解釈可能なサブスペースなど、さまざまなデータコンポーネントに効率的かつ正確に属性があります。
私たちの方法は、多様なデータセットとWasserstein距離の仕様にわたって高い精度を達成し、その実用性は2つのユースケースで実証されています。

要約(オリジナル)

Wasserstein distances provide a powerful framework for comparing data distributions. They can be used to analyze processes over time or to detect inhomogeneities within data. However, simply calculating the Wasserstein distance or analyzing the corresponding transport map (or coupling) may not be sufficient for understanding what factors contribute to a high or low Wasserstein distance. In this work, we propose a novel solution based on Explainable AI that allows us to efficiently and accurately attribute Wasserstein distances to various data components, including data subgroups, input features, or interpretable subspaces. Our method achieves high accuracy across diverse datasets and Wasserstein distance specifications, and its practical utility is demonstrated in two use cases.

arxiv情報

著者 Philip Naumann,Jacob Kauffmann,Grégoire Montavon
発行日 2025-05-09 15:26:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Wasserstein Distances Made Explainable: Insights into Dataset Shifts and Transport Phenomena はコメントを受け付けていません

BrainSegDMlF: A Dynamic Fusion-enhanced SAM for Brain Lesion Segmentation

要約

実質的な脳病変のセグメンテーションは、医療画像セグメンテーションの分野で重要で挑戦的な作業です。
脳イメージングにおける実質的な脳病変は、病変領域と正常な脳組織の間の不明瞭な境界を持つ高い不均一性を示します。
単一スライスの小さな病変を識別することは困難であり、異常な領域の正確で再現可能なセグメンテーション、およびその特徴の説明を非常に複雑にします。
既存の方法には次のような制限があります。1)診断で一般的に使用されるマルチモーダル情報を無視して、学習のために単一モーダル情報のみに依存しています。
これにより、複数の視点から脳病変情報を包括的に取得する能力が妨げられ、マルチモーダルデータ入力の効果的な統合と利用が防止され、それによって病変の全体的な理解が制限されます。
2)利用可能なデータの量によって制約されているため、小さな病変に対する感度が低く、微妙な病理学的変化を検出するのが困難になります。
3)現在のSAMベースのモデルは、自動セグメンテーションを達成できず、ある程度診断効率に影響を与える外部プロンプトに依存しています。これらの問題に対処するために、BrainSegDMLFという名前の脳病変セグメンテーションのために特異的に設計された大規模な完全に自動化されたセグメンテーションモデルを開発しました。
このモデルには、次の機能があります。1)エンコーディングプロセス中にマルチモーダルデータを処理および統合する動的モーダルインタラクティブフュージョン(DMIF)モジュールで、SAMエンコーダーにより包括的なモーダル情報を提供します。
2)レイヤーごとのアップサンプリングデコーダー。モデルが限られたデータを使用しても、豊富な低レベルおよび高レベルの機能を抽出できるようにし、それにより小さな病変の存在を検出できます。
3)自動セグメンテーションマスク。モデルは、手動プロンプトを必要とせずに病変マスクを自動的に生成できるようにします。

要約(オリジナル)

The segmentation of substantial brain lesions is a significant and challenging task in the field of medical image segmentation. Substantial brain lesions in brain imaging exhibit high heterogeneity, with indistinct boundaries between lesion regions and normal brain tissue. Small lesions in single slices are difficult to identify, making the accurate and reproducible segmentation of abnormal regions, as well as their feature description, highly complex. Existing methods have the following limitations: 1) They rely solely on single-modal information for learning, neglecting the multi-modal information commonly used in diagnosis. This hampers the ability to comprehensively acquire brain lesion information from multiple perspectives and prevents the effective integration and utilization of multi-modal data inputs, thereby limiting a holistic understanding of lesions. 2) They are constrained by the amount of data available, leading to low sensitivity to small lesions and difficulty in detecting subtle pathological changes. 3) Current SAM-based models rely on external prompts, which cannot achieve automatic segmentation and, to some extent, affect diagnostic efficiency.To address these issues, we have developed a large-scale fully automated segmentation model specifically designed for brain lesion segmentation, named BrainSegDMLF. This model has the following features: 1) Dynamic Modal Interactive Fusion (DMIF) module that processes and integrates multi-modal data during the encoding process, providing the SAM encoder with more comprehensive modal information. 2) Layer-by-Layer Upsampling Decoder, enabling the model to extract rich low-level and high-level features even with limited data, thereby detecting the presence of small lesions. 3) Automatic segmentation masks, allowing the model to generate lesion masks automatically without requiring manual prompts.

arxiv情報

著者 Hongming Wang,Yifeng Wu,Huimin Huang,Hongtao Wu,Jia-Xuan Jiang,Xiaodong Zhang,Hao Zheng,Xian Wu,Yefeng Zheng,Jinping Xu,Jing Cheng
発行日 2025-05-09 15:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BrainSegDMlF: A Dynamic Fusion-enhanced SAM for Brain Lesion Segmentation はコメントを受け付けていません

MM-Skin: Enhancing Dermatology Vision-Language Model with an Image-Text Dataset Derived from Textbooks

要約

医学的視覚言語モデル(VLM)は、さまざまな医療分野で臨床助手として有望であることを示しています。
ただし、主に現在の皮膚科マルチモーダルデータセットの専門的なテキストの説明が少ないため、専門的かつ詳細な診断分析を提供できる専門的かつ詳細な診断分析を提供できる専門的な皮膚科VLMは未開発のままです。
この問題に対処するために、プロの教科書から収集された臨床、皮膚鏡、病理学的、病理学的、および10k近くの高品質の画像テキストペアを含む3つのイメージングモダリティを含む最初の大規模なマルチモーダル皮膚科データセットであるMMスキンを提案します。
さらに、27Kを超える多様な、命令に応えるビジョン質問応答(VQA)サンプル(現在の最大の皮膚科VQAデータセットの9倍のサイズ)を生成します。
パブリックデータセットとMMスキンを活用して、正確で微妙な皮膚疾患の解釈のために設計された皮膚科固有のVLMであるSkinVLを開発しました。
VQA上のSkinVLの包括的なベンチマーク評価、8つのデータセットにわたる監視付き微調整(SFT)およびゼロショット分類タスクは、一般的なVLMモデルと医療VLMモデルの両方と比較して、皮膚疾患の並外れた性能を明らかにします。
MM-SkinとSkinVLの導入は、臨床皮膚科VLMアシスタントの開発を進めることに意味のある貢献を提供します。
MM-Skinはhttps://github.com/zwq803/mm-skinで入手できます

要約(オリジナル)

Medical vision-language models (VLMs) have shown promise as clinical assistants across various medical fields. However, specialized dermatology VLM capable of delivering professional and detailed diagnostic analysis remains underdeveloped, primarily due to less specialized text descriptions in current dermatology multimodal datasets. To address this issue, we propose MM-Skin, the first large-scale multimodal dermatology dataset that encompasses 3 imaging modalities, including clinical, dermoscopic, and pathological and nearly 10k high-quality image-text pairs collected from professional textbooks. In addition, we generate over 27k diverse, instruction-following vision question answering (VQA) samples (9 times the size of current largest dermatology VQA dataset). Leveraging public datasets and MM-Skin, we developed SkinVL, a dermatology-specific VLM designed for precise and nuanced skin disease interpretation. Comprehensive benchmark evaluations of SkinVL on VQA, supervised fine-tuning (SFT) and zero-shot classification tasks across 8 datasets, reveal its exceptional performance for skin diseases in comparison to both general and medical VLM models. The introduction of MM-Skin and SkinVL offers a meaningful contribution to advancing the development of clinical dermatology VLM assistants. MM-Skin is available at https://github.com/ZwQ803/MM-Skin

arxiv情報

著者 Wenqi Zeng,Yuqi Sun,Chenxi Ma,Weimin Tan,Bo Yan
発行日 2025-05-09 16:03:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MM-Skin: Enhancing Dermatology Vision-Language Model with an Image-Text Dataset Derived from Textbooks はコメントを受け付けていません

DiffLocks: Generating 3D Hair from a Single Image using Diffusion Models

要約

単一の画像から3Dヘアジオメトリを生成するタスクに対処します。これは、髪型の多様性とペアの画像間の髪のデータの欠如のために困難です。
以前の方法は、主に合成データで訓練されており、ガイドストランドや頭皮レベルの埋め込みなどの低次元の中間表現を使用して、そのようなデータの限られた量に対処し、デコード、アップサンプル、リアリズムを追加する必要があります。
これらのアプローチは、詳細な髪を再構築したり、巻き毛で闘ったり、少数の髪型のみを処理することに限定されていません。
これらの制限を克服するために、単一の画像から直接多種多様なヘアスタイルの詳細な再構築を可能にする新しいフレームワークであるDifflocksを提案します。
まず、40kのヘアスタイルを含むこれまでで最大の合成ヘアデータセットの作成を自動化することにより、3Dヘアデータの欠如に対処します。
第二に、合成ヘアデータセットを活用して、単一の正面画像から正確な3Dストランドを生成する画像条件付き拡散トランスフマーモデルを学習します。
前処理された画像バックボーンを使用することにより、合成データのみで訓練されているにもかかわらず、この方法は野生の画像に一般化されます。
拡散モデルは、マップ内の任意のポイントに個々の髪鎖の潜在コードが含まれる頭皮テクスチャマップを予測します。
これらのコードは、ポスト処理技術なしに3Dストランドに直接デコードされます。
ガイドストランドの代わりに、個々のストランドを表すことで、トランスが複雑な髪型の詳細な空間構造をモデル化できます。
これにより、Difflocksは、アフロヘアスタイルのように、初めて単一の画像から非常にカールした髪を回復できます。
データとコードはhttps://radualexandru.github.io/difflocks/で入手できます。

要約(オリジナル)

We address the task of generating 3D hair geometry from a single image, which is challenging due to the diversity of hairstyles and the lack of paired image-to-3D hair data. Previous methods are primarily trained on synthetic data and cope with the limited amount of such data by using low-dimensional intermediate representations, such as guide strands and scalp-level embeddings, that require post-processing to decode, upsample, and add realism. These approaches fail to reconstruct detailed hair, struggle with curly hair, or are limited to handling only a few hairstyles. To overcome these limitations, we propose DiffLocks, a novel framework that enables detailed reconstruction of a wide variety of hairstyles directly from a single image. First, we address the lack of 3D hair data by automating the creation of the largest synthetic hair dataset to date, containing 40K hairstyles. Second, we leverage the synthetic hair dataset to learn an image-conditioned diffusion-transfomer model that generates accurate 3D strands from a single frontal image. By using a pretrained image backbone, our method generalizes to in-the-wild images despite being trained only on synthetic data. Our diffusion model predicts a scalp texture map in which any point in the map contains the latent code for an individual hair strand. These codes are directly decoded to 3D strands without post-processing techniques. Representing individual strands, instead of guide strands, enables the transformer to model the detailed spatial structure of complex hairstyles. With this, DiffLocks can recover highly curled hair, like afro hairstyles, from a single image for the first time. Data and code is available at https://radualexandru.github.io/difflocks/

arxiv情報

著者 Radu Alexandru Rosu,Keyu Wu,Yao Feng,Youyi Zheng,Michael J. Black
発行日 2025-05-09 16:16:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DiffLocks: Generating 3D Hair from a Single Image using Diffusion Models はコメントを受け付けていません

Patch distribution modeling framework adaptive cosine estimator (PaDiM-ACE) for anomaly detection and localization in synthetic aperture radar imagery

要約

この作業は、既存のパッチ分布モデリングフレームワーク(PADIM)に拡張された合成開口レーダー画像(SAR)における異常検出と局在への新しいアプローチを提示します。
適応コサイン推定器(ACE)検出統計を導入します。
Padimは、無制限のメトリックである推論でマハラノビス距離を使用します。
代わりに、エースはコサインの類似性メトリックを使用して、境界のある異常検出スコアを提供します。
提案された方法は、複数のSARデータセットで評価され、画像の受信機動作曲線(AUROC)の下の領域を含むパフォーマンスメトリックとピクセルレベルで、SAR画像の異常検出と局在のパフォーマンスの向上を目的としています。
コードは公開されています:https://github.com/advanced-vision-and-learning-lab/padim-ace。

要約(オリジナル)

This work presents a new approach to anomaly detection and localization in synthetic aperture radar imagery (SAR), expanding upon the existing patch distribution modeling framework (PaDiM). We introduce the adaptive cosine estimator (ACE) detection statistic. PaDiM uses the Mahalanobis distance at inference, an unbounded metric. ACE instead uses the cosine similarity metric, providing bounded anomaly detection scores. The proposed method is evaluated across multiple SAR datasets, with performance metrics including the area under the receiver operating curve (AUROC) at the image and pixel level, aiming for increased performance in anomaly detection and localization of SAR imagery. The code is publicly available: https://github.com/Advanced-Vision-and-Learning-Lab/PaDiM-ACE.

arxiv情報

著者 Angelina Ibarra,Joshua Peeples
発行日 2025-05-09 16:20:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Patch distribution modeling framework adaptive cosine estimator (PaDiM-ACE) for anomaly detection and localization in synthetic aperture radar imagery はコメントを受け付けていません

NeurCross: A Neural Approach to Computing Cross Fields for Quad Mesh Generation

要約

四辺形のメッシュ生成は、コンピューター支援設計とエンジニアリング(CAD/E)内の数値シミュレーションにおいて重要な役割を果たします。
高品質の象限を生成するには、通常、4つの重要な基準を満たす必要があります。
まず、四辺形のメッシュは、主要な曲率方向と密接に整列する必要があります。
第二に、特異点を戦略的に配置し、効果的に最小化する必要があります。
第三に、メッシュはシャープな特徴エッジに正確に適合する必要があります。
最後に、四角形の結果は、ノイズとマイナーな幾何学的変動に対する堅牢性を示すはずです。
既存の方法では、一般に、最初に通常の交差点を計算して、表面全体のクアッド要素の向きを表し、その後、このクロスフィールドと密接に整列した四辺形メッシュを抽出します。
このアプローチでの主な課題は、横断面の滑らかさとプリの計算された主要な曲率方向とのアライメントとのバランスをとることです。これは、小さな表面摂動に敏感で、球形または平面領域でしばしば不明確になっています。
この課題に取り組むために、ゼロレベルのセットが入力形状のプロキシとして機能する、クロスフィールドとニューラル署名距離関数(SDF)を同時に最適化する新しいフレームワークであるNeurcrossを提案します。
私たちの関節の最適化は、入力表面への最適化されたSDF表面の忠実な近似、交差場とSDF表面に由来する主要な曲率フィールドの整列、および交差場の滑らかさの3つの要因によって導かれます。
仲介者として機能する神経SDFは、2つの重要な方法で貢献します。
まず、交差点を導くためのより定期的な主要な曲率方向を示す代替の最適化可能なベース表面を提供します。
第二に、神経SDFのヘシアンマトリックスを活用して、主要な湾曲方向と交差場の整合を暗黙的に実施します…

要約(オリジナル)

Quadrilateral mesh generation plays a crucial role in numerical simulations within Computer-Aided Design and Engineering (CAD/E). Producing high-quality quadrangulation typically requires satisfying four key criteria. First, the quadrilateral mesh should closely align with principal curvature directions. Second, singular points should be strategically placed and effectively minimized. Third, the mesh should accurately conform to sharp feature edges. Lastly, quadrangulation results should exhibit robustness against noise and minor geometric variations. Existing methods generally involve first computing a regular cross field to represent quad element orientations across the surface, followed by extracting a quadrilateral mesh aligned closely with this cross field. A primary challenge with this approach is balancing the smoothness of the cross field with its alignment to pre-computed principal curvature directions, which are sensitive to small surface perturbations and often ill-defined in spherical or planar regions. To tackle this challenge, we propose NeurCross, a novel framework that simultaneously optimizes a cross field and a neural signed distance function (SDF), whose zero-level set serves as a proxy of the input shape. Our joint optimization is guided by three factors: faithful approximation of the optimized SDF surface to the input surface, alignment between the cross field and the principal curvature field derived from the SDF surface, and smoothness of the cross field. Acting as an intermediary, the neural SDF contributes in two essential ways. First, it provides an alternative, optimizable base surface exhibiting more regular principal curvature directions for guiding the cross field. Second, we leverage the Hessian matrix of the neural SDF to implicitly enforce cross field alignment with principal curvature directions…

arxiv情報

著者 Qiujie Dong,Huibiao Wen,Rui Xu,Shuangmin Chen,Jiaran Zhou,Shiqing Xin,Changhe Tu,Taku Komura,Wenping Wang
発行日 2025-05-09 16:29:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NeurCross: A Neural Approach to Computing Cross Fields for Quad Mesh Generation はコメントを受け付けていません

MonetGPT: Solving Puzzles Enhances MLLMs’ Image Retouching Skills

要約

レタッチは、生の写真の操作後の不可欠な作業です。
テキストまたはストロークに導かれた生成編集は、ユーザーがアクセスできる新しいツールを提供しますが、容認できない予測不可能な方法で元のオブジェクトの身元を簡単に変更できます。
対照的に、写真編集ツール(Gimp、Lightroomなど)で一般的にサポートされている従来の手続き的編集は保守的ですが、専門家にはまだ好まれています。
残念ながら、プロの品質のレタッチには、ほとんどの初心者の計画が困難な個々の手続き上の編集操作が含まれます。
このホワイトペーパーでは、マルチモーダルの大手言語モデル(MLLM)を、生の写真を批評し、適切な救済策を提案し、最終的に一連の著者の手続き上の画像操作でそれらを実現できるかどうかを尋ねます。
特別に設計された視覚パズルを解決するためにトレーニングすることにより、MLLMが基礎となる画像処理操作を最初に認識できることを実証します。
その後、このような操作認識MLLMは、編集シーケンスを計画および提案することができます。
トレーニングを容易にするために、専門家が編集した写真のセットを考慮して、専門家の編集を手続き的に操作し、視覚的調整で前提条件のLLMを接地し、微調整の推論を合成することにより、推論データセットを統合します。
提案されたレタッチ操作は、建設により、ユーザーが理解できるように、オブジェクトの詳細と解像度を保存し、オプションでオーバーライドできます。
さまざまなテスト例でセットアップを評価し、説明可能性とアイデンティティの保存の観点から、既存の生成的およびその他の手続き上の代替品よりも利点を示します。
コード、データ、モデル、および補足結果は、プロジェクトWebサイトhttps://monetgpt.github.ioから見つけることができます。

要約(オリジナル)

Retouching is an essential task in post-manipulation of raw photographs. Generative editing, guided by text or strokes, provides a new tool accessible to users but can easily change the identity of the original objects in unacceptable and unpredictable ways. In contrast, although traditional procedural edits, as commonly supported by photoediting tools (e.g., Gimp, Lightroom), are conservative, they are still preferred by professionals. Unfortunately, professional quality retouching involves many individual procedural editing operations that is challenging to plan for most novices. In this paper, we ask if a multimodal large language model (MLLM) can be taught to critique raw photographs, suggest suitable remedies, and finally realize them with a given set of pre-authored procedural image operations. We demonstrate that MLLMs can be first made aware of the underlying image processing operations, by training them to solve specially designed visual puzzles. Subsequently, such an operation-aware MLLM can both plan and propose edit sequences. To facilitate training, given a set of expert-edited photos, we synthesize a reasoning dataset by procedurally manipulating the expert edits and then grounding a pretrained LLM on the visual adjustments, to synthesize reasoning for finetuning. The proposed retouching operations are, by construction, understandable by the users, preserve object details and resolution, and can be optionally overridden. We evaluate our setup on a variety of test examples and show advantages, in terms of explainability and identity preservation, over existing generative and other procedural alternatives. Code, data, models, and supplementary results can be found via our project website at https://monetgpt.github.io.

arxiv情報

著者 Niladri Shekhar Dutt,Duygu Ceylan,Niloy J. Mitra
発行日 2025-05-09 16:38:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | MonetGPT: Solving Puzzles Enhances MLLMs’ Image Retouching Skills はコメントを受け付けていません

Brain Hematoma Marker Recognition Using Multitask Learning: SwinTransformer and Swin-Unet

要約

このペーパーでは、分類およびセマンティックセグメンテーションのためにトランスを使用したマルチタスク学習であるMTL-Swin-Unetメソッドを提案します。
偽りの相関の問題については、この方法により、他の2つの画像表現で画像表現を強化できます。セマンティックセグメンテーションによって得られた表現と画像再構成によって得られた表現です。
私たちの実験では、テストデータに同じ患者からのスライスが含まれていた場合、提案された方法は他の分類器よりもf値測定で上回りました(共変量シフトなし)。
同様に、テストデータに同じ患者からのスライスが含まれていなかった場合(共変量シフト設定)、提案された方法はAUC測定で優れています。

要約(オリジナル)

This paper proposes a method MTL-Swin-Unet which is multi-task learning using transformers for classification and semantic segmentation. For spurious-correlation problems, this method allows us to enhance the image representation with two other image representations: representation obtained by semantic segmentation and representation obtained by image reconstruction. In our experiments, the proposed method outperformed in F-value measure than other classifiers when the test data included slices from the same patient (no covariate shift). Similarly, when the test data did not include slices from the same patient (covariate shift setting), the proposed method outperformed in AUC measure.

arxiv情報

著者 Kodai Hirata,Tsuyoshi Okita
発行日 2025-05-09 16:54:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Brain Hematoma Marker Recognition Using Multitask Learning: SwinTransformer and Swin-Unet はコメントを受け付けていません

Neuro-Symbolic Concepts

要約

この記事では、継続的かつ柔軟に推論することができる建築エージェントの概念中心のパラダイムを紹介します。
概念中心のエージェントは、神経反応概念の語彙を利用しています。
オブジェクト、関係、アクションの概念などのこれらの概念は、感覚入力と作動出力に基づいています。
また、構成的な組み合わせを通じて、新しい概念を作成できるようになりました。
学習と推論を促進するために、概念は、シンボリックプログラムとニューラルネットワーク表現の組み合わせを使用してタイプおよび表現されます。
このようなニューロシンボリックの概念を活用すると、エージェントは、2D画像、ビデオ、3Dシーン、ロボット操作タスクなど、さまざまなドメインにわたるさまざまなタスクを解決するために効率的に学習して再結合できます。
この概念中心のフレームワークは、データ効率、構成一般化、継続的な学習、ゼロショット転送など、いくつかの利点を提供します。

要約(オリジナル)

This article presents a concept-centric paradigm for building agents that can learn continually and reason flexibly. The concept-centric agent utilizes a vocabulary of neuro-symbolic concepts. These concepts, such as object, relation, and action concepts, are grounded on sensory inputs and actuation outputs. They are also compositional, allowing for the creation of novel concepts through their structural combination. To facilitate learning and reasoning, the concepts are typed and represented using a combination of symbolic programs and neural network representations. Leveraging such neuro-symbolic concepts, the agent can efficiently learn and recombine them to solve various tasks across different domains, ranging from 2D images, videos, 3D scenes, and robotic manipulation tasks. This concept-centric framework offers several advantages, including data efficiency, compositional generalization, continual learning, and zero-shot transfer.

arxiv情報

著者 Jiayuan Mao,Joshua B. Tenenbaum,Jiajun Wu
発行日 2025-05-09 17:02:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | Neuro-Symbolic Concepts はコメントを受け付けていません

CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation

要約

テキストからモーションの生成の最近の進歩は有望な結果を示していますが、通常、すべての個人が単一のユニットとしてグループ化されていると想定しています。
これらの方法をスケーリングして、より大きな群衆を処理し、個人が特定のイベントに適切に対応することを保証することは依然として重要な課題です。
これは主に、グループの組織化、アクティビティの計画、相互作用の調整、制御可能なモーション生成を含むシーン計画の複雑さによるものです。
このホワイトペーパーでは、集団モーション生成の最初のゼロショットフレームワークであるCrowdMogenを提示します。これは、個人を効果的にグループ化し、テキストプロンプトからイベントに合わせたモーションシーケンスを生成します。
1)効果的なシーン計画モジュールを監視した方法でトレーニングするために利用可能なデータセットによって制限されているため、代わりに、事前に訓練された大手言語モデル(LLM)を活用して個人を異なるグループに編成するクラウドシーンプランナーを提案します。
LLMはグループ部門に高レベルのガイダンスを提供しますが、人間の動きの低レベルの理解がありません。
これに対処するために、コンテキストに適したアクティビティを生成する前に、SMPLベースのジョイントを統合することをさらに提案します。これは、ジョイントの軌跡とテキストの説明の両方で構成されています。
2)第二に、割り当てられたアクティビティを生成ネットワークに組み込むために、マルチステップ除去プロセス中に空間的制約を維持し、共同でアクティビティを共同でトランスベースのネットワークに統合する集合モーションジェネレーターを導入します。
広範な実験は、クラウドモーゲンが以前のアプローチを大幅に上回り、空間的に一貫性のある現実的なイベント駆動型モーションシーケンスを提供することを示しています。
集合運動生成の最初の枠組みとして、CrowdMogenは、都市のシミュレーション、群衆計画、およびその他の大規模なインタラクティブ環境のアプリケーションを前進させる可能性があります。

要約(オリジナル)

While recent advances in text-to-motion generation have shown promising results, they typically assume all individuals are grouped as a single unit. Scaling these methods to handle larger crowds and ensuring that individuals respond appropriately to specific events remains a significant challenge. This is primarily due to the complexities of scene planning, which involves organizing groups, planning their activities, and coordinating interactions, and controllable motion generation. In this paper, we present CrowdMoGen, the first zero-shot framework for collective motion generation, which effectively groups individuals and generates event-aligned motion sequences from text prompts. 1) Being limited by the available datasets for training an effective scene planning module in a supervised manner, we instead propose a crowd scene planner that leverages pre-trained large language models (LLMs) to organize individuals into distinct groups. While LLMs offer high-level guidance for group divisions, they lack the low-level understanding of human motion. To address this, we further propose integrating an SMPL-based joint prior to generate context-appropriate activities, which consists of both joint trajectories and textual descriptions. 2) Secondly, to incorporate the assigned activities into the generative network, we introduce a collective motion generator that integrates the activities into a transformer-based network in a joint-wise manner, maintaining the spatial constraints during the multi-step denoising process. Extensive experiments demonstrate that CrowdMoGen significantly outperforms previous approaches, delivering realistic, event-driven motion sequences that are spatially coherent. As the first framework of collective motion generation, CrowdMoGen has the potential to advance applications in urban simulation, crowd planning, and other large-scale interactive environments.

arxiv情報

著者 Yukang Cao,Xinying Guo,Mingyuan Zhang,Haozhe Xie,Chenyang Gu,Ziwei Liu
発行日 2025-05-09 17:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation はコメントを受け付けていません