Demand Estimation with Text and Image Data

要約

非構造化されたテキストと画像データをレバレバルして、代替パターンを推測する需要推定方法を提案します。
事前に訓練されたディープラーニングモデルを使用して、製品画像とテキストの説明から埋め込みを抽出し、それらをランダム係数ロジットモデルに組み込みます。
このアプローチにより、研究者は、製品属性に関するデータが不足している場合、または消費者が視覚設計や機能的利点などの困難な属性を大切にしている場合でも、需要を推定できます。
選択実験のデータを使用して、私たちのアプローチは、消費者の2番目の選択肢の反事実的予測で標準属性ベースのモデルよりも優れていることを示しています。
また、Amazon.comの40の製品カテゴリにまたがることにも適用され、テキストと画像データが各カテゴリ内の密接な代替品を識別するのに役立つことが一貫しています。

要約(オリジナル)

We propose a demand estimation method that leverages unstructured text and image data to infer substitution patterns. Using pre-trained deep learning models, we extract embeddings from product images and textual descriptions and incorporate them into a random coefficients logit model. This approach enables researchers to estimate demand even when they lack data on product attributes or when consumers value hard-to-quantify attributes, such as visual design or functional benefits. Using data from a choice experiment, we show that our approach outperforms standard attribute-based models in counterfactual predictions of consumers’ second choices. We also apply it across 40 product categories on Amazon.com and consistently find that text and image data help identify close substitutes within each category.

arxiv情報

著者 Giovanni Compiani,Ilya Morozov,Stephan Seiler
発行日 2025-03-26 16:47:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, econ.GN, q-fin.EC | Demand Estimation with Text and Image Data はコメントを受け付けていません

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

要約

高度なロボット工学にとって、接触豊富な相互作用による器用な操作が重要です。
最近の拡散ベースの計画アプローチは、単純な操作タスクの可能性を示していますが、複雑なシーケンシャル相互作用を処理するときに、非現実的なゴースト状態(たとえば、オブジェクトが自動的に手と接触せずに移動する)または適応性がないことがよくあります。
この作業では、適応的な器用な操作のための相互作用対応拡散計画フレームワークであるDexhanddiffを紹介します。
Dexhanddiffモデルは、相互作用前の接触アライメントとコンタクト後の目標指向制御で構成される二重相拡散プロセスを介した共同の状態アクションダイナミクスをモデル化し、目標適応一般化可能な器用な操作を可能にします。
さらに、ダイナミクスモデルベースのデュアルガイダンスを組み込み、自動ガイダンス関数の生成のための大規模な言語モデルを活用し、物理的相互作用の一般化を強化し、言語キューを通じて多様な目標適応を促進します。
ドアの開口部、ペンとブロックの再配向、オブジェクトの再配置、ハンマーストライキなどの物理的相互作用タスクの実験は、既存の方法と比較して平均成功率(59.2%対29.5%)の2倍以上のトレーニング分布外の目標に対するDexhanddiffの有効性を示しています。
私たちのフレームワークは、目標適応型器用なタスクで平均70.7%の成功率を達成し、接触豊富な操作における堅牢性と柔軟性を強調しています。

要約(オリジナル)

Dexterous manipulation with contact-rich interactions is crucial for advanced robotics. While recent diffusion-based planning approaches show promise for simple manipulation tasks, they often produce unrealistic ghost states (e.g., the object automatically moves without hand contact) or lack adaptability when handling complex sequential interactions. In this work, we introduce DexHandDiff, an interaction-aware diffusion planning framework for adaptive dexterous manipulation. DexHandDiff models joint state-action dynamics through a dual-phase diffusion process which consists of pre-interaction contact alignment and post-contact goal-directed control, enabling goal-adaptive generalizable dexterous manipulation. Additionally, we incorporate dynamics model-based dual guidance and leverage large language models for automated guidance function generation, enhancing generalizability for physical interactions and facilitating diverse goal adaptation through language cues. Experiments on physical interaction tasks such as door opening, pen and block re-orientation, object relocation, and hammer striking demonstrate DexHandDiff’s effectiveness on goals outside training distributions, achieving over twice the average success rate (59.2% vs. 29.5%) compared to existing methods. Our framework achieves an average of 70.7% success rate on goal adaptive dexterous tasks, highlighting its robustness and flexibility in contact-rich manipulation.

arxiv情報

著者 Zhixuan Liang,Yao Mu,Yixiao Wang,Tianxing Chen,Wenqi Shao,Wei Zhan,Masayoshi Tomizuka,Ping Luo,Mingyu Ding
発行日 2025-03-26 16:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation はコメントを受け付けていません

A weakly-supervised deep learning model for fast localisation and delineation of the skeleton, internal organs, and spinal canal on Whole-Body Diffusion-Weighted MRI (WB-DWI)

要約

背景:全身拡散加重MRI(WB-DWI)からの見かけの拡散係数(ADC)値と総拡散量(TDV)は、がんイメージングバイオマーカーが認識されています。
ただし、ADCおよびTDV測定の手動疾患の描写は、臨床診療では自動化を要求しています。
最初のステップとして、骨格、隣接する内臓(肝臓、脾臓、尿膀胱、腎臓)、および脊髄運河の高速で再現可能な確率マップを生成するアルゴリズムを提案します。
方法:WB-DWI上のこれらの解剖学的構造をローカライズし、描写する3Dパッチベースの残差U-NETアーキテクチャに基づいて、自動掘削パイプラインを開発しました。
このアルゴリズムは、計算集中的なアトラスベースのアプローチから派生した「ソフトラベル」(非バイナリセグメンテーション)を使用してトレーニングされました。
トレーニングと検証のために、45人の患者の検査で、進行前立腺がん(APC)または多発性骨髄腫(MM)の患者から532件のスキャンを含むマルチセンターWB-DWIデータセットを採用しました。
結果:監視されている深いディープラーニングモデルは、骨格描写で0.66/0.6/0.73、内臓の0.8/0.79/0.8​​1、脊髄運河の0.85/0.79/0.94の平均DICEスコア/精度/リコールを達成しました。
自動化されたエキスパートとマニュアル定義の全身描写の間の相対的な中央値ADCと対数変換の体積の違いは、それぞれ10%と4%未満でした。
確率マップを生成するための計算時間は、Atlasベースの登録アルゴリズムよりも12倍高速でした(25秒対5分)。
経験豊富な放射線科医は、テストデータセットでモデルの精度を「良い」または「優れた」と評価しました。
結論:私たちのモデルは、WB-DWIのボディ領域を局在化および描写するための高速で再現性のある確率マップを提供し、ADCとTDVの定量化を可能にし、疾患の病期分類および治療反応評価の臨床医をサポートする可能性があります。

要約(オリジナル)

Background: Apparent Diffusion Coefficient (ADC) values and Total Diffusion Volume (TDV) from Whole-body diffusion-weighted MRI (WB-DWI) are recognized cancer imaging biomarkers. However, manual disease delineation for ADC and TDV measurements is unfeasible in clinical practice, demanding automation. As a first step, we propose an algorithm to generate fast and reproducible probability maps of the skeleton, adjacent internal organs (liver, spleen, urinary bladder, and kidneys), and spinal canal. Methods: We developed an automated deep-learning pipeline based on a 3D patch-based Residual U-Net architecture that localizes and delineates these anatomical structures on WB-DWI. The algorithm was trained using ‘soft-labels’ (non-binary segmentations) derived from a computationally intensive atlas-based approach. For training and validation, we employed a multi-center WB-DWI dataset comprising 532 scans from patients with Advanced Prostate Cancer (APC) or Multiple Myeloma (MM), with testing on 45 patients. Results: Our weakly-supervised deep learning model achieved an average dice score/precision/recall of 0.66/0.6/0.73 for skeletal delineations, 0.8/0.79/0.81 for internal organs, and 0.85/0.79/0.94 for spinal canal, with surface distances consistently below 3 mm. Relative median ADC and log-transformed volume differences between automated and manual expert-defined full-body delineations were below 10% and 4%, respectively. The computational time for generating probability maps was 12x faster than the atlas-based registration algorithm (25 s vs. 5 min). An experienced radiologist rated the model’s accuracy ‘good’ or ‘excellent’ on test datasets. Conclusion: Our model offers fast and reproducible probability maps for localizing and delineating body regions on WB-DWI, enabling ADC and TDV quantification, potentially supporting clinicians in disease staging and treatment response assessment.

arxiv情報

著者 A. Candito,A. Dragan,R. Holbrey,A. Ribeiro,R. Donners,C. Messiou,N. Tunariu,D. -M. Koh,M. D. Blackledge,The Institute of Cancer Research,London,United Kingdom,The Royal Marsden NHS Foundation Trust,London,United Kingdom,University Hospital Basel,Basel,Switzerland
発行日 2025-03-26 17:03:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A weakly-supervised deep learning model for fast localisation and delineation of the skeleton, internal organs, and spinal canal on Whole-Body Diffusion-Weighted MRI (WB-DWI) はコメントを受け付けていません

Dynamic Motion Blending for Versatile Motion Editing

要約

テキスト誘導モーション編集により、従来のキーフレームアニメーションを超えて、高レベルのセマンティックコントロールと反復的な変更が可能になります。
既存の方法は、限られた事前に収集されたトレーニングトリプレットに依存しており、これは多様な編集シナリオにおける汎用性を著しく妨げます。
入力テキストに基づいてボディパーツの動きをブレンドすることにより、トレーニングトリプレットを動的に生成するオンラインデータ増強手法であるMotionCutmixを紹介します。
MotionCutmixはトレーニングの分布を効果的に拡張しますが、組成の性質はランダム性と潜在的な身体部分の不整合を導入します。
このような豊富な分布をモデル化するために、モーションコーディネーターを使用した自動回帰拡散モデルであるMotionRefitを提示します。
自動回帰アーキテクチャは、長いシーケンスを分解することにより学習を促進し、モーションコーディネーターはモーション構成のアーティファクトを軽減します。
私たちの方法は、追加の仕様や大規模な言語モデルに依存することなく、高レベルの人間の指示から直接空間モーションと時間のモーション編集を編集します。
広範な実験を通じて、MotionRefitがテキスト誘導モーション編集で最先端のパフォーマンスを達成することを示します。

要約(オリジナル)

Text-guided motion editing enables high-level semantic control and iterative modifications beyond traditional keyframe animation. Existing methods rely on limited pre-collected training triplets, which severely hinders their versatility in diverse editing scenarios. We introduce MotionCutMix, an online data augmentation technique that dynamically generates training triplets by blending body part motions based on input text. While MotionCutMix effectively expands the training distribution, the compositional nature introduces increased randomness and potential body part incoordination. To model such a rich distribution, we present MotionReFit, an auto-regressive diffusion model with a motion coordinator. The auto-regressive architecture facilitates learning by decomposing long sequences, while the motion coordinator mitigates the artifacts of motion composition. Our method handles both spatial and temporal motion edits directly from high-level human instructions, without relying on additional specifications or Large Language Models. Through extensive experiments, we show that MotionReFit achieves state-of-the-art performance in text-guided motion editing.

arxiv情報

著者 Nan Jiang,Hongjie Li,Ziye Yuan,Zimo He,Yixin Chen,Tengyu Liu,Yixin Zhu,Siyuan Huang
発行日 2025-03-26 17:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dynamic Motion Blending for Versatile Motion Editing はコメントを受け付けていません

SChanger: Change Detection from a Semantic Change and Spatial Consistency Perspective

要約

変更検出は、地球観測アプリケーションの重要なタスクです。
最近、ディープラーニング方法は、強力なパフォーマンスと広範なアプリケーションを実証しています。
ただし、変化検出は、同じ領域のリモートセンシング画像を正確に整列させる労働集約的なプロセスにより、データ不足に直面しているため、深い学習アルゴリズムのパフォーマンスが制限されます。
データ不足の問題に対処するために、Semantic Change Network(SCN)と呼ばれる微調整戦略を開発します。
最初は、インスタンス機能抽出の事前知識を獲得するために、単一時間の教師付きタスクのモデルを事前訓練しました。
このモデルは、この事前知識を維持するために、共有重量のシアムアーキテクチャと拡張時間融合モジュール(TFM)を採用し、変化検出タスクで微調整されます。
すべてのインスタンスを識別するための学習されたセマンティクスは、変更のみを識別することに焦点を合わせて変更されます。
一方、2つの画像間の変更の位置は空間的に同一であり、空間的一貫性と呼ばれる概念であることがわかります。
この誘導バイアスを、大型型の畳み込みによって生成され、両方の時点からの機能に適用される注意マップを介して導入します。
これにより、マルチスケールの変化のモデリングが強化され、変更検出セマンティクスにおける根本的な関係を捉えるのに役立ちます。
これら2つの戦略を利用して、バイナリ変化検出モデルを開発します。
このモデルは、6つのデータセットで最先端の方法に対して検証され、すべてのベンチマーク方法を超え、92.87%、86.43%、68.95%、97.62%、84.58%、および93.20%のF1スコアを実現します。

要約(オリジナル)

Change detection is a key task in Earth observation applications. Recently, deep learning methods have demonstrated strong performance and widespread application. However, change detection faces data scarcity due to the labor-intensive process of accurately aligning remote sensing images of the same area, which limits the performance of deep learning algorithms. To address the data scarcity issue, we develop a fine-tuning strategy called the Semantic Change Network (SCN). We initially pre-train the model on single-temporal supervised tasks to acquire prior knowledge of instance feature extraction. The model then employs a shared-weight Siamese architecture and extended Temporal Fusion Module (TFM) to preserve this prior knowledge and is fine-tuned on change detection tasks. The learned semantics for identifying all instances is changed to focus on identifying only the changes. Meanwhile, we observe that the locations of changes between the two images are spatially identical, a concept we refer to as spatial consistency. We introduce this inductive bias through an attention map that is generated by large-kernel convolutions and applied to the features from both time points. This enhances the modeling of multi-scale changes and helps capture underlying relationships in change detection semantics. We develop a binary change detection model utilizing these two strategies. The model is validated against state-of-the-art methods on six datasets, surpassing all benchmark methods and achieving F1 scores of 92.87%, 86.43%, 68.95%, 97.62%, 84.58%, and 93.20% on the LEVIR-CD, LEVIR-CD+, S2Looking, CDD, SYSU-CD, and WHU-CD datasets, respectively.

arxiv情報

著者 Ziyu Zhou,Keyan Hu,Yutian Fang,Xiaoping Rui
発行日 2025-03-26 17:15:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SChanger: Change Detection from a Semantic Change and Spatial Consistency Perspective はコメントを受け付けていません

Emotion Detection and Music Recommendation System

要約

人工知能が日常生活でますます染み込んでいるので、音楽の推奨と感情に基づく検出に深い学習を使用する新しいシステムを提示します。
顔認識とディープフェイスフレームワークを使用することにより、私たちの方法は人間の感情をリアルタイムで分析し、それが発見した気分を反映した音楽を演奏します。
システムは、ウェブカメラを使用して写真を撮り、最も一般的な表情を分析し、検出した気分に対応するローカルストレージからプレイリストを引き出します。
ユーザーがドロップダウンメニューまたはナビゲーションボタンを介して曲の選択を手動で変更できるようにすることにより、魅力的でカスタマイズされたエクスペリエンスが保証されます。
プレイリストを継続的にループすることにより、テクノロジーは継続性を保証します。
私たちのシステムの目的は、応答性の高い自動化された音楽選択体験を提供することにより、音楽療法を通じて感情的な幸福を改善することです。

要約(オリジナル)

As artificial intelligence becomes more and more ingrained in daily life, we present a novel system that uses deep learning for music recommendation and emotion-based detection. Through the use of facial recognition and the DeepFace framework, our method analyses human emotions in real-time and then plays music that reflects the mood it has discovered. The system uses a webcam to take pictures, analyses the most common facial expression, and then pulls a playlist from local storage that corresponds to the mood it has detected. An engaging and customised experience is ensured by allowing users to manually change the song selection via a dropdown menu or navigation buttons. By continuously looping over the playlist, the technology guarantees continuity. The objective of our system is to improve emotional well-being through music therapy by offering a responsive and automated music-selection experience.

arxiv情報

著者 Swetha Kambham,Hubert Jhonson,Sai Prathap Reddy Kambham
発行日 2025-03-26 17:22:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Emotion Detection and Music Recommendation System はコメントを受け付けていません

High Quality Diffusion Distillation on a Single GPU with Relative and Absolute Position Matching

要約

相対的および絶対的な位置マッチング(RAPM)を導入します。これは、単一のGPUで効率的にトレーニングできる高品質の生成をもたらす拡散蒸留方法です。
最近の拡散蒸留研究は、段階的整合性モデル(PCM)や分布マッチング蒸留(DMD2)の改善などの方法で、高解像度のテキストから画像の生成の優れた結果を達成しました。
ただし、これらの方法は一般に、トレーニング中に多くのGPU(例:〜8-64)と重要なバッチサイズ(例:〜128-2048)を必要とし、一部の研究者のリソースを超えたメモリと計算要件をもたらします。
RAPMは、1のバッチサイズで効果的なシングルGPU拡散蒸留トレーニングを提供します。新しい方法は、相対位置と絶対位置を一致させることにより、教師モデルのサンプリング軌跡を模倣しようとします。
相対的な位置の設計は、PCMに触発されています。
それに応じてRAPMで2つの判別器が導入され、1つは相対位置を一致させ、もう1つは絶対位置に導入されます。
Stabled Fusion(SD)V1.5およびSDXLの実験結果は、4つのタイムステップを持つRAPMが、非常に限られた計算リソースの下で1つのタイムステップを持つ最良の方法として同等のFIDスコアを生成することを示しています。

要約(オリジナル)

We introduce relative and absolute position matching (RAPM), a diffusion distillation method resulting in high quality generation that can be trained efficiently on a single GPU. Recent diffusion distillation research has achieved excellent results for high-resolution text-to-image generation with methods such as phased consistency models (PCM) and improved distribution matching distillation (DMD2). However, these methods generally require many GPUs (e.g.~8-64) and significant batchsizes (e.g.~128-2048) during training, resulting in memory and compute requirements that are beyond the resources of some researchers. RAPM provides effective single-GPU diffusion distillation training with a batchsize of 1. The new method attempts to mimic the sampling trajectories of the teacher model by matching the relative and absolute positions. The design of relative positions is inspired by PCM. Two discriminators are introduced accordingly in RAPM, one for matching relative positions and the other for absolute positions. Experimental results on StableDiffusion (SD) V1.5 and SDXL indicate that RAPM with 4 timesteps produces comparable FID scores as the best method with 1 timestep under very limited computational resources.

arxiv情報

著者 Guoqiang Zhang,Kenta Niwa,J. P. Lewis,Cedric Mesnage,W. Bastiaan Kleijn
発行日 2025-03-26 17:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | High Quality Diffusion Distillation on a Single GPU with Relative and Absolute Position Matching はコメントを受け付けていません

MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams

要約

図は、構造化されたシンボル、形状、空間的配置を介した複雑な概念とその相互関係を表す視覚言語の基本的な形式として機能します。
自然画像とは異なり、本質的に象徴的で抽象的な性質は、マルチモーダルの大手言語モデル(MLLM)に大きな課題をもたらします。
ただし、現在のベンチマークは、知覚と推論のタスクを混同し、MLLMが表面的なパターン認識を超えた数学的図を本当に理解しているかどうかを評価することを困難にしています。
このギャップに対処するために、MLLMの数学的知覚を分離および評価するために特別に設計されたベンチマークであるMathgranceを導入します。
Mathgranceは、1.2kの画像と、平面ジオメトリ、固体ジオメトリ、グラフィカル表現を含む多様なドメインをカバーする形状分類、オブジェクトカウント、関係の識別、およびオブジェクトの接地の4つの知覚タスクにまたがる1.6kの慎重にキュレーションされた質問を含みます。
MLLMの評価は、図を理解する能力が特に制限されていることを明らかにしています。
これに応じて、Geopepを構築します。これは、幾何学的プリミティブと正確な空間的関係で明示的に注釈が付けられた200K構造化されたジオメトリ画像テキストペアの知覚指向のデータセットです。
GeopepでMLLMをトレーニングすると、知覚精度が大幅に向上し、数学的な推論が大幅に向上します。
当社のベンチマークとデータセットは、マルチモーダル数学的理解を評価および進め、将来のMLLM研究を促進するための貴重なリソースと洞察を提供するための重要な基準を確立します。

要約(オリジナル)

Diagrams serve as a fundamental form of visual language, representing complex concepts and their inter-relationships through structured symbols, shapes, and spatial arrangements. Unlike natural images, their inherently symbolic and abstract nature poses significant challenges for Multimodal Large Language Models (MLLMs). However, current benchmarks conflate perceptual and reasoning tasks, making it difficult to assess whether MLLMs genuinely understand mathematical diagrams beyond superficial pattern recognition. To address this gap, we introduce MATHGLANCE, a benchmark specifically designed to isolate and evaluate mathematical perception in MLLMs. MATHGLANCE comprises 1.2K images and 1.6K carefully curated questions spanning four perception tasks: shape classification, object counting, relationship identification, and object grounding, covering diverse domains including plane geometry, solid geometry, and graphical representations. Our evaluation of MLLMs reveals that their ability to understand diagrams is notably limited, particularly in fine-grained grounding tasks. In response, we construct GeoPeP, a perception-oriented dataset of 200K structured geometry image-text pairs explicitly annotated with geometric primitives and precise spatial relationships. Training MLLM on GeoPeP leads to significant gains in perceptual accuracy, which in turn substantially improves mathematical reasoning. Our benchmark and dataset establish critical standards for evaluating and advancing multimodal mathematical understanding, providing valuable resources and insights to foster future MLLM research.

arxiv情報

著者 Yanpeng Sun,Shan Zhang,Wei Tang,Aotian Chen,Piotr Koniusz,Kai Zou,Yuan Xue,Anton van den Hengel
発行日 2025-03-26 17:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams はコメントを受け付けていません

PhysGen3D: Crafting a Miniature Interactive World from a Single Image

要約

単一の画像から物理的にもっともらしい結果を想像するには、世界のダイナミクスを深く理解する必要があります。
これに対処するために、単一の画像をアモダルのカメラ中心のインタラクティブな3Dシーンに変換する新しいフレームワークであるPhysGen3Dを紹介します。
高度な画像ベースの幾何学的およびセマンティック理解と物理ベースのシミュレーションを組み合わせることにより、PhysGen3Dは静的画像からインタラクティブな3Dワールドを作成し、ユーザーの入力に基づいて将来のシナリオを「想像」してシミュレートすることができます。
そのコアでは、PhysGen3Dは3D形状、ポーズ、物理的および照明特性をオブジェクトの物理的および照明特性と推定し、それにより、現実的なオブジェクトの相互作用を駆動する重要な物理的属性をキャプチャします。
このフレームワークにより、ユーザーは、生成されたビデオ成果を強化するために、オブジェクト速度や材料プロパティなどの正確な初期条件を指定できます。
Pika、Kling、Gen-3を含むクローズドソースの最先端の(SOTA)画像からビデオへのパフォーマンスを評価し、PhysGen3Dのリアルな物理学でビデオを生成しながら、より柔軟性と微細なコントロールを提供する能力を示しています。
我々の結果は、PhysGen3Dがフォトリアリズム、身体的妥当性、ユーザー駆動型のインタラクティブ性のユニークなバランスを達成し、画像から動的な物理学的なビデオを生成するための新しい可能性を開くことを示しています。

要約(オリジナル)

Envisioning physically plausible outcomes from a single image requires a deep understanding of the world’s dynamics. To address this, we introduce PhysGen3D, a novel framework that transforms a single image into an amodal, camera-centric, interactive 3D scene. By combining advanced image-based geometric and semantic understanding with physics-based simulation, PhysGen3D creates an interactive 3D world from a static image, enabling us to ‘imagine’ and simulate future scenarios based on user input. At its core, PhysGen3D estimates 3D shapes, poses, physical and lighting properties of objects, thereby capturing essential physical attributes that drive realistic object interactions. This framework allows users to specify precise initial conditions, such as object speed or material properties, for enhanced control over generated video outcomes. We evaluate PhysGen3D’s performance against closed-source state-of-the-art (SOTA) image-to-video models, including Pika, Kling, and Gen-3, showing PhysGen3D’s capacity to generate videos with realistic physics while offering greater flexibility and fine-grained control. Our results show that PhysGen3D achieves a unique balance of photorealism, physical plausibility, and user-driven interactivity, opening new possibilities for generating dynamic, physics-grounded video from an image.

arxiv情報

著者 Boyuan Chen,Hanxiao Jiang,Shaowei Liu,Saurabh Gupta,Yunzhu Li,Hao Zhao,Shenlong Wang
発行日 2025-03-26 17:31:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PhysGen3D: Crafting a Miniature Interactive World from a Single Image はコメントを受け付けていません

UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines

要約

従来の空間的モデルは一般に、ドメイン固有の設計要件により、多様なタスク全体の一般化可能性とスケーラビリティを制限するタスク固有のアーキテクチャに依存しています。
このホワイトペーパーでは、2段階の前提条件で採用パラダイムを備えた最近の基礎モデルの進歩に触発された、空間的モデリングの統一された変圧器ベースのフレームワークである\ textBf {UnistD}を紹介します。
具体的には、我々の研究は、2Dビジョンとビジョンテキストデータセットのタスクに依存しない事前供給が、時空間学習のための一般化可能なモデル基盤を構築し、その後、タスク固有の適応性を高めるための空間的データセットに関する特殊な共同トレーニングが続くことを示しています。
ドメイン全体の学習機能を改善するために、私たちのフレームワークは、分数補間を使用して個別の変数を緩和して連続空間で最適化できるランクに適応する専門家の適応を採用しています。
さらに、時間的ダイナミクスを明示的に組み込むための時間モジュールを導入します。
4つの分野にわたる10のタスクをカバーする大規模なデータセットでアプローチを評価し、統一された空間モデルがスケーラブルなクロスタスク学習を実現し、1つのモデル内で最大10のタスクを同時にサポートしながら、マルチドメインアプリケーションのトレーニングコストを削減できることを実証します。
コードはhttps://github.com/1hunters/unistdで入手できます。

要約(オリジナル)

Traditional spatiotemporal models generally rely on task-specific architectures, which limit their generalizability and scalability across diverse tasks due to domain-specific design requirements. In this paper, we introduce \textbf{UniSTD}, a unified Transformer-based framework for spatiotemporal modeling, which is inspired by advances in recent foundation models with the two-stage pretraining-then-adaption paradigm. Specifically, our work demonstrates that task-agnostic pretraining on 2D vision and vision-text datasets can build a generalizable model foundation for spatiotemporal learning, followed by specialized joint training on spatiotemporal datasets to enhance task-specific adaptability. To improve the learning capabilities across domains, our framework employs a rank-adaptive mixture-of-expert adaptation by using fractional interpolation to relax the discrete variables so that can be optimized in the continuous space. Additionally, we introduce a temporal module to incorporate temporal dynamics explicitly. We evaluate our approach on a large-scale dataset covering 10 tasks across 4 disciplines, demonstrating that a unified spatiotemporal model can achieve scalable, cross-task learning and support up to 10 tasks simultaneously within one model while reducing training costs in multi-domain applications. Code will be available at https://github.com/1hunters/UniSTD.

arxiv情報

著者 Chen Tang,Xinzhu Ma,Encheng Su,Xiufeng Song,Xiaohong Liu,Wei-Hong Li,Lei Bai,Wanli Ouyang,Xiangyu Yue
発行日 2025-03-26 17:33:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines はコメントを受け付けていません