SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding

要約

計算病理学においてマルチモーダルラージランゲージモデル(MLLMS)が行った進展にもかかわらず、パッチレベルの分析に主に焦点を当て、スライドレベル全体で重要なコンテキスト情報が欠落しています。
大規模な命令データセットの欠如とスライド画像全体(WSI)のギガピクセルスケールは、重大な発達上の課題をもたらします。
このペーパーでは、ギガピクセルの全面画像を理解できる最初のビジョン言語アシスタントであるSlideChatを提示し、多様な病理学シナリオ全体で優れたマルチモーダルの会話機能と応答複雑な指導を示します。
その開発をサポートするために、4.2K WSIキャプションと複数のカテゴリを持つ176K VQAペアで構成されるWSIの最大の命令検索データセットであるSlideintructionを作成しました。
さらに、顕微鏡、診断などのさまざまな臨床設定でSlideChatの機能を評価するためにキャプションとVQAタスクを組み込んだマルチモーダルベンチマークであるSlideBenchを提案します。
一般的なMLLMおよび専門的なMLLMの両方と比較して、SlideChatは22のタスクのうち18で最先端のパフォーマンスを達成する特別な機能を示しています。
たとえば、Slidebench-VQA(TCGA)で81.17%、Slidebench-VQA(BCNB)で54.15%の全体的な精度を達成しました。
私たちのコード、データ、モデルは、https://uni-medical.github.io/slidechat.github.ioで公開されています。

要約(オリジナル)

Despite the progress made by multimodal large language models (MLLMs) in computational pathology, they remain limited by a predominant focus on patch-level analysis, missing essential contextual information at the whole-slide level. The lack of large-scale instruction datasets and the gigapixel scale of whole slide images (WSIs) pose significant developmental challenges. In this paper, we present SlideChat, the first vision-language assistant capable of understanding gigapixel whole-slide images, exhibiting excellent multimodal conversational capability and response complex instruction across diverse pathology scenarios. To support its development, we created SlideInstruction, the largest instruction-following dataset for WSIs consisting of 4.2K WSI captions and 176K VQA pairs with multiple categories. Furthermore, we propose SlideBench, a multimodal benchmark that incorporates captioning and VQA tasks to assess SlideChat’s capabilities in varied clinical settings such as microscopy, diagnosis. Compared to both general and specialized MLLMs, SlideChat exhibits exceptional capabilities achieving state-of-the-art performance on 18 of 22 tasks. For example, it achieved an overall accuracy of 81.17% on SlideBench-VQA (TCGA), and 54.15% on SlideBench-VQA (BCNB). Our code, data, and model is publicly accessible at https://uni-medical.github.io/SlideChat.github.io.

arxiv情報

著者 Ying Chen,Guoan Wang,Yuanfeng Ji,Yanjun Li,Jin Ye,Tianbin Li,Ming Hu,Rongshan Yu,Yu Qiao,Junjun He
発行日 2025-03-19 17:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding はコメントを受け付けていません

TULIP: Towards Unified Language-Image Pretraining

要約

ClipやSiglipなどの画像テキストコントラストモデルの最近の成功にもかかわらず、これらのモデルは、カウント、深さの推定、細かい粒度のオブジェクト認識など、高忠実度の理解を必要とする視覚中心のタスクに苦労しています。
これらのモデルは、言語アラインメントを実行することにより、視覚的理解よりも高レベルのセマンティクスを優先し、イメージの理解を弱める傾向があります。
一方、ビジョン中心のモデルは視覚情報の処理に優れていますが、言語を理解するのに苦労し、言語主導のタスクの柔軟性を制限します。
この作業では、既存のクリップのようなモデルのオープンソースのドロップイン交換であるチューリップを紹介します。
私たちの方法は、生成データの増強、画像イメージとテキストテキストのコントラスト学習の強化、および画像/テキスト再構成の正規化を活用して、グローバルなセマンティックアライメントを維持しながら、きめ細かい視覚的特徴を学習します。
1Bを超えるパラメーターにスケーリングするアプローチは、複数のベンチマークにわたって既存の最先端の(SOTA)モデルを上回り、Imagenet-1Kで新しいSOTAゼロショットパフォーマンスを確立し、LIERの標準分類でRXRX1のRXRX1でSiglipを介したSiglipを介した$ 2 \ Times $拡張を提供します。
MMVPのSiglip。
コード/チェックポイントは、https://tulip-berkeley.github.ioで入手できます

要約(オリジナル)

Despite the recent success of image-text contrastive models like CLIP and SigLIP, these models often struggle with vision-centric tasks that demand high-fidelity image understanding, such as counting, depth estimation, and fine-grained object recognition. These models, by performing language alignment, tend to prioritize high-level semantics over visual understanding, weakening their image understanding. On the other hand, vision-focused models are great at processing visual information but struggle to understand language, limiting their flexibility for language-driven tasks. In this work, we introduce TULIP, an open-source, drop-in replacement for existing CLIP-like models. Our method leverages generative data augmentation, enhanced image-image and text-text contrastive learning, and image/text reconstruction regularization to learn fine-grained visual features while preserving global semantic alignment. Our approach, scaling to over 1B parameters, outperforms existing state-of-the-art (SOTA) models across multiple benchmarks, establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to a $2\times$ enhancement over SigLIP on RxRx1 in linear probing for few-shot classification, and improving vision-language models, achieving over $3\times$ higher scores than SigLIP on MMVP. Our code/checkpoints are available at https://tulip-berkeley.github.io

arxiv情報

著者 Zineng Tang,Long Lian,Seun Eisape,XuDong Wang,Roei Herzig,Adam Yala,Alane Suhr,Trevor Darrell,David M. Chan
発行日 2025-03-19 17:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | TULIP: Towards Unified Language-Image Pretraining はコメントを受け付けていません

Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

要約

創造性は知性の基本的な側面であり、多様なコンテキスト全体で斬新で適切なソリューションを生成する能力を伴います。
大規模な言語モデル(LLM)は創造的な能力について広範囲に評価されていますが、このドメインにおけるマルチモーダル大手言語モデル(MLLM)の評価はほとんど未開拓のままです。
このギャップに対処するために、実際の画像ベースのタスクにおけるMLLMの創造的能力を評価するために特別に設計されたマルチモーダルベンチマークであるCreation-Mmbenchを紹介します。
ベンチマークは、51の細かいタスクにまたがる765のテストケースで構成されています。
厳密な評価を確保するために、各テストケースのインスタンス固有の評価基準を定義し、一般的な応答の品質と視覚入力との事実上の一貫性の両方の評価を導きます。
実験結果は、現在のオープンソースMLLMが創造的なタスクの独自モデルと比較して大幅にパフォーマンスが低いことを明らかにしています。
さらに、我々の分析は、視覚的な微調整がベースLLMの創造的能力に悪影響を与える可能性があることを示しています。
Creation-Mmbenchは、MLLMの創造性を高めるための貴重な洞察を提供し、マルチモーダル生成インテリジェンスの将来の改善の基盤を確立します。
完全なデータと評価コードは、https://github.com/open-compass/creation-mmbenchでリリースされます。

要約(オリジナル)

Creativity is a fundamental aspect of intelligence, involving the ability to generate novel and appropriate solutions across diverse contexts. While Large Language Models (LLMs) have been extensively evaluated for their creative capabilities, the assessment of Multimodal Large Language Models (MLLMs) in this domain remains largely unexplored. To address this gap, we introduce Creation-MMBench, a multimodal benchmark specifically designed to evaluate the creative capabilities of MLLMs in real-world, image-based tasks. The benchmark comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous evaluation, we define instance-specific evaluation criteria for each test case, guiding the assessment of both general response quality and factual consistency with visual inputs. Experimental results reveal that current open-source MLLMs significantly underperform compared to proprietary models in creative tasks. Furthermore, our analysis demonstrates that visual fine-tuning can negatively impact the base LLM’s creative abilities. Creation-MMBench provides valuable insights for advancing MLLM creativity and establishes a foundation for future improvements in multimodal generative intelligence. Full data and evaluation code is released on https://github.com/open-compass/Creation-MMBench.

arxiv情報

著者 Xinyu Fang,Zhijian Chen,Kai Lan,Lixin Ma,Shengyuan Ding,Yingji Liang,Xiangyu Zhao,Farong Wen,Zicheng Zhang,Guofeng Zhang,Haodong Duan,Kai Chen,Dahua Lin
発行日 2025-03-19 17:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM はコメントを受け付けていません

Technical Report: Aggregation on Learnable Manifolds for Asynchronous Federated Optimization

要約

Federated Learning(FL)では、クライアントモデルのサーバー側の集約に対する主な課題は、損失状況のジオメトリと計算能力の両方におけるデバイスの不均一性です。
この問題は、データ分布の変動(クラスの不均衡によって悪化する)、インフラストラクチャの要件、およびサンプルサイズが一般的である臨床コンテキストで特に顕著です。
ローカルトレーニング、遅延補正、集約段階のそれぞれで基礎となるソリューションスペースジオメトリを活用することにより、これらの問題に対処するための新しい非同期FLフレームワークであるAsyncmanifoldを提案します。
私たちの提案には、一般的な形での収束証明が伴い、局所的な行動の探索的研究を通じて動機付けられ、非線形モード接続に沿って集約を実行するため、線形補間に基づく技術が遭遇する収束を回避する概念アルゴリズムが伴います。

要約(オリジナル)

In Federated Learning (FL), a primary challenge to the server-side aggregation of client models is device heterogeneity in both loss landscape geometry and computational capacity. This issue can be particularly pronounced in clinical contexts where variations in data distribution (aggravated by class imbalance), infrastructure requirements, and sample sizes are common. We propose AsyncManifold, a novel asynchronous FL framework to address these issues by taking advantage of underlying solution space geometry at each of the local training, delay-correction, and aggregation stages. Our proposal is accompanied by a convergence proof in a general form and, motivated through exploratory studies of local behaviour, a proof-of-concept algorithm which performs aggregation along non-linear mode connections and hence avoids barriers to convergence that techniques based on linear interpolation will encounter.

arxiv情報

著者 Archie Licudi
発行日 2025-03-19 15:09:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Technical Report: Aggregation on Learnable Manifolds for Asynchronous Federated Optimization はコメントを受け付けていません

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

要約

視覚的理解と生成に必要な異なる表現スペースは、大規模な言語モデルの自己回帰パラダイム内でそれらを統合する上で課題となります。
再建のために訓練された視力トークナイザーは、低レベルの知覚的な詳細をキャプチャすることに優れており、視覚生成に適していますが、タスクを理解するための高レベルのセマンティック表現がありません。
逆に、対照的な学習を介してトレーニングされたビジョンエンコーダーは言語とよく一致しますが、生成タスクのピクセル空間にデコードするのに苦労しています。
このギャップを埋めるために、DualTokenを提案します。これは、単一のトークン剤内の理解と生成の両方の表現を統合する方法です。
ただし、単一のトークナイザーに再構成とセマンティックの目標を直接統合すると、競合が生じ、再構成の品質とセマンティックパフォーマンスの両方でパフォーマンスが低下します。
単一のコードブックにセマンティック情報と知覚情報の両方を処理するように強制する代わりに、デュアルトークンは、高レベルと低レベルの機能用の個別のコードブックを導入し、固有の対立を相乗的な関係に効果的に変換することにより、それらを解き放ちます。
その結果、DualTokenは、再構成とセマンティックタスクの両方で最先端のパフォーマンスを達成しながら、下流のMLLMの理解と生成タスクで顕著な有効性を示しています。
特に、デュアルトークンは、統一されたトークナイザーとして、2つの異なるタイプビジョンエンコーダーの素朴な組み合わせを上回り、統一されたMLLM内で優れた性能を提供することを示しています。

要約(オリジナル)

The differing representation spaces required for visual understanding and generation pose a challenge in unifying them within the autoregressive paradigm of large language models. A vision tokenizer trained for reconstruction excels at capturing low-level perceptual details, making it well-suited for visual generation but lacking high-level semantic representations for understanding tasks. Conversely, a vision encoder trained via contrastive learning aligns well with language but struggles to decode back into the pixel space for generation tasks. To bridge this gap, we propose DualToken, a method that unifies representations for both understanding and generation within a single tokenizer. However, directly integrating reconstruction and semantic objectives in a single tokenizer creates conflicts, leading to degraded performance in both reconstruction quality and semantic performance. Instead of forcing a single codebook to handle both semantic and perceptual information, DualToken disentangles them by introducing separate codebooks for high and low-level features, effectively transforming their inherent conflict into a synergistic relationship. As a result, DualToken achieves state-of-the-art performance in both reconstruction and semantic tasks while demonstrating remarkable effectiveness in downstream MLLM understanding and generation tasks. Notably, we also show that DualToken, as a unified tokenizer, surpasses the naive combination of two distinct types vision encoders, providing superior performance within a unified MLLM.

arxiv情報

著者 Wei Song,Yuran Wang,Zijia Song,Yadong Li,Haoze Sun,Weipeng Chen,Zenan Zhou,Jianhua Xu,Jiaqi Wang,Kaicheng Yu
発行日 2025-03-19 12:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies はコメントを受け付けていません

State Space Model Meets Transformer: A New Paradigm for 3D Object Detection

要約

マルチレイヤートランスデコーダーを使用してオブジェクトクエリを繰り返し改良するDETRベースの方法は、3D屋内オブジェクトの検出で有望なパフォーマンスを示しています。
ただし、トランスデコーダーのシーンポイント機能は固定されたままであり、後のデコーダー層からの最小限の寄与につながるため、パフォーマンスの改善が制限されます。
最近、State Space Models(SSM)は、システム状態と入力間の反復的相互作用を通じて、線形の複雑さを伴う効率的なコンテキストモデリング能力を示しています。
SSMSに触発されて、インタラクティブな状態空間モデル(DEST)を備えた新しい3Dオブジェクト検出パラダイムを提案します。
インタラクティブSSMでは、システム状態が3D屋内検出タスクのクエリとして効果的に機能することを可能にする新しい状態依存SSMパラメーター化方法を設計します。
さらに、Point CloudとSSMの特性に合わせた4つの重要なデザインを紹介します。シリアル化と双方向スキャン戦略により、SSM内のシーンポイント間の双方向の特徴の相互作用が可能になります。
状態間の注意メカニズムは、状態ポイント間の関係をモデル化し、ゲートフィードフォワードネットワークはチャネル間相関を強化します。
私たちの知る限り、これはシステムの状態としてクエリをモデル化し、シーンポイントをシステム入力としてモデル化する最初の方法であり、同時にシーンポイント機能と線形複雑さを伴うクエリ機能を更新できます。
2つの挑戦的なデータセットでの広範な実験は、運命ベースの方法の有効性を示しています。
私たちの方法は、Scannet V2(+5.3)およびSun RGB-D(+3.2)データセットのAP50の観点から、グループフリーのベースラインを改善します。
VDERTベースラインに基づいて、この方法はSCANNETV2およびSUN RGB-Dデータセットに新しいSOTAを設定します。

要約(オリジナル)

DETR-based methods, which use multi-layer transformer decoders to refine object queries iteratively, have shown promising performance in 3D indoor object detection. However, the scene point features in the transformer decoder remain fixed, leading to minimal contributions from later decoder layers, thereby limiting performance improvement. Recently, State Space Models (SSM) have shown efficient context modeling ability with linear complexity through iterative interactions between system states and inputs. Inspired by SSMs, we propose a new 3D object DEtection paradigm with an interactive STate space model (DEST). In the interactive SSM, we design a novel state-dependent SSM parameterization method that enables system states to effectively serve as queries in 3D indoor detection tasks. In addition, we introduce four key designs tailored to the characteristics of point cloud and SSM: The serialization and bidirectional scanning strategies enable bidirectional feature interaction among scene points within the SSM. The inter-state attention mechanism models the relationships between state points, while the gated feed-forward network enhances inter-channel correlations. To the best of our knowledge, this is the first method to model queries as system states and scene points as system inputs, which can simultaneously update scene point features and query features with linear complexity. Extensive experiments on two challenging datasets demonstrate the effectiveness of our DEST-based method. Our method improves the GroupFree baseline in terms of AP50 on ScanNet V2 (+5.3) and SUN RGB-D (+3.2) datasets. Based on the VDETR baseline, Our method sets a new SOTA on the ScanNetV2 and SUN RGB-D datasets.

arxiv情報

著者 Chuxin Wang,Wenfei Yang,Xiang Liu,Tianzhu Zhang
発行日 2025-03-19 14:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | State Space Model Meets Transformer: A New Paradigm for 3D Object Detection はコメントを受け付けていません

MoonCast: High-Quality Zero-Shot Podcast Generation

要約

テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出すことに顕著な成功を収めています。
ただし、これらのシステムは、ポッドキャストなどの実際のシナリオに典型的な長い、マルチスピーカー、および自発的な対話に機能を拡張する際に、依然として課題に直面しています。
これらの制限は、2つの主要な課題から生じます。1)長いスピーチ:ポッドキャストは通常​​、ほとんどの既存の作業の上限を超えて数分にわたって及びます。
2)自発性:ポッドキャストは、自発的で口頭での性質によってマークされており、正式な書面による文脈とは対照的です。
既存の作品は、しばしばこの自発性を捉えるのに不十分です。
このホワイトペーパーでは、テキストのみのソース(例:ストーリー、テクニカルレポート、TXT、PDF、またはWeb URL形式のニュース)からの自然なポッドキャストスタイルのスピーチを合成することを目的とした高品質のゼロショットポッドキャストの発電のソリューションであるMoonCastを提案します。
長いオーディオを生成するために、大規模なロングコンテキスト音声データを利用して、長い文字モデルベースのオーディオモデリングアプローチを採用します。
自発性を高めるために、ポッドキャスト生成モジュールを利用して、自発的な詳細を含むスクリプトを生成します。これらは、テキストからスピーチモデリング自体と同じくらい重要であることが経験的に示されています。
実験は、MoonCastがベースラインを上回ることを示しており、特に自発性と一貫性の顕著な改善があります。

要約(オリジナル)

Recent advances in text-to-speech synthesis have achieved notable success in generating high-quality short utterances for individual speakers. However, these systems still face challenges when extending their capabilities to long, multi-speaker, and spontaneous dialogues, typical of real-world scenarios such as podcasts. These limitations arise from two primary challenges: 1) long speech: podcasts typically span several minutes, exceeding the upper limit of most existing work; 2) spontaneity: podcasts are marked by their spontaneous, oral nature, which sharply contrasts with formal, written contexts; existing works often fall short in capturing this spontaneity. In this paper, we propose MoonCast, a solution for high-quality zero-shot podcast generation, aiming to synthesize natural podcast-style speech from text-only sources (e.g., stories, technical reports, news in TXT, PDF, or Web URL formats) using the voices of unseen speakers. To generate long audio, we adopt a long-context language model-based audio modeling approach utilizing large-scale long-context speech data. To enhance spontaneity, we utilize a podcast generation module to generate scripts with spontaneous details, which have been empirically shown to be as crucial as the text-to-speech modeling itself. Experiments demonstrate that MoonCast outperforms baselines, with particularly notable improvements in spontaneity and coherence.

arxiv情報

著者 Zeqian Ju,Dongchao Yang,Jianwei Yu,Kai Shen,Yichong Leng,Zhengtao Wang,Xu Tan,Xinyu Zhou,Tao Qin,Xiangyang Li
発行日 2025-03-19 07:17:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MoonCast: High-Quality Zero-Shot Podcast Generation はコメントを受け付けていません

EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment

要約

器用なロボットの手は、低ダイバーシティデータで訓練されたモデルの制限により、複雑な環境で効果的に一般化するのに苦労しています。
ただし、現実の世界は、本質的に無限のシナリオを提示しており、あらゆる可能性のあるバリエーションを説明することは非現実的です。
自然な解決策は、複雑な環境での経験からロボットを学習できること、進化に似たアプローチ、継続的なフィードバックを通じてシステムが改善し、障害と成功の両方から学習し、最適なパフォーマンスに向けて繰り返すことを可能にすることです。
これに動機付けられて、私たちは、効率的な優先順位アライメントを通じて把握パフォーマンスを継続的に強化する進化的把握方法である進化グラスプを提案します。
具体的には、Handpose Wise Preference Optimization(HPO)を導入します。これにより、モデルは、肯定的および否定的なフィードバックの両方からの好みと継続的に整合し、把握戦略を徐々に改良します。
オンライン調整中の効率と信頼性をさらに向上させるために、推論を加速し、優先微調整に必要なタイムステップの数を減らし、プロセス全体の物理的妥当性を確保するHPO内に物理認識の一貫性モデルを組み込みます。
4つのベンチマークデータセットにわたる広範な実験は、成功率とサンプリング効率を把握した方法の最先端のパフォーマンスを示しています。
私たちの結果は、進化graspが進化の把握を可能にし、シミュレーションと実際のシナリオの両方で堅牢で物理的に実現可能で、優先順位付けされた把握を確保できることを検証します。

要約(オリジナル)

Dexterous robotic hands often struggle to generalize effectively in complex environments due to the limitations of models trained on low-diversity data. However, the real world presents an inherently unbounded range of scenarios, making it impractical to account for every possible variation. A natural solution is to enable robots learning from experience in complex environments, an approach akin to evolution, where systems improve through continuous feedback, learning from both failures and successes, and iterating toward optimal performance. Motivated by this, we propose EvolvingGrasp, an evolutionary grasp generation method that continuously enhances grasping performance through efficient preference alignment. Specifically, we introduce Handpose wise Preference Optimization (HPO), which allows the model to continuously align with preferences from both positive and negative feedback while progressively refining its grasping strategies. To further enhance efficiency and reliability during online adjustments, we incorporate a Physics-aware Consistency Model within HPO, which accelerates inference, reduces the number of timesteps needed for preference finetuning, and ensures physical plausibility throughout the process. Extensive experiments across four benchmark datasets demonstrate state of the art performance of our method in grasp success rate and sampling efficiency. Our results validate that EvolvingGrasp enables evolutionary grasp generation, ensuring robust, physically feasible, and preference-aligned grasping in both simulation and real scenarios.

arxiv情報

著者 Yufei Zhu,Yiming Zhong,Zemin Yang,Peishan Cong,Jingyi Yu,Xinge Zhu,Yuexin Ma
発行日 2025-03-19 08:55:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment はコメントを受け付けていません

Advances in 4D Generation: A Survey

要約

生成人工知能(AI)は、近年、さまざまなドメインで大きな進歩を遂げています。
2D、ビデオ、3Dコンテンツ生成分野の急速な進歩に基づいて、4Dジェネレーションが新規で急速に進化する研究分野として浮上し、注目を集めています。
4D Generationは、ユーザーの入力に基づいて空間的な一貫性を備えた動的な3Dアセットの作成に焦点を当てており、より大きな創造的な自由と豊かな没入型エクスペリエンスを提供します。
このペーパーでは、4D世代分野の包括的な調査を紹介し、コアテクノロジー、発達軌跡、重要な課題、および実用的なアプリケーションを体系的に要約しながら、潜在的な将来の研究方向性を調査します。
調査は、さまざまな基本的な4D表現モデルを導入し、次にこれらの表現に基づいて構築された4D生成フレームワークのレビューと、モーションとジオメトリのプライエルを4Dアセットに組み込む重要なテクノロジーをレビューします。
これらの問題に対処するための既存のソリューションの概要を伴う、4D世代の5つの主要な課題を要約します。
ダイナミックオブジェクト生成、シーン生成、デジタルヒューマンシンセシス、4D編集、および自律運転にまたがる4D生成のアプリケーションを体系的に分析します。
最後に、現在4D世代の発展を妨げている障害についての詳細な議論を提供します。
この調査では、この急速に進化する分野でのさらなる調査と革新を刺激することを目的とした、4D世代の明確で包括的な概要を提供します。
私たちのコードは、https://github.com/miaoqiaowei/awesome-4dで公開されています。

要約(オリジナル)

Generative artificial intelligence (AI) has made significant progress across various domains in recent years. Building on the rapid advancements in 2D, video, and 3D content generation fields, 4D generation has emerged as a novel and rapidly evolving research area, attracting growing attention. 4D generation focuses on creating dynamic 3D assets with spatiotemporal consistency based on user input, offering greater creative freedom and richer immersive experiences. This paper presents a comprehensive survey of the 4D generation field, systematically summarizing its core technologies, developmental trajectory, key challenges, and practical applications, while also exploring potential future research directions. The survey begins by introducing various fundamental 4D representation models, followed by a review of 4D generation frameworks built upon these representations and the key technologies that incorporate motion and geometry priors into 4D assets. We summarize five major challenges of 4D generation: consistency, controllability, diversity, efficiency, and fidelity, accompanied by an outline of existing solutions to address these issues. We systematically analyze applications of 4D generation, spanning dynamic object generation, scene generation, digital human synthesis, 4D editing, and autonomous driving. Finally, we provide an in-depth discussion of the obstacles currently hindering the development of the 4D generation. This survey offers a clear and comprehensive overview of 4D generation, aiming to stimulate further exploration and innovation in this rapidly evolving field. Our code is publicly available at: https://github.com/MiaoQiaowei/Awesome-4D.

arxiv情報

著者 Qiaowei Miao,Kehan Li,Jinsheng Quan,Zhiyuan Min,Shaojie Ma,Yichao Xu,Yi Yang,Yawei Luo
発行日 2025-03-19 08:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Advances in 4D Generation: A Survey はコメントを受け付けていません

Playful DoggyBot: Learning Agile and Precise Quadrupedal Locomotion

要約

四葉型動物は、実際のオブジェクトと対話しながら、アジャイルで遊び心のあるタスクを実行できます。
たとえば、訓練された犬は地面に触れる前に空飛ぶフリスビーを追跡して捕まえることができますが、家に一人で猫がドアのハンドルをつかむために跳躍することがあります。
高ダイナミックの移動中にオブジェクトを正常に把握するには、非常に正確な知覚と制御が必要です。
ただし、ハードウェアの制限により、俊敏性と精度は通常、ロボット工学の問題のトレードオフです。
この作業では、補強学習(RL)に基づいた知覚制御の分離システムを採用しており、高ダイナミック運動中にオブジェクトと相互作用しながら四足動物ロボットが達成できる精度のレベルを探求することを目指しています。
私たちの実験は、ロボットのシャーシの前に受動的なグリッパーが搭載された四葉骨ロボットが、実際の訓練された犬に似た任務とキャッチングの両方のタスクを実行できることを示しています。
ロボットは、最大3m/sの速度で移動するミッドエアボールに続いて、シミュレーションで1.05m、現実世界で0.8mの高さでその上にぶら下がっている小さなオブジェクトを跳躍してキャッチすることができます。

要約(オリジナル)

Quadrupedal animals can perform agile and playful tasks while interacting with real-world objects. For instance, a trained dog can track and catch a flying frisbee before it touches the ground, while a cat left alone at home may leap to grasp the door handle. Successfully grasping an object during high-dynamic locomotion requires highly precise perception and control. However, due to hardware limitations, agility and precision are usually a trade-off in robotics problems. In this work, we employ a perception-control decoupled system based on Reinforcement Learning (RL), aiming to explore the level of precision a quadrupedal robot can achieve while interacting with objects during high-dynamic locomotion. Our experiments show that our quadrupedal robot, mounted with a passive gripper in front of the robot’s chassis, can perform both tracking and catching tasks similar to a real trained dog. The robot can follow a mid-air ball moving at speeds of up to 3m/s and it can leap and successfully catch a small object hanging above it at a height of 1.05m in simulation and 0.8m in the real world.

arxiv情報

著者 Xin Duan,Ziwen Zhuang,Hang Zhao,Soeren Schwertfeger
発行日 2025-03-18 02:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Playful DoggyBot: Learning Agile and Precise Quadrupedal Locomotion はコメントを受け付けていません