SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting

要約

きめ細かい3Dベースのインタラクティブ編集の重要な課題は、特定のメモリ制約の下で、多様な修正と高品質のビュー合成のバランスをとる効率的な表現がないことです。
3Dメッシュはさまざまな変更に堅牢性を提供しますが、3Dガウスのスプラットティングと比較して低品質のビュー合成を生成することが多く、これは広範な編集中の不安定性に苦しんでいます。
これら2つの表現の簡単な組み合わせにより、最適ではないパフォーマンスが発生し、メモリの制約を満たすことができません。
このペーパーでは、3DガウスSplatを事前計算メッシュと統合し、要件に基づいてメモリ要求を調整できる、細かく粒度のあるインタラクティブな3Dセグメンテーションおよび編集アルゴリズムであるSplatmeshを紹介します。
具体的には、メッシュが与えられた場合、\メソッドは色と形状の両方を考慮しながらそれを簡素化し、メモリの制約を満たすようにします。
次に、Splatmeshは、各三角形を新しい基準点として扱うことにより、Gaussian Splatを簡素化されたメッシュに合わせます。
簡素化されたメッシュをセグメント化および編集することにより、ガウススプラットを効果的に編集することができます。これにより、実視および合成データセットに関する広範な実験につながり、説明的な視覚的例と組み合わせて、表現の品質と編集パフォーマンスの点でのアプローチの優位性を強調します。
私たちの論文のコードは、https://github.com/kaichen-z/splatmeshにあります。

要約(オリジナル)

A key challenge in fine-grained 3D-based interactive editing is the absence of an efficient representation that balances diverse modifications with high-quality view synthesis under a given memory constraint. While 3D meshes provide robustness for various modifications, they often yield lower-quality view synthesis compared to 3D Gaussian Splatting, which, in turn, suffers from instability during extensive editing. A straightforward combination of these two representations results in suboptimal performance and fails to meet memory constraints. In this paper, we introduce SplatMesh, a novel fine-grained interactive 3D segmentation and editing algorithm that integrates 3D Gaussian Splat with a precomputed mesh and could adjust the memory request based on the requirement. Specifically, given a mesh, \method simplifies it while considering both color and shape, ensuring it meets memory constraints. Then, SplatMesh aligns Gaussian splats with the simplified mesh by treating each triangle as a new reference point. By segmenting and editing the simplified mesh, we can effectively edit the Gaussian splats as well, which will lead to extensive experiments on real and synthetic datasets, coupled with illustrative visual examples, highlighting the superiority of our approach in terms of representation quality and editing performance. Code of our paper can be found here: https://github.com/kaichen-z/SplatMesh.

arxiv情報

著者 Kaichen Zhou,Lanqing Hong,Xinhai Chang,Yingji Zhong,Enze Xie,Hao Dong,Zhihao Li,Yongxin Yang,Zhenguo Li,Wei Zhang
発行日 2025-04-14 17:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting はコメントを受け付けていません

Art3D: Training-Free 3D Generation from Flat-Colored Illustration

要約

大規模な事前訓練を受けた画像から3Dの生成モデルは、多様な形状の世代に顕著な能力を示しています。
しかし、彼らのほとんどは、アートコンテンツの作成において最もユーザーフレンドリーな入力モダリティである3D幻想がないため、参照画像が手図面のようにフラットカラーである場合、もっともらしい3Dアセットを合成するのに苦労しています。
この目的のために、ART3Dを提案します。ART3Dは、フラットカラーの2Dデザインを3Dに持ち上げることができるトレーニングなしの方法です。
事前に訓練された2D画像生成モデルとVLMベースのリアリズム評価を備えた構造およびセマンティックの特徴を活用することにより、ART3Dは参照画像の3次元の幻想を成功させるため、2Dから3Dを生成するプロセスを簡素化し、幅広い絵画スタイルに適応できることが証明されます。
3D感覚なしのフラット色の画像上の既存の画像から3Dモデルの一般化パフォーマンスをベンチマークするために、100を超えるサンプルを備えた新しいデータセットFLAT-2Dを収集します。
実験結果は、ART3Dのパフォーマンスと堅牢性を示しており、優れた一般化可能な能力と有望な実用的な適用性を示しています。
ソースコードとデータセットは、プロジェクトページhttps://joy-jy11.github.io/で公開されます。

要約(オリジナル)

Large-scale pre-trained image-to-3D generative models have exhibited remarkable capabilities in diverse shape generations. However, most of them struggle to synthesize plausible 3D assets when the reference image is flat-colored like hand drawings due to the lack of 3D illusion, which are often the most user-friendly input modalities in art content creation. To this end, we propose Art3D, a training-free method that can lift flat-colored 2D designs into 3D. By leveraging structural and semantic features with pre- trained 2D image generation models and a VLM-based realism evaluation, Art3D successfully enhances the three-dimensional illusion in reference images, thus simplifying the process of generating 3D from 2D, and proves adaptable to a wide range of painting styles. To benchmark the generalization performance of existing image-to-3D models on flat-colored images without 3D feeling, we collect a new dataset, Flat-2D, with over 100 samples. Experimental results demonstrate the performance and robustness of Art3D, exhibiting superior generalizable capacity and promising practical applicability. Our source code and dataset will be publicly available on our project page: https://joy-jy11.github.io/ .

arxiv情報

著者 Xiaoyan Cong,Jiayi Shen,Zekun Li,Rao Fu,Tao Lu,Srinath Sridhar
発行日 2025-04-14 17:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Art3D: Training-Free 3D Generation from Flat-Colored Illustration はコメントを受け付けていません

MIEB: Massive Image Embedding Benchmark

要約

画像表現は、多くの場合、見返りのあるタスク固有のプロトコルによって評価され、モデル能力の断片化された理解につながります。
たとえば、クラスタリング画像に熟練した画像の埋め込みモデルが、テキストを与えられた関連画像を取得するのに等しく優れているかどうかは不明です。
大規模な画像埋め込みベンチマーク(MIEB)を導入して、これまでで最も広いスペクトルにわたって画像と画像テキストの埋め込みモデルのパフォーマンスを評価します。
Miebは、130の個別のタスクにわたって38の言語にまたがっています。これは、8つの高レベルのカテゴリにグループ化されています。
ベンチマーク全体で50のモデルをベンチマークし、すべてのタスクカテゴリに単一の方法が支配的ではないことがわかりました。
テキストの正確な視覚表現や、交絡因子の存在下でのインターリーブエンコーディングやマッチング画像やテキストのまだ限られた機能などの高度なビジョンモデルに隠された機能を明らかにします。
また、MIEBでのVisionエンコーダーのパフォーマンスが、マルチモーダルの大手言語モデルで使用すると、パフォーマンスと非常に相関していることも示しています。
コード、データセット、およびリーダーボードは、https://github.com/embeddings-benchmark/mtebで公開されています。

要約(オリジナル)

Image representations are often evaluated through disjointed, task-specific protocols, leading to a fragmented understanding of model capabilities. For instance, it is unclear whether an image embedding model adept at clustering images is equally good at retrieving relevant images given a piece of text. We introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the performance of image and image-text embedding models across the broadest spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we group into 8 high-level categories. We benchmark 50 models across our benchmark, finding that no single method dominates across all task categories. We reveal hidden capabilities in advanced vision models such as their accurate visual representation of texts, and their yet limited capabilities in interleaved encodings and matching images and texts in the presence of confounders. We also show that the performance of vision encoders on MIEB correlates highly with their performance when used in multimodal large language models. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.

arxiv情報

著者 Chenghao Xiao,Isaac Chung,Imene Kerboua,Jamie Stirling,Xin Zhang,Márton Kardos,Roman Solomatin,Noura Al Moubayed,Kenneth Enevoldsen,Niklas Muennighoff
発行日 2025-04-14 17:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | MIEB: Massive Image Embedding Benchmark はコメントを受け付けていません

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

要約

Native Multimodal Pre-Trainingパラダイムを備えたInterNVLシリーズの大幅な進歩であるInternVL3を紹介します。
視覚入力をサポートするマルチモーダル大手言語モデル(MLLM)にテキストのみの大型言語モデル(LLM)を適応させるのではなく、InterNVL3は、単一の貿易前の段階で多様なマルチモーダルデータと純粋なテキストコーパスの両方からマルチモーダルおよび言語的機能を共同で取得します。
この統一されたトレーニングパラダイムは、MLLMの従来の事後トレーニングパイプラインで一般的に遭遇する複雑さとアラインメントの課題に効果的に対処します。
パフォーマンスとスケーラビリティをさらに向上させるために、INTERNVL3には、可変視覚位置エンコーディング(V2PE)が組み込まれて、拡張されたマルチモーダルコンテキストをサポートし、監視付き微調整(SFT)や混合好みの最適化(MPO)などの高度なトレーニングテクニックを採用し、最適化されたトレーニングインフラストラクチャとともにテストタイムのスケーリング戦略を採用します。
広範な経験的評価は、InternVL3が幅広いマルチモーダルタスクで優れたパフォーマンスを提供することを示しています。
特に、InternVL3-78BはMMMUベンチマークで72.2のスコアを達成し、オープンソースMLLMの間で新しい最先端を設定します。
その機能は、ChatGPT-4o、Claude 3.5 Sonnet、Gemini 2.5 Proなど、主要な独自モデルと非常に競争力があり、強力な純粋な能力を維持しています。
オープンサイエンスの原則を追求するために、トレーニングデータとモデルの重量の両方を公開して、次世代のMLLMのさらなる研究開発を促進します。

要約(オリジナル)

We introduce InternVL3, a significant advancement in the InternVL series featuring a native multimodal pre-training paradigm. Rather than adapting a text-only large language model (LLM) into a multimodal large language model (MLLM) that supports visual inputs, InternVL3 jointly acquires multimodal and linguistic capabilities from both diverse multimodal data and pure-text corpora during a single pre-training stage. This unified training paradigm effectively addresses the complexities and alignment challenges commonly encountered in conventional post-hoc training pipelines for MLLMs. To further improve performance and scalability, InternVL3 incorporates variable visual position encoding (V2PE) to support extended multimodal contexts, employs advanced post-training techniques such as supervised fine-tuning (SFT) and mixed preference optimization (MPO), and adopts test-time scaling strategies alongside an optimized training infrastructure. Extensive empirical evaluations demonstrate that InternVL3 delivers superior performance across a wide range of multi-modal tasks. In particular, InternVL3-78B achieves a score of 72.2 on the MMMU benchmark, setting a new state-of-the-art among open-source MLLMs. Its capabilities remain highly competitive with leading proprietary models, including ChatGPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro, while also maintaining strong pure-language proficiency. In pursuit of open-science principles, we will publicly release both the training data and model weights to foster further research and development in next-generation MLLMs.

arxiv情報

著者 Jinguo Zhu,Weiyun Wang,Zhe Chen,Zhaoyang Liu,Shenglong Ye,Lixin Gu,Yuchen Duan,Hao Tian,Weijie Su,Jie Shao,Zhangwei Gao,Erfei Cui,Yue Cao,Yangzhou Liu,Weiye Xu,Hao Li,Jiahao Wang,Han Lv,Dengnian Chen,Songze Li,Yinan He,Tan Jiang,Jiapeng Luo,Yi Wang,Conghui He,Botian Shi,Xingcheng Zhang,Wenqi Shao,Junjun He,Yingtong Xiong,Wenwen Qu,Peng Sun,Penglong Jiao,Lijun Wu,Kaipeng Zhang,Huipeng Deng,Jiaye Ge,Kai Chen,Limin Wang,Min Dou,Lewei Lu,Xizhou Zhu,Tong Lu,Dahua Lin,Yu Qiao,Jifeng Dai,Wenhai Wang
発行日 2025-04-14 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models はコメントを受け付けていません

REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

要約

この論文では、基本的な質問に取り組んでいます。「潜在的な拡散モデルと、変分自動エンコーダー(VAE)トークン剤とともにエンドツーエンドの方法でトレーニングできますか?」
伝統的な深い学習の知恵は、可能な限りエンドツーエンドのトレーニングが望ましいことが多いことを決定します。
ただし、潜在的な拡散トランスの場合、標準拡散損失を使用したVAEと拡散モデルの両方のエンドツーエンドトレーニングが効果的であり、最終的なパフォーマンスに分解を引き起こすことさえあることが観察されています。
拡散損失は効果がないが、エンドツーエンドのトレーニングは、表現調整(REPA)損失を通じてロック解除できることを示しています。
その単純さにもかかわらず、提案されたトレーニングレシピ(Repa-E)は驚くべきパフォーマンスを示しています。
それぞれレパとバニラのトレーニングレシピよりも17倍以上の45倍以上の拡散モデルトレーニングをスピードアップします。
興味深いことに、RepA-Eを使用したエンドツーエンドのチューニングもVAE自体を改善することがわかります。
潜在スペース構造の改善と下流の生成パフォーマンスにつながります。
最終的なパフォーマンスに関しては、私たちのアプローチは新しい最先端を設定します。
Imagenet 256 x 256で分類器のないガイダンスを伴う場合となしで1.26および1.83のFIDを達成します。コードはhttps://end2end-diffusion.github.ioで入手できます。

要約(オリジナル)

In this paper we tackle a fundamental question: ‘Can we train latent diffusion models together with the variational auto-encoder (VAE) tokenizer in an end-to-end manner?’ Traditional deep-learning wisdom dictates that end-to-end training is often preferable when possible. However, for latent diffusion transformers, it is observed that end-to-end training both VAE and diffusion-model using standard diffusion-loss is ineffective, even causing a degradation in final performance. We show that while diffusion loss is ineffective, end-to-end training can be unlocked through the representation-alignment (REPA) loss — allowing both VAE and diffusion model to be jointly tuned during the training process. Despite its simplicity, the proposed training recipe (REPA-E) shows remarkable performance; speeding up diffusion model training by over 17x and 45x over REPA and vanilla training recipes, respectively. Interestingly, we observe that end-to-end tuning with REPA-E also improves the VAE itself; leading to improved latent space structure and downstream generation performance. In terms of final performance, our approach sets a new state-of-the-art; achieving FID of 1.26 and 1.83 with and without classifier-free guidance on ImageNet 256 x 256. Code is available at https://end2end-diffusion.github.io.

arxiv情報

著者 Xingjian Leng,Jaskirat Singh,Yunzhong Hou,Zhenchang Xing,Saining Xie,Liang Zheng
発行日 2025-04-14 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers はコメントを受け付けていません

Decoupled Diffusion Sparks Adaptive Scene Generation

要約

制御可能なシーンの生成は、自律運転のために多様なデータ収集のコストを大幅に削減できます。
以前の作業は、シーケンス全体を一度に除去するか、次のフレームを繰り返し予測することにより、トラフィックレイアウトの生成を予測の進行として定式化します。
ただし、完全なシーケンス除去はオンライン反応を妨げますが、後者の近視の次のフレーム予測には正確な目標ステートガイダンスがありません。
さらに、学習されたモデルは、オープンデータセットからの安全で順調な駆動行動の多数のために、複雑または挑戦的なシナリオを生成するのに苦労しています。
これらを克服するために、独立したノイズ状態を持つ細かいトークンの順序と挑戦的なシナリオの両方をシミュレートすることにより、反応性と目標条件付けを改善する分離されたシーン生成フレームワークであるNexusを紹介します。
分離されたパイプラインの中核は、部分的なノイズマスキングトレーニング戦略の統合と、除去プロセス全体でタイムリーな環境の更新を保証するノイズ認識スケジュールです。
挑戦的なシナリオ生成を補完するために、複雑なコーナーケースで構成されるデータセットを収集します。
カットイン、突然のブレーキ、衝突などのリスクの高い相互作用を含む、540時間のシミュレートされたデータをカバーしています。
Nexusは、反応性と目標指向を維持しながら、優れた生成リアリズムを達成し、変位エラーが40%減少します。
さらに、Nexusがデータの増強を通じて閉ループ計画を20%改善し、安全性の高いデータ生成における能力を紹介することを実証します。

要約(オリジナル)

Controllable scene generation could reduce the cost of diverse data collection substantially for autonomous driving. Prior works formulate the traffic layout generation as predictive progress, either by denoising entire sequences at once or by iteratively predicting the next frame. However, full sequence denoising hinders online reaction, while the latter’s short-sighted next-frame prediction lacks precise goal-state guidance. Further, the learned model struggles to generate complex or challenging scenarios due to a large number of safe and ordinal driving behaviors from open datasets. To overcome these, we introduce Nexus, a decoupled scene generation framework that improves reactivity and goal conditioning by simulating both ordinal and challenging scenarios from fine-grained tokens with independent noise states. At the core of the decoupled pipeline is the integration of a partial noise-masking training strategy and a noise-aware schedule that ensures timely environmental updates throughout the denoising process. To complement challenging scenario generation, we collect a dataset consisting of complex corner cases. It covers 540 hours of simulated data, including high-risk interactions such as cut-in, sudden braking, and collision. Nexus achieves superior generation realism while preserving reactivity and goal orientation, with a 40% reduction in displacement error. We further demonstrate that Nexus improves closed-loop planning by 20% through data augmentation and showcase its capability in safety-critical data generation.

arxiv情報

著者 Yunsong Zhou,Naisheng Ye,William Ljungbergh,Tianyu Li,Jiazhi Yang,Zetong Yang,Hongzi Zhu,Christoffer Petersson,Hongyang Li
発行日 2025-04-14 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Decoupled Diffusion Sparks Adaptive Scene Generation はコメントを受け付けていません

DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting

要約

Monocular Videosから信頼できるアニメーション可能な人間のアバターを作成することは、さまざまなアプリケーションを備えた研究トピックの高まりです。
バーチャルリアリティ、スポーツ、ビデオゲーム。
以前の作品は、神経フィールドと物理ベースのレンダリング(PBR)を利用して、人間のアバターのジオメトリと解き角の外観特性を推定します。
ただし、これらの方法の欠点の1つは、高価なモンテカルロレイトレースによるレンダリング速度が遅いことです。
この問題に取り組むために、私たちは知識を暗黙の神経分野(教師)から蒸留することを提案しました。
光線追跡を避けるために、PBRの外観にスプリットサム近似を使用します。
また、シャドウ計算のための新しい部分的な周囲閉塞プローブを提案します。
シャドウ予測は、これらのプローブをピクセルごとに1回だけクエリすることで達成されます。これにより、アバターのリアルタイムの学習への道が開かれます。
これらの手法を組み合わせた手法は、高品質の再生結果を実現し、現実的な影の効果をもたらします。
私たちの実験は、提案されている学生モデルが教師モデルで同等またはさらに良い再生結果を達成し、推論時間で370倍高速であり、67 fpsのレンダリング速度を達成することを示しています。

要約(オリジナル)

Creating relightable and animatable human avatars from monocular videos is a rising research topic with a range of applications, e.g. virtual reality, sports, and video games. Previous works utilize neural fields together with physically based rendering (PBR), to estimate geometry and disentangle appearance properties of human avatars. However, one drawback of these methods is the slow rendering speed due to the expensive Monte Carlo ray tracing. To tackle this problem, we proposed to distill the knowledge from implicit neural fields (teacher) to explicit 2D Gaussian splatting (student) representation to take advantage of the fast rasterization property of Gaussian splatting. To avoid ray-tracing, we employ the split-sum approximation for PBR appearance. We also propose novel part-wise ambient occlusion probes for shadow computation. Shadow prediction is achieved by querying these probes only once per pixel, which paves the way for real-time relighting of avatars. These techniques combined give high-quality relighting results with realistic shadow effects. Our experiments demonstrate that the proposed student model achieves comparable or even better relighting results with our teacher model while being 370 times faster at inference time, achieving a 67 FPS rendering speed.

arxiv情報

著者 Zeren Jiang,Shaofei Wang,Siyu Tang
発行日 2025-04-14 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting はコメントを受け付けていません

FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation

要約

最近のオープンボキャブラリーセマンティックセグメンテーション(OVSS)モデルは、クリップモデルをセグメンテーションに拡張しながら、複数のテンプレート(の写真、<クラス>のスケッチなど)の使用を維持し、クラスの平均テキスト埋め込みを構築し、分類子として作用します。
この論文では、この現状に挑戦し、OVSのテンプレートの影響を調査します。
経験的には、各クラスについて、従来の平均分類器を大幅に上回る単一テンプレート分類器が存在することを観察します。
それらをクラスの専門家と呼びます。
非標識画像へのアクセスが含まれており、トレーニングが関係しないことを考えると、単一テンプレート分類子のクラスワイズ予測エントロピーを活用して、これらの専門家を推定し、クラスワスの専門家として最も低いエントロピーを生成する専門家を選択します。
特定のクラスに特化したすべての専門家は、新たに提案された融合方法で協力して、より正確なOVSS予測を生成します。
私たちのプラグアンドプレイ方法であるコーティングされたフロスは、既存のOVSSメソッドを直交し、補完するものであり、ラベルや追加のトレーニングなしでOVSを体系的に改善する「無料のランチ」を提供します。
広範な実験は、FlossがさまざまなOVSSベンチマークで常に最先端の方法を高めることを示しています。
さらに、選択したエキスパートテンプレートは、あるデータセットから同じセマンティックカテゴリを共有する他のデータセットまでよく一般化できますが、分布シフトを示しています。
さらに、低データレジームの下で満足のいく改善を取得します。ここでは、いくつかのラベルのない画像のみが利用可能です。
私たちのコードは、https://github.com/yasserben/flossで入手できます。

要約(オリジナル)

Recent Open-Vocabulary Semantic Segmentation (OVSS) models extend the CLIP model to segmentation while maintaining the use of multiple templates (e.g., a photo of , a sketch of a , etc.) for constructing class-wise averaged text embeddings, acting as a classifier. In this paper, we challenge this status quo and investigate the impact of templates for OVSS. Empirically, we observe that for each class, there exist single-template classifiers significantly outperforming the conventional averaged classifier. We refer to them as class-experts. Given access to unlabeled images and without any training involved, we estimate these experts by leveraging the class-wise prediction entropy of single-template classifiers, selecting as class-wise experts those which yield the lowest entropy. All experts, each specializing in a specific class, collaborate in a newly proposed fusion method to generate more accurate OVSS predictions. Our plug-and-play method, coined FLOSS, is orthogonal and complementary to existing OVSS methods, offering a ”free lunch” to systematically improve OVSS without labels and additional training. Extensive experiments demonstrate that FLOSS consistently boosts state-of-the-art methods on various OVSS benchmarks. Moreover, the selected expert templates can generalize well from one dataset to others sharing the same semantic categories, yet exhibiting distribution shifts. Additionally, we obtain satisfactory improvements under a low-data regime, where only a few unlabeled images are available. Our code is available at https://github.com/yasserben/FLOSS .

arxiv情報

著者 Yasser Benigmim,Mohammad Fahes,Tuan-Hung Vu,Andrei Bursuc,Raoul de Charette
発行日 2025-04-14 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation はコメントを受け付けていません

RINGO: Real-time Navigation with a Guiding Trajectory for Aerial Manipulators in Unknown Environments

要約

制約された環境での航空操作者のモーション計画は、通常、既知の環​​境に限定されているか、マルチローターの環境に簡素化されており、適応性が低く、過度に保守的な軌跡につながります。
このホワイトペーパーでは、RINGO:ガイドの軌跡を備えたリアルタイムナビゲーションは、空中マニピュレーターが不明な環境をリアルタイムでナビゲートできるようにする新しい計画フレームワークです。
提案された方法は、マルチローターとエンドエフェクターの両方の位置を同時に考慮します。
事前に取得されたマルチローター軌道は、ガイドの参照として機能し、エンドエフェクターが滑らかで衝突のない、ワークスペースに適合性のある軌跡を生成できるようにします。
Bスプライン曲線の凸式船体特性を活用して、軌道が到達可能なワークスペース内に残っていることを理論的に保証します。
私たちの知る限り、これは未知の環境での空中マニピュレーターのリアルタイムナビゲーションを可能にする最初の作業です。
シミュレーションと実験結果は、提案された方法の有効性を示しています。
提案された方法は、マルチローターのみを考慮するアプローチよりも保守的な軌跡が少なくなります。

要約(オリジナル)

Motion planning for aerial manipulators in constrained environments has typically been limited to known environments or simplified to that of multi-rotors, which leads to poor adaptability and overly conservative trajectories. This paper presents RINGO: Real-time Navigation with a Guiding Trajectory, a novel planning framework that enables aerial manipulators to navigate unknown environments in real time. The proposed method simultaneously considers the positions of both the multi-rotor and the end-effector. A pre-obtained multi-rotor trajectory serves as a guiding reference, allowing the end-effector to generate a smooth, collision-free, and workspace-compatible trajectory. Leveraging the convex hull property of B-spline curves, we theoretically guarantee that the trajectory remains within the reachable workspace. To the best of our knowledge, this is the first work that enables real-time navigation of aerial manipulators in unknown environments. The simulation and experimental results show the effectiveness of the proposed method. The proposed method generates less conservative trajectories than approaches that consider only the multi-rotor.

arxiv情報

著者 Zhaopeng Zhang,Shizhen Wu,Chenfeng Guo,Yongchun Fang,Jianda Han,Xiao Liang
発行日 2025-04-14 16:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RINGO: Real-time Navigation with a Guiding Trajectory for Aerial Manipulators in Unknown Environments はコメントを受け付けていません

Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

要約

マルチモーダルLLMS(MLLM)を使用してシステムを提示して、時間的変化のパターンを発見することを目的として、さまざまな時期に数千万の画像がキャプチャされた大きなデータベースを分析します。
具体的には、一定の期間にわたって都市全体で頻繁に共発生する変化(「傾向」)を獲得することを目指しています。
以前の視覚分析とは異なり、分析は、事前に決められたターゲット被験者やトレーニングラベルなしで、オープンエンドのクエリ(たとえば、「都市の頻繁な種類の変更は何ですか?」)に答えます。
これらのプロパティは、以前の学習ベースまたは監視なしの視覚分析ツールを不適切にキャストします。
MLLMSを、オープンエンドのセマンティック理解機能のための新しいツールとして識別します。
しかし、私たちのデータセットは、MLLMがコンテキストとして摂取するには4桁大きすぎます。
そこで、大規模な視覚分析の問題をより扱いやすいサブ問題に分解するボトムアップ手順を導入します。
各サブ問題に対してMLLMベースのソリューションを慎重に設計します。
私たちのシステムでの実験とアブレーション研究中、私たちはそれがベースラインを大幅に上回ることがわかり、大都市で撮影された画像から興味深いトレンドを発見することができます(例:「屋外ダイニングの追加」、「青」など)。
https://boyangdeng.com/visual-chroniclesでより多くの結果とインタラクティブなデモをご覧ください。

要約(オリジナル)

We present a system using Multimodal LLMs (MLLMs) to analyze a large database with tens of millions of images captured at different times, with the aim of discovering patterns in temporal changes. Specifically, we aim to capture frequent co-occurring changes (‘trends’) across a city over a certain period. Unlike previous visual analyses, our analysis answers open-ended queries (e.g., ‘what are the frequent types of changes in the city?’) without any predetermined target subjects or training labels. These properties cast prior learning-based or unsupervised visual analysis tools unsuitable. We identify MLLMs as a novel tool for their open-ended semantic understanding capabilities. Yet, our datasets are four orders of magnitude too large for an MLLM to ingest as context. So we introduce a bottom-up procedure that decomposes the massive visual analysis problem into more tractable sub-problems. We carefully design MLLM-based solutions to each sub-problem. During experiments and ablation studies with our system, we find it significantly outperforms baselines and is able to discover interesting trends from images captured in large cities (e.g., ‘addition of outdoor dining,’, ‘overpass was painted blue,’ etc.). See more results and interactive demos at https://boyangdeng.com/visual-chronicles.

arxiv情報

著者 Boyang Deng,Songyou Peng,Kyle Genova,Gordon Wetzstein,Noah Snavely,Leonidas Guibas,Thomas Funkhouser
発行日 2025-04-14 17:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY | Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images はコメントを受け付けていません