MIBench: A Comprehensive Benchmark for Model Inversion Attack and Defense

要約

モデル反転 (MI) 攻撃は、ターゲット モデルの出力情報を利用してプライバシーに配慮したトレーニング データを再構築することを目的としており、ディープ ニューラル ネットワーク (DNN) のプライバシーの脅威に対する広く懸念が生じています。
残念ながら、MI 攻撃の急速な進化と並行して、包括的で整合性のある信頼できるベンチマークの欠如が、手強い課題として浮上しています。
この欠陥により、さまざまな攻撃方法間の比較が不十分になったり、実験設定が一貫性を持たなくなったりすることがあります。
この論文では、この重大なギャップに対処するためのモデル反転攻撃と防御のための最初の実用的なベンチマークを紹介します。これは \textit{MIBench} と名付けられています。
このベンチマークは、拡張可能で再現可能なモジュールベースのツールボックスとして機能し、現在合計 16 の最先端の攻撃および防御方法を統合しています。
さらに、標準化された公正な評価と分析を促進するために、一般的に使用される 9 つの評価プロトコルを含む一連の評価ツールを提供します。
この基盤を利用して、さまざまなシナリオにわたるさまざまな手法のパフォーマンスを総合的に比較および分析するために、複数の観点から広範な実験を実施します。これにより、以前の研究で一般的だった位置ずれの問題や不一致が克服されます。
収集した攻撃手法と防御戦略に基づいて、ターゲットの解像度、防御の堅牢性、モデルの予測力、モデルのアーキテクチャ、伝達性、損失関数の影響を分析します。
私たちの希望は、この \textit{MIBench} が統合された実用的で拡張可能なツールボックスを提供し、この分野の研究者によって新しい手法を厳密にテストおよび比較するために広く利用され、公平な評価を確保し、それによって将来の開発をさらに前進させることです。

要約(オリジナル)

Model Inversion (MI) attacks aim at leveraging the output information of target models to reconstruct privacy-sensitive training data, raising widespread concerns on privacy threats of Deep Neural Networks (DNNs). Unfortunately, in tandem with the rapid evolution of MI attacks, the lack of a comprehensive, aligned, and reliable benchmark has emerged as a formidable challenge. This deficiency leads to inadequate comparisons between different attack methods and inconsistent experimental setups. In this paper, we introduce the first practical benchmark for model inversion attacks and defenses to address this critical gap, which is named \textit{MIBench}. This benchmark serves as an extensible and reproducible modular-based toolbox and currently integrates a total of 16 state-of-the-art attack and defense methods. Moreover, we furnish a suite of assessment tools encompassing 9 commonly used evaluation protocols to facilitate standardized and fair evaluation and analysis. Capitalizing on this foundation, we conduct extensive experiments from multiple perspectives to holistically compare and analyze the performance of various methods across different scenarios, which overcomes the misalignment issues and discrepancy prevalent in previous works. Based on the collected attack methods and defense strategies, we analyze the impact of target resolution, defense robustness, model predictive power, model architectures, transferability and loss function. Our hope is that this \textit{MIBench} could provide a unified, practical and extensible toolbox and is widely utilized by researchers in the field to rigorously test and compare their novel methods, ensuring equitable evaluations and thereby propelling further advancements in the future development.

arxiv情報

著者 Yixiang Qiu,Hongyao Yu,Hao Fang,Wenbo Yu,Bin Chen,Xuan Wang,Shu-Tao Xia,Ke Xu
発行日 2024-10-08 06:21:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | コメントする

3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

要約

最近の 3D ノベル ビュー合成 (NVS) 手法は、単一オブジェクト中心のシーンに限定されており、複雑な環境に対応するのに苦労しています。
多くの場合、トレーニングには大規模な 3D データが必要ですが、トレーニングの分布を超えた一般化が欠けています。
逆に、3D フリーの方法では、大量の 3D ベースのトレーニング データを必要とせずに、事前トレーニングされた安定した拡散モデルを使用して、複雑な自然のシーンのテキスト制御ビューを生成できますが、カメラ制御がありません。
この論文では、3D フリーのアプローチと 3D ベースのアプローチの利点を組み合わせて、単一の入力画像からカメラ制御の視点を生成できる方法を紹介します。
私たちの方法は、大規模なトレーニングや追加の 3D データやマルチビュー データを必要とせずに、複雑で多様なシーンを処理することに優れています。
弱いガイダンスには広く利用可能な事前トレーニング済み NVS モデルを活用し、この知識を 3D フリーのビュー合成アプローチに統合して、望ましい結果を達成します。
実験結果は、私たちの方法が定性的および定量的評価の両方で既存のモデルよりも優れており、さまざまなシーンにわたって希望のカメラ角度で高忠実度で一貫した新しいビューの合成を提供することを示しています。

要約(オリジナル)

Recent 3D novel view synthesis (NVS) methods are limited to single-object-centric scenes and struggle with complex environments. They often require extensive 3D data for training, lacking generalization beyond the training distribution. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without the need for a large amount of 3D-based training data, but lack camera control. In this paper, we introduce a method capable of generating camera-controlled viewpoints from a single input image, by combining the benefits of 3D-free and 3D-based approaches. Our method excels in handling complex and diverse scenes without extensive training or additional 3D and multiview data. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis approach to achieve the desired results. Experimental results demonstrate that our method outperforms existing models in both qualitative and quantitative evaluations, providing high-fidelity and consistent novel view synthesis at desired camera angles across a wide variety of scenes.

arxiv情報

著者 Taewon Kang,Divya Kothandaraman,Dinesh Manocha,Ming C. Lin
発行日 2024-10-08 03:03:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models

要約

視覚言語モデル (VLM) は、視覚タスクにおいて優れたパフォーマンスを示していますが、それを新しい領域に適応させるには、多くの場合、費用のかかる微調整が必​​要になります。
テキスト、ビジュアル、マルチモーダル プロンプトなどのプロンプト チューニング手法は、学習可能なプロンプトを活用することで効率的な代替手段を提供します。
ただし、視覚言語セグメンテーション モデル (VLSM) へのそれらの適用と、大幅なドメイン シフト下での評価は未調査のままです。
この研究では、さまざまなユニモーダルおよびマルチモーダル プロンプト チューニング技術を VLSM に統合するためのオープンソース ベンチマーク フレームワーク TuneVLSeg を紹介し、任意の数のクラスを持つ下流のセグメンテーション データセットに対してプロンプト チューニングを使用できるようにします。
TuneVLSeg には、$2$ の VLSM で使用されるさまざまなプロンプトの深さに関する $6$ のプロンプト チューニング戦略が含まれており、合計 $8$ の異なる組み合わせになります。
私たちは、3 ドルの放射線学データセット (乳腫瘍、心エコー検査、胸部 X 線病理学) と 5 ドルの非放射線学データセット (ポリープ、潰瘍、皮膚がん) を含む 8 ドルの多様な医療データセット、および 2 つの自然なドメイン セグメンテーションでさまざまな迅速な調整をテストします。
データセット。
私たちの研究では、自然領域の画像から医療データまで、大幅な領域の変化の下では、テキストのプロンプト調整が困難であることがわかりました。
さらに、視覚的なプロンプト チューニングは、マルチモーダル プロンプト チューニングよりもハイパーパラメーターが少なく、マルチモーダル アプローチに匹敵するパフォーマンスを達成できることが多く、最初の試みとしては価値があります。
私たちの研究は、堅牢なドメイン固有のセグメンテーションのためのさまざまなプロンプト チューニング手法の理解と適用性を前進させます。
ソース コードは https://github.com/naamiinepal/tunevlseg で入手できます。

要約(オリジナル)

Vision-Language Models (VLMs) have shown impressive performance in vision tasks, but adapting them to new domains often requires expensive fine-tuning. Prompt tuning techniques, including textual, visual, and multimodal prompting, offer efficient alternatives by leveraging learnable prompts. However, their application to Vision-Language Segmentation Models (VLSMs) and evaluation under significant domain shifts remain unexplored. This work presents an open-source benchmarking framework, TuneVLSeg, to integrate various unimodal and multimodal prompt tuning techniques into VLSMs, making prompt tuning usable for downstream segmentation datasets with any number of classes. TuneVLSeg includes $6$ prompt tuning strategies on various prompt depths used in $2$ VLSMs totaling of $8$ different combinations. We test various prompt tuning on $8$ diverse medical datasets, including $3$ radiology datasets (breast tumor, echocardiograph, chest X-ray pathologies) and $5$ non-radiology datasets (polyp, ulcer, skin cancer), and two natural domain segmentation datasets. Our study found that textual prompt tuning struggles under significant domain shifts, from natural-domain images to medical data. Furthermore, visual prompt tuning, with fewer hyperparameters than multimodal prompt tuning, often achieves performance competitive to multimodal approaches, making it a valuable first attempt. Our work advances the understanding and applicability of different prompt-tuning techniques for robust domain-specific segmentation. The source code is available at https://github.com/naamiinepal/tunevlseg.

arxiv情報

著者 Rabin Adhikari,Safal Thapaliya,Manish Dhakal,Bishesh Khanal
発行日 2024-10-08 06:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

Control-oriented Clustering of Visual Latent Representation

要約

私たちは、動作のクローン作成から学習した画像ベースの制御パイプラインにおける視覚表現空間 (ビジョン エンコーダーからアクション デコーダーまでの情報チャネル) の幾何学構造の研究を開始します。
画像分類におけるニューラル崩壊 (NC) 現象に触発されて、同様のクラスタリングの法則が視覚表現空間にも現れるかどうかを調査します。
画像ベースの制御は、明示的に定義されたクラスを持たない回帰タスクであるため、パズルの中心的なピースは、そのような法則が存在する場合、どの暗黙のクラスに従って視覚特徴がクラスター化されるかを決定することにあります。
画像ベースの平面プッシュに焦点を当て、制御タスクにおける視覚表現の最も重要な役割は、アクション デコーダーに目標を伝えることであると仮定します。
次に、エキスパート デモンストレーションのトレーニング サンプルを、(a) 入力におけるオブジェクトとターゲットの間の相対姿勢、または (b) 出力におけるエキスパート アクションによって引き起こされるオブジェクトの相対姿勢に基づいて、8 つの「制御指向」クラスに分類します。
ここで、1 つのクラスは 1 つの相対姿勢オルサント (REPO) に対応します。
アーキテクチャの 4 つの異なるインスタンス化にわたって、8 つの REPO に従って、視覚表現空間における制御指向のクラスタリングの一般的な出現を報告します。
経験的な観察を超えて、限られた専門家のデモンストレーションでポリシーをトレーニングする際に、テスト時のパフォーマンスを向上させるアルゴリズム ツールとしてこのようなクラスタリングの法則を活用できることを示します。
特に、視覚特徴の制御指向のクラスタリングを促進するために、正則化として NC を使用してビジョン エンコーダを事前トレーニングします。
驚くべきことに、このような NC で事前トレーニングされたビジョン エンコーダは、アクション デコーダとエンドツーエンドで微調整されると、低データ領域でのテスト時間のパフォーマンスが 10% ~ 35% 向上します。
現実世界のビジョンベースの平面プッシュ実験により、制御指向の視覚表現の事前トレーニングの驚くべき利点が確認されました。

要約(オリジナル)

We initiate a study of the geometry of the visual representation space — the information channel from the vision encoder to the action decoder — in an image-based control pipeline learned from behavior cloning. Inspired by the phenomenon of neural collapse (NC) in image classification, we investigate whether a similar law of clustering emerges in the visual representation space. Since image-based control is a regression task without explicitly defined classes, the central piece of the puzzle lies in determining according to what implicit classes the visual features cluster, if such a law exists. Focusing on image-based planar pushing, we posit the most important role of the visual representation in a control task is to convey a goal to the action decoder. We then classify training samples of expert demonstrations into eight ‘control-oriented’ classes based on (a) the relative pose between the object and the target in the input or (b) the relative pose of the object induced by expert actions in the output, where one class corresponds to one relative pose orthant (REPO). Across four different instantiations of architecture, we report the prevalent emergence of control-oriented clustering in the visual representation space according to the eight REPOs. Beyond empirical observation, we show such a law of clustering can be leveraged as an algorithmic tool to improve test-time performance when training a policy with limited expert demonstrations. Particularly, we pretrain the vision encoder using NC as a regularization to encourage control-oriented clustering of the visual features. Surprisingly, such an NC-pretrained vision encoder, when finetuned end-to-end with the action decoder, boosts the test-time performance by 10% to 35% in the low-data regime. Real-world vision-based planar pushing experiments confirmed the surprising advantage of control-oriented visual representation pretraining.

arxiv情報

著者 Han Qi,Haocheng Yin,Heng Yang
発行日 2024-10-08 02:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

KISS-Matcher: Fast and Robust Point Cloud Registration Revisited

要約

グローバル点群登録システムはあらゆる面で大幅に進歩しましたが、多くの研究は、特徴抽出、グラフ理論による枝刈り、ポーズ ソルバーなどの特定のコンポーネントに焦点を当ててきました。
この論文では、位置合わせ問題を総合的に捉え、\textit{KISS-Matcher} と呼ばれる点群位置合わせ用のオープンソースで多用途な C++ ライブラリを開発します。
KISS-Matcher は、従来の高速点特徴ヒストグラム (FPFH) を改善する新しい特徴検出器 \textit{Faster-PFH} を組み合わせています。
さらに、$k$-core ベースのグラフ理論枝刈りを採用して、外れ値の対応を拒否する時間の複雑さを軽減します。
最後に、これらのモジュールを完全でユーザーフレンドリーですぐに使用できるパイプラインに結合します。
広範な実験によって検証されたように、KISS-Matcher は優れたスケーラビリティと幅広い適用性を備えており、精度を維持しながら、外れ値に強い最先端の登録パイプラインと比較して大幅な高速化を実現します。
私たちのコードは \href{https://github.com/MIT-SPARK/KISS-Matcher}{\texttt{https://github.com/MIT-SPARK/KISS-Matcher}} で入手できます。

要約(オリジナル)

While global point cloud registration systems have advanced significantly in all aspects, many studies have focused on specific components, such as feature extraction, graph-theoretic pruning, or pose solvers. In this paper, we take a holistic view on the registration problem and develop an open-source and versatile C++ library for point cloud registration, called \textit{KISS-Matcher}. KISS-Matcher combines a novel feature detector, \textit{Faster-PFH}, that improves over the classical fast point feature histogram (FPFH). Moreover, it adopts a $k$-core-based graph-theoretic pruning to reduce the time complexity of rejecting outlier correspondences. Finally, it combines these modules in a complete, user-friendly, and ready-to-use pipeline. As verified by extensive experiments, KISS-Matcher has superior scalability and broad applicability, achieving a substantial speed-up compared to state-of-the-art outlier-robust registration pipelines while preserving accuracy. Our code will be available at \href{https://github.com/MIT-SPARK/KISS-Matcher}{\texttt{https://github.com/MIT-SPARK/KISS-Matcher}}.

arxiv情報

著者 Hyungtae Lim,Daebeom Kim,Gunhee Shin,Jingnan Shi,Ignacio Vizzo,Hyun Myung,Jaesik Park,Luca Carlone
発行日 2024-10-06 21:08:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress

要約

模倣学習によってトレーニングされたロボットの行動ポリシーは、トレーニング データから逸脱した条件下では失敗する傾向があります。
したがって、スケーラブルな展開を促進するには、テスト時に学習したポリシーを監視し、失敗の早期警告を提供するアルゴリズムが必要です。
私たちは、障害の検出を 2 つの相補的なカテゴリに分割する実行時監視フレームワークである Sentinel を提案します。1) 一時的なアクションの一貫性の統計的尺度を使用して検出する、異常な障害。2) ビジョン言語モデル (VLM) を使用する、タスク進行の障害。
) ポリシーがタスクを解決しないアクションを自信を持って一貫して実行することを検出します。
私たちのアプローチには 2 つの重要な強みがあります。
まず、学習されたポリシーは多様な障害モードを示すため、補完的な検出器を組み合わせることで、障害検出の精度が大幅に向上します。
第 2 に、統計的時間アクション一貫性測定を使用すると、マルチモーダルな生成ポリシーが無視できる計算コストで異常な動作を示した場合に、迅速に検出できるようになります。
対照的に、時間依存性の低い障害モードを検出するためにのみ VLM を使用します。
私たちは、シミュレーションと現実世界の両方におけるロボットによるモバイル操作ドメインで訓練された普及政策のコンテキストでアプローチを実証します。
時間的整合性検出と VLM ランタイム監視を統合することにより、Sentinel は 2 つの検出器のいずれかを単独で使用する場合に比べて 18% 多くの障害を検出し、ベースラインを大幅に上回っています。このため、補完的な障害カテゴリに特殊な検出器を割り当てることの重要性が強調されています。
定性的結果は https://sites.google.com/stanford.edu/sentinel で入手できます。

要約(オリジナル)

Robot behavior policies trained via imitation learning are prone to failure under conditions that deviate from their training data. Thus, algorithms that monitor learned policies at test time and provide early warnings of failure are necessary to facilitate scalable deployment. We propose Sentinel, a runtime monitoring framework that splits the detection of failures into two complementary categories: 1) Erratic failures, which we detect using statistical measures of temporal action consistency, and 2) task progression failures, where we use Vision Language Models (VLMs) to detect when the policy confidently and consistently takes actions that do not solve the task. Our approach has two key strengths. First, because learned policies exhibit diverse failure modes, combining complementary detectors leads to significantly higher accuracy at failure detection. Second, using a statistical temporal action consistency measure ensures that we quickly detect when multimodal, generative policies exhibit erratic behavior at negligible computational cost. In contrast, we only use VLMs to detect failure modes that are less time-sensitive. We demonstrate our approach in the context of diffusion policies trained on robotic mobile manipulation domains in both simulation and the real world. By unifying temporal consistency detection and VLM runtime monitoring, Sentinel detects 18% more failures than using either of the two detectors alone and significantly outperforms baselines, thus highlighting the importance of assigning specialized detectors to complementary categories of failure. Qualitative results are made available at https://sites.google.com/stanford.edu/sentinel.

arxiv情報

著者 Christopher Agia,Rohan Sinha,Jingyun Yang,Zi-ang Cao,Rika Antonova,Marco Pavone,Jeannette Bohg
発行日 2024-10-06 22:13:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.10 | コメントする

Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering

要約

地上ロボットの軌道データセット用の新しいビュー レンダリング アルゴリズム Mode-GS を紹介します。
私たちのアプローチは、既存の 3D ガウス スプラッティング アルゴリズムの制限を克服するように設計されたアンカー ガウス スプラットの使用に基づいています。
従来のニューラル レンダリング手法では、シーンの複雑さと多視点観察が不十分であるため、深刻なスプラット ドリフトが発生し、地上ロボット データセットの真のジオメトリ上でスプラットを修正できない可能性があります。
私たちの方法は、単眼の深度からピクセルに位置合わせされたアンカーを統合し、残差形式のガウス デコーダを使用してこれらのアンカーの周囲にガウス スプラットを生成します。
単眼深度の固有のスケール曖昧さに対処するために、ビューごとの深度スケールでアンカーをパラメータ化し、オンライン スケール キャリブレーションにスケール一貫性のある深度損失を採用します。
私たちの方法により、PSNR、SSIM、LPIPS メトリクスに基づいて、自由な軌道パターンを持つ地上シーンでのレンダリング パフォーマンスが向上し、R3LIVE オドメトリ データセットと戦車と寺院のデータセットで最先端のレンダリング パフォーマンスが実現します。

要約(オリジナル)

We present a novel-view rendering algorithm, Mode-GS, for ground-robot trajectory datasets. Our approach is based on using anchored Gaussian splats, which are designed to overcome the limitations of existing 3D Gaussian splatting algorithms. Prior neural rendering methods suffer from severe splat drift due to scene complexity and insufficient multi-view observation, and can fail to fix splats on the true geometry in ground-robot datasets. Our method integrates pixel-aligned anchors from monocular depths and generates Gaussian splats around these anchors using residual-form Gaussian decoders. To address the inherent scale ambiguity of monocular depth, we parameterize anchors with per-view depth-scales and employ scale-consistent depth loss for online scale calibration. Our method results in improved rendering performance, based on PSNR, SSIM, and LPIPS metrics, in ground scenes with free trajectory patterns, and achieves state-of-the-art rendering performance on the R3LIVE odometry dataset and the Tanks and Temples dataset.

arxiv情報

著者 Yonghan Lee,Jaehoon Choi,Dongki Jung,Jaeseong Yun,Soohyun Ryu,Dinesh Manocha,Suyong Yeon
発行日 2024-10-06 23:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

A Universal Formulation for Path-Parametric Planning and Control

要約

この研究では、パスパラメトリックの計画と制御のための統一フレームワークを提示します。
この定式化は、従来のパスフォローイングから最新のコンタリングまたは進歩を最大化するモデルの予測制御と強化学習に至るまで、パスパラメトリック手法の全範囲を単一のフレームワークの下で標準化するため、普遍的です。
この普遍性の基礎となる要素は 2 つあります。第 1 に、特異点のない、滑らかで微分可能な移動フレームを計算できるコンパクトで効率的な手法を提示します。
第 2 に、パラメトリック速度や移動フレームに関する事前の仮定なしに、任意の曲線に適用できるデカルト座標の空間パス パラメータ化を導出します。これは、前述のパス パラメータ化方法と完全に相互作用します。
これら 2 つの要素を組み合わせることで、文献にある既存のパスパラメトリック手法を統合する計画および制御フレームワークが実現します。
これらすべてのアプローチを統合することを目指して、提示されたコンテンツを実装するソフトウェア ライブラリである PACOR をオープンソースにし、それによってパスパラメトリックな計画と制御方法を定式化するための自己完結型ツールキットを提供します。

要約(オリジナル)

This work presents a unified framework for path-parametric planning and control. This formulation is universal as it standardizes the entire spectrum of path-parametric techniques — from traditional path following to more recent contouring or progress-maximizing Model Predictive Control and Reinforcement Learning — under a single framework. The ingredients underlying this universality are twofold: First, we present a compact and efficient technique capable of computing singularity-free, smooth and differentiable moving frames. Second, we derive a spatial path parameterization of the Cartesian coordinates applicable to any arbitrary curve without prior assumptions on its parametric speed or moving frame, and that perfectly interplays with the aforementioned path parameterization method. The combination of these two ingredients leads to a planning and control framework that brings togehter existing path-parametric techniques in literature. Aiming to unify all these approaches, we open source PACOR, a software library that implements the presented content, thereby providing a self-contained toolkit for the formulation of path-parametric planning and control methods.

arxiv情報

著者 Jon Arrizabalaga,Markus Ryll
発行日 2024-10-07 00:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting

要約

3D ガウス スプラッティング (3DGS) を使用したロボット マニピュレータのアクティブな次善のビューとタッチ選択のためのフレームワークを提案します。
3DGS は、フォトリアリスティックかつ幾何学的に正確な方法でシーンを表現できるため、ロボット工学にとって有用な明示的な 3D シーン表現として浮上しています。
ただし、効率要件を考慮してビュー数が制限されている現実世界のオンライン ロボット シーンでは、ビューが重複して冗長であることが多いため、3DGS のランダムなビュー選択は非現実的になります。
私たちは、エンドツーエンドのオンライン トレーニングとアクティブ ビュー選択パイプラインを提案することで、この問題に対処します。これにより、少数ビューのロボット設定で 3DGS のパフォーマンスが向上します。
まず、セグメント エニシング モデル 2 (SAM2) を使用した新しいセマンティック深度アライメント手法を使用して、少数ショット 3DGS のパフォーマンスを向上させます。SAM2 には、ピアソン深度と表面法線損失を追加して、現実世界のシーンの色と深度の再構成を改善します。
次に、3DGS の次に最適なビュー選択方法である FisherRF を拡張し、深度の不確実性に基づいてビューとタッチ ポーズを選択します。
ライブ 3DGS トレーニング中に、実際のロボット システムでオンライン ビュー選択を実行します。
私たちはショット数の少ない GS シーンの改善を推進し、深度ベースの FisherRF をそれらのシーンに拡張し、困難なロボット シーンの定性的および量的改善の両方を実証します。
詳細については、https://armlabstanford.github.io/next-best-sense のプロジェクト ページをご覧ください。

要約(オリジナル)

We propose a framework for active next best view and touch selection for robotic manipulators using 3D Gaussian Splatting (3DGS). 3DGS is emerging as a useful explicit 3D scene representation for robotics, as it has the ability to represent scenes in a both photorealistic and geometrically accurate manner. However, in real-world, online robotic scenes where the number of views is limited given efficiency requirements, random view selection for 3DGS becomes impractical as views are often overlapping and redundant. We address this issue by proposing an end-to-end online training and active view selection pipeline, which enhances the performance of 3DGS in few-view robotics settings. We first elevate the performance of few-shot 3DGS with a novel semantic depth alignment method using Segment Anything Model 2 (SAM2) that we supplement with Pearson depth and surface normal loss to improve color and depth reconstruction of real-world scenes. We then extend FisherRF, a next-best-view selection method for 3DGS, to select views and touch poses based on depth uncertainty. We perform online view selection on a real robot system during live 3DGS training. We motivate our improvements to few-shot GS scenes, and extend depth-based FisherRF to them, where we demonstrate both qualitative and quantitative improvements on challenging robot scenes. For more information, please see our project page at https://armlabstanford.github.io/next-best-sense.

arxiv情報

著者 Matthew Strong,Boshu Lei,Aiden Swann,Wen Jiang,Kostas Daniilidis,Monroe Kennedy III
発行日 2024-10-07 01:24:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Adaptive Step Duration for Precise Foot Placement: Achieving Robust Bipedal Locomotion on Terrains with Restricted Footholds

要約

二足歩行のための従来のワンステッププレビュー計画アルゴリズムは、飛び石など足場が制限された地形を歩くときに実行可能な歩行を生成するのに苦労します。
このような制限を克服するために、本稿では、歩行ロボットの発散運動成分 (DCM) のステップごとの離散進化に基づく、新しいマルチステップ プレビュー足配置計画アルゴリズムを紹介します。
私たちが提案するアプローチは、制約の下で足を最適に配置するためにステップ持続時間と足のスイング軌道を適応的に変更することで、ロボットの長期的な安定性を高め、実行可能な足場に厳しい制約がある環境をナビゲートする能力を大幅に向上させます。
複雑な飛び石構成と外部摂動を使用したさまざまなシミュレーション シナリオを通じて、その有効性を実証します。
これらのテストでは、外乱があっても足場が制限された地形を移動する性能が向上していることが実証されました。

要約(オリジナル)

Traditional one-step preview planning algorithms for bipedal locomotion struggle to generate viable gaits when walking across terrains with restricted footholds, such as stepping stones. To overcome such limitations, this paper introduces a novel multi-step preview foot placement planning algorithm based on the step-to-step discrete evolution of the Divergent Component of Motion (DCM) of walking robots. Our proposed approach adaptively changes the step duration and the swing foot trajectory for optimal foot placement under constraints, thereby enhancing the long-term stability of the robot and significantly improving its ability to navigate environments with tight constraints on viable footholds. We demonstrate its effectiveness through various simulation scenarios with complex stepping-stone configurations and external perturbations. These tests underscore its improved performance for navigating foothold-restricted terrains, even with external disturbances.

arxiv情報

著者 Zhaoyang Xiang,Victor Paredes,Guillermo A. Castillo,Ayonga Hereid
発行日 2024-10-07 01:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする