BinaryDM: Accurate Weight Binarization for Efficient Diffusion Models

要約

拡散モデル(DM)の高度化と計算量の大幅な増加に伴い、コンパクトで効率的な低ビットDMを得るための実用的なソリューションとして量子化が登場した。しかし、高度に離散的な表現は深刻な精度劣化をもたらし、超低ビット幅への拡散モデルの量子化を妨げる。本論文では、DMのための新しい重み2値化アプローチ、すなわちBinaryDMを提案し、表現と最適化を改善することにより、2値化DMを高精度で効率的なものに押し上げる。表現の観点からは、DMを全精度から正確な2値化へと滑らかに進化させることを可能にするEvolvable-Basis Binarizer (EBB)を提示する。EBBは、初期段階では複数の2値基底を柔軟に組み合わせることで情報表現を強化し、正則化を適用して効率的な単一基底2値化へと進化させる。この進化は、学習の安定性を保つために、DMアーキテクチャの先頭と最後尾でのみ起こる。最適化の観点から、2値化DMの最適化を支援するために低ランク表現模倣(LRM)が適用される。LRMは、低ランク空間における全精度DMの表現を模倣し、細粒度アライメントに起因する最適化プロセスの方向性の曖昧さを緩和する。包括的な実験により、BinaryDMは、超低ビット幅のDMのSOTA量子化手法と比較して、大幅な精度と効率の向上を達成することが実証された。1ビットの重みと4ビットの活性化(W1A4)により、BinaryDMは7.74という低いFIDを達成し、性能の崩壊(ベースラインFID 10.87)を防いだ。拡散モデルのための最初の二値化手法として、W1A4 BinaryDMは、15.2倍のOPと29.2倍のモデルサイズの節約を達成し、エッジ展開のための大きな可能性を示しています。

要約(オリジナル)

With the advancement of diffusion models (DMs) and the substantially increased computational requirements, quantization emerges as a practical solution to obtain compact and efficient low-bit DMs. However, the highly discrete representation leads to severe accuracy degradation, hindering the quantization of diffusion models to ultra-low bit-widths. This paper proposes a novel weight binarization approach for DMs, namely BinaryDM, pushing binarized DMs to be accurate and efficient by improving the representation and optimization. From the representation perspective, we present an Evolvable-Basis Binarizer (EBB) to enable a smooth evolution of DMs from full-precision to accurately binarized. EBB enhances information representation in the initial stage through the flexible combination of multiple binary bases and applies regularization to evolve into efficient single-basis binarization. The evolution only occurs in the head and tail of the DM architecture to retain the stability of training. From the optimization perspective, a Low-rank Representation Mimicking (LRM) is applied to assist the optimization of binarized DMs. The LRM mimics the representations of full-precision DMs in low-rank space, alleviating the direction ambiguity of the optimization process caused by fine-grained alignment. Comprehensive experiments demonstrate that BinaryDM achieves significant accuracy and efficiency gains compared to SOTA quantization methods of DMs under ultra-low bit-widths. With 1-bit weight and 4-bit activation (W1A4), BinaryDM achieves as low as 7.74 FID and saves the performance from collapse (baseline FID 10.87). As the first binarization method for diffusion models, W1A4 BinaryDM achieves impressive 15.2x OPs and 29.2x model size savings, showcasing its substantial potential for edge deployment.

arxiv情報

著者 Xingyu Zheng,Xianglong Liu,Haotong Qin,Xudong Ma,Mingyuan Zhang,Haojie Hao,Jiakai Wang,Zixiang Zhao,Jinyang Guo,Michele Magno
発行日 2024-10-03 15:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

NL-Eye: Abductive NLI for Images

要約

視覚言語モデル(VLM)ベースのボットは、床が濡れていることを検知したら、滑ることを警告するのだろうか?最近のVLMは素晴らしい能力を示しているが、その結果と原因を推論する能力はまだ未解明である。そこで、VLMの視覚的アブダクティブ推論能力を評価するために設計されたベンチマーク、NL-Eyeを紹介する。NL-Eyeは、自然言語推論(NLI)タスクを視覚領域に適応させたもので、前提画像に基づく仮説画像の妥当性を評価し、その決定を説明することをモデルに要求する。NL-Eyeは、物理的、機能的、論理的、感情的、文化的、社会的といった多様な推論カテゴリにまたがる、注意深くキュレーションされた350のトリプレット例(1,050画像)から構成される。データ・キュレーション・プロセスには、テキスト記述の作成と、テキストから画像への変換モデルを用いた画像生成という2つのステップが含まれ、いずれも高品質で難易度の高いシーンを確保するために、人間の関与が大きく必要とされた。我々の実験によれば、VLMはNL-Eyeでかなり苦戦し、しばしばランダムなベースラインレベルのパフォーマンスを示した。これは、最新のVLMのアブダクティブな推論能力の欠如を示している。NL-Eyeは、事故防止ボットや生成されたビデオ検証を含む実世界のアプリケーションのために、頑健なマルチモーダル推論が可能なVLMを開発するための重要な一歩となる。

要約(オリジナル)

Will a Visual Language Model (VLM)-based bot warn us about slipping if it detects a wet floor? Recent VLMs have demonstrated impressive capabilities, yet their ability to infer outcomes and causes remains underexplored. To address this, we introduce NL-Eye, a benchmark designed to assess VLMs’ visual abductive reasoning skills. NL-Eye adapts the abductive Natural Language Inference (NLI) task to the visual domain, requiring models to evaluate the plausibility of hypothesis images based on a premise image and explain their decisions. NL-Eye consists of 350 carefully curated triplet examples (1,050 images) spanning diverse reasoning categories: physical, functional, logical, emotional, cultural, and social. The data curation process involved two steps – writing textual descriptions and generating images using text-to-image models, both requiring substantial human involvement to ensure high-quality and challenging scenes. Our experiments show that VLMs struggle significantly on NL-Eye, often performing at random baseline levels, while humans excel in both plausibility prediction and explanation quality. This demonstrates a deficiency in the abductive reasoning capabilities of modern VLMs. NL-Eye represents a crucial step toward developing VLMs capable of robust multimodal reasoning for real-world applications, including accident-prevention bots and generated video verification.

arxiv情報

著者 Mor Ventura,Michael Toker,Nitay Calderon,Zorik Gekhman,Yonatan Bitton,Roi Reichart
発行日 2024-10-03 15:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

要約

Qwen2-VLは、従来のQwen-VLをさらに進化させたモデルであり、従来の視覚処理における決められた解像度のアプローチを再定義する。Qwen2-VLは、ナイーブ・ダイナミック・レゾリューション(Naive Dynamic Resolution)機構を導入し、解像度の異なる画像を異なる視覚トークン数に動的に処理することを可能にします。このアプローチにより、人間の知覚プロセスに近い、より効率的で正確な視覚表現を生成することができます。また、このモデルはマルチモーダルロータリー位置埋め込み(M-RoPE)を統合し、テキスト、画像、動画にまたがる位置情報の効果的な融合を促進する。画像と動画の両方を処理する統一的なパラダイムを採用することで、モデルの視覚認識能力を高めている。大規模マルチモーダルモデルの可能性を探るため、Qwen2-VLは大規模視覚言語モデル(LVLM)のスケーリング則を調査しています。Qwen2-VLシリーズは、モデルサイズ(2B、8B、72Bのパラメータを持つバージョン)と学習データ量の両方をスケーリングすることで、非常に競争力の高い性能を達成しています。特に、Qwen2-VL-72B モデルは、様々なマルチモーダルベンチマークにおいて、GPT-4o や Claude3.5-Sonnet などの主要モデルに匹敵する結果を達成し、他のジェネラリストモデルを凌駕しています。コードは https://github.com/QwenLM/Qwen2-VL で入手可能です。

要約(オリジナル)

We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model’s visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at https://github.com/QwenLM/Qwen2-VL .

arxiv情報

著者 Peng Wang,Shuai Bai,Sinan Tan,Shijie Wang,Zhihao Fan,Jinze Bai,Keqin Chen,Xuejing Liu,Jialin Wang,Wenbin Ge,Yang Fan,Kai Dang,Mengfei Du,Xuancheng Ren,Rui Men,Dayiheng Liu,Chang Zhou,Jingren Zhou,Junyang Lin
発行日 2024-10-03 15:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

GI-GS: Global Illumination Decomposition on Gaussian Splatting for Inverse Rendering

要約

GI-GSは、3Dガウス・スプラッティング(3DGS)とディファード・シェーディングを活用し、フォトリアリスティックな新しいビュー合成とリライティングを実現する、新しいインバース・レンダリング・フレームワークである。インバースレンダリングにおいて、オブジェクトのシェーディングプロセスを正確にモデル化することは、忠実度の高い結果を得るために不可欠である。したがって、シーンを横切って複数回バウンスした後にオブジェクトに到達する間接照明を考慮するために、グローバル照明を組み込むことが重要です。これまでの3DGSベースの手法では、間接照明を学習可能な照明ボリュームまたは各ガウスの追加属性として特徴付けることで、間接照明のモデル化を試みてきました。しかし、これらの方法は、光とオブジェクト間の複雑な物理的相互作用を正確にモデル化することができず、再照明時に現実的な間接照明を構築することが不可能である。この限界に対処するために、我々は、遅延シェーディングを用いた効率的なパストレーシングを用いて間接照明を計算することを提案する。我々のフレームワークでは、まずシーンの詳細なジオメトリとマテリアル特性をキャプチャするためにGバッファをレンダリングする。その後、直接照明のためだけに物理ベースレンダリング(PBR)を実行する。Gバッファと以前のレンダリング結果を用いて、軽量なパストレーシングによって間接照明を計算することができる。本手法は、任意の照明条件下で間接照明を効果的にモデル化することにより、より優れた新規ビュー合成と再照明を実現する。定量的かつ定性的な結果は、我々のGI-GSがレンダリング品質と効率の両方において既存のベースラインを上回ることを示している。

要約(オリジナル)

We present GI-GS, a novel inverse rendering framework that leverages 3D Gaussian Splatting (3DGS) and deferred shading to achieve photo-realistic novel view synthesis and relighting. In inverse rendering, accurately modeling the shading processes of objects is essential for achieving high-fidelity results. Therefore, it is critical to incorporate global illumination to account for indirect lighting that reaches an object after multiple bounces across the scene. Previous 3DGS-based methods have attempted to model indirect lighting by characterizing indirect illumination as learnable lighting volumes or additional attributes of each Gaussian, while using baked occlusion to represent shadow effects. These methods, however, fail to accurately model the complex physical interactions between light and objects, making it impossible to construct realistic indirect illumination during relighting. To address this limitation, we propose to calculate indirect lighting using efficient path tracing with deferred shading. In our framework, we first render a G-buffer to capture the detailed geometry and material properties of the scene. Then, we perform physically-based rendering (PBR) only for direct lighting. With the G-buffer and previous rendering results, the indirect lighting can be calculated through a lightweight path tracing. Our method effectively models indirect lighting under any given lighting conditions, thereby achieving better novel view synthesis and relighting. Quantitative and qualitative results show that our GI-GS outperforms existing baselines in both rendering quality and efficiency.

arxiv情報

著者 Hongze Chen,Zehong Lin,Jun Zhang
発行日 2024-10-03 15:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Metrics Revolutions: Groundbreaking Insights into the Implementation of Metrics for Biomedical Image Segmentation

要約

セグメンテーション性能の評価は、バイオメディカル画像解析における一般的なタスクであり、最近発表されたメトリクスの選択ガイドラインや計算フレームワークにおいても、その重要性が強調されている。2つのセグメンテーションのアライメントを定量的に評価するために、研究者は一般的に、ダイス類似度係数のような計数メトリクスや、ハウスドルフ距離のような距離ベースのメトリクスに頼る。本研究では、この仮定に疑問を投げかけ、実際の臨床データを用いた定量的な実験とともに体系的な実装分析を行い、距離ベースのメトリクス計算のための11のオープンソースツールと、高精度なメッシュベースのリファレンス実装とを比較した。その結果、すべてのオープンソースツール間で統計的に有意な差があることが明らかになった。また、主なばらつきの原因を特定するだけでなく、距離ベースのメトリクス計算に関する推奨事項も示している。

要約(オリジナル)

The evaluation of segmentation performance is a common task in biomedical image analysis, with its importance emphasized in the recently released metrics selection guidelines and computing frameworks. To quantitatively evaluate the alignment of two segmentations, researchers commonly resort to counting metrics, such as the Dice similarity coefficient, or distance-based metrics, such as the Hausdorff distance, which are usually computed by publicly available open-source tools with an inherent assumption that these tools provide consistent results. In this study we questioned this assumption, and performed a systematic implementation analysis along with quantitative experiments on real-world clinical data to compare 11 open-source tools for distance-based metrics computation against our highly accurate mesh-based reference implementation. The results revealed that statistically significant differences among all open-source tools are both surprising and concerning, since they question the validity of existing studies. Besides identifying the main sources of variation, we also provide recommendations for distance-based metrics computation.

arxiv情報

著者 Gašper Podobnik,Tomaž Vrtovec
発行日 2024-10-03 16:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Spatial-Temporal Multi-Cuts for Online Multiple-Camera Vehicle Tracking

要約

正確なオンライン複数カメラ車両追跡は、インテリジェント交通システム、自律走行、スマートシティアプリケーションに不可欠である。シングルカメラによる複数オブジェクト追跡と同様に、一般的にトラッキング・バイ・検出のグラフ問題として定式化される。このフレームワークの中で、既存のオンライン手法は通常、まず時間的にクラスタリングし、次に空間的にクラスタリングする、もしくはその逆の2段階の手順で構成されています。これは計算コストが高く、エラーが蓄積しやすい。我々は、空間的・時間的クラスタリングを単一の複合ステップで行えるグラフ表現を導入する:新しい検出は、既存のクラスタと空間的・時間的に接続される。クラスタ内の全ての検出の外観と位置の手がかりを疎にすることで、我々の手法は利用可能な最も強い証拠に基づいてクラスタを比較することができる。最終的なトラックは、簡単なマルチカット割り当て手順を用いてオンラインで得られる。我々の方法は、ターゲットシーンでのトレーニング、シングルカメラトラックの事前抽出、追加アノテーションを必要としない。注目すべきことに、我々はCityFlowデータセットにおいてIDF1の点で14%以上、Synthehicleデータセットにおいて25%以上、それぞれオンライン最新技術を上回る。コードは公開されている。

要約(オリジナル)

Accurate online multiple-camera vehicle tracking is essential for intelligent transportation systems, autonomous driving, and smart city applications. Like single-camera multiple-object tracking, it is commonly formulated as a graph problem of tracking-by-detection. Within this framework, existing online methods usually consist of two-stage procedures that cluster temporally first, then spatially, or vice versa. This is computationally expensive and prone to error accumulation. We introduce a graph representation that allows spatial-temporal clustering in a single, combined step: New detections are spatially and temporally connected with existing clusters. By keeping sparse appearance and positional cues of all detections in a cluster, our method can compare clusters based on the strongest available evidence. The final tracks are obtained online using a simple multicut assignment procedure. Our method does not require any training on the target scene, pre-extraction of single-camera tracks, or additional annotations. Notably, we outperform the online state-of-the-art on the CityFlow dataset in terms of IDF1 by more than 14%, and on the Synthehicle dataset by more than 25%, respectively. The code is publicly available.

arxiv情報

著者 Fabian Herzog,Johannes Gilg,Philipp Wolters,Torben Teepe,Gerhard Rigoll
発行日 2024-10-03 16:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Diffusion-based Extreme Image Compression with Compressed Feature Initialization

要約

拡散に基づく極端な画像圧縮法は、極めて低いビットレートで印象的な性能を達成してきた。しかし、純粋なノイズから始まる反復的なノイズ除去処理に制約され、これらの方法は忠実性と効率の両方において限界がある。これら2つの問題に対処するために、我々は、圧縮された特徴初期化と残差拡散を活用するRelay Residual Diffusion Extreme Image Compression (RDEIC)を発表する。具体的には、まず、ノイズ除去プロセスの不要な初期段階を排除するために、純粋なノイズではなく、ノイズが付加された画像の圧縮された潜在特徴を出発点として使用する。次に、付加ノイズと圧縮潜在特徴量とターゲット潜在特徴量の間の残差を繰り返し除去することにより、生画像を再構成する新しいリレー残差拡散を設計する。特筆すべきは、我々のリレー残差拡散ネットワークは、事前に訓練された安定拡散をシームレスに統合し、その頑健な生成能力を活用して高品質な再構成を行うことである。第三に、学習段階と推論段階の間の不一致を解消し、再構成品質をさらに向上させるために、固定段階の微調整戦略を提案する。広範な実験により、提案するRDEICが最先端の視覚的品質を達成し、忠実度と効率の両方において既存の拡散ベースの極端な画像圧縮法を凌駕することを実証する。ソースコードはhttps://github.com/huai-chang/RDEIC。

要約(オリジナル)

Diffusion-based extreme image compression methods have achieved impressive performance at extremely low bitrates. However, constrained by the iterative denoising process that starts from pure noise, these methods are limited in both fidelity and efficiency. To address these two issues, we present Relay Residual Diffusion Extreme Image Compression (RDEIC), which leverages compressed feature initialization and residual diffusion. Specifically, we first use the compressed latent features of the image with added noise, instead of pure noise, as the starting point to eliminate the unnecessary initial stages of the denoising process. Second, we design a novel relay residual diffusion that reconstructs the raw image by iteratively removing the added noise and the residual between the compressed and target latent features. Notably, our relay residual diffusion network seamlessly integrates pre-trained stable diffusion to leverage its robust generative capability for high-quality reconstruction. Third, we propose a fixed-step fine-tuning strategy to eliminate the discrepancy between the training and inference phases, further improving the reconstruction quality. Extensive experiments demonstrate that the proposed RDEIC achieves state-of-the-art visual quality and outperforms existing diffusion-based extreme image compression methods in both fidelity and efficiency. The source code will be provided in https://github.com/huai-chang/RDEIC.

arxiv情報

著者 Zhiyuan Li,Yanhui Zhou,Hao Wei,Chenyang Ge,Ajmal Mian
発行日 2024-10-03 16:24:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | コメントする

Context and Geometry Aware Voxel Transformer for Semantic Scene Completion

要約

視覚に基づく意味的情景補完(Semantic Scene Completion: SSC)は、様々な3次元知覚タスクに広く応用されており、注目を集めている。既存のsparse-to-denseアプローチは、通常、様々な入力画像間で共有されたコンテキストに依存しないクエリを用いるが、これは異なる入力の焦点領域が異なるため、入力画像間の区別を捉えることができず、クロスアテンションの無向きの特徴集約を引き起こす可能性がある。さらに、奥行き情報がないため、画像平面に投影された点が同じ2次元位置を共有したり、特徴マップのサンプリング点が類似したりする可能性があり、奥行きの曖昧さが生じる。本論文では、コンテキストとジオメトリを意識した新しいボクセル変換器を提案する。これはコンテキストを意識したクエリ生成器を利用し、個々の入力画像に合わせたコンテキスト依存のクエリを初期化することで、その画像固有の特徴を効果的に捉え、関心領域内の情報を集約する。さらに、2Dから3Dピクセル空間への変形可能なクロスアテンションを拡張し、深度座標に基づいて類似した画像座標を持つ点の区別を可能にする。このモジュールをベースに、意味的なシーン補完を実現するために、CGFormerと名付けられたニューラルネットワークを導入する。同時に、CGFormerは複数の3D表現(ボクセルとTPV)を活用し、変換された3Dボリュームの意味的・幾何学的表現能力を局所的・大域的観点から高める。実験の結果、CGFormerは、SemanticKITTIおよびSSCBench-KITTI-360ベンチマークにおいて、それぞれ16.87および20.05のmIoU、45.99および48.07のIoUを達成し、最先端の性能を達成した。驚くべきことに、CGFormerは、入力として時間画像を用いたアプローチや、はるかに大規模な画像バックボーンネットワークをも凌駕している。

要約(オリジナル)

Vision-based Semantic Scene Completion (SSC) has gained much attention due to its widespread applications in various 3D perception tasks. Existing sparse-to-dense approaches typically employ shared context-independent queries across various input images, which fails to capture distinctions among them as the focal regions of different inputs vary and may result in undirected feature aggregation of cross-attention. Additionally, the absence of depth information may lead to points projected onto the image plane sharing the same 2D position or similar sampling points in the feature map, resulting in depth ambiguity. In this paper, we present a novel context and geometry aware voxel transformer. It utilizes a context aware query generator to initialize context-dependent queries tailored to individual input images, effectively capturing their unique characteristics and aggregating information within the region of interest. Furthermore, it extend deformable cross-attention from 2D to 3D pixel space, enabling the differentiation of points with similar image coordinates based on their depth coordinates. Building upon this module, we introduce a neural network named CGFormer to achieve semantic scene completion. Simultaneously, CGFormer leverages multiple 3D representations (i.e., voxel and TPV) to boost the semantic and geometric representation abilities of the transformed 3D volume from both local and global perspectives. Experimental results demonstrate that CGFormer achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks, attaining a mIoU of 16.87 and 20.05, as well as an IoU of 45.99 and 48.07, respectively. Remarkably, CGFormer even outperforms approaches employing temporal images as inputs or much larger image backbone networks.

arxiv情報

著者 Zhu Yu,Runmin Zhang,Jiacheng Ying,Junchen Yu,Xiaohai Hu,Lun Luo,Si-Yuan Cao,Hui-Liang Shen
発行日 2024-10-03 16:26:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Why Sample Space Matters: Keyframe Sampling Optimization for LiDAR-based Place Recognition

要約

近年のロボット工学の進歩により、ロボットが長期的かつ大規模なミッションを遂行できるようになり、実世界での自律性が向上している。ミッションを成功させるために重要な要素は、蓄積された姿勢推定ドリフトを効果的に緩和する、場所認識によるループ閉鎖の組み込みである。特に、リソースに制約のある移動ロボットやマルチロボットシステムでは、従来のキーフレームサンプリング手法では、固定サンプリング間隔に依存したり、特徴空間ではなく3D空間で直接作業したりするため、冗長な情報を保持したり、関連データを見落としたりすることが多いからである。このような懸念に対処するため、我々は、場所認識におけるサンプル空間の概念を導入し、異なるサンプリング手法が、問い合わせプロセスと全体的な性能にどのような影響を与えるかを示す。次に、LiDARに基づく場所認識のための新しいキーフレームサンプリングアプローチを紹介する。このアプローチは、超次元記述子空間における冗長性の最小化と情報保存に焦点を当てている。このアプローチは、学習ベースの記述子と手作りの記述子の両方に適用可能であり、複数のデータセットと記述子のフレームワークにわたる実験的検証を通じて、提案手法の有効性を実証し、冗長性を共同で最小化し、リアルタイムで本質的な情報を保存できることを示す。提案手法は、パラメータチューニングを必要とせず、様々なデータセットにおいて頑健な性能を維持し、幅広いロボットアプリケーションにおいて、より効率的で信頼性の高い場所認識に貢献する。

要約(オリジナル)

Recent advances in robotics are pushing real-world autonomy, enabling robots to perform long-term and large-scale missions. A crucial component for successful missions is the incorporation of loop closures through place recognition, which effectively mitigates accumulated pose estimation drift. Despite computational advancements, optimizing performance for real-time deployment remains challenging, especially in resource-constrained mobile robots and multi-robot systems since, conventional keyframe sampling practices in place recognition often result in retaining redundant information or overlooking relevant data, as they rely on fixed sampling intervals or work directly in the 3D space instead of the feature space. To address these concerns, we introduce the concept of sample space in place recognition and demonstrate how different sampling techniques affect the query process and overall performance. We then present a novel keyframe sampling approach for LiDAR-based place recognition, which focuses on redundancy minimization and information preservation in the hyper-dimensional descriptor space. This approach is applicable to both learning-based and handcrafted descriptors, and through the experimental validation across multiple datasets and descriptor frameworks, we demonstrate the effectiveness of our proposed method, showing it can jointly minimize redundancy and preserve essential information in real-time. The proposed approach maintains robust performance across various datasets without requiring parameter tuning, contributing to more efficient and reliable place recognition for a wide range of robotic applications.

arxiv情報

著者 Nikolaos Stathoulopoulos,Vidya Sumathy,Christoforos Kanellakis,George Nikolakopoulos
発行日 2024-10-03 16:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | コメントする

Learning 3D Perception from Others’ Predictions

要約

実世界環境における正確な3D物体検出には、高品質で膨大な量のアノテーションデータが必要である。このようなデータの取得は面倒で高価であり、新しいセンサの採用時や検出器が新しい環境に配置されたときに、しばしば繰り返しの労力を必要とする。我々は、3次元物体検出器を構築するための新しいシナリオとして、高精度な検出器を搭載した近くのユニットの予測から学習することを検討する。例えば、自動運転車が新しいエリアに入ったとき、そのエリアに最適化された検出器を持つ他の交通参加者から学習することができる。この設定はラベル効率に優れ、センサーに依存せず、通信効率に優れています。近くのユニットはエゴエージェント(例えば車)と予測を共有するだけでよいのです。しかしながら、エゴ・カー用の検出器を訓練するために、受信した予測値を基底真理としてナイーブに使用すると、性能が劣ることになる。我々はこの問題を系統的に研究し、視点の不一致と(同期やGPSエラーによる)ミスローカライゼーションが主な原因であることを特定する。我々は、距離ベースのカリキュラムを提案する。まず、同じような視点を持つより近いユニットから学習し、その後、自己訓練によって他のユニットの予測の質を向上させる。さらに、効果的な擬似ラベル精密化モジュールが、わずかな注釈付きデータで学習できることを実証し、物体検出器の学習に必要なデータ量を大幅に削減する。最近公開された実世界の協調運転データセットにおいて、参照車の予測をエゴ・カーの擬似ラベルとして用いて、本アプローチを検証する。いくつかのシナリオ(例えば、異なるセンサー、検出器、ドメイン)を含む広範な実験により、他のユニットの予測から3D知覚のラベル効率的学習に対する我々のアプローチの有効性を実証する。

要約(オリジナル)

Accurate 3D object detection in real-world environments requires a huge amount of annotated data with high quality. Acquiring such data is tedious and expensive, and often needs repeated effort when a new sensor is adopted or when the detector is deployed in a new environment. We investigate a new scenario to construct 3D object detectors: learning from the predictions of a nearby unit that is equipped with an accurate detector. For example, when a self-driving car enters a new area, it may learn from other traffic participants whose detectors have been optimized for that area. This setting is label-efficient, sensor-agnostic, and communication-efficient: nearby units only need to share the predictions with the ego agent (e.g., car). Naively using the received predictions as ground-truths to train the detector for the ego car, however, leads to inferior performance. We systematically study the problem and identify viewpoint mismatches and mislocalization (due to synchronization and GPS errors) as the main causes, which unavoidably result in false positives, false negatives, and inaccurate pseudo labels. We propose a distance-based curriculum, first learning from closer units with similar viewpoints and subsequently improving the quality of other units’ predictions via self-training. We further demonstrate that an effective pseudo label refinement module can be trained with a handful of annotated data, largely reducing the data quantity necessary to train an object detector. We validate our approach on the recently released real-world collaborative driving dataset, using reference cars’ predictions as pseudo labels for the ego car. Extensive experiments including several scenarios (e.g., different sensors, detectors, and domains) demonstrate the effectiveness of our approach toward label-efficient learning of 3D perception from other units’ predictions.

arxiv情報

著者 Jinsu Yoo,Zhenyang Feng,Tai-Yu Pan,Yihong Sun,Cheng Perng Phoo,Xiangyu Chen,Mark Campbell,Kilian Q. Weinberger,Bharath Hariharan,Wei-Lun Chao
発行日 2024-10-03 16:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする