Improving Object Detection via Local-global Contrastive Learning

要約

視覚領域のギャップは、物体検出のパフォーマンスに影響を与えることがよくあります。
画像間の変換はこの影響を軽減できます。対照的なアプローチにより、教師なし領域での画像間のマッピングの学習が可能になります。
ただし、既存の方法では、複数のオブジェクト インスタンスを含むコンテンツが豊富なシーンの処理に失敗することが多く、検出パフォーマンスが不十分になってしまいます。
このようなインスタンス レベルのコンテンツに対する機密性は、通常、オブジェクト アノテーションを通じてのみ得られるため、取得にはコストがかかる場合があります。
この問題に対処するために、特にクロスドメインのオブジェクト検出を対象とした新しい画像間の変換方法を紹介します。
私たちは、空間アテンションマスクを通じてオブジェクトインスタンスの外観を最適化し、シーンをターゲットオブジェクトインスタンスに関連付けられた前景領域と背景の非オブジェクト領域に暗黙的に描写する帰納的事前分布を備えた対比学習フレームワークとしてアプローチを定式化します。
翻訳中にオブジェクトのインスタンスを明示的に説明するためにオブジェクトの注釈に依存する代わりに、私たちのアプローチは、ローカル情報とグローバル情報を対比させることによってオブジェクトを表現することを学習します。
これにより、オブジェクトのアノテーションや検出器モデルの微調整に依存せずに、ドメイン シフトの下でパフォーマンスの高い検出を取得するという、まだ検討されていない課題の調査が可能になります。
3 つの困難なベンチマークにわたって複数のクロスドメイン オブジェクト検出設定を実験し、最先端のパフォーマンスを報告します。
プロジェクトページ: https://local-global-detection.github.io

要約(オリジナル)

Visual domain gaps often impact object detection performance. Image-to-image translation can mitigate this effect, where contrastive approaches enable learning of the image-to-image mapping under unsupervised regimes. However, existing methods often fail to handle content-rich scenes with multiple object instances, which manifests in unsatisfactory detection performance. Sensitivity to such instance-level content is typically only gained through object annotations, which can be expensive to obtain. Towards addressing this issue, we present a novel image-to-image translation method that specifically targets cross-domain object detection. We formulate our approach as a contrastive learning framework with an inductive prior that optimises the appearance of object instances through spatial attention masks, implicitly delineating the scene into foreground regions associated with the target object instances and background non-object regions. Instead of relying on object annotations to explicitly account for object instances during translation, our approach learns to represent objects by contrasting local-global information. This affords investigation of an under-explored challenge: obtaining performant detection, under domain shifts, without relying on object annotations nor detector model fine-tuning. We experiment with multiple cross-domain object detection settings across three challenging benchmarks and report state-of-the-art performance. Project page: https://local-global-detection.github.io

arxiv情報

著者 Danai Triantafyllidou,Sarah Parisot,Ales Leonardis,Steven McDonagh
発行日 2024-10-07 14:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Control-oriented Clustering of Visual Latent Representation

要約

私たちは、動作のクローン作成から学習した画像ベースの制御パイプラインにおける視覚表現空間 (ビジョン エンコーダーからアクション デコーダーまでの情報チャネル) の幾何学構造の研究を開始します。
画像分類におけるニューラル崩壊 (NC) 現象に触発されて、同様のクラスタリングの法則が視覚表現空間にも現れるかどうかを調査します。
画像ベースの制御は、明示的に定義されたクラスを持たない回帰タスクであるため、パズルの中心的なピースは、そのような法則が存在する場合、どの暗黙のクラスに従って視覚特徴がクラスター化されるかを決定することにあります。
画像ベースの平面プッシュに焦点を当て、制御タスクにおける視覚表現の最も重要な役割は、アクション デコーダーに目標を伝えることであると仮定します。
次に、エキスパート デモンストレーションのトレーニング サンプルを、(a) 入力におけるオブジェクトとターゲットの間の相対姿勢、または (b) 出力におけるエキスパート アクションによって引き起こされるオブジェクトの相対姿勢に基づいて、8 つの「制御指向」クラスに分類します。
ここで、1 つのクラスは 1 つの相対姿勢オルサント (REPO) に対応します。
アーキテクチャの 4 つの異なるインスタンス化にわたって、8 つの REPO に従って、視覚表現空間における制御指向のクラスタリングの一般的な出現を報告します。
経験的な観察を超えて、限られた専門家のデモンストレーションでポリシーをトレーニングする際に、テスト時のパフォーマンスを向上させるアルゴリズム ツールとしてこのようなクラスタリングの法則を活用できることを示します。
特に、視覚特徴の制御指向のクラスタリングを促進するために、正則化として NC を使用してビジョン エンコーダを事前トレーニングします。
驚くべきことに、このような NC で事前トレーニングされたビジョン エンコーダは、アクション デコーダとエンドツーエンドで微調整されると、低データ領域でのテスト時間のパフォーマンスが 10% ~ 35% 向上します。
現実世界のビジョンベースの平面プッシュ実験により、制御指向の視覚表現の事前トレーニングの驚くべき利点が確認されました。

要約(オリジナル)

We initiate a study of the geometry of the visual representation space — the information channel from the vision encoder to the action decoder — in an image-based control pipeline learned from behavior cloning. Inspired by the phenomenon of neural collapse (NC) in image classification, we investigate whether a similar law of clustering emerges in the visual representation space. Since image-based control is a regression task without explicitly defined classes, the central piece of the puzzle lies in determining according to what implicit classes the visual features cluster, if such a law exists. Focusing on image-based planar pushing, we posit the most important role of the visual representation in a control task is to convey a goal to the action decoder. We then classify training samples of expert demonstrations into eight ‘control-oriented’ classes based on (a) the relative pose between the object and the target in the input or (b) the relative pose of the object induced by expert actions in the output, where one class corresponds to one relative pose orthant (REPO). Across four different instantiations of architecture, we report the prevalent emergence of control-oriented clustering in the visual representation space according to the eight REPOs. Beyond empirical observation, we show such a law of clustering can be leveraged as an algorithmic tool to improve test-time performance when training a policy with limited expert demonstrations. Particularly, we pretrain the vision encoder using NC as a regularization to encourage control-oriented clustering of the visual features. Surprisingly, such an NC-pretrained vision encoder, when finetuned end-to-end with the action decoder, boosts the test-time performance by 10% to 35% in the low-data regime. Real-world vision-based planar pushing experiments confirmed the surprising advantage of control-oriented visual representation pretraining.

arxiv情報

著者 Han Qi,Haocheng Yin,Heng Yang
発行日 2024-10-07 14:21:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Selective Transformer for Hyperspectral Image Classification

要約

Transformer は、ハイパースペクトル画像 (HSI) 分類の分野で満足のいく結果を達成しました。
しかし、既存の Transformer モデルは、多様な土地被覆タイプと豊富なスペクトル情報を特徴とする HSI シーンを扱う際に 2 つの重要な課題に直面しています。(1) 固定された受容野表現は効果的なコンテキスト情報を見落とします。
(2) 冗長な自己注意機能表現。
これらの制限に対処するために、HSI 分類用の新しい選択トランスフォーマー (SFormer) を提案します。
SFormer は、最も関連性の高い特徴を優先することで冗長データの影響を軽減しながら、空間およびスペクトルの両方のコンテキスト情報を取得するための受容野を動的に選択するように設計されています。
これにより、HSI の土地被覆を高精度に分類できるようになります。
具体的には、最初にカーネル選択変換ブロック (KSTB) を利用して適切な受容野範囲を動的に選択し、空間スペクトル特徴を効果的に抽出します。
さらに、最も重要なトークンを取得するために、各クエリのアテンション スコアのランキングに基づいて最も関連性の高いトークンを選択するトークン選択トランスフォーマー ブロック (TSTB) が導入されています。
4 つのベンチマーク HSI データセットに対する広範な実験により、提案された SFormer が最先端の HSI 分類モデルよりも優れていることが実証されました。
コードは公開されます。

要約(オリジナル)

Transformer has achieved satisfactory results in the field of hyperspectral image (HSI) classification. However, existing Transformer models face two key challenges when dealing with HSI scenes characterized by diverse land cover types and rich spectral information: (1) fixed receptive field representation overlooks effective contextual information; (2) redundant self-attention feature representation. To address these limitations, we propose a novel Selective Transformer (SFormer) for HSI classification. The SFormer is designed to dynamically select receptive fields for capturing both spatial and spectral contextual information, while mitigating the impact of redundant data by prioritizing the most relevant features. This enables a highly accurate classification of the land covers of the HSI. Specifically, a Kernel Selective Transformer Block (KSTB) is first utilized to dynamically select an appropriate receptive field range to effectively extract spatial-spectral features. Furthermore, to capture the most crucial tokens, a Token Selective Transformer Block (TSTB) is introduced, which selects the most relevant tokens based on the ranking of attention scores for each query. Extensive experiments on four benchmark HSI datasets demonstrate that the proposed SFormer outperforms the state-of-the-art HSI classification models. The codes will be released.

arxiv情報

著者 Yichu Xu,Di Wang,Lefei Zhang,Liangpei Zhang
発行日 2024-10-07 14:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

xLSTM-FER: Enhancing Student Expression Recognition with Extended Vision Long Short-Term Memory Network

要約

生徒の表情認識は、学習経験や感情状態を評価するための重要なツールとなっています。
この論文では、拡張長短期記憶 (xLSTM) から派生した新しいアーキテクチャである xLSTM-FER を紹介します。xLSTM-FER は、生徒の表情認識のための高度なシーケンス処理機能を通じて表情認識の精度と効率を向上させるように設計されています。
xLSTM-FER は、入力画像を一連のパッチに分割し、xLSTM ブロックのスタックを利用してこれらのパッチを処理することによって、入力画像を処理します。
xLSTM-FER は、現実世界の生徒の顔の表情の微妙な変化を捉え、シーケンス内の時空間関係を学習することで認識精度を向上させることができます。
CK+、RAF-DF、および FERplus の実験では、発現認識タスクにおける xLSTM-FER の可能性が実証され、標準データセットでの最先端の方法と比較して優れたパフォーマンスが示されています。
xLSTM-FER は計算量とメモリが線形であるため、高解像度画像の処理に特に適しています。
さらに、xLSTM-FER の設計により、追加の計算を行わずに画像などの非順次入力を効率的に処理できます。

要約(オリジナル)

Student expression recognition has become an essential tool for assessing learning experiences and emotional states. This paper introduces xLSTM-FER, a novel architecture derived from the Extended Long Short-Term Memory (xLSTM), designed to enhance the accuracy and efficiency of expression recognition through advanced sequence processing capabilities for student facial expression recognition. xLSTM-FER processes input images by segmenting them into a series of patches and leveraging a stack of xLSTM blocks to handle these patches. xLSTM-FER can capture subtle changes in real-world students’ facial expressions and improve recognition accuracy by learning spatial-temporal relationships within the sequence. Experiments on CK+, RAF-DF, and FERplus demonstrate the potential of xLSTM-FER in expression recognition tasks, showing better performance compared to state-of-the-art methods on standard datasets. The linear computational and memory complexity of xLSTM-FER make it particularly suitable for handling high-resolution images. Moreover, the design of xLSTM-FER allows for efficient processing of non-sequential inputs such as images without additional computation.

arxiv情報

著者 Qionghao Huang,Jili Chen
発行日 2024-10-07 14:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

WISE: Rethinking the Knowledge Memory for Lifelong Model Editing of Large Language Models

要約

大規模言語モデル (LLM) には、増え続ける世界の事実に対応し、幻覚反応を修正して、生涯にわたるモデル編集方法を容易にするための知識の更新が必要です。
更新された知識が記憶のどこに存在するかは、モデル編集の基本的な問題です。
この論文では、長期記憶 (直接的なモデル パラメーター) または作業記憶 (検索によるニューラル ネットワークの活性化/表現に関するノンパラメトリックな知識) のいずれかを編集すると、信頼性、一般化、局所性という不可能な三角形が生成されることを発見しました。
生涯にわたる編集環境で同時に実現することはできません。
長期記憶の場合、パラメーターを直接編集すると、無関係な事前学習された知識や以前の編集との競合が発生します (信頼性と局所性が低い)。
作業記憶の場合、検索ベースのアクティベーションでは、モデルに編集内容を理解させて一般化させることはほとんどできません (一般化が不十分)。
そこで私たちは、記憶と記憶の間のギャップを埋めるために WISE を提案します。
WISE では、事前学習された知識のためのメイン メモリと編集された知識のためのサイド メモリで構成されるデュアル パラメトリック メモリ スキームを設計します。
サイドメモリ内の知識のみを編集し、クエリが与えられたときにどのメモリを参照するかを決定するようにルーターを訓練します。
継続的な編集のために、さまざまな編集セットがパラメータの個別のサブスペースに存在し、その後競合することなく共有メモリにマージされる知識共有メカニズムを考案します。
広範な実験により、WISE が以前のモデル編集方法を上回り、GPT、LLaMA、Mistral などのトレンドの LLM アーキテクチャ全体にわたる質問応答、幻覚、配布外設定の生涯にわたるモデル編集の下で不可能な三角形を克服できることが示されています。
コードは https://github.com/zjunlp/EasyEdit で入手できます。

要約(オリジナル)

Large language models (LLMs) need knowledge updates to meet the ever-growing world facts and correct the hallucinated responses, facilitating the methods of lifelong model editing. Where the updated knowledge resides in memories is a fundamental question for model editing. In this paper, we find that editing either long-term memory (direct model parameters) or working memory (non-parametric knowledge of neural network activations/representations by retrieval) will result in an impossible triangle — reliability, generalization, and locality can not be realized together in the lifelong editing settings. For long-term memory, directly editing the parameters will cause conflicts with irrelevant pretrained knowledge or previous edits (poor reliability and locality). For working memory, retrieval-based activations can hardly make the model understand the edits and generalize (poor generalization). Therefore, we propose WISE to bridge the gap between memories. In WISE, we design a dual parametric memory scheme, which consists of the main memory for the pretrained knowledge and a side memory for the edited knowledge. We only edit the knowledge in the side memory and train a router to decide which memory to go through when given a query. For continual editing, we devise a knowledge-sharding mechanism where different sets of edits reside in distinct subspaces of parameters, and are subsequently merged into a shared memory without conflicts. Extensive experiments show that WISE can outperform previous model editing methods and overcome the impossible triangle under lifelong model editing of question answering, hallucination, and out-of-distribution settings across trending LLM architectures, e.g., GPT, LLaMA, and Mistral. Code is available at https://github.com/zjunlp/EasyEdit.

arxiv情報

著者 Peng Wang,Zexi Li,Ningyu Zhang,Ziwen Xu,Yunzhi Yao,Yong Jiang,Pengjun Xie,Fei Huang,Huajun Chen
発行日 2024-10-07 14:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG | コメントする

Human-in-the-loop Reasoning For Traffic Sign Detection: Collaborative Approach Yolo With Video-llava

要約

交通標識認識 (TSR) 検出は、自動運転車の重要なコンポーネントです。
You Only Look Once (YOLO) は人気のあるリアルタイム物体検出アルゴリズムですが、トレーニング データの品質や悪天候 (大雨など) などの要因により検出が失敗する可能性があります。
このような失敗は、時速 30 km の標識を最高速度の標識と間違えるなど、物体間に視覚的な類似性が存在する場合に特に危険となる可能性があります。
この論文では、ビデオ分析と推論を組み合わせた方法を提案し、人間参加型ガイドの大型視覚モデルを使用して、特に準現実世界の状況で道路速度制限標識を検出する際の YOLO の精度を向上させます。
Video-LLava のガイド付きプロンプトおよび推論機能により、YOLO の交通標識検出機能が強化されるという仮説が立てられています。
この仮説は、CARLA カー シミュレーターからの録画ビデオのデータセット内で人間が注釈を付けた精度メトリクスに基づく評価によって裏付けられています。
この結果は、YOLO と Video-LLava および推論を組み合わせた協調的なアプローチにより、YOLO の検出機能を妨げる大雨や曇天などの困難な状況に効果的に対処できることを示しています。

要約(オリジナル)

Traffic Sign Recognition (TSR) detection is a crucial component of autonomous vehicles. While You Only Look Once (YOLO) is a popular real-time object detection algorithm, factors like training data quality and adverse weather conditions (e.g., heavy rain) can lead to detection failures. These failures can be particularly dangerous when visual similarities between objects exist, such as mistaking a 30 km/h sign for a higher speed limit sign. This paper proposes a method that combines video analysis and reasoning, prompting with a human-in-the-loop guide large vision model to improve YOLOs accuracy in detecting road speed limit signs, especially in semi-real-world conditions. It is hypothesized that the guided prompting and reasoning abilities of Video-LLava can enhance YOLOs traffic sign detection capabilities. This hypothesis is supported by an evaluation based on human-annotated accuracy metrics within a dataset of recorded videos from the CARLA car simulator. The results demonstrate that a collaborative approach combining YOLO with Video-LLava and reasoning can effectively address challenging situations such as heavy rain and overcast conditions that hinder YOLOs detection capabilities.

arxiv情報

著者 Mehdi Azarafza,Fatima Idrees,Ali Ehteshami Bejnordi,Charles Steinmetz,Stefan Henkler,Achim Rettberg
発行日 2024-10-07 14:50:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

DreamSat: Towards a General 3D Model for Novel View Synthesis of Space Objects

要約

ノベル ビュー合成 (NVS) を使用すると、シーンの新しいイメージを生成したり、一連の 2D イメージを包括的な 3D モデルに変換したりできます。
宇宙ドメイン認識のコンテキストでは、宇宙はますます混雑しているため、NVS は宇宙の物体や破片を正確にマッピングし、宇宙運用の安全性と効率を向上させることができます。
同様に、ランデブーおよび近接作戦ミッションでは、3D モデルによってターゲット オブジェクトの形状、サイズ、方向に関する詳細が提供され、ターゲットの行動のより適切な計画と予測が可能になります。
この研究では、Zero123 XL を微調整することにより、単一ビュー画像からの 3D 宇宙船再構築への新しいアプローチである DreamSat を提示することで、新しいシーンごとに再トレーニングする必要性を回避することを目的として、これらの再構築技術の一般化能力を調査します。
は、190 個の高品質宇宙船モデルの高品質データセットをベースとした、最先端のシングルビュー再構成モデ​​ルであり、それを DreamGaussian フレームワークに統合しています。
対照的言語画像事前トレーニング (CLIP) スコア (+0.33%)、ピーク信号対雑音比 (PSNR) (+2.53%)、構造類似性指数 (SSIM) など、複数の指標にわたって再構成品質が一貫して向上していることを実証しています。
+2.38%)、およびこれまでに見たことのない 30 個の宇宙船画像のテスト セットでの学習知覚画像パッチ類似性 (LPIPS) (+0.16%)。
私たちの手法は、最先端の拡散モデルと 3D ガウス スプラッティング技術を活用することで、宇宙産業におけるドメイン固有の 3D 再構成ツールの欠如に対処します。
このアプローチは、DreamGaussian フレームワークの効率を維持しながら、宇宙船の再構成の精度と詳細を向上させます。
この作業のコードは、GitHub (https://github.com/ARCLab-MIT/space-nvs) でアクセスできます。

要約(オリジナル)

Novel view synthesis (NVS) enables to generate new images of a scene or convert a set of 2D images into a comprehensive 3D model. In the context of Space Domain Awareness, since space is becoming increasingly congested, NVS can accurately map space objects and debris, improving the safety and efficiency of space operations. Similarly, in Rendezvous and Proximity Operations missions, 3D models can provide details about a target object’s shape, size, and orientation, allowing for better planning and prediction of the target’s behavior. In this work, we explore the generalization abilities of these reconstruction techniques, aiming to avoid the necessity of retraining for each new scene, by presenting a novel approach to 3D spacecraft reconstruction from single-view images, DreamSat, by fine-tuning the Zero123 XL, a state-of-the-art single-view reconstruction model, on a high-quality dataset of 190 high-quality spacecraft models and integrating it into the DreamGaussian framework. We demonstrate consistent improvements in reconstruction quality across multiple metrics, including Contrastive Language-Image Pretraining (CLIP) score (+0.33%), Peak Signal-to-Noise Ratio (PSNR) (+2.53%), Structural Similarity Index (SSIM) (+2.38%), and Learned Perceptual Image Patch Similarity (LPIPS) (+0.16%) on a test set of 30 previously unseen spacecraft images. Our method addresses the lack of domain-specific 3D reconstruction tools in the space industry by leveraging state-of-the-art diffusion models and 3D Gaussian splatting techniques. This approach maintains the efficiency of the DreamGaussian framework while enhancing the accuracy and detail of spacecraft reconstructions. The code for this work can be accessed on GitHub (https://github.com/ARCLab-MIT/space-nvs).

arxiv情報

著者 Nidhi Mathihalli,Audrey Wei,Giovanni Lavezzi,Peng Mun Siew,Victor Rodriguez-Fernandez,Hodei Urrutxua,Richard Linares
発行日 2024-10-07 14:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

IGroupSS-Mamba: Interval Group Spatial-Spectral Mamba for Hyperspectral Image Classification

要約

ハイパースペクトル画像 (HSI) 分類は、リモート センシング分野で大きな注目を集めています。
選択的状態空間モデル (S6) に基づいて構築された最近の Mamba アーキテクチャは、長距離シーケンス モデリングにおける大きな可能性を実証しました。
ただし、ハイパースペクトル データの高次元性と情報の冗長性により、HSI 分類における Mamba の適用には課題​​が生じ、次善のパフォーマンスと計算効率に悩まされます。
これを踏まえて、この論文では、HSI 分類のための軽量の間隔グループ空間スペクトル Mamba フレームワーク (IGroupSS-Mamba) を調査します。これにより、グループ化および階層的な方法での多方向およびマルチスケールのグローバル空間スペクトル情報の抽出が可能になります。
技術的には、インターバル グループ S6 メカニズム (IGSM) がコア コンポーネントとして開発されており、高次元の特徴を一定の間隔で重複しない複数のグループに分割し、特定のスキャン方向を持つ各グループの一方向 S6 を統合して非同期性を実現します。
冗長シーケンスモデリング。
すべての帯域に多方向スキャンを適用する従来の方法と比較して、このグループ化戦略は、計算コストを削減しながら、さまざまなスキャン方向の​​補完的な強みを活用します。
空間スペクトルのコンテキスト情報を適切にキャプチャするために、間隔グループ空間スペクトル ブロック (IGSSB) が導入されています。IGSSB では、2 つの IGSM ベースの空間演算子とスペクトル演算子がカスケードされ、空間次元とスペクトル次元に沿ったグローバルな空間スペクトル関係を特徴付けます。
それぞれ。
IGroupSS-Mamba は、複数の IGSSB ブロックによって積み重ねられた階層構造として構築され、浅い段階から深い段階までマルチスケールの空間スペクトル意味論的学習のためのピクセル集約ベースのダウンサンプリング戦略を統合します。
広範な実験により、IGroupSS-Mamba が最先端の方法よりも優れていることが実証されました。

要約(オリジナル)

Hyperspectral image (HSI) classification has garnered substantial attention in remote sensing fields. Recent Mamba architectures built upon the Selective State Space Models (S6) have demonstrated enormous potential in long-range sequence modeling. However, the high dimensionality of hyperspectral data and information redundancy pose challenges to the application of Mamba in HSI classification, suffering from suboptimal performance and computational efficiency. In light of this, this paper investigates a lightweight Interval Group Spatial-Spectral Mamba framework (IGroupSS-Mamba) for HSI classification, which allows for multi-directional and multi-scale global spatial-spectral information extraction in a grouping and hierarchical manner. Technically, an Interval Group S6 Mechanism (IGSM) is developed as the core component, which partitions high-dimensional features into multiple non-overlapping groups at intervals, and then integrates a unidirectional S6 for each group with a specific scanning direction to achieve non-redundant sequence modeling. Compared to conventional applying multi-directional scanning to all bands, this grouping strategy leverages the complementary strengths of different scanning directions while decreasing computational costs. To adequately capture the spatial-spectral contextual information, an Interval Group Spatial-Spectral Block (IGSSB) is introduced, in which two IGSM-based spatial and spectral operators are cascaded to characterize the global spatial-spectral relationship along the spatial and spectral dimensions, respectively. IGroupSS-Mamba is constructed as a hierarchical structure stacked by multiple IGSSB blocks, integrating a pixel aggregation-based downsampling strategy for multiscale spatial-spectral semantic learning from shallow to deep stages. Extensive experiments demonstrate that IGroupSS-Mamba outperforms the state-of-the-art methods.

arxiv情報

著者 Yan He,Bing Tu,Puzhao Jiang,Bo Liu,Jun Li,Antonio Plaza
発行日 2024-10-07 14:55:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする

MetaDD: Boosting Dataset Distillation with Neural Network Architecture-Invariant Generalization

要約

データセット蒸留 (DD) では、効率的なトレーニングを促進するために、大規模なデータセットから洗練されたコンパクトな蒸留データセットを作成します。
DD における重要な課題は、抽出されたデータセットと使用されるニューラル ネットワーク (NN) アーキテクチャ間の依存関係です。
特定のアーキテクチャを使用して抽出されたデータセットを使用して別の NN アーキテクチャをトレーニングすると、多くの場合、他のアーキテクチャのトレーニング パフォーマンスが低下します。
このペーパーでは、さまざまな NN アーキテクチャにわたって DD の汎用性を高めるように設計された MetaDD について紹介します。
具体的には、MetaDD は、抽出されたデータをメタ特徴 (つまり、異なる NN アーキテクチャ間で一貫性を保つデータの共通の特徴) と異種の特徴 (つまり、各 NN アーキテクチャに固有のデータの特徴) に分割します。
次に、MetaDD は、マルチアーキテクチャ特徴の調整にアーキテクチャ不変損失関数を採用し、抽出されたデータ内のメタ特徴を増加させ、異種の特徴を削減します。
MetaDD は、低メモリ消費コンポーネントとして、あらゆる DD 手法にシームレスに統合できます。
実験結果は、MetaDD がさまざまな DD メソッドのパフォーマンスを大幅に向上させることを示しています。
Sre2L (50 IPC) を使用した Distilled Tiny-Imagenet では、MetaDD は最大 30.1\% のクロスアーキテクチャ NN 精度を達成し、2 番目に優れた方法 (GLaD) を 1.7\% 上回ります。

要約(オリジナル)

Dataset distillation (DD) entails creating a refined, compact distilled dataset from a large-scale dataset to facilitate efficient training. A significant challenge in DD is the dependency between the distilled dataset and the neural network (NN) architecture used. Training a different NN architecture with a distilled dataset distilled using a specific architecture often results in diminished trainning performance for other architectures. This paper introduces MetaDD, designed to enhance the generalizability of DD across various NN architectures. Specifically, MetaDD partitions distilled data into meta features (i.e., the data’s common characteristics that remain consistent across different NN architectures) and heterogeneous features (i.e., the data’s unique feature to each NN architecture). Then, MetaDD employs an architecture-invariant loss function for multi-architecture feature alignment, which increases meta features and reduces heterogeneous features in distilled data. As a low-memory consumption component, MetaDD can be seamlessly integrated into any DD methodology. Experimental results demonstrate that MetaDD significantly improves performance across various DD methods. On the Distilled Tiny-Imagenet with Sre2L (50 IPC), MetaDD achieves cross-architecture NN accuracy of up to 30.1\%, surpassing the second-best method (GLaD) by 1.7\%.

arxiv情報

著者 Yunlong Zhao,Xiaoheng Deng,Xiu Su,Hongyan Xu,Xiuxing Li,Yijing Liu,Shan You
発行日 2024-10-07 15:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

LiDAR-GS:Real-time LiDAR Re-Simulation using Gaussian Splatting

要約

LiDAR シミュレーションは、自動運転の閉ループ シミュレーションにおいて重要な役割を果たします。
再構成メッシュや Neural Radiance Fields (NeRF) の使用などの最近の進歩により、LiDAR の物理的特性のシミュレーションは進歩しましたが、これらの方法では満足のいくフレーム レートとレンダリング品質を達成するのに苦労しています。
これらの制限に対処するために、都市の公共道路シーンでの LiDAR センサー スキャンのリアルタイム高忠実度再シミュレーションのための、初の LiDAR ガウス スプラッティング法である LiDAR-GS を紹介します。
カメラ モデル用に設計されたバニラ ガウス スプラッティングは、LiDAR の再シミュレーションに直接適用できません。
パッシブカメラとアクティブLiDARの間のギャップを埋めるために、当社のLiDAR-GSは、LiDARレンジビューモデルに基づいた微分可能なレーザービームスプラッティングを設計します。
この革新により、微細断面にレーザーを投影することで正確な表面スプラッティングが可能になり、局所的なアフィン近似に関連するアーティファクトが効果的に排除されます。
さらに、LiDAR-GS は、ビュー依存の手がかりをさらに統合するニューラル ガウス フィールドを活用して、入射角や外部要因によって影響を受ける主要な LiDAR プロパティを表現します。
これらの実践を動的インスタンス分解などのいくつかの重要な適応と組み合わせることで、私たちのアプローチは深さ、強度、レイドロップ チャネルを同時に再シミュレーションすることに成功し、公開されているレンダリング フレーム レートと品質の両方で最先端の結果を達成します。
利用可能な大規模なシーン データセット。
私たちのソースコードは公開されます。

要約(オリジナル)

LiDAR simulation plays a crucial role in closed-loop simulation for autonomous driving. Although recent advancements, such as the use of reconstructed mesh and Neural Radiance Fields (NeRF), have made progress in simulating the physical properties of LiDAR, these methods have struggled to achieve satisfactory frame rates and rendering quality. To address these limitations, we present LiDAR-GS, the first LiDAR Gaussian Splatting method, for real-time high-fidelity re-simulation of LiDAR sensor scans in public urban road scenes. The vanilla Gaussian Splatting, designed for camera models, cannot be directly applied to LiDAR re-simulation. To bridge the gap between passive camera and active LiDAR, our LiDAR-GS designs a differentiable laser beam splatting, grounded in the LiDAR range view model. This innovation allows for precise surface splatting by projecting lasers onto micro cross-sections, effectively eliminating artifacts associated with local affine approximations. Additionally, LiDAR-GS leverages Neural Gaussian Fields, which further integrate view-dependent clues, to represent key LiDAR properties that are influenced by the incident angle and external factors. Combining these practices with some essential adaptations, e.g., dynamic instances decomposition, our approach succeeds in simultaneously re-simulating depth, intensity, and ray-drop channels, achieving state-of-the-art results in both rendering frame rate and quality on publically available large scene datasets. Our source code will be made publicly available.

arxiv情報

著者 Qifeng Chen,Sheng Yang,Sicong Du,Tao Tang,Peng Chen,Yuchi Huo
発行日 2024-10-07 15:07:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする