DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery

要約

視覚データは、リモートセンシングから生態学まで、さまざまな科学的ワークフローで使用されています。
観測データの量が増加するにつれて、課題は正確な予測を行うだけでなく、それらの予測の根本的なメカニズムを理解することでもあります。
科学的ワークフローでは、データの洞察を提供することでより良い意思決定を可能にするため、優れた解釈が重要です。
このペーパーでは、ニューラルネットワークをインターリーブするプログラムを学習することにより、このような解釈可能な設計モデルを取得する自動方法を紹介します。
LLMSと進化を使用して科学プログラムを発見する)を提案します。これは、大規模な言語モデル(LLM)の常識と事前知識を活用して視覚データを説明するPythonプログラムを作成する進化的アルゴリズムを提案します。
さらに、2つの改善を提案します。プログラム批評家とプログラムの単純化により、優れたプログラムを統合するための方法をさらに改善します。
3つの異なる現実世界の問題について、弟子は以前の文献のない新しいタスクに関する最先端のプログラムを学びます。
たとえば、人口密度の推定に最も近い不安定なベースラインよりも35%低い誤差でプログラムを学ぶことができます。

要約(オリジナル)

Visual data is used in numerous different scientific workflows ranging from remote sensing to ecology. As the amount of observation data increases, the challenge is not just to make accurate predictions but also to understand the underlying mechanisms for those predictions. Good interpretation is important in scientific workflows, as it allows for better decision-making by providing insights into the data. This paper introduces an automatic way of obtaining such interpretable-by-design models, by learning programs that interleave neural networks. We propose DiSciPLE (Discovering Scientific Programs using LLMs and Evolution) an evolutionary algorithm that leverages common sense and prior knowledge of large language models (LLMs) to create Python programs explaining visual data. Additionally, we propose two improvements: a program critic and a program simplifier to improve our method further to synthesize good programs. On three different real-world problems, DiSciPLE learns state-of-the-art programs on novel tasks with no prior literature. For example, we can learn programs with 35% lower error than the closest non-interpretable baseline for population density estimation.

arxiv情報

著者 Utkarsh Mall,Cheng Perng Phoo,Mia Chiquier,Bharath Hariharan,Kavita Bala,Carl Vondrick
発行日 2025-02-14 10:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery はコメントを受け付けていません

Hands-off Image Editing: Language-guided Editing without any Task-specific Labeling, Masking or even Training

要約

命令ガイド付き画像編集は、画像と指示を取り、その命令に従って変更されたその画像を作成することで構成されています。
このタスクに対する最先端のアプローチは、最終的にタスク固有のラベル付け、マスキング、またはトレーニングに頼るため、監督に関連する典型的なスケールアップおよびドメインの適応障害に苦しんでいます。
私たちは、このようなタスク固有の監督なしで行う新しいアプローチを提案し、したがって改善の可能性を高めることができます。
その評価は、それが非常に効果的であり、非常に競争力のあるパフォーマンスを達成していることを示しています。

要約(オリジナル)

Instruction-guided image editing consists in taking an image and an instruction and deliverring that image altered according to that instruction. State-of-the-art approaches to this task suffer from the typical scaling up and domain adaptation hindrances related to supervision as they eventually resort to some kind of task-specific labelling, masking or training. We propose a novel approach that does without any such task-specific supervision and offers thus a better potential for improvement. Its assessment demonstrates that it is highly effective, achieving very competitive performance.

arxiv情報

著者 Rodrigo Santos,António Branco,João Silva,João Rodrigues
発行日 2025-02-14 10:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Hands-off Image Editing: Language-guided Editing without any Task-specific Labeling, Masking or even Training はコメントを受け付けていません

HaSPeR: An Image Repository for Hand Shadow Puppet Recognition

要約

ShadowgraphyまたはOmbromanieとも呼ばれるハンドシャドウパペットは、生き物の幻想を生み出すためにハンドシャドウが平らな表面に投影される演劇芸術とストーリーテリングの一種です。
熟練したパフォーマーは、動物や物の影に似るために、手の位置、指の動き、器用なジェスチャーによってこれらのシルエットを作成します。
開業医の不足と人々の娯楽基準の地震の変化により、この芸術形式は絶滅の危機にonしています。
その保存を促進し、より多くの聴衆に増殖させるために、$ {\ rm h {\ small a} sp {\ small e} r} $を紹介します。
プロのハンドシャドウパペットクリップの両方。
データセットの詳細な統計分析を提供し、ベースラインを確立するために、幅広い前提型画像分類モデルを使用します。
私たちの調査結果は、注意ベースのトランスアーキテクチャよりもスキップ接続された畳み込みモデルの実質的なパフォーマンスの優位性を示しています。
また、モバイルアプリケーションや埋め込みデバイスに適したMobileNETV2などの軽量モデルが比較的うまく機能することがわかります。
このような低遅延アーキテクチャは、Ombromanie Teaching Toolsの開発に役立つ可能性があると推測し、この保険を調査するためのプロトタイプアプリケーションを作成します。
最適なモデルのresnet34を脚光を浴びている状態に保ち、包括的な機能空間、説明、エラー分析を実施して、意思決定プロセスに関する洞察を得ます。
私たちの知る限り、これは最初に文書化されたデータセットと研究の努力であり、この死にゆく芸術を将来の世代のために維持し、コンピュータービジョンアプローチを備えています。
私たちのコードとデータは公開されます。

要約(オリジナル)

Hand shadow puppetry, also known as shadowgraphy or ombromanie, is a form of theatrical art and storytelling where hand shadows are projected onto flat surfaces to create illusions of living creatures. The skilled performers create these silhouettes by hand positioning, finger movements, and dexterous gestures to resemble shadows of animals and objects. Due to the lack of practitioners and a seismic shift in people’s entertainment standards, this art form is on the verge of extinction. To facilitate its preservation and proliferate it to a wider audience, we introduce ${\rm H{\small A}SP{\small E}R}$, a novel dataset consisting of 15,000 images of hand shadow puppets across 15 classes extracted from both professional and amateur hand shadow puppeteer clips. We provide a detailed statistical analysis of the dataset and employ a range of pretrained image classification models to establish baselines. Our findings show a substantial performance superiority of skip-connected convolutional models over attention-based transformer architectures. We also find that lightweight models, such as MobileNetV2, suited for mobile applications and embedded devices, perform comparatively well. We surmise that such low-latency architectures can be useful in developing ombromanie teaching tools, and we create a prototype application to explore this surmission. Keeping the best-performing model ResNet34 under the limelight, we conduct comprehensive feature-spatial, explainability, and error analyses to gain insights into its decision-making process. To the best of our knowledge, this is the first documented dataset and research endeavor to preserve this dying art for future generations, with computer vision approaches. Our code and data will be publicly available.

arxiv情報

著者 Syed Rifat Raiyan,Zibran Zarif Amio,Sabbir Ahmed
発行日 2025-02-14 10:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HaSPeR: An Image Repository for Hand Shadow Puppet Recognition はコメントを受け付けていません

CrossFi: A Cross Domain Wi-Fi Sensing Framework Based on Siamese Network

要約

近年、Wi-Fi Sensingは、プライバシー保護、低コスト、浸透能力など、多くの利点のために大きな注目を集めています。
この分野では、ジェスチャー認識、人々の識別、転倒検出などの分野に焦点を当てた広範な研究が行われています。
ただし、多くのデータ駆動型の方法は、トレーニングデータとは異なる環境でモデルがうまく機能しないドメインシフトに関連する課題に遭遇します。
この問題に貢献する主な要因の1つは、Wi-Fi Sensingデータセットの利用可能性が限られていることです。これにより、モデルは過度の無関係な情報を学習し、トレーニングセットに過剰に適合します。
残念ながら、多様なシナリオ全体で大規模なWi-Fi Sensingデータセットを収集することは困難な作業です。
この問題に対処するために、少数のショット、ゼロショットシナリオなど、ドメイン内のシナリオとクロスドメインシナリオの両方で優れたシャムネットワークベースのアプローチであるCrossFiを提案し、さらには少数のショットの新しいクラスシナリオでも機能します。
テストセットには新しいカテゴリが含まれています。
CrossFiのコアコンポーネントは、CSI-NETと呼ばれるサンプルシミラリティ計算ネットワークであり、距離やコサインの類似性を単純に計算する代わりに、注意メカニズムを使用して類似情報をキャプチャすることにより、シャムネットワークの構造を改善します。
それに基づいて、クラスごとにテンプレートを生成できる追加のウェイトネットを開発し、CrossFiがさまざまなシナリオで動作できるようにします。
実験結果は、CrossFiがさまざまなシナリオで最先端のパフォーマンスを達成することを示しています。
ジェスチャー認識タスクでは、CrossFiはドメイン内シナリオで98.17%、ワンショットクロスドメインシナリオで91.72%、ゼロショットクロスドメインシナリオで64.81%、ワンショットの新規で84.75%を達成します。
クラスシナリオ。
モデルのコードは、https://github.com/rs2002/crossfiで公開されています。

要約(オリジナル)

In recent years, Wi-Fi sensing has garnered significant attention due to its numerous benefits, such as privacy protection, low cost, and penetration ability. Extensive research has been conducted in this field, focusing on areas such as gesture recognition, people identification, and fall detection. However, many data-driven methods encounter challenges related to domain shift, where the model fails to perform well in environments different from the training data. One major factor contributing to this issue is the limited availability of Wi-Fi sensing datasets, which makes models learn excessive irrelevant information and over-fit to the training set. Unfortunately, collecting large-scale Wi-Fi sensing datasets across diverse scenarios is a challenging task. To address this problem, we propose CrossFi, a siamese network-based approach that excels in both in-domain scenario and cross-domain scenario, including few-shot, zero-shot scenarios, and even works in few-shot new-class scenario where testing set contains new categories. The core component of CrossFi is a sample-similarity calculation network called CSi-Net, which improves the structure of the siamese network by using an attention mechanism to capture similarity information, instead of simply calculating the distance or cosine similarity. Based on it, we develop an extra Weight-Net that can generate a template for each class, so that our CrossFi can work in different scenarios. Experimental results demonstrate that our CrossFi achieves state-of-the-art performance across various scenarios. In gesture recognition task, our CrossFi achieves an accuracy of 98.17% in in-domain scenario, 91.72% in one-shot cross-domain scenario, 64.81% in zero-shot cross-domain scenario, and 84.75% in one-shot new-class scenario. The code for our model is publicly available at https://github.com/RS2002/CrossFi.

arxiv情報

著者 Zijian Zhao,Tingwei Chen,Zhijie Cai,Xiaoyang Li,Hang Li,Qimei Chen,Guangxu Zhu
発行日 2025-02-14 11:12:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.SP | CrossFi: A Cross Domain Wi-Fi Sensing Framework Based on Siamese Network はコメントを受け付けていません

City-Scale Multi-Camera Vehicle Tracking System with Improved Self-Supervised Camera Link Model

要約

マルチターゲットマルチカメラ追跡(MTMCT)には幅広いアプリケーションがあり、多数の将来の都市全体のシステム(トラフィック管理、クラッシュ検出など)の基礎を形成しています。
ただし、特徴抽出のみに基づいて、さまざまなカメラで車両の軌跡を一致させるという課題は、大きな困難をもたらします。
この記事では、自己監視カメラリンクモデルを利用する革新的なマルチカメラ車両追跡システムを紹介します。
手動の空間的注釈に依存する関連作品とは対照的に、私たちのモデルは、車両マッチングのために重要なマルチカメラ関係を自動的に抽出します。
カメラリンクは、高品質のトラックの特徴の類似性、ペア番号、および時間の分散を評価する事前に一致するプロセスを通じて確立されます。
このプロセスは、すべてのカメラの組み合わせの空間リンクの確率を計算し、カメラリンクを作成するための最高のスコアリングペアを選択します。
私たちのアプローチは、人間の注釈の必要性を排除することにより、展開時間を大幅に改善し、実際のアプリケーションに関しては効率と費用対効果の大幅な改善を提供します。
このペアリングプロセスは、空間的制約を設定することにより、クロスカメラマッチングをサポートし、潜在的な車両マッチの検索スペースを削減します。
実験結果によると、提案された方法は、61.07%IDF1スコアを備えたCityFlow V2ベンチマークの自動カメラリンクベースの方法の中で新しい最先端の最先端を達成します。

要約(オリジナル)

Multi-Target Multi-Camera Tracking (MTMCT) has broad applications and forms the basis for numerous future city-wide systems (e.g. traffic management, crash detection, etc.). However, the challenge of matching vehicle trajectories across different cameras based solely on feature extraction poses significant difficulties. This article introduces an innovative multi-camera vehicle tracking system that utilizes a self-supervised camera link model. In contrast to related works that rely on manual spatial-temporal annotations, our model automatically extracts crucial multi-camera relationships for vehicle matching. The camera link is established through a pre-matching process that evaluates feature similarities, pair numbers, and time variance for high-quality tracks. This process calculates the probability of spatial linkage for all camera combinations, selecting the highest scoring pairs to create camera links. Our approach significantly improves deployment times by eliminating the need for human annotation, offering substantial improvements in efficiency and cost-effectiveness when it comes to real-world application. This pairing process supports cross camera matching by setting spatial-temporal constraints, reducing the searching space for potential vehicle matches. According to our experimental results, the proposed method achieves a new state-of-the-art among automatic camera-link based methods in CityFlow V2 benchmarks with 61.07% IDF1 Score.

arxiv情報

著者 Yuqiang Lin,Sam Lockyer,Nic Zhang
発行日 2025-02-14 11:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | City-Scale Multi-Camera Vehicle Tracking System with Improved Self-Supervised Camera Link Model はコメントを受け付けていません

Domain-Invariant Per-Frame Feature Extraction for Cross-Domain Imitation Learning with Visual Observations

要約

模倣学習(IL)により、エージェントは報酬シグナルなしで専門家の行動を模倣できますが、高次元的、ノイズがよく、不完全な視覚的観測を伴うクロスドメインシナリオで課題に直面します。
これに対処するために、模倣学習のためのドメイン不変の特徴機能抽出(diff-il)を提案します。これは、個々のフレームからドメイン不変の特徴を抽出し、それらをシーケンスに適応させて専門家の行動を分離および再現する新しいIL方法です。
また、Timestepsによる専門家の動作をセグメント化し、時間的コンテキストに沿った報酬を割り当てて、タスクのパフォーマンスを向上させるためのフレームごとの時間ラベリング手法を導入します。
多様な視覚環境にわたる実験は、複雑な視覚タスクへの対処におけるDiff-ILの有効性を示しています。

要約(オリジナル)

Imitation learning (IL) enables agents to mimic expert behavior without reward signals but faces challenges in cross-domain scenarios with high-dimensional, noisy, and incomplete visual observations. To address this, we propose Domain-Invariant Per-Frame Feature Extraction for Imitation Learning (DIFF-IL), a novel IL method that extracts domain-invariant features from individual frames and adapts them into sequences to isolate and replicate expert behaviors. We also introduce a frame-wise time labeling technique to segment expert behaviors by timesteps and assign rewards aligned with temporal contexts, enhancing task performance. Experiments across diverse visual environments demonstrate the effectiveness of DIFF-IL in addressing complex visual tasks.

arxiv情報

著者 Minung Kim,Kawon Lee,Jungmo Kim,Sungho Choi,Seungyul Han
発行日 2025-02-14 11:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Domain-Invariant Per-Frame Feature Extraction for Cross-Domain Imitation Learning with Visual Observations はコメントを受け付けていません

Anti-Forgetting Adaptation for Unsupervised Person Re-identification

要約

定期的に監視されていないドメイン適応者の再識別(Reid)は、ソースドメインから固定ターゲットドメインへのモデルの適応に焦点を当てています。
ただし、適応されたReidモデルは、以前に獲得された知識をほとんど保持することができず、目に見えないデータに一般化することはできません。
この論文では、ソースドメインと各適応ターゲットドメインを忘れることなく、新しいドメインにモデルを徐々に適応させるデュアルレベルの共同適応と焦点アンチ焦点(DJAA)フレームワークを提案します。
プロトタイプとインスタンスレベルの一貫性を使用して、適応中の忘却を軽減する可能性を探ります。
具体的には、各適応ステップで更新されるメモリバッファーに、少数の代表的な画像サンプルと対応するクラスタープロトタイプを保存します。
バッファリングされた画像とプロトタイプを使用して、画像とイメージの類似性と画像間の類似性を正規化して、古い知識をリハーサルします。
マルチステップ適応の後、モデルは、すべての見られたドメインといくつかの目に見えないドメインでテストされ、メソッドの一般化能力を検証します。
広範な実験では、提案された方法が、監視されていない人のReidモデルの浸透防止、一般化、および後方互換能力を大幅に改善することを示しています。

要約(オリジナル)

Regular unsupervised domain adaptive person re-identification (ReID) focuses on adapting a model from a source domain to a fixed target domain. However, an adapted ReID model can hardly retain previously-acquired knowledge and generalize to unseen data. In this paper, we propose a Dual-level Joint Adaptation and Anti-forgetting (DJAA) framework, which incrementally adapts a model to new domains without forgetting source domain and each adapted target domain. We explore the possibility of using prototype and instance-level consistency to mitigate the forgetting during the adaptation. Specifically, we store a small number of representative image samples and corresponding cluster prototypes in a memory buffer, which is updated at each adaptation step. With the buffered images and prototypes, we regularize the image-to-image similarity and image-to-prototype similarity to rehearse old knowledge. After the multi-step adaptation, the model is tested on all seen domains and several unseen domains to validate the generalization ability of our method. Extensive experiments demonstrate that our proposed method significantly improves the anti-forgetting, generalization and backward-compatible ability of an unsupervised person ReID model.

arxiv情報

著者 Hao Chen,Francois Bremond,Nicu Sebe,Shiliang Zhang
発行日 2025-02-14 12:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Anti-Forgetting Adaptation for Unsupervised Person Re-identification はコメントを受け付けていません

Image Embedding Sampling Method for Diverse Captioning

要約

最先端のVLMSの画像キャプションは、時間とともに大幅に改善されました。
ただし、これには計算の複雑さが増加するため、モバイルデバイスや支援技術などのリソース制約のあるアプリケーションではアクセスしにくいものになります。
あるいは、より小さなVLMSが高レベルのシーンの説明を優先し、画像のより豊かな理解に寄与するより細かい詳細を見下ろしています。
この論文では、バックボーンとして同等の小さなVLM、BLIPを使用して異なる画像領域に明示的に参加することにより、キャプションの多様性と情報性を高めるトレーニングフリーのフレームワークを紹介します。
私たちのアプローチは、構造化されたセグメンテーションを活用して、グローバルとローカライズされたセマンティクスの両方をキャプチャする階層表現を生成します。
追加のモデルトレーニングを必要とせずに、私たちの方法により、より小さなVLMが画像キャプションのアライメント、セマンティックの完全性、多様性の点で、より大きなモデルに匹敵するパフォーマンスを実現できることを実証します。
MSCOCO、FlickR30K、およびNOCAPSテストデータセットに関するフレームワークを評価し、各データセットでそれぞれ0.735、0.750、および0.748のDIV-2スコアを達成し、人間が発生したキャプションとの強力な画像キャプションの関連性とセマンティックの完全性を維持します。

要約(オリジナル)

Image Captioning for state-of-the-art VLMs has significantly improved over time; however, this comes at the cost of increased computational complexity, making them less accessible for resource-constrained applications such as mobile devices and assistive technologies. Alternatively, smaller VLMs prioritize high-level scene descriptions, overlooking finer details that contribute to a richer understanding of an image. In this paper, we introduce a training-free framework that enhances caption diversity and informativeness by explicitly attending to distinct image regions using a comparably small VLM, BLIP, as the backbone. Our approach leverages structured segmentation to produce hierarchical representations that capture both global and localized semantics. Without requiring additional model training, we demonstrate that our method allows smaller VLMs to achieve performance comparable to larger models in terms of image-caption alignment, semantic integrity, and diversity. We evaluate our framework on MSCOCO, Flickr30k, and Nocaps test datasets, achieving a Div-2 score of 0.735, 0.750, and 0.748 for each dataset respectively, while maintaining strong image-caption relevancy and semantic integrity with the human-annotated captions.

arxiv情報

著者 Sania Waheed,Na Min An
発行日 2025-02-14 12:33:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Image Embedding Sampling Method for Diverse Captioning はコメントを受け付けていません

Compress image to patches for Vision Transformer

要約

ビジョントランス(VIT)は、コンピュータービジョンの分野で大きな進歩を遂げました。
ただし、モデルの深さと入力画像の解像度が増加するにつれて、トレーニングとランニングVITモデルに関連する計算コストが劇的に急増しています。この論文は、CI2P-VITという名前のCNNとVision Transformerに基づくハイブリッドモデルを提案しています。
このモデルには、CI2Pと呼ばれるモジュールが組み込まれています。CI2Pは、Compressaiエンコーダーを使用して画像を圧縮し、その後、一連の畳み込みを介して一連のパッチを生成します。
CI2PはVITモデルのパッチ埋め込みコンポーネントを置き換えることができ、VIT-B/16と格付けされた既存のVITモデルへのシームレスな統合を可能にします。CI2P-VITには、自己触媒層に入力されたパッチの数が元のオリジナルの4分の1に減少します。
この設計は、VITモデルの計算コストを大幅に削減するだけでなく、CNNの誘導バイアス特性を導入することにより、モデルの精度を効果的に向上させます。VITモデルの精度は著しく強化されます。
、CI2P-vitは92.37%の精度を達成し、VIT-B/16ベースラインよりも3.3%の改善を表しました。
さらに、1秒あたりの浮動小数点操作(FLOPS)で測定されたモデルの計算操作は63.35%減少し、同一のハードウェア構成でトレーニング速度が2倍増加しました。

要約(オリジナル)

The Vision Transformer (ViT) has made significant strides in the field of computer vision. However, as the depth of the model and the resolution of the input images increase, the computational cost associated with training and running ViT models has surged dramatically.This paper proposes a hybrid model based on CNN and Vision Transformer, named CI2P-ViT. The model incorporates a module called CI2P, which utilizes the CompressAI encoder to compress images and subsequently generates a sequence of patches through a series of convolutions. CI2P can replace the Patch Embedding component in the ViT model, enabling seamless integration into existing ViT models.Compared to ViT-B/16, CI2P-ViT has the number of patches input to the self-attention layer reduced to a quarter of the original.This design not only significantly reduces the computational cost of the ViT model but also effectively enhances the model’s accuracy by introducing the inductive bias properties of CNN.The ViT model’s precision is markedly enhanced.When trained from the ground up on the Animals-10 dataset, CI2P-ViT achieved an accuracy rate of 92.37%, representing a 3.3% improvement over the ViT-B/16 baseline. Additionally, the model’s computational operations, measured in floating-point operations per second (FLOPs), were diminished by 63.35%, and it exhibited a 2-fold increase in training velocity on identical hardware configurations.

arxiv情報

著者 Xinfeng Zhao,Yaoru Sun
発行日 2025-02-14 12:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Compress image to patches for Vision Transformer はコメントを受け付けていません

Leveraging V2X for Collaborative HD Maps Construction Using Scene Graph Generation

要約

高解像度(HD)マップは、自律車両ナビゲーションで重要な役割を果たし、正確性と安全性を向上させるためにオンボード認識センサーを補完します。
従来のHDマップ生成は、費用がかかり、リアルタイムのインフラストラクチャの変更をキャプチャできない専用マッピング車両に依存しています。
このホワイトペーパーでは、HDMaplanenetを提示します。HDMaplanenetは、V2X通信とシーングラフの生成を活用して、HDマップの局所的な幾何学的層を共同で構築します。
このアプローチは、前面カメラ画像からレーンセンターラインを抽出し、グラフとして表し、V2Xを介してグローバル集約のデータをクラウドに送信します。
Nuscenesデータセットの予備的な結果は、最先端の方法と比較して優れた関連性の予測性能を示しています。

要約(オリジナル)

High-Definition (HD) maps play a crucial role in autonomous vehicle navigation, complementing onboard perception sensors for improved accuracy and safety. Traditional HD map generation relies on dedicated mapping vehicles, which are costly and fail to capture real-time infrastructure changes. This paper presents HDMapLaneNet, a novel framework leveraging V2X communication and Scene Graph Generation to collaboratively construct a localized geometric layer of HD maps. The approach extracts lane centerlines from front-facing camera images, represents them as graphs, and transmits the data for global aggregation to the cloud via V2X. Preliminary results on the nuScenes dataset demonstrate superior association prediction performance compared to a state-of-the-art method.

arxiv情報

著者 Gamal Elghazaly,Raphael Frank
発行日 2025-02-14 12:56:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging V2X for Collaborative HD Maps Construction Using Scene Graph Generation はコメントを受け付けていません