Enhancing Power Grid Inspections with Machine Learning

要約

グローバルなエネルギー需要が増え続けているため、電力グリッドの安全性と信頼性を確保することが重要です。
手動での観察やヘリコプター調査などの従来の検査方法は、リソース集約型であり、スケーラビリティが欠けています。
このペーパーでは、3D Lidar Point Cloudsの高密度で注釈付きのコレクションであるTS40Kデータセットを利用して、電源グリッド検査を自動化するために3Dコンピュータービジョンの使用を調査します。
3Dセマンティックセグメンテーションに集中することにより、私たちのアプローチは、クラスの不均衡や騒々しいデータなどの課題に対処し、送電線やタワーなどの重要なグリッドコンポーネントの検出を強化します。
ベンチマークの結果は、大幅なパフォーマンスの改善を示しており、IOUスコアはトランスベースのモデルを使用して送電線の検出で95.53%に達します。
私たちの調査結果は、MLをグリッドメンテナンスワークフローに統合し、効率を向上させ、積極的なリスク管理戦略を可能にする可能性を示しています。

要約(オリジナル)

Ensuring the safety and reliability of power grids is critical as global energy demands continue to rise. Traditional inspection methods, such as manual observations or helicopter surveys, are resource-intensive and lack scalability. This paper explores the use of 3D computer vision to automate power grid inspections, utilizing the TS40K dataset — a high-density, annotated collection of 3D LiDAR point clouds. By concentrating on 3D semantic segmentation, our approach addresses challenges like class imbalance and noisy data to enhance the detection of critical grid components such as power lines and towers. The benchmark results indicate significant performance improvements, with IoU scores reaching 95.53% for the detection of power lines using transformer-based models. Our findings illustrate the potential for integrating ML into grid maintenance workflows, increasing efficiency and enabling proactive risk management strategies.

arxiv情報

著者 Diogo Lavado,Ricardo Santos,Andre Coelho,Joao Santos,Alessandra Micheletti,Claudia Soares
発行日 2025-02-18 16:49:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Power Grid Inspections with Machine Learning はコメントを受け付けていません

LieRE: Generalizing Rotary Position Encodings

要約

トランスアーキテクチャは、トークンの依存関係をキャプチャするために位置エンコーディングに依存しています。
回転位置エンコーディング(ロープ)は、キークエリの回転による相対位置情報の効率的なエンコードにより、言語モデルで人気のある選択肢として浮上しています。
ただし、ロープは言語処理以外の大きな制限に直面しています。これは、1次元シーケンスデータに制約されており、学習可能なフェーズであっても、限られた表現能力を提供します。
これらの課題は、嘘相対エンコーディング(Liere)で対処します。これは、ロープのブロック-2D回転マトリックスを、さまざまなスパースの学習し、密な高次元回転マトリックスに置き換えます。
2Dおよび3D分類タスクにわたる3つの画像データセットでの広範な評価を通じて、LiEREは2Dタスクの最先端のベースラインと3Dタスクで1.5 \%よりも2 \%相対的な改善を達成し、より高い解像度に優れた一般化を実証します。
私たちの実装は計算効率が高く、結果はCIFAR100で30分で4 A100 GPUで再現可能であり、さらなる研究を容易にするためにコードをリリースします。

要約(オリジナル)

Transformer architectures rely on position encodings to capture token dependencies. Rotary Position Encoding (RoPE) has emerged as a popular choice in language models due to its efficient encoding of relative position information through key-query rotations. However, RoPE faces significant limitations beyond language processing: it is constrained to one-dimensional sequence data and, even with learnable phases, offers limited representational capacity. We address these challenges with Lie Relative Encodings (LieRE), which replaces RoPE’s block-2D rotation matrix with a learned, dense, high-dimensional rotation matrix of variable sparsity. Through extensive evaluation on three image datasets across 2D and 3D classification tasks, LieRE achieves 2\% relative improvement over state-of-the-art baselines on 2D tasks and 1.5\% on 3D tasks, while demonstrating superior generalization to higher resolutions. Our implementation is computationally efficient, with results reproducible on 4 A100 GPUs in 30 minutes on CIFAR100, and we release our code to facilitate further research.

arxiv情報

著者 Sophie Ostmeier,Brian Axelrod,Michael E. Moseley,Akshay Chaudhari,Curtis Langlotz
発行日 2025-02-18 16:52:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | LieRE: Generalizing Rotary Position Encodings はコメントを受け付けていません

VLMaterial: Procedural Material Generation with Large Vision-Language Models

要約

機能的なノードグラフとして表される手続き材料は、フォトリアリックな材料の外観設計のためのコンピューターグラフィックスで遍在しています。
ユーザーは、目的の視覚的外観を実現するために、直感的で正確な編集を実行できます。
ただし、入力画像を考慮して手続き資料を作成するには、専門的な知識と多大な努力が必要です。
この作業では、手続き材料を標準のPythonプログラムに変換する機能を活用し、大規模な訓練を受けたビジョン言語モデル(VLM)を微調整して、入力画像からそのようなプログラムを生成します。
効果的な微調整を可能にするために、オープンソースの手続き的材料データセットを提供し、別の事前に訓練された大手言語モデル(LLM)を促すことにより、プログラムレベルの増強を実行することを提案します。
広範な評価を通じて、私たちの方法は、合成例と現実世界の両方の例で以前の方法よりも優れていることを示します。

要約(オリジナル)

Procedural materials, represented as functional node graphs, are ubiquitous in computer graphics for photorealistic material appearance design. They allow users to perform intuitive and precise editing to achieve desired visual appearances. However, creating a procedural material given an input image requires professional knowledge and significant effort. In this work, we leverage the ability to convert procedural materials into standard Python programs and fine-tune a large pre-trained vision-language model (VLM) to generate such programs from input images. To enable effective fine-tuning, we also contribute an open-source procedural material dataset and propose to perform program-level augmentation by prompting another pre-trained large language model (LLM). Through extensive evaluation, we show that our method outperforms previous methods on both synthetic and real-world examples.

arxiv情報

著者 Beichen Li,Rundi Wu,Armando Solar-Lezama,Changxi Zheng,Liang Shi,Bernd Bickel,Wojciech Matusik
発行日 2025-02-18 16:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | VLMaterial: Procedural Material Generation with Large Vision-Language Models はコメントを受け付けていません

Improved Fine-Tuning of Large Multimodal Models for Hateful Meme Detection

要約

憎しみのあるミームはインターネット上の重要な懸念となっており、堅牢な自動検出システムが必要です。
大規模なマルチモーダルモデルは、さまざまなタスクにわたって強い一般化を示していますが、新たな社会的傾向と壊れたニュースに結びついたミームの動的な性質のために、憎悪なミーム検出に不十分な一般化を示します。
最近の研究では、このコンテキストでの大規模なマルチモーダルモデルの従来の監視付き微調整の限界をさらに強調しています。
これらの課題に対処するために、ドメイン内の精度とクロスドメインの一般化の両方を改善するために設計された新しい2段階の微調整フレームワークである大規模なマルチモードモデル検索誘導対照学習(LMM-RGCL)を提案します。
6つの広く使用されているMEME分類データセットの実験結果は、LMM-RGCLがVPD-PALI-X-55Bなどの最先端のパフォーマンスを上回るエージェントベースのシステムを達成することを示しています。
さらに、私たちの方法は、GPT-4Oのようなモデルを上回る、低リソース設定の下で領域外のミームに効果的に一般化します。

要約(オリジナル)

Hateful memes have become a significant concern on the Internet, necessitating robust automated detection systems. While large multimodal models have shown strong generalization across various tasks, they exhibit poor generalization to hateful meme detection due to the dynamic nature of memes tied to emerging social trends and breaking news. Recent work further highlights the limitations of conventional supervised fine-tuning for large multimodal models in this context. To address these challenges, we propose Large Multimodal Model Retrieval-Guided Contrastive Learning (LMM-RGCL), a novel two-stage fine-tuning framework designed to improve both in-domain accuracy and cross-domain generalization. Experimental results on six widely used meme classification datasets demonstrate that LMM-RGCL achieves state-of-the-art performance, outperforming agent-based systems such as VPD-PALI-X-55B. Furthermore, our method effectively generalizes to out-of-domain memes under low-resource settings, surpassing models like GPT-4o.

arxiv情報

著者 Jingbiao Mei,Jinghong Chen,Guangyu Yang,Weizhe Lin,Bill Byrne
発行日 2025-02-18 17:07:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Improved Fine-Tuning of Large Multimodal Models for Hateful Meme Detection はコメントを受け付けていません

A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild

要約

効果的なビデオフレーム補間は、入力シーンでの動きの熟練した取り扱いにかかっています。
以前の作業は、このための非同期イベント情報を認めていますが、多くの場合、モーションがビデオにぼやけてぼやけているかどうかを見落とし、その範囲を鋭いフレーム補間に制限します。
代わりに、アドホックを除去するため、シャープとぼやけた入力ビデオの両方で機能するイベントベースのフレーム補間の統一フレームワークを提案します。
私たちのモデルは、補間の時間的次元を組み込んだ双方向の再発ネットワークで構成され、入力フレームから情報を融合し、その時間的近接に基づいて適応的にイベントを融合します。
合成データから実際のイベントカメラに一般化を強化するために、自己監視されたフレームワークを提案されたモデルと統合して、野生の実際のデータセットの一般化を強化します。
データセットレベルでは、HighRevという名前のイベントとカラービデオを備えた新しい実世界の高解像度データセットを紹介します。これは、検査されたタスクの挑戦的な評価設定を提供します。
広範な実験は、私たちのネットワークが、フレーム補間、単一の画像の脱硫黄、および両方の共同タスクに関する以前の最先端の方法よりも一貫して優れていることを示しています。
ドメイン転送に関する実験により、自己監視されたトレーニングは、合成データから実際のデータに移行する際に観察されるパフォーマンスの劣化を効果的に軽減することが明らかになりました。
コードとデータセットはhttps://github.com/ahupujr/refidで入手できます。

要約(オリジナル)

Effective video frame interpolation hinges on the adept handling of motion in the input scene. Prior work acknowledges asynchronous event information for this, but often overlooks whether motion induces blur in the video, limiting its scope to sharp frame interpolation. We instead propose a unified framework for event-based frame interpolation that performs deblurring ad-hoc and thus works both on sharp and blurry input videos. Our model consists in a bidirectional recurrent network that incorporates the temporal dimension of interpolation and fuses information from the input frames and the events adaptively based on their temporal proximity. To enhance the generalization from synthetic data to real event cameras, we integrate self-supervised framework with the proposed model to enhance the generalization on real-world datasets in the wild. At the dataset level, we introduce a novel real-world high-resolution dataset with events and color videos named HighREV, which provides a challenging evaluation setting for the examined task. Extensive experiments show that our network consistently outperforms previous state-of-the-art methods on frame interpolation, single image deblurring, and the joint task of both. Experiments on domain transfer reveal that self-supervised training effectively mitigates the performance degradation observed when transitioning from synthetic data to real-world data. Code and datasets are available at https://github.com/AHupuJR/REFID.

arxiv情報

著者 Lei Sun,Daniel Gehrig,Christos Sakaridis,Mathias Gehrig,Jingyun Liang,Peng Sun,Zhijie Xu,Kaiwei Wang,Luc Van Gool,Davide Scaramuzza
発行日 2025-02-18 17:08:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild はコメントを受け付けていません

RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird’s Eye View for 3D Object Detection

要約

最近の低コストのレーダーカメラアプローチは、マルチモーダル3Dオブジェクト検出で有望な結果を示していますが、両方のセンサーは環境および固有の障害からの課題に直面しています。
照明の悪さや有害な気象条件はカメラの性能を低下させますが、レーダーは騒音と位置的な曖昧さに苦しんでいます。
堅牢なレーダーカメラ3Dオブジェクトの検出を達成するには、さまざまな条件全体で一貫したパフォーマンスが必要です。これは、まだ完全に調査されていないトピックです。
この作業では、まず、5種類のノイズでレーダーカメラ検出における堅牢性の体系的な分析を実施し、BEVの堅牢なオブジェクト検出モデルであるRoburcdetを提案します。
具体的には、3Dガウス拡張(3DGE)モジュールを設計して、位置、レーダー断面(RCS)、速度を含むレーダーポイントの不正確さを軽減します。
3DGEは、RCSと速度プライアーを使用して、変形可能なカーネルマップとカーネルサイズの調整と値分布の分散を生成します。
さらに、カメラ信号の信頼性に基づいてレーダーとカメラの機能を適応的に融合する気象適応融合モジュールを紹介します。
人気のあるベンチマークであるNuscenesでの広範な実験は、私たちのモデルが定期的かつ騒々しい条件で競争の激しい結果を達成することを示しています。

要約(オリジナル)

While recent low-cost radar-camera approaches have shown promising results in multi-modal 3D object detection, both sensors face challenges from environmental and intrinsic disturbances. Poor lighting or adverse weather conditions degrade camera performance, while radar suffers from noise and positional ambiguity. Achieving robust radar-camera 3D object detection requires consistent performance across varying conditions, a topic that has not yet been fully explored. In this work, we first conduct a systematic analysis of robustness in radar-camera detection on five kinds of noises and propose RobuRCDet, a robust object detection model in BEV. Specifically, we design a 3D Gaussian Expansion (3DGE) module to mitigate inaccuracies in radar points, including position, Radar Cross-Section (RCS), and velocity. The 3DGE uses RCS and velocity priors to generate a deformable kernel map and variance for kernel size adjustment and value distribution. Additionally, we introduce a weather-adaptive fusion module, which adaptively fuses radar and camera features based on camera signal confidence. Extensive experiments on the popular benchmark, nuScenes, show that our model achieves competitive results in regular and noisy conditions.

arxiv情報

著者 Jingtong Yue,Zhiwei Lin,Xin Lin,Xiaoyu Zhou,Xiangtai Li,Lu Qi,Yongtao Wang,Ming-Hsuan Yang
発行日 2025-02-18 17:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird’s Eye View for 3D Object Detection はコメントを受け付けていません

Multi-scale Attention Guided Pose Transfer

要約

ポーズ転送とは、異なるポーズをとっている人の別のイメージから、以前に見えなかった小説ポーズを持つ人の確率的イメージ生成を指します。
潜在的な学術および商業アプリケーションのため、この問題は近年広範囲に研究されています。
問題へのさまざまなアプローチの中で、注意ガイド付きプログレッシブ生成は、ほとんどの場合、最新の結果を生み出すことが示されています。
このペーパーでは、エンコーダとデコーダーのすべての解像度レベルで注意リンクを導入することにより、ポーズ転送のための改善されたネットワークアーキテクチャを紹介します。
このような密なマルチスケールの注意ガイドアプローチを利用することにより、視覚的および分析的に既存の方法よりも大幅な改善を達成することができます。
DeepFashionデータセット上のいくつかの既存のメソッドとの広範な定性的および定量的比較で、調査結果を締めくくります。

要約(オリジナル)

Pose transfer refers to the probabilistic image generation of a person with a previously unseen novel pose from another image of that person having a different pose. Due to potential academic and commercial applications, this problem is extensively studied in recent years. Among the various approaches to the problem, attention guided progressive generation is shown to produce state-of-the-art results in most cases. In this paper, we present an improved network architecture for pose transfer by introducing attention links at every resolution level of the encoder and decoder. By utilizing such dense multi-scale attention guided approach, we are able to achieve significant improvement over the existing methods both visually and analytically. We conclude our findings with extensive qualitative and quantitative comparisons against several existing methods on the DeepFashion dataset.

arxiv情報

著者 Prasun Roy,Saumik Bhattacharya,Subhankar Ghosh,Umapada Pal
発行日 2025-02-18 17:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Multi-scale Attention Guided Pose Transfer はコメントを受け付けていません

BenthicNet: A global compilation of seafloor images for deep learning applications

要約

水中イメージングの進歩により、重要な底生生態系の監視に必要な広範な海底画像データセットの収集を可能にします。
海底画像を収集する能力は、この重要な環境情報の動員を妨げ、それを分析する能力を上回っています。
機械学習アプローチは、海底の画像が分析される効率を高める機会を提供しますが、そのようなアプローチの開発をサポートするための大きくて一貫したデータセットは希少です。
ここでは、BenthicNet:大規模な画像認識モデルのトレーニングと評価をサポートするために設計された海底画像のグローバルな編集を示します。
130万枚の画像の代表的なサブセットを使用して、海底環境の多様性を表すために、1,140万枚以上の画像の初期セットが収集され、キュレーションされました。
これらには、190,000個の画像に及ぶCatamiスキームに翻訳された310万個の注釈が伴います。
このコンピレーションで大規模な深い学習モデルが訓練され、予備的な結果は、大小の画像分析タスクを自動化するためのユーティリティがあることを示唆しています。
コンピレーションとモデルは、https://doi.org/10.20383/103.0614で再利用できるようになります。

要約(オリジナル)

Advances in underwater imaging enable collection of extensive seafloor image datasets necessary for monitoring important benthic ecosystems. The ability to collect seafloor imagery has outpaced our capacity to analyze it, hindering mobilization of this crucial environmental information. Machine learning approaches provide opportunities to increase the efficiency with which seafloor imagery is analyzed, yet large and consistent datasets to support development of such approaches are scarce. Here we present BenthicNet: a global compilation of seafloor imagery designed to support the training and evaluation of large-scale image recognition models. An initial set of over 11.4 million images was collected and curated to represent a diversity of seafloor environments using a representative subset of 1.3 million images. These are accompanied by 3.1 million annotations translated to the CATAMI scheme, which span 190,000 of the images. A large deep learning model was trained on this compilation and preliminary results suggest it has utility for automating large and small-scale image analysis tasks. The compilation and model are made openly available for reuse at https://doi.org/10.20383/103.0614.

arxiv情報

著者 Scott C. Lowe,Benjamin Misiuk,Isaac Xu,Shakhboz Abdulazizov,Amit R. Baroi,Alex C. Bastos,Merlin Best,Vicki Ferrini,Ariell Friedman,Deborah Hart,Ove Hoegh-Guldberg,Daniel Ierodiaconou,Julia Mackin-McLaughlin,Kathryn Markey,Pedro S. Menandro,Jacquomo Monk,Shreya Nemani,John O’Brien,Elizabeth Oh,Luba Y. Reshitnyk,Katleen Robert,Chris M. Roelfsema,Jessica A. Sameoto,Alexandre C. G. Schimel,Jordan A. Thomson,Brittany R. Wilson,Melisa C. Wong,Craig J. Brown,Thomas Trappenberg
発行日 2025-02-18 17:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | BenthicNet: A global compilation of seafloor images for deep learning applications はコメントを受け付けていません

TIPS: Text-Induced Pose Synthesis

要約

コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可能な観察から、以前に見えなかったポーズの人の確率的イメージ生成との取引をします。
研究者は最近、このタスクを達成するためのいくつかの方法を提案しましたが、これらの手法のほとんどは、特定のデータセット上の目的のターゲット画像からターゲットポーズを直接導き出し、ターゲット画像の生成として現実世界のシナリオで適用することを困難にしています。
実際の目的です。
この論文では、最初に現在のポーズ転送アルゴリズムの欠点を提示し、次にこれらの問題に対処するための新しいテキストベースのポーズ転送手法を提案します。
問題を3つの独立した段階に分割します。(a)表現のポーズ、(b)洗練、(c)レンダリングのポーズ。
私たちの知る限り、これはテキストベースのポーズ転送フレームワークを開発する最初の試みの1つであり、Deepfashion Datasetの画像に記述的なポーズ注釈を追加することにより、新しいデータセットDFパスも導入します。
提案された方法は、実験で重要な定性的および定量的スコアを持つ有望な結果を生成します。

要約(オリジナル)

In computer vision, human pose synthesis and transfer deal with probabilistic image generation of a person in a previously unseen pose from an already available observation of that person. Though researchers have recently proposed several methods to achieve this task, most of these techniques derive the target pose directly from the desired target image on a specific dataset, making the underlying process challenging to apply in real-world scenarios as the generation of the target image is the actual aim. In this paper, we first present the shortcomings of current pose transfer algorithms and then propose a novel text-based pose transfer technique to address those issues. We divide the problem into three independent stages: (a) text to pose representation, (b) pose refinement, and (c) pose rendering. To the best of our knowledge, this is one of the first attempts to develop a text-based pose transfer framework where we also introduce a new dataset DF-PASS, by adding descriptive pose annotations for the images of the DeepFashion dataset. The proposed method generates promising results with significant qualitative and quantitative scores in our experiments.

arxiv情報

著者 Prasun Roy,Subhankar Ghosh,Saumik Bhattacharya,Umapada Pal,Michael Blumenstein
発行日 2025-02-18 17:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | TIPS: Text-Induced Pose Synthesis はコメントを受け付けていません

L4P: Low-Level 4D Vision Perception Unified

要約

ビデオのピクセル間の時空間的関係は、低レベルの4D知覚の重要な情報をもたらします。
それについて推論する単一のモデルは、そのようないくつかのタスクをうまく解決できるはずです。
しかし、ほとんどの最先端の方法は、手元のタスクに特化したアーキテクチャに依存しています。
L4P(「ラップ」と発音)を提示します。これは、統一されたフレームワークで低レベルの4D認識タスクを解決するフィードフォワードの汎用アーキテクチャです。
L4Pは、VITベースのバックボーンと軽量であるため、大規模なトレーニングを必要としないタスクあたりのヘッドを組み合わせています。
一般的かつフィードフォワードの定式化にもかかわらず、私たちの方法は、深さや光の流れの推定など、2D/3D追跡などのスパースタスクなど、両方の密なタスクで既存の特殊な方法のパフォーマンスと一致または上回ります。
さらに、個々のシングルタスクメソッドのタスクに匹敵する時間に、これらすべてのタスクを一度に解決します。

要約(オリジナル)

The spatio-temporal relationship between the pixels of a video carries critical information for low-level 4D perception. A single model that reasons about it should be able to solve several such tasks well. Yet, most state-of-the-art methods rely on architectures specialized for the task at hand. We present L4P (pronounced ‘LAP’), a feedforward, general-purpose architecture that solves low-level 4D perception tasks in a unified framework. L4P combines a ViT-based backbone with per-task heads that are lightweight and therefore do not require extensive training. Despite its general and feedforward formulation, our method matches or surpasses the performance of existing specialized methods on both dense tasks, such as depth or optical flow estimation, and sparse tasks, such as 2D/3D tracking. Moreover, it solves all those tasks at once in a time comparable to that of individual single-task methods.

arxiv情報

著者 Abhishek Badki,Hang Su,Bowen Wen,Orazio Gallo
発行日 2025-02-18 17:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | L4P: Low-Level 4D Vision Perception Unified はコメントを受け付けていません