Fusing Echocardiography Images and Medical Records for Continuous Patient Stratification

要約

深層学習により、駆出率や緊張などの心エコー検査シーケンスから心機能記述子を自動的かつ堅牢に抽出できます。
これらの記述子は、医師が患者の状態を評価するために臨床記録からのよりグローバルな変数と組み合わせて考慮する詳細な情報を提供します。
表形式のデータに適用された新しい変換モデルを利用して、医療記録と心エコー図から抽出されたすべての記述子を考慮して、特徴付けが困難な連続体を持つ心血管病理、つまり高血圧の表現を学習する方法を提案します。
私たちの方法では、まずモダリティ固有のアプローチを使用して、各変数を独自の表現空間に投影します。
次に、これらのマルチモーダル データの標準化された表現がトランスフォーマー エンコーダーに供給され、トランスフォーマー エンコーダーは、臨床評価を予測するタスクを通じて、それらを統合して患者の包括的な表現を学習します。
この階層化タスクは、表現空間内で病理学的連続体を強制するための順序分類として定式化されます。
私たちは、239 人の高血圧患者のコホートでこの一連の流れに沿った主要な傾向を観察し、さまざまな心機能記述子に対する高血圧の影響について前例のない詳細を提供します。
私たちの分析では、i) XTab 基礎モデルのアーキテクチャにより、限られたデータ (トレーニング サンプル数 200 未満) であっても優れたパフォーマンス (98% AUROC) を達成できること、ii) 母集団全体の階層化がトレーニング間で再現可能であること (MAE 3.6% 以内)、
iii) 記述子にパターンが出現し、その一部は高血圧に関する確立された生理学的知識と一致する一方、他のものはこの病態のより包括的な理解への道を開く可能性があります。

要約(オリジナル)

Deep learning enables automatic and robust extraction of cardiac function descriptors from echocardiographic sequences, such as ejection fraction or strain. These descriptors provide fine-grained information that physicians consider, in conjunction with more global variables from the clinical record, to assess patients’ condition. Drawing on novel transformer models applied to tabular data, we propose a method that considers all descriptors extracted from medical records and echocardiograms to learn the representation of a cardiovascular pathology with a difficult-to-characterize continuum, namely hypertension. Our method first projects each variable into its own representation space using modality-specific approaches. These standardized representations of multimodal data are then fed to a transformer encoder, which learns to merge them into a comprehensive representation of the patient through the task of predicting a clinical rating. This stratification task is formulated as an ordinal classification to enforce a pathological continuum in the representation space. We observe the major trends along this continuum on a cohort of 239 hypertensive patients, providing unprecedented details in the description of hypertension’s impact on various cardiac function descriptors. Our analysis shows that i) the XTab foundation model’s architecture allows to reach outstanding performance (98% AUROC) even with limited data (less than 200 training samples), ii) stratification across the population is reproducible between trainings (within 3.6% MAE), and iii) patterns emerge in descriptors, some of which align with established physiological knowledge about hypertension, while others could pave the way for a more comprehensive understanding of this pathology.

arxiv情報

著者 Nathan Painchaud,Jérémie Stym-Popper,Pierre-Yves Courand,Nicolas Thome,Pierre-Marc Jodoin,Nicolas Duchateau,Olivier Bernard
発行日 2024-10-11 16:28:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Fusing Echocardiography Images and Medical Records for Continuous Patient Stratification はコメントを受け付けていません

DEL: Discrete Element Learner for Learning 3D Particle Dynamics with Neural Rendering

要約

学習ベースのシミュレーターは、3D グラウンドトゥルースが利用可能な場合に粒子ダイナミクスをシミュレートする大きな可能性を示しますが、粒子ごとの対応に常にアクセスできるとは限りません。
ニューラル レンダリングの開発は、逆レンダリングによって 2D 画像から 3D ダイナミクスを学習するという、この分野への新しいソリューションを提供します。
しかし、既存のアプローチは、2D から 3D への不確実性から生じる不適切な性質に依然として悩まされており、たとえば、特定の 2D 画像がさまざまな 3D 粒子分布に対応する可能性があります。
このような不確実性を軽減するために、従来の機械的に解釈可能なフレームワークを物理的な事前分布として考慮し、それを学習ベースのバージョンに拡張します。
簡単に言うと、学習可能なグラフ カーネルを古典的な離散要素解析 (DEA) フレームワークに組み込んで、新しい力学統合学習システムを実装します。
この場合、グラフ ネットワーク カーネルは、ダイナミクス マッピング全体ではなく、DEA フレームワーク内の一部の特定の機械演算子を近似するためにのみ使用されます。
強力な物理事前分布を統合することにより、私たちの方法は、統合された方法で部分的な 2D 観察からさまざまな材料のダイナミクスを効果的に学習することができます。
実験の結果、このコンテキストでは、私たちのアプローチが他の学習済みシミュレーターよりも大幅に優れており、さまざまなレンダラー、少ないトレーニング サンプル、および少ないカメラ ビューに対して堅牢であることが示されています。

要約(オリジナル)

Learning-based simulators show great potential for simulating particle dynamics when 3D groundtruth is available, but per-particle correspondences are not always accessible. The development of neural rendering presents a new solution to this field to learn 3D dynamics from 2D images by inverse rendering. However, existing approaches still suffer from ill-posed natures resulting from the 2D to 3D uncertainty, for example, specific 2D images can correspond with various 3D particle distributions. To mitigate such uncertainty, we consider a conventional, mechanically interpretable framework as the physical priors and extend it to a learning-based version. In brief, we incorporate the learnable graph kernels into the classic Discrete Element Analysis (DEA) framework to implement a novel mechanics-integrated learning system. In this case, the graph network kernels are only used for approximating some specific mechanical operators in the DEA framework rather than the whole dynamics mapping. By integrating the strong physics priors, our methods can effectively learn the dynamics of various materials from the partial 2D observations in a unified manner. Experiments show that our approach outperforms other learned simulators by a large margin in this context and is robust to different renderers, fewer training samples, and fewer camera views.

arxiv情報

著者 Jiaxu Wang,Jingkai Sun,Junhao He,Ziyi Zhang,Qiang Zhang,Mingyuan Sun,Renjing Xu
発行日 2024-10-11 16:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | DEL: Discrete Element Learner for Learning 3D Particle Dynamics with Neural Rendering はコメントを受け付けていません

CDAN: Convolutional dense attention-guided network for low-light image enhancement

要約

照明が不十分であることを特徴とする低照度画像は、明瞭さの低下、色調の鈍化、詳細の低下という課題を引き起こします。
コンピューター ビジョンにおける重要なタスクである低照度画像の強調は、明るさ、コントラスト、全体的な知覚品質を改善することでこれらの問題を修正し、それによって正確な分析と解釈を容易にすることを目的としています。
このペーパーでは、低照度画像を強化するための新しいソリューションである畳み込み密注意誘導ネットワーク (CDAN) を紹介します。
CDAN は、オートエンコーダ ベースのアーキテクチャを畳み込みブロックと高密度ブロックと統合し、アテンション メカニズムとスキップ接続によって補完されます。
このアーキテクチャにより、効率的な情報伝達と機能学習が保証されます。
さらに、専用の後処理フェーズにより、カラーバランスとコントラストが洗練されます。
私たちのアプローチは、低照度画像強調における最先端の結果と比較して顕著な進歩を示し、幅広い困難なシナリオにわたってその堅牢性を示しています。
私たちのモデルは、ベンチマーク データセットで顕著なパフォーマンスを発揮し、露出不足を効果的に軽減し、さまざまな低照度のシナリオでテクスチャと色を適切に復元します。
この成果は、多様なコンピュータ ビジョン タスクに対する CDAN の可能性を強調し、特に困難な低照度条件下での堅牢な物体検出と認識を可能にします。

要約(オリジナル)

Low-light images, characterized by inadequate illumination, pose challenges of diminished clarity, muted colors, and reduced details. Low-light image enhancement, an essential task in computer vision, aims to rectify these issues by improving brightness, contrast, and overall perceptual quality, thereby facilitating accurate analysis and interpretation. This paper introduces the Convolutional Dense Attention-guided Network (CDAN), a novel solution for enhancing low-light images. CDAN integrates an autoencoder-based architecture with convolutional and dense blocks, complemented by an attention mechanism and skip connections. This architecture ensures efficient information propagation and feature learning. Furthermore, a dedicated post-processing phase refines color balance and contrast. Our approach demonstrates notable progress compared to state-of-the-art results in low-light image enhancement, showcasing its robustness across a wide range of challenging scenarios. Our model performs remarkably on benchmark datasets, effectively mitigating under-exposure and proficiently restoring textures and colors in diverse low-light scenarios. This achievement underscores CDAN’s potential for diverse computer vision tasks, notably enabling robust object detection and recognition in challenging low-light conditions.

arxiv情報

著者 Hossein Shakibania,Sina Raoufi,Hassan Khotanlou
発行日 2024-10-11 17:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | CDAN: Convolutional dense attention-guided network for low-light image enhancement はコメントを受け付けていません

A Feature Generator for Few-Shot Learning

要約

フューショット学習 (FSL) は、限定されたラベル付きデータを使用してモデルが新しいオブジェクトまたはクラスを認識できるようにすることを目的としています。
新しいデータ ポイントを合成して限られたデータセットを強化する特徴ジェネレーターが、この課題に対する有望なソリューションとして浮上しています。
このペーパーでは、FSL タスクの埋め込みプロセスを強化する際の特徴ジェネレーターの有効性を調査します。
クラスごとの画像の不足による不正確な埋め込みの問題に対処するために、クラスレベルのテキスト記述から視覚的な特徴を作成する特徴ジェネレーターを導入します。
分類器損失、弁別器損失、および生成された特徴と真のクラス埋め込みの間の距離損失の組み合わせを使用してジェネレーターをトレーニングすることにより、正確な同じクラス特徴の生成が保証され、全体的な特徴表現が強化されます。
私たちの結果は、ベースライン手法と比べて精度が大幅に向上していることを示しており、私たちのアプローチはベースライン モデルを 1 ショット アプローチで 10%、5 ショット アプローチで約 5% 上回っています。
さらに、この文書では、ビジュアルのみのジェネレーターとビジュアル + テキストのジェネレーターの両方もテストされました。
コードは https://github.com/heethanjan/Feature-Generator-for-FSL で公開されています。

要約(オリジナル)

Few-shot learning (FSL) aims to enable models to recognize novel objects or classes with limited labelled data. Feature generators, which synthesize new data points to augment limited datasets, have emerged as a promising solution to this challenge. This paper investigates the effectiveness of feature generators in enhancing the embedding process for FSL tasks. To address the issue of inaccurate embeddings due to the scarcity of images per class, we introduce a feature generator that creates visual features from class-level textual descriptions. By training the generator with a combination of classifier loss, discriminator loss, and distance loss between the generated features and true class embeddings, we ensure the generation of accurate same-class features and enhance the overall feature representation. Our results show a significant improvement in accuracy over baseline methods, with our approach outperforming the baseline model by 10% in 1-shot and around 5% in 5-shot approaches. Additionally, both visual-only and visual + textual generators have also been tested in this paper. The code is publicly available at https://github.com/heethanjan/Feature-Generator-for-FSL.

arxiv情報

著者 Heethanjan Kanagalingam,Thenukan Pathmanathan,Navaneethan Ketheeswaran,Mokeeshan Vathanakumar,Mohamed Afham,Ranga Rodrigo
発行日 2024-10-11 17:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Feature Generator for Few-Shot Learning はコメントを受け付けていません

DA-Ada: Learning Domain-Aware Adapter for Domain Adaptive Object Detection

要約

ドメイン適応型オブジェクト検出 (DAOD) は、アノテーション付きのソース ドメインでトレーニングされた検出器をラベルのないターゲット ドメインに一般化することを目的としています。
ビジュアル言語モデル (VLM) は、目に見えない画像に関する重要な一般知識を提供できるため、ビジュアル エンコーダーをフリーズしてドメイン非依存アダプターを挿入することで、DAOD のドメイン不変の知識を学習できます。
ただし、ドメインに依存しないアダプターは、必然的にソース ドメインに偏ります。
ラベルのないドメインを識別するいくつかの有益な知識、つまり、ターゲット ドメインのドメイン固有の知識が破棄されます。
この問題を解決するために、DAOD タスクに合わせた新しいドメイン認識アダプター (DA-Ada) を提案します。
重要な点は、必須の一般知識とドメイン不変の知識の間のドメイン固有の知識を活用することです。
DA-Ada は、ドメイン不変知識を学習するドメイン不変アダプター (DIA) と、ビジュアル エンコーダーによって破棄された情報からドメイン固有知識を注入するドメイン固有アダプター (DSA) で構成されます。
複数の DAOD タスクにわたる包括的な実験により、DA-Ada がドメイン適応型オブジェクト検出を強化するためのドメイン対応ビジュアル エンコーダーを効率的に推論できることがわかりました。
私たちのコードは https://github.com/Therock90421/DA-Ada で入手できます。

要約(オリジナル)

Domain adaptive object detection (DAOD) aims to generalize detectors trained on an annotated source domain to an unlabelled target domain. As the visual-language models (VLMs) can provide essential general knowledge on unseen images, freezing the visual encoder and inserting a domain-agnostic adapter can learn domain-invariant knowledge for DAOD. However, the domain-agnostic adapter is inevitably biased to the source domain. It discards some beneficial knowledge discriminative on the unlabelled domain, i.e., domain-specific knowledge of the target domain. To solve the issue, we propose a novel Domain-Aware Adapter (DA-Ada) tailored for the DAOD task. The key point is exploiting domain-specific knowledge between the essential general knowledge and domain-invariant knowledge. DA-Ada consists of the Domain-Invariant Adapter (DIA) for learning domain-invariant knowledge and the Domain-Specific Adapter (DSA) for injecting the domain-specific knowledge from the information discarded by the visual encoder. Comprehensive experiments over multiple DAOD tasks show that DA-Ada can efficiently infer a domain-aware visual encoder for boosting domain adaptive object detection. Our code is available at https://github.com/Therock90421/DA-Ada.

arxiv情報

著者 Haochen Li,Rui Zhang,Hantao Yao,Xin Zhang,Yifan Hao,Xinkai Song,Xiaqing Li,Yongwei Zhao,Ling Li,Yunji Chen
発行日 2024-10-11 17:20:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DA-Ada: Learning Domain-Aware Adapter for Domain Adaptive Object Detection はコメントを受け付けていません

Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

要約

テキストの説明から高品質の 3D アセットを生成することは、コンピューター グラフィックスとビジョンの研究において依然として極めて重要な課題です。
3D データが不足しているため、最先端のアプローチでは、スコア蒸留サンプリング (SDS) を通じて最適化された、事前にトレーニングされた 2D 拡散事前分布が利用されます。
進歩にもかかわらず、複数のオブジェクトや複雑なインタラクションを特徴とする複雑な 3D シーンを作成することは依然として困難です。
これに取り組むために、最近の手法にはボックスまたはレイアウトのガイダンスが組み込まれています。
ただし、これらのレイアウトに基づいた構成方法は、一般に粗くて表現力に欠けるため、きめ細かい制御を提供するのに苦労することがよくあります。
これらの課題を克服するために、構成テキストから 3D への生成の表現力と精度を効果的に向上させるように設計された、新しい SDS アプローチであるセマンティック スコア蒸留サンプリング (SemanticSDS) を導入します。
私たちのアプローチは、さまざまなレンダリング ビュー間で一貫性を維持し、さまざまなオブジェクトとパーツを明確に区別する新しいセマンティック埋め込みを統合します。
これらの埋め込みは、領域固有の SDS プロセスを指示するセマンティック マップに変換され、正確な最適化と構成生成が可能になります。
明示的なセマンティック ガイダンスを活用することで、私たちの方法は既存の事前トレーニングされた拡散モデルの合成機能を解放し、それによって特に複雑なオブジェクトやシーンの 3D コンテンツ生成で優れた品質を実現します。
実験結果は、当社の SemanticSDS フレームワークが最先端の複雑な 3D コンテンツの生成に非常に効果的であることを示しています。
コード: https://github.com/YangLing0818/SemanticSDS-3D

要約(オリジナル)

Generating high-quality 3D assets from textual descriptions remains a pivotal challenge in computer graphics and vision research. Due to the scarcity of 3D data, state-of-the-art approaches utilize pre-trained 2D diffusion priors, optimized through Score Distillation Sampling (SDS). Despite progress, crafting complex 3D scenes featuring multiple objects or intricate interactions is still difficult. To tackle this, recent methods have incorporated box or layout guidance. However, these layout-guided compositional methods often struggle to provide fine-grained control, as they are generally coarse and lack expressiveness. To overcome these challenges, we introduce a novel SDS approach, Semantic Score Distillation Sampling (SemanticSDS), designed to effectively improve the expressiveness and accuracy of compositional text-to-3D generation. Our approach integrates new semantic embeddings that maintain consistency across different rendering views and clearly differentiate between various objects and parts. These embeddings are transformed into a semantic map, which directs a region-specific SDS process, enabling precise optimization and compositional generation. By leveraging explicit semantic guidance, our method unlocks the compositional capabilities of existing pre-trained diffusion models, thereby achieving superior quality in 3D content generation, particularly for complex objects and scenes. Experimental results demonstrate that our SemanticSDS framework is highly effective for generating state-of-the-art complex 3D content. Code: https://github.com/YangLing0818/SemanticSDS-3D

arxiv情報

著者 Ling Yang,Zixiang Zhang,Junlin Han,Bohan Zeng,Runjia Li,Philip Torr,Wentao Zhang
発行日 2024-10-11 17:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Semantic Score Distillation Sampling for Compositional Text-to-3D Generation はコメントを受け付けていません

CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation

要約

剛体オブジェクトの姿勢の推定は、自動化や拡張現実の幅広い用途に使用されるコンピューター ビジョンの基本的な問題の 1 つです。
既存のアプローチのほとんどは、オブジェクト クラスごとに 1 つのネットワーク戦略を採用し、オブジェクトの 3D モデルや深度データに大きく依存し、時間のかかる反復的な改良を採用していますが、これは一部のアプリケーションでは非現実的である可能性があります。
この論文では、これらの制限に対処する、複数オブジェクトの単眼姿勢推定のための新しいアプローチである CVAM-Pose を紹介します。
CVAM-Pose メソッドは、ラベルが埋め込まれた条件付き変分オートエンコーダー ネットワークを使用して、単一の低次元潜在空間内の複数のオブジェクトの正規化された表現を暗黙的に抽象化します。
この自動エンコード プロセスは、投影カメラでキャプチャされた画像のみを使用し、オブジェクトのオクルージョンやシーンの乱雑さに対して堅牢です。
オブジェクトのクラスはワンホット エンコードされ、ネットワーク全体に埋め込まれます。
提案されたラベル埋め込み姿勢回帰戦略は、連続姿勢表現を利用して学習された潜在空間表現を解釈します。
アブレーション テストと体系的な評価により、複数オブジェクトのシナリオに対する CVAM-Pose 法の拡張性と効率性が実証されています。
提案された CVAM-Pose は、競合する潜在空間アプローチよりも優れています。
たとえば、Linemod-Occluded データセットの $\mathrm{AR_{VSD}}$ メトリクスを使用して評価すると、AAE 手法とマルチパス手法よりそれぞれ 25% と 20% 優れています。
また、BOP 課題で報告された 3D モデルに依存する方法にある程度匹敵する結果も達成されます。
利用可能なコード: https://github.com/JZhao12/CVAM-Pose

要約(オリジナル)

Estimating rigid objects’ poses is one of the fundamental problems in computer vision, with a range of applications across automation and augmented reality. Most existing approaches adopt one network per object class strategy, depend heavily on objects’ 3D models, depth data, and employ a time-consuming iterative refinement, which could be impractical for some applications. This paper presents a novel approach, CVAM-Pose, for multi-object monocular pose estimation that addresses these limitations. The CVAM-Pose method employs a label-embedded conditional variational autoencoder network, to implicitly abstract regularised representations of multiple objects in a single low-dimensional latent space. This autoencoding process uses only images captured by a projective camera and is robust to objects’ occlusion and scene clutter. The classes of objects are one-hot encoded and embedded throughout the network. The proposed label-embedded pose regression strategy interprets the learnt latent space representations utilising continuous pose representations. Ablation tests and systematic evaluations demonstrate the scalability and efficiency of the CVAM-Pose method for multi-object scenarios. The proposed CVAM-Pose outperforms competing latent space approaches. For example, it is respectively 25% and 20% better than AAE and Multi-Path methods, when evaluated using the $\mathrm{AR_{VSD}}$ metric on the Linemod-Occluded dataset. It also achieves results somewhat comparable to methods reliant on 3D models reported in BOP challenges. Code available: https://github.com/JZhao12/CVAM-Pose

arxiv情報

著者 Jianyu Zhao,Wei Quan,Bogdan J. Matuszewski
発行日 2024-10-11 17:26:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation はコメントを受け付けていません

Alberta Wells Dataset: Pinpointing Oil and Gas Wells from Satellite Imagery

要約

何百万もの放棄された石油井やガス井が世界中に点在しており、メタンが大気中に、有毒化合物が地下水中に浸出しています。
これらの場所の多くは不明であるため、井戸を塞いで汚染の影響を回避することができません。
リモート センシングは、放棄された井戸を大規模に特定するための比較的未開発のツールです。
Planet Labs の中解像度のマルチスペクトル衛星画像を活用した、この問題に対する最初の大規模ベンチマーク データセットを紹介します。
当社が厳選したデータセットは、特に井戸密度が高い地域であるアルバータ州の 213,000 を超える井戸 (放棄された井戸、中断された井戸、稼働中の井戸) で構成されており、アルバータ州エネルギー規制当局から提供され、分野の専門家によって検証されています。
私たちは坑井の検出とセグメンテーションのためのベースライン アルゴリズムを評価し、コンピューター ビジョン アプローチの有望性を示していますが、改善の余地が大きいことも示しています。

要約(オリジナル)

Millions of abandoned oil and gas wells are scattered across the world, leaching methane into the atmosphere and toxic compounds into the groundwater. Many of these locations are unknown, preventing the wells from being plugged and their polluting effects averted. Remote sensing is a relatively unexplored tool for pinpointing abandoned wells at scale. We introduce the first large-scale benchmark dataset for this problem, leveraging medium-resolution multi-spectral satellite imagery from Planet Labs. Our curated dataset comprises over 213,000 wells (abandoned, suspended, and active) from Alberta, a region with especially high well density, sourced from the Alberta Energy Regulator and verified by domain experts. We evaluate baseline algorithms for well detection and segmentation, showing the promise of computer vision approaches but also significant room for improvement.

arxiv情報

著者 Pratinav Seth,Michelle Lin,Brefo Dwamena Yaw,Jade Boutot,Mary Kang,David Rolnick
発行日 2024-10-11 17:49:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Alberta Wells Dataset: Pinpointing Oil and Gas Wells from Satellite Imagery はコメントを受け付けていません

Autonomous Underwater Robotic System for Aquaculture Applications

要約

水産養殖は、世界の魚消費量の半分以上を生産する盛んな食料生産分野です。
しかし、これらの養殖場は、生物付着、植生、生け簀内の穴などの重大な課題を引き起こしており、魚生産の効率と持続可能性に重大な影響を与えています。
現在、養殖場の検査と維持のためにダイバーや遠隔操作車両が配備されています。
このアプローチは高価であり、高度なスキルを持った人間のオペレーターが必要です。
この研究の目的は、ROV 上での処理と、生物付着、植生、網の穴、プラスチックなどのさまざまなアクアネットの欠陥のリアルタイム検出を目的とした、水産養殖網生け簀用のロボットベースの自動ネット欠陥検出システムを開発することです。
提案されたシステムは、アクアネットの欠陥検出のための深層学習ベースの方法と、アクアネット周辺の車両の動きに対するフィードバック制御法の両方を統合し、一連の鮮明なネット画像を取得し、検査タスクの実行を通じてネットの状態を検査します。
この取り組みは、コスト削減、品質向上、操作性の向上を目的とした養殖検査、海洋ロボティクス、ディープラーニングの分野に貢献します。

要約(オリジナル)

Aquaculture is a thriving food-producing sector producing over half of the global fish consumption. However, these aquafarms pose significant challenges such as biofouling, vegetation, and holes within their net pens and have a profound effect on the efficiency and sustainability of fish production. Currently, divers and/or remotely operated vehicles are deployed for inspecting and maintaining aquafarms; this approach is expensive and requires highly skilled human operators. This work aims to develop a robotic-based automatic net defect detection system for aquaculture net pens oriented to on- ROV processing and real-time detection of different aqua-net defects such as biofouling, vegetation, net holes, and plastic. The proposed system integrates both deep learning-based methods for aqua-net defect detection and feedback control law for the vehicle movement around the aqua-net to obtain a clear sequence of net images and inspect the status of the net via performing the inspection tasks. This work contributes to the area of aquaculture inspection, marine robotics, and deep learning aiming to reduce cost, improve quality, and ease of operation.

arxiv情報

著者 Waseem Akram,Muhayyuddin Ahmed,Lakmal Seneviratne,Irfan Hussain
発行日 2024-10-11 17:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Autonomous Underwater Robotic System for Aquaculture Applications はコメントを受け付けていません

MiRAGeNews: Multimodal Realistic AI-Generated News Detection

要約

近年、扇動的または誤解を招く「フェイク」ニュース コンテンツの蔓延がますます一般的になってきています。
同時に、AI ツールを使用して、想像できるあらゆるシーンを描写したフォトリアリスティックな画像を生成することがこれまでより簡単になりました。
これら 2 つ (AI によって生成されたフェイク ニュース コンテンツ) を組み合わせると、特に強力かつ危険です。
AI が生成したフェイク ニュースの拡散に対抗するために、私たちは、最先端のジェネレーターからの 12,500 個の高品質の本物の画像と AI が生成した画像とキャプションのペアのデータセットである MiRAGENews データセットを提案します。
私たちのデータセットは、人間 (60% F-1) と最先端のマルチモーダル LLM (< 24% F-1) にとって重大な課題となっていることがわかりました。 データセットを使用して、ドメイン外の画像ジェネレーターやニュース発行者からの画像とキャプションのペアで最先端のベースラインと比較して F-1 を +5.1% 改善するマルチモーダル検出器 (MiRAGe) をトレーニングします。 AI によって生成されたコンテンツの検出に関する将来の作業を支援するために、コードとデータを公開します。

要約(オリジナル)

The proliferation of inflammatory or misleading ‘fake’ news content has become increasingly common in recent years. Simultaneously, it has become easier than ever to use AI tools to generate photorealistic images depicting any scene imaginable. Combining these two — AI-generated fake news content — is particularly potent and dangerous. To combat the spread of AI-generated fake news, we propose the MiRAGeNews Dataset, a dataset of 12,500 high-quality real and AI-generated image-caption pairs from state-of-the-art generators. We find that our dataset poses a significant challenge to humans (60% F-1) and state-of-the-art multi-modal LLMs (< 24% F-1). Using our dataset we train a multi-modal detector (MiRAGe) that improves by +5.1% F-1 over state-of-the-art baselines on image-caption pairs from out-of-domain image generators and news publishers. We release our code and data to aid future work on detecting AI-generated content.

arxiv情報

著者 Runsheng Huang,Liam Dugan,Yue Yang,Chris Callison-Burch
発行日 2024-10-11 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | MiRAGeNews: Multimodal Realistic AI-Generated News Detection はコメントを受け付けていません