LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension

要約

ビジョン言語モデル(VLMS)は、さまざまなオープンボキャブラリータスクで顕著な能力を実証していますが、特に式(REC)を参照するなどの複雑なタスクで、タスク固有の微調整されたモデルにゼロショットパフォーマンスが遅れています。
微調整には通常、モデルのアーキテクチャとウェイトへの「ホワイトボックス」アクセスが必要です。これは、独自の懸念やプライバシーの懸念のために必ずしも実行可能ではありません。
この作業では、LLM-Wrapperを提案します。これは、大規模な言語モデル(LLMS)を使用したRECタスクのVLMの「ブラックボックス」適応の方法です。
LLM-Wrapperは、LLMSの推論能力を活用し、軽い微調整で改善され、ゼロショットブラックボックスVLMによって生成された候補から参照式に一致する最も関連性の高い境界ボックスを選択します。
私たちのアプローチはいくつかの利点を提供します。それは、内部作業にアクセスする必要なく閉鎖モデルの適応を可能にします。任意のVLMで動作するため、汎用性があり、新しいVLMとデータセットに転送され、VLMのアンサンブルの適応が可能です。
異なるVLMとLLMを使用して複数のデータセットでLLM-Wrapperを評価し、大幅なパフォーマンスの改善を実証し、メソッドの汎用性を強調します。
LLM-Wrapperは、標準のホワイトボックスの微調整と直接競合することを意図したものではありませんが、ブラックボックスVLM適応のための実用的で効果的な代替品を提供します。
コードとチェックポイントは、https://github.com/valeoai/llm_wrapperで入手できます。

要約(オリジナル)

Vision Language Models (VLMs) have demonstrated remarkable capabilities in various open-vocabulary tasks, yet their zero-shot performance lags behind task-specific fine-tuned models, particularly in complex tasks like Referring Expression Comprehension (REC). Fine-tuning usually requires ‘white-box’ access to the model’s architecture and weights, which is not always feasible due to proprietary or privacy concerns. In this work, we propose LLM-wrapper, a method for ‘black-box’ adaptation of VLMs for the REC task using Large Language Models (LLMs). LLM-wrapper capitalizes on the reasoning abilities of LLMs, improved with a light fine-tuning, to select the most relevant bounding box matching the referring expression, from candidates generated by a zero-shot black-box VLM. Our approach offers several advantages: it enables the adaptation of closed-source models without needing access to their internal workings, it is versatile as it works with any VLM, it transfers to new VLMs and datasets, and it allows for the adaptation of an ensemble of VLMs. We evaluate LLM-wrapper on multiple datasets using different VLMs and LLMs, demonstrating significant performance improvements and highlighting the versatility of our method. While LLM-wrapper is not meant to directly compete with standard white-box fine-tuning, it offers a practical and effective alternative for black-box VLM adaptation. Code and checkpoints are available at https://github.com/valeoai/LLM_wrapper .

arxiv情報

著者 Amaia Cardiel,Eloi Zablocki,Elias Ramzi,Oriane Siméoni,Matthieu Cord
発行日 2025-03-06 17:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Models for Referring Expression Comprehension はコメントを受け付けていません

A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data

要約

自動放射線レポートの生成は、医師のワークロードを軽減し、医療資源の地域の格差を最小限に抑えることができ、したがって、医療画像分析分野の重要なトピックになります。
計算モデルは医師を模倣してマルチモーダル入力データ(つまり、医療画像、臨床情報、医療知識など)から情報を取得し、包括的かつ正確なレポートを作成する必要があるため、困難なタスクです。
最近、変圧器、対照学習、知識ベースの構造などの深い学習ベースの方法を使用して、この問題に対処するために多くの作品が登場しています。
この調査では、最新の研究で開発された重要な手法を要約し、マルチモダリティデータ収集、データの準備、機能学習、機能融合と相互作用、レポート生成など、5つの主要なコンポーネントを使用して、ディープラーニングベースのレポート生成の一般的なワークフローを提案します。
これらの各コンポーネントの最先端の方法が強調表示されます。
さらに、パブリックデータセット、評価方法、現在の課題、およびこの分野の将来の方向性とともに、大規模なモデルベースの方法とモデルの説明可能性の最新の開発を要約します。
また、同じ実験設定で異なる方法間の定量的比較を実施しました。
これは、放射線レポート生成のためのマルチモダリティ入力とデータ融合に焦点を当てた最も最新の調査です。
目的は、特にマルチモーダル入力を使用する場合、自動臨床レポートの生成と医療画像分析に関心のある研究者に包括的で豊富な情報を提供し、フィールドを進めるための新しいアルゴリズムの開発を支援することです。

要約(オリジナル)

Automatic radiology report generation can alleviate the workload for physicians and minimize regional disparities in medical resources, therefore becoming an important topic in the medical image analysis field. It is a challenging task, as the computational model needs to mimic physicians to obtain information from multi-modal input data (i.e., medical images, clinical information, medical knowledge, etc.), and produce comprehensive and accurate reports. Recently, numerous works have emerged to address this issue using deep-learning-based methods, such as transformers, contrastive learning, and knowledge-base construction. This survey summarizes the key techniques developed in the most recent works and proposes a general workflow for deep-learning-based report generation with five main components, including multi-modality data acquisition, data preparation, feature learning, feature fusion and interaction, and report generation. The state-of-the-art methods for each of these components are highlighted. Additionally, we summarize the latest developments in large model-based methods and model explainability, along with public datasets, evaluation methods, current challenges, and future directions in this field. We have also conducted a quantitative comparison between different methods in the same experimental setting. This is the most up-to-date survey that focuses on multi-modality inputs and data fusion for radiology report generation. The aim is to provide comprehensive and rich information for researchers interested in automatic clinical report generation and medical image analysis, especially when using multimodal inputs, and to assist them in developing new algorithms to advance the field.

arxiv情報

著者 Xinyi Wang,Grazziela Figueredo,Ruizhe Li,Wei Emma Zhang,Weitong Chen,Xin Chen
発行日 2025-03-06 17:18:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data はコメントを受け付けていません

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

要約

Rehnecortion Learning(RL)ベースの微調整は、拡散モデルをブラックボックス目標と整列させるための強力なアプローチとして浮上しています。
近位政策最適化(PPO)は、政策最適化のための最も一般的な選択肢です。
パフォーマンスの点では効果的ですが、PPOはハイパーパラメーターに非常に敏感であり、実質的な計算オーバーヘッドを伴います。
一方、強化すると、高メモリオーバーヘッドや敏感なハイパーパラメーターチューニングなどの計算複雑さが軽減されますが、低変異性とサンプルの非効率性のために最適ではないパフォーマンスがあります。
補強の分散は、入力プロンプトごとに複数のアクションをサンプリングし、ベースライン補正項を使用することで減少させることができますが、サンプルの非効率性には依然として苦しんでいます。
これらの課題に対処するために、RenforceとPPOの間の効率効率のトレードオフを体系的に分析し、拡散微調整法の新しいRLであるLeave-One-Out PPO(Loop)を提案します。
ループは、入力プロンプトごとの複数のアクションのサンプリングやベースライン補正項など、クリッピングと重要性サンプリングによるPPOの堅牢性とサンプル効率など、補強からの分散削減手法を組み合わせます。
我々の結果は、ループがさまざまなブラックボックスの目的で拡散モデルを効果的に改善し、計算効率とパフォーマンスのバランスを改善することを示しています。

要約(オリジナル)

Reinforcement learning (RL)-based fine-tuning has emerged as a powerful approach for aligning diffusion models with black-box objectives. Proximal policy optimization (PPO) is the most popular choice of method for policy optimization. While effective in terms of performance, PPO is highly sensitive to hyper-parameters and involves substantial computational overhead. REINFORCE, on the other hand, mitigates some computational complexities such as high memory overhead and sensitive hyper-parameter tuning, but has suboptimal performance due to high-variance and sample inefficiency. While the variance of the REINFORCE can be reduced by sampling multiple actions per input prompt and using a baseline correction term, it still suffers from sample inefficiency. To address these challenges, we systematically analyze the efficiency-effectiveness trade-off between REINFORCE and PPO, and propose leave-one-out PPO (LOOP), a novel RL for diffusion fine-tuning method. LOOP combines variance reduction techniques from REINFORCE, such as sampling multiple actions per input prompt and a baseline correction term, with the robustness and sample efficiency of PPO via clipping and importance sampling. Our results demonstrate that LOOP effectively improves diffusion models on various black-box objectives, and achieves a better balance between computational efficiency and performance.

arxiv情報

著者 Shashank Gupta,Chaitanya Ahuja,Tsung-Yu Lin,Sreya Dutta Roy,Harrie Oosterhuis,Maarten de Rijke,Satya Narayan Shukla
発行日 2025-03-06 17:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning はコメントを受け付けていません

PathoPainter: Augmenting Histopathology Segmentation via Tumor-aware Inpainting

要約

腫瘍のセグメンテーションは、組織病理学において重要な役割を果たしますが、病理学者が注釈を付けた費用のかかる細粒の画像マスクペアが必要です。
したがって、データセットを拡張するために組織病理学データを合成することは非常に望ましいです。
以前の作品は、特に小規模データセットと組織病理学画像の本質的に複雑な性質において、トレーニングセグメンテーションに影響を与える画像マスクペアの不正確さと限られた多様性に悩まされています。
この課題に対処するために、画像マスクペアの生成を腫瘍の入力タスクとして再定式化するPatopainterを提案します。
具体的には、私たちのアプローチは、腫瘍領域を取り入れながら背景を保持し、生成された画像とその対応するマスクとの間の正確なアライメントを確保します。
生物学的妥当性を維持しながらデータセットの多様性を高めるために、別の画像からの領域埋め込みに腫瘍を入力する腫瘍を条件付けるサンプリングメカニズムを組み込みます。
さらに、不確実な合成領域を除外するためのフィルタリング戦略を導入し、生成されたデータの品質をさらに向上させます。
当社の包括的な評価は、多様な腫瘍タイプとさまざまなトレーニングデータスケールを特徴とする複数のデータセットに及びます。
その結果、セグメンテーションは合成データで大幅に改善され、既存のセグメンテーションデータ合成アプローチを上回りました。たとえば、Camelyon16の75.69% – > 77.69%。
このコードは、https://github.com/hongliuuuuu/pathopainterで入手できます。

要約(オリジナル)

Tumor segmentation plays a critical role in histopathology, but it requires costly, fine-grained image-mask pairs annotated by pathologists. Thus, synthesizing histopathology data to expand the dataset is highly desirable. Previous works suffer from inaccuracies and limited diversity in image-mask pairs, both of which affect training segmentation, particularly in small-scale datasets and the inherently complex nature of histopathology images. To address this challenge, we propose PathoPainter, which reformulates image-mask pair generation as a tumor inpainting task. Specifically, our approach preserves the background while inpainting the tumor region, ensuring precise alignment between the generated image and its corresponding mask. To enhance dataset diversity while maintaining biological plausibility, we incorporate a sampling mechanism that conditions tumor inpainting on regional embeddings from a different image. Additionally, we introduce a filtering strategy to exclude uncertain synthetic regions, further improving the quality of the generated data. Our comprehensive evaluation spans multiple datasets featuring diverse tumor types and various training data scales. As a result, segmentation improved significantly with our synthetic data, surpassing existing segmentation data synthesis approaches, e.g., 75.69% -> 77.69% on CAMELYON16. The code is available at https://github.com/HongLiuuuuu/PathoPainter.

arxiv情報

著者 Hong Liu,Haosen Yang,Evi M. C. Huijben,Mark Schuiveling,Ruisheng Su,Josien P. W. Pluim,Mitko Veta
発行日 2025-03-06 17:21:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PathoPainter: Augmenting Histopathology Segmentation via Tumor-aware Inpainting はコメントを受け付けていません

3HANDS Dataset: Learning from Humans for Generating Naturalistic Handovers with Supernumerary Robotic Limbs

要約

超数のロボット肢(SRL)は、ユーザーの体と密接に統合されたロボット構造であり、人間の物理的能力を増強し、シームレスで自然主義的な人間の相互作用を必要とします。
物理的なタスクにおける効果的な支援のために、SRLが人間にオブジェクトを引き渡すことを可能にすることが重要です。
しかし、ロボット向けのヒューリスティックベースのポリシーの設計は時間がかかり、タスク全体で一般化することが困難であり、人間のような動きが少なくなります。
適切なデータセットでトレーニングされる場合、生成モデルは、自然主義的なハンドオーバー動作を作成するための強力な代替品です。
3handsを紹介します。これは、毎日のアクティビティを実行する参加者と、自然主義的な方法でヒップに取り付けられたSRLを制定する別の参加者との間のオブジェクトハンドオーバー相互作用の新しいデータセットを紹介します。
3handsは、SRL相互作用のユニークな特性をキャプチャします。非対称オブジェクトの起源、暗黙のモーションの同期、およびハンドオーバー中の主要なタスクへのユーザーの関与を備えた親密な個人空間で動作します。
データセットの有効性を実証するために、3つのモデルを提示します。1つは自然主義的なハンドオーバー軌道を生成するモデル、適切なハンドオーバーエンドポイントを決定するもの、およびハンドオーバーを開始する瞬間を予測する3つ目です。
ユーザー調査(n = 10)では、ベースラインと比較して、実行されたハンドオーバー相互作用をメソッドと比較します。
この調査結果は、私たちの方法が、より自然で、身体的に要求が少なく、より快適であると認識されていることを示しています。

要約(オリジナル)

Supernumerary robotic limbs (SRLs) are robotic structures integrated closely with the user’s body, which augment human physical capabilities and necessitate seamless, naturalistic human-machine interaction. For effective assistance in physical tasks, enabling SRLs to hand over objects to humans is crucial. Yet, designing heuristic-based policies for robots is time-consuming, difficult to generalize across tasks, and results in less human-like motion. When trained with proper datasets, generative models are powerful alternatives for creating naturalistic handover motions. We introduce 3HANDS, a novel dataset of object handover interactions between a participant performing a daily activity and another participant enacting a hip-mounted SRL in a naturalistic manner. 3HANDS captures the unique characteristics of SRL interactions: operating in intimate personal space with asymmetric object origins, implicit motion synchronization, and the user’s engagement in a primary task during the handover. To demonstrate the effectiveness of our dataset, we present three models: one that generates naturalistic handover trajectories, another that determines the appropriate handover endpoints, and a third that predicts the moment to initiate a handover. In a user study (N=10), we compare the handover interaction performed with our method compared to a baseline. The findings show that our method was perceived as significantly more natural, less physically demanding, and more comfortable.

arxiv情報

著者 Artin Saberpour Abadian,Yi-Chi Liao,Ata Otaran,Rishabh Dabral,Marie Muehlhaus,Christian Theobalt,Martin Schmitz,Jürgen Steimle
発行日 2025-03-06 17:23:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.RO, H.5.2 | 3HANDS Dataset: Learning from Humans for Generating Naturalistic Handovers with Supernumerary Robotic Limbs はコメントを受け付けていません

Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation

要約

セグメントAnything Model(SAM)などの基礎モデルは、医療画像セグメンテーションで牽引力を獲得しており、複数の下流タスクをサポートしています。
ただし、そのようなモデルは本質的に監督されており、専門家が提供する大規模な注釈付きデータセットまたはプロンプトに依存しています。
このような制限を緩和するための積極的な学習などの従来の技術は、範囲が制限されており、継続的な人間の関与とラベルの洗練または報酬の真理を確立するための複雑なドメイン知識を必要とします。
これらの課題に対処するために、完全に監視されていないファッションで生成された注釈効率の高いプロンプトを利用する拡張セグメントのモデル(SAM)フレームワークを提案し、対照的な言語イメージの前提と視覚的質問の回答を通じて本質的なセマンティック、場所、形状情報をキャプチャします。
直接選好最適化手法を採用して、人間の注釈プロセスをシミュレートする仮想アノテーターによって提供される単純な評価またはランキングでモデルが高忠実度セグメンテーションを生成できるようにする最適なポリシーを設計します。
肺のセグメンテーション、乳房腫瘍のセグメンテーション、X線、超音波、腹部CTなどのさまざまなモダリティにわたる臓器のセグメンテーションなどのタスクでのフレームワークの最先端のパフォーマンスは、低解決データシナリオの有効性を正当化します。

要約(オリジナル)

Foundational models such as the Segment Anything Model (SAM) are gaining traction in medical imaging segmentation, supporting multiple downstream tasks. However, such models are supervised in nature, still relying on large annotated datasets or prompts supplied by experts. Conventional techniques such as active learning to alleviate such limitations are limited in scope and still necessitate continuous human involvement and complex domain knowledge for label refinement or establishing reward ground truth. To address these challenges, we propose an enhanced Segment Anything Model (SAM) framework that utilizes annotation-efficient prompts generated in a fully unsupervised fashion, while still capturing essential semantic, location, and shape information through contrastive language-image pretraining and visual question answering. We adopt the direct preference optimization technique to design an optimal policy that enables the model to generate high-fidelity segmentations with simple ratings or rankings provided by a virtual annotator simulating the human annotation process. State-of-the-art performance of our framework in tasks such as lung segmentation, breast tumor segmentation, and organ segmentation across various modalities, including X-ray, ultrasound, and abdominal CT, justifies its effectiveness in low-annotation data scenarios.

arxiv情報

著者 Aishik Konwer,Zhijian Yang,Erhan Bas,Cao Xiao,Prateek Prasanna,Parminder Bhatia,Taha Kass-Hout
発行日 2025-03-06 17:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation はコメントを受け付けていません

Simulating the Real World: A Unified Survey of Multimodal Generative Models

要約

現実の世界を理解して複製することは、人工的な一般情報(AGI)研究における重要な課題です。
これを達成するために、世界モデルなどの多くの既存のアプローチは、物理的な世界を管理する基本原則を把握し、より正確なシミュレーションと意味のある相互作用を可能にすることを目指しています。
ただし、現在の方法では、2D(画像)、ビデオ、3D、および4D表現を含むさまざまなモダリティを独立したドメインとして扱い、相互依存性を見落とします。
さらに、これらの方法は通常、接続を体系的に統合することなく、現実の孤立した次元に焦点を当てています。
この調査では、実際のシミュレーションにおけるデータ次元の進行を調査するマルチモーダル生成モデルの統一調査を提示します。
具体的には、この調査は2D世代(外観)から始まり、ビデオ(外観+ダイナミクス)と3D世代(外観+ジオメトリ)に移動し、最後にすべての次元を統合する4D世代で頂点に達します。
私たちの知る限り、これは、単一のフレームワーク内で2D、ビデオ、3D、および4D生成の研究を体系的に統合する最初の試みです。
将来の研究を導くために、データセット、評価メトリック、将来の方向性の包括的なレビューを提供し、新人の洞察を促進します。
この調査は、マルチモーダル生成モデルの研究と統一されたフレームワーク内での実世界のシミュレーションを進めるための橋として機能します。

要約(オリジナル)

Understanding and replicating the real world is a critical challenge in Artificial General Intelligence (AGI) research. To achieve this, many existing approaches, such as world models, aim to capture the fundamental principles governing the physical world, enabling more accurate simulations and meaningful interactions. However, current methods often treat different modalities, including 2D (images), videos, 3D, and 4D representations, as independent domains, overlooking their interdependencies. Additionally, these methods typically focus on isolated dimensions of reality without systematically integrating their connections. In this survey, we present a unified survey for multimodal generative models that investigate the progression of data dimensionality in real-world simulation. Specifically, this survey starts from 2D generation (appearance), then moves to video (appearance+dynamics) and 3D generation (appearance+geometry), and finally culminates in 4D generation that integrate all dimensions. To the best of our knowledge, this is the first attempt to systematically unify the study of 2D, video, 3D and 4D generation within a single framework. To guide future research, we provide a comprehensive review of datasets, evaluation metrics and future directions, and fostering insights for newcomers. This survey serves as a bridge to advance the study of multimodal generative models and real-world simulation within a unified framework.

arxiv情報

著者 Yuqi Hu,Longguang Wang,Xian Liu,Ling-Hao Chen,Yuwei Guo,Yukai Shi,Ce Liu,Anyi Rao,Zeyu Wang,Hui Xiong
発行日 2025-03-06 17:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Simulating the Real World: A Unified Survey of Multimodal Generative Models はコメントを受け付けていません

Adaptive Prototype Learning for Multimodal Cancer Survival Analysis

要約

マルチモーダルデータの活用、特に全面的な組織学画像(WSI)とトランスクリプトームプロファイルの統合は、がんの生存予測を改善するための大きな可能性を秘めています。
ただし、マルチモーダルデータの過度の冗長性は、モデルのパフォーマンスを低下させる可能性があります。
この論文では、マルチモーダルがん生存分析のための斬新で効果的なアプローチである適応プロトタイプ学習(APL)を提案します。
APLは、データ駆動型の方法で代表的なプロトタイプを適応的に学習し、重要な情報を保存しながら冗長性を減らします。
私たちの方法では、高次元表現と生存予測との間の橋渡しとして機能する2セットの学習可能なクエリベクトルを採用し、タスク関連の機能をキャプチャします。
さらに、クロスモーダル相互作用を可能にするために、マルチモーダル混合自己触媒メカニズムを導入し、情報融合をさらに強化します。
5つのベンチマークがんデータセットでの広範な実験は、既存の方法よりもアプローチの優位性を示しています。
コードはhttps://github.com/hongliuuuuu/aplで入手できます。

要約(オリジナル)

Leveraging multimodal data, particularly the integration of whole-slide histology images (WSIs) and transcriptomic profiles, holds great promise for improving cancer survival prediction. However, excessive redundancy in multimodal data can degrade model performance. In this paper, we propose Adaptive Prototype Learning (APL), a novel and effective approach for multimodal cancer survival analysis. APL adaptively learns representative prototypes in a data-driven manner, reducing redundancy while preserving critical information. Our method employs two sets of learnable query vectors that serve as a bridge between high-dimensional representations and survival prediction, capturing task-relevant features. Additionally, we introduce a multimodal mixed self-attention mechanism to enable cross-modal interactions, further enhancing information fusion. Extensive experiments on five benchmark cancer datasets demonstrate the superiority of our approach over existing methods. The code is available at https://github.com/HongLiuuuuu/APL.

arxiv情報

著者 Hong Liu,Haosen Yang,Federica Eduati,Josien P. W. Pluim,Mitko Veta
発行日 2025-03-06 17:32:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Adaptive Prototype Learning for Multimodal Cancer Survival Analysis はコメントを受け付けていません

Back Home: A Machine Learning Approach to Seashell Classification and Ecosystem Restoration

要約

コスタリカでは、平均5トンの貝殻が毎年生態系から抽出されています。
没収された貝殻は、起源の認識がないため、生態系に戻すことはできません。
この問題に対処するために、貝殻の識別用に特に畳み込みニューラルネットワーク(CNN)を開発しました。
太平洋沿岸とカリブ海の海岸からの約19000の画像で構成されるデータセットをゼロから構築しました。
このデータセットを使用して、モデルは85%を超える分類精度を達成しました。
このモデルは、これまでに36,000を超える貝殻を分類してきたユーザーフレンドリーなアプリケーションに統合されており、画像ごとに3秒以内にリアルタイムの結果が提供されています。
システムの精度をさらに強化するために、異常検出メカニズムを組み込んで無関係または異常な入力を除外し、有効な貝殻画像のみが処理されるようにしました。

要約(オリジナル)

In Costa Rica, an average of 5 tons of seashells are extracted from ecosystems annually. Confiscated seashells, cannot be returned to their ecosystems due to the lack of origin recognition. To address this issue, we developed a convolutional neural network (CNN) specifically for seashell identification. We built a dataset from scratch, consisting of approximately 19000 images from the Pacific and Caribbean coasts. Using this dataset, the model achieved a classification accuracy exceeding 85%. The model has been integrated into a user-friendly application, which has classified over 36,000 seashells to date, delivering real-time results within 3 seconds per image. To further enhance the system’s accuracy, an anomaly detection mechanism was incorporated to filter out irrelevant or anomalous inputs, ensuring only valid seashell images are processed.

arxiv情報

著者 Alexander Valverde,Luis Solano
発行日 2025-03-06 17:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Back Home: A Machine Learning Approach to Seashell Classification and Ecosystem Restoration はコメントを受け付けていません

Transferable Foundation Models for Geometric Tasks on Point Cloud Representations: Geometric Neural Operators

要約

幾何学的特徴の取得に使用する基礎基礎モデルとして機能できる、前処理された幾何神経演算子(GNP)を取得する方法を紹介します。
これらは、機械学習タスクと数値的方法のためのデータ処理パイプライン内で使用できます。
Point-Cloudsの微分ジオメトリの堅牢な潜在表現を学習するためにGNPをどのように訓練して、メトリック、曲率、およびその他の形状関連の特徴の推定値を提供する方法を示します。
事前に訓練されたGNPを使用して(i)ノイズの存在下で堅牢性を持つ任意の形状とトポロジーの表面の幾何学的特性を推定する方法を示します。
また、ポイントクラウド表現を処理するために事前に訓練されたGNPを使用するために、コードと重みのパッケージをリリースします。
これにより、事前に訓練されたGNPを既存および新しいデータ処理パイプライン内に再利用するためのコンポーネントとして組み込むことができます。
GNPは、ジオメトリを含む数値ソルバーの一部として、または推論やその他の幾何学的タスクを実行する方法の一部として使用することもできます。

要約(オリジナル)

We introduce methods for obtaining pretrained Geometric Neural Operators (GNPs) that can serve as basal foundation models for use in obtaining geometric features. These can be used within data processing pipelines for machine learning tasks and numerical methods. We show how our GNPs can be trained to learn robust latent representations for the differential geometry of point-clouds to provide estimates of metric, curvature, and other shape-related features. We demonstrate how our pre-trained GNPs can be used (i) to estimate the geometric properties of surfaces of arbitrary shape and topologies with robustness in the presence of noise, (ii) to approximate solutions of geometric partial differential equations (PDEs) on manifolds, and (iii) to solve equations for shape deformations such as curvature driven flows. We also release a package of the codes and weights for using our pre-trained GNPs for processing point cloud representations. This allows for incorporating our pre-trained GNPs as components for reuse within existing and new data processing pipelines. The GNPs also can be used as part of numerical solvers involving geometry or as part of methods for performing inference and other geometric tasks.

arxiv情報

著者 Blaine Quackenbush,Paul J. Atzberger
発行日 2025-03-06 17:35:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NA, math.NA, math.OC | Transferable Foundation Models for Geometric Tasks on Point Cloud Representations: Geometric Neural Operators はコメントを受け付けていません