Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels

要約

制約されていない現実世界環境での正確な3D視線推定は、外観、ヘッドポーズ、閉塞、および野生の3D視線データセットの限られた利用可能性の変動により、依然として重要な課題です。
これらの課題に対処するために、私たちは、新規自己訓練の弱く監視された視線推定フレームワーク(ST-WSGE)を紹介します。
この2段階の学習フレームワークは、外観、自然シーン、視線分布の豊富なバリエーションを提供し、3D擬似ラベルを生成し、モデルの一般化を強化するためのアプローチを提案する、視線後のデータなど、多様な2D視線データセットを活用します。
さらに、画像やビデオ用に個別に設計された従来のモダリティ固有のモデルは、利用可能なトレーニングデータの効果的な使用を制限します。
これを克服するために、画像データセットとビデオデータセットの両方から静的および動的な視線情報を同時に学習できるモダリティと動的なアーキテクチャである視線変圧器(GAT)を提案します。
3Dビデオデータセットとタスクに続く視線からの2D Gazeターゲットラベルを組み合わせることにより、私たちのアプローチは、次の重要な貢献を達成します。(i)Gaze360やGFIEなどの制約のないベンチマークのドメイン内およびクロスドメインの一般化の重要な改善、ビデオ視線の推定における顕著なマダルのゲインを備えています。
(ii)正面の顔方法と比較して、MpiifacegazeやGaze360などのデータセットでの優れたクロスドメイン性能。
コードと事前に訓練されたモデルがコミュニティにリリースされます。

要約(オリジナル)

Accurate 3D gaze estimation in unconstrained real-world environments remains a significant challenge due to variations in appearance, head pose, occlusion, and the limited availability of in-the-wild 3D gaze datasets. To address these challenges, we introduce a novel Self-Training Weakly-Supervised Gaze Estimation framework (ST-WSGE). This two-stage learning framework leverages diverse 2D gaze datasets, such as gaze-following data, which offer rich variations in appearances, natural scenes, and gaze distributions, and proposes an approach to generate 3D pseudo-labels and enhance model generalization. Furthermore, traditional modality-specific models, designed separately for images or videos, limit the effective use of available training data. To overcome this, we propose the Gaze Transformer (GaT), a modality-agnostic architecture capable of simultaneously learning static and dynamic gaze information from both image and video datasets. By combining 3D video datasets with 2D gaze target labels from gaze following tasks, our approach achieves the following key contributions: (i) Significant state-of-the-art improvements in within-domain and cross-domain generalization on unconstrained benchmarks like Gaze360 and GFIE, with notable cross-modal gains in video gaze estimation; (ii) Superior cross-domain performance on datasets such as MPIIFaceGaze and Gaze360 compared to frontal face methods. Code and pre-trained models will be released to the community.

arxiv情報

著者 Pierre Vuillecard,Jean-Marc Odobez
発行日 2025-02-27 16:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing 3D Gaze Estimation in the Wild using Weak Supervision with Gaze Following Labels はコメントを受け付けていません

Deep Modeling of Non-Gaussian Aleatoric Uncertainty

要約

ディープラーニングは、特に不確実性分布が固定およびガウスの伝統的な仮定に適合しない場合、ロボット状態推定システムのアレアトリックの不確実性を正確にモデル化するための有望な新しい方法を提供します。
この研究では、条件付き確率密度モデリングのための3つの基本的な深い学習アプローチを策定および評価して、非ガウスのアレアティックの不確実性を定量化します:パラメトリック、離散化、および生成モデリング。
シミュレートされた非ガウス密度と、現実世界の地形関連ナビゲーションデータに関するこれら3つの方法のそれぞれの長所と短所を体系的に比較します。
私たちの結果は、これらの深い学習方法が複雑な不確実性パターンを正確にキャプチャできることを示しており、推定システムの信頼性と堅牢性を改善する可能性を強調しています。

要約(オリジナル)

Deep learning offers promising new ways to accurately model aleatoric uncertainty in robotic state estimation systems, particularly when the uncertainty distributions do not conform to traditional assumptions of being fixed and Gaussian. In this study, we formulate and evaluate three fundamental deep learning approaches for conditional probability density modeling to quantify non-Gaussian aleatoric uncertainty: parametric, discretized, and generative modeling. We systematically compare the respective strengths and weaknesses of these three methods on simulated non-Gaussian densities as well as on real-world terrain-relative navigation data. Our results show that these deep learning methods can accurately capture complex uncertainty patterns, highlighting their potential for improving the reliability and robustness of estimation systems.

arxiv情報

著者 Aastha Acharya,Caleb Lee,Marissa D’Alonzo,Jared Shamwell,Nisar R. Ahmed,Rebecca Russell
発行日 2025-02-27 16:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Deep Modeling of Non-Gaussian Aleatoric Uncertainty はコメントを受け付けていません

Do computer vision foundation models learn the low-level characteristics of the human visual system?

要約

DinoやOpenClipなどのコンピュータービジョンファンデーションモデルは、大規模な画像データセットで自立した方法で訓練されています。
同様に、実質的な証拠は、人間の視覚システム(HVS)が自然界の色とパターンの統計的分布の影響を受けていることを示唆しています。特性は、基礎モデルのトレーニングデータにも存在します。
このホワイトペーパーで取り上げる質問は、自然画像で訓練された基礎モデルが、コントラスト検出、コントラストマスキング、コントラストの恒常性など、人間の視覚システムの低レベルの特性のいくつかを模倣するかどうかです。
具体的には、45の基礎モデルと生成モデルの画像エンコーダーを評価するために、9つのテストタイプを含むプロトコルを設計しました。
我々の結果は、一部の基礎モデル(たとえば、Dino、Dinov2、OpenClip)が人間の視覚の特徴の一部を共有していることを示していますが、他のモデルはほとんど類似性を示していません。
基礎モデルは、周波数全体でコントラストが低く、コントラストに対するかなり不規則な応答に対する感度が小さくなる傾向があります。
基礎モデルは、コントラストマスキングの観点から人間のデータとの最良の一致を示しています。
私たちの調査結果は、現実世界のイメージを解釈することを学ぶとき、人間のビジョンとコンピュータービジョンが類似のパスと異なるパスの両方をとる可能性があることを示唆しています。
全体として、違いが残っていますが、視力タスクで訓練された基礎モデルは、低レベルの人間の視力と一致し始め、Dinov2は最も類似しています。

要約(オリジナル)

Computer vision foundation models, such as DINO or OpenCLIP, are trained in a self-supervised manner on large image datasets. Analogously, substantial evidence suggests that the human visual system (HVS) is influenced by the statistical distribution of colors and patterns in the natural world, characteristics also present in the training data of foundation models. The question we address in this paper is whether foundation models trained on natural images mimic some of the low-level characteristics of the human visual system, such as contrast detection, contrast masking, and contrast constancy. Specifically, we designed a protocol comprising nine test types to evaluate the image encoders of 45 foundation and generative models. Our results indicate that some foundation models (e.g., DINO, DINOv2, and OpenCLIP), share some of the characteristics of human vision, but other models show little resemblance. Foundation models tend to show smaller sensitivity to low contrast and rather irregular responses to contrast across frequencies. The foundation models show the best agreement with human data in terms of contrast masking. Our findings suggest that human vision and computer vision may take both similar and different paths when learning to interpret images of the real world. Overall, while differences remain, foundation models trained on vision tasks start to align with low-level human vision, with DINOv2 showing the closest resemblance.

arxiv情報

著者 Yancheng Cai,Fei Yin,Dounia Hammou,Rafal Mantiuk
発行日 2025-02-27 16:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Do computer vision foundation models learn the low-level characteristics of the human visual system? はコメントを受け付けていません

Vector-Quantized Vision Foundation Models for Object-Centric Learning

要約

視覚的なシーンをオブジェクトに分解すると、人間がそうであるように、オブジェクトの関係とダイナミクスのモデリングを容易にします。
オブジェクト中心の学習(OCL)は、画像またはビデオ機能マップを\ textit {slots}として知られるオブジェクトレベルの機能ベクトルに集約することにより、これを達成します。
Slotsからの入力を複雑なテクスチャに伴う入力を再構築することにより、OCLの自己監視があるため、多くの方法がVision Foundationモデル(VFM)を使用して、より良いオブジェクト性の特徴マップを抽出します。
ただし、VFMSを単に特徴抽出器として使用しても、その可能性のロックを完全に解除しません。
OCL(VQ-VFM-OCL、またはVVO)のベクトル定量化されたVFMを提案します。ここでは、VFM機能が抽出され、オブジェクトレベルの情報集計を促進し、さらに量子化して再構築の監督を強化します。
私たちのVVOは、OCLの代​​表者を簡潔なアーキテクチャに統合します。
実験は、VVOがオブジェクトディスカバリータスクの主流の方法よりも優れているだけでなく、視覚的な予測や推論などの下流タスクにも役立つことを示しています。
ソースコードはサプリメントで利用できます。

要約(オリジナル)

Decomposing visual scenes into objects, as humans do, facilitates modeling object relations and dynamics. Object-Centric Learning (OCL) achieves this by aggregating image or video feature maps into object-level feature vectors, known as \textit{slots}. OCL’s self-supervision via reconstructing the input from slots struggles with complex textures, thus many methods employ Vision Foundation Models (VFMs) to extract feature maps with better objectness. However, using VFMs merely as feature extractors does not fully unlock their potential. We propose Vector-Quantized VFMs for OCL (VQ-VFM-OCL, or VVO), where VFM features are extracted to facilitate object-level information aggregation and further quantized to strengthen supervision in reconstruction. Our VVO unifies OCL representatives into a concise architecture. Experiments demonstrate that VVO not only outperforms mainstream methods on object discovery tasks but also benefits downstream tasks like visual prediction and reasoning. The source code is available in the supplement.

arxiv情報

著者 Rongzhen Zhao,Vivienne Wang,Juho Kannala,Joni Pajarinen
発行日 2025-02-27 16:51:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vector-Quantized Vision Foundation Models for Object-Centric Learning はコメントを受け付けていません

HVI: A New color space for Low-light Image Enhancement

要約

Low-light Image Enhancement(LLIE)は、破損した低光度画像から詳細な視覚情報を復元することを目的とする重要なコンピュータービジョンタスクです。
多くの既存のLLIEメソッドは、標準のRGB(SRGB)空間に基づいています。これは、SRGBの固有の高い色感度のために色バイアスと輝度アーティファクトを生成することがよくあります。
色相、飽和と値(HSV)の色空間を使用して画像を変換すると、明るさの問題を解決するのに役立ちますが、かなりの赤と黒のノイズアーティファクトを導入します。
この問題に対処するために、偏光HSマップと学習可能な強度で定義されたLlieの新しい色空間、すなわち水平/垂直強度(HVI)を提案します。
前者は赤い座標のわずかな距離を強制して赤いアーティファクトを除去し、後者は低光領域を圧縮して黒いアーティファクトを除去します。
色と強度の情報を完全に活用するために、HVI空間のさまざまな照明条件下で正確な測光マッピング機能を学習するために、新しい色と強度分離ネットワーク(CIDNET)がさらに導入されます。
ベンチマークとアブレーション実験からの包括的な結果は、CIDNETを備えた提案されたHVIカラー空間が10のデータセットの最先端の方法を上回ることを示しています。
このコードは、https://github.com/fediory/hvi-cidnetで入手できます。

要約(オリジナル)

Low-Light Image Enhancement (LLIE) is a crucial computer vision task that aims to restore detailed visual information from corrupted low-light images. Many existing LLIE methods are based on standard RGB (sRGB) space, which often produce color bias and brightness artifacts due to inherent high color sensitivity in sRGB. While converting the images using Hue, Saturation and Value (HSV) color space helps resolve the brightness issue, it introduces significant red and black noise artifacts. To address this issue, we propose a new color space for LLIE, namely Horizontal/Vertical-Intensity (HVI), defined by polarized HS maps and learnable intensity. The former enforces small distances for red coordinates to remove the red artifacts, while the latter compresses the low-light regions to remove the black artifacts. To fully leverage the chromatic and intensity information, a novel Color and Intensity Decoupling Network (CIDNet) is further introduced to learn accurate photometric mapping function under different lighting conditions in the HVI space. Comprehensive results from benchmark and ablation experiments show that the proposed HVI color space with CIDNet outperforms the state-of-the-art methods on 10 datasets. The code is available at https://github.com/Fediory/HVI-CIDNet.

arxiv情報

著者 Qingsen Yan,Yixu Feng,Cheng Zhang,Guansong Pang,Kangbiao Shi,Peng Wu,Wei Dong,Jinqiu Sun,Yanning Zhang
発行日 2025-02-27 16:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | HVI: A New color space for Low-light Image Enhancement はコメントを受け付けていません

Explainable, Multi-modal Wound Infection Classification from Images Augmented with Generated Captions

要約

糖尿病の足潰瘍(DFU)の感染症は、組織死や四肢切断を含む重度の合併症を引き起こす可能性があり、正確でタイムリーな診断の必要性を強調します。
以前の機械学習方法は、医療ノートなどの追加のメタデータを利用せずに、創傷画像のみを分析することにより、感染を特定することに焦点を合わせてきました。
この研究では、DFU画像を拡張するために合成テキストの説明を活用する新しい深い学習フレームワークである創傷感染検出(ScarWID)の合成キャプション拡張検索を導入することにより、感染の検出を改善することを目指しています。
ScarWidは、2つのコンポーネントで構成されています。(1)創傷ブリップ、GPT-4O生成記述で微調整された視覚言語モデル(VLM)は、画像からの一貫したキャプションを合成します。
(2)分析を使用して、画像とその対応する創傷ブリップキャプションから交差モーダル埋め込みを抽出する画像テキスト融合モジュール。
感染状態は、ラベル付きサポートセットからTop-K同様のアイテムを取得することにより決定されます。
トレーニングデータの多様性を強化するために、潜在的な拡散モデルを利用して追加の創傷画像を生成しました。
その結果、ScarWidは最先端のモデルを上回り、創傷感染分類のためにそれぞれ0.85、0.78、および0.81の平均感度、特異性、および精度を達成しました。
創造されたキャプションを創傷画像と感染の検出結果に沿って表示すると、解釈可能性と信頼が向上し、看護師がスカーウィッドアウトプットを医学知識に合わせることができます。
これは、創傷ノートが利用できない場合、または創傷感染の視覚的属性を特定するのが難しいと感じる初心者の看護師を支援する場合、特に価値があります。

要約(オリジナル)

Infections in Diabetic Foot Ulcers (DFUs) can cause severe complications, including tissue death and limb amputation, highlighting the need for accurate, timely diagnosis. Previous machine learning methods have focused on identifying infections by analyzing wound images alone, without utilizing additional metadata such as medical notes. In this study, we aim to improve infection detection by introducing Synthetic Caption Augmented Retrieval for Wound Infection Detection (SCARWID), a novel deep learning framework that leverages synthetic textual descriptions to augment DFU images. SCARWID consists of two components: (1) Wound-BLIP, a Vision-Language Model (VLM) fine-tuned on GPT-4o-generated descriptions to synthesize consistent captions from images; and (2) an Image-Text Fusion module that uses cross-attention to extract cross-modal embeddings from an image and its corresponding Wound-BLIP caption. Infection status is determined by retrieving the top-k similar items from a labeled support set. To enhance the diversity of training data, we utilized a latent diffusion model to generate additional wound images. As a result, SCARWID outperformed state-of-the-art models, achieving average sensitivity, specificity, and accuracy of 0.85, 0.78, and 0.81, respectively, for wound infection classification. Displaying the generated captions alongside the wound images and infection detection results enhances interpretability and trust, enabling nurses to align SCARWID outputs with their medical knowledge. This is particularly valuable when wound notes are unavailable or when assisting novice nurses who may find it difficult to identify visual attributes of wound infection.

arxiv情報

著者 Palawat Busaranuvong,Emmanuel Agu,Reza Saadati Fard,Deepak Kumar,Shefalika Gautam,Bengisu Tulu,Diane Strong
発行日 2025-02-27 17:04:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Explainable, Multi-modal Wound Infection Classification from Images Augmented with Generated Captions はコメントを受け付けていません

Visual Adaptive Prompting for Compositional Zero-Shot Learning

要約

Vision-Language Models(VLMS)は、視覚データとテキストデータの共同表現を学習する際に印象的な機能を実証しており、構成ゼロショット学習(CZSL)などのタスクの強力なツールにしています。
CZSLでは、モデルが属性やオブジェクトなどの視覚プリミティブの新しい組み合わせに一般化する必要があります。これは、トレーニング中に明示的に遭遇しませんでした。
CZSLのプロンプトの最近の作品は、テキストエンコーダーの入力の変更に焦点を当てており、多くの場合、さまざまな視覚的コンテキストで変化しない静的プロンプトを使用しています。
ただし、これらのアプローチは、構成の推論のために視覚的特徴を活用するのではなく、テキストの適応に焦点を当てているため、さまざまな視覚的コンテキストを完全にキャプチャするのに苦労しています。
これに対処するために、VLMSのフレームワーク内で学習可能な視覚的なプロンプトリポジトリと類似性ベースの検索メカニズムをレバレッジして、セマンティック機能と視覚的特徴の間のギャップを埋めることを提案します。
この方法では、画像の視覚的特徴に基づいて最も関連性の高い属性とオブジェクトプロンプトを選択する動的な視覚的なプロンプトリポジトリメカニズムを紹介します。
提案されたシステムには、モデルがより一般化可能な埋め込みスペースを学習することを奨励する視覚的なプロンプトアダプターが含まれています。
閉じたシナリオとオープンワールドの両方のシナリオにわたる3つのCZSLベンチマークでの実験は、最先端の結果を示しています。

要約(オリジナル)

Vision-Language Models (VLMs) have demonstrated impressive capabilities in learning joint representations of visual and textual data, making them powerful tools for tasks such as Compositional Zero-Shot Learning (CZSL). CZSL requires models to generalize to novel combinations of visual primitives-such as attributes and objects-that were not explicitly encountered during training. Recent works in prompting for CZSL have focused on modifying inputs for the text encoder, often using static prompts that do not change across varying visual contexts. However, these approaches struggle to fully capture varying visual contexts, as they focus on text adaptation rather than leveraging visual features for compositional reasoning. To address this, we propose Visual Adaptive Prompting System (VAPS) that leverages a learnable visual prompt repository and similarity-based retrieval mechanism within the framework of VLMs to bridge the gap between semantic and visual features. Our method introduces a dynamic visual prompt repository mechanism that selects the most relevant attribute and object prompts based on the visual features of the image. Our proposed system includes a visual prompt adapter that encourages the model to learn a more generalizable embedding space. Experiments on three CZSL benchmarks, across both closed and open-world scenarios, demonstrate state-of-the-art results.

arxiv情報

著者 Kyle Stein,Arash Mahyari,Guillermo Francia,Eman El-Sheikh
発行日 2025-02-27 17:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Visual Adaptive Prompting for Compositional Zero-Shot Learning はコメントを受け付けていません

Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription

要約

手書きのテキスト認識(HTR)は、特にページが共通のフォーマットとコンテキスト機能を共有するマルチページドキュメントでは、依然として困難なタスクです。
最新の光学文字認識(OCR)エンジンは印刷されたテキストに熟練していますが、手書きのパフォーマンスは限られており、多くの場合、微調整には費用のかかるラベル付きデータが必要です。
このホワイトペーパーでは、ゼロショット設定でマルチページの手書きドキュメントを転写するためのマルチモーダル大手言語モデル(MLLM)の使用を調べます。
コマーシャルOCRエンジンとMLLMのさまざまな構成を調査し、後者をエンドツーエンドの転写者として、および画像コンポーネントの有無にかかわらず、郵便局の両方として利用します。
ドキュメント全体のOCR出力と最初のページ画像のみを提供することにより、MLLM転写を強化する新しい方法「+First Page」を提案します。
このアプローチは、すべての画像を処理するコストがかかることなく、共有されたドキュメント機能を活用します。
IAM手書きデータベースのマルチページバージョンでの実験は、「+ファーストページ」が転写の精度を改善し、コストとパフォーマンスのバランスを改善し、1つのページからのフォーマットとOCRエラーパターンを推定することにより、サンプル外のテキストの結果を強化することを示しています。

要約(オリジナル)

Handwritten text recognition (HTR) remains a challenging task, particularly for multi-page documents where pages share common formatting and contextual features. While modern optical character recognition (OCR) engines are proficient with printed text, their performance on handwriting is limited, often requiring costly labeled data for fine-tuning. In this paper, we explore the use of multi-modal large language models (MLLMs) for transcribing multi-page handwritten documents in a zero-shot setting. We investigate various configurations of commercial OCR engines and MLLMs, utilizing the latter both as end-to-end transcribers and as post-processors, with and without image components. We propose a novel method, ‘+first page’, which enhances MLLM transcription by providing the OCR output of the entire document along with just the first page image. This approach leverages shared document features without incurring the high cost of processing all images. Experiments on a multi-page version of the IAM Handwriting Database demonstrate that ‘+first page’ improves transcription accuracy, balances cost with performance, and even enhances results on out-of-sample text by extrapolating formatting and OCR error patterns from a single page.

arxiv情報

著者 Benjamin Gutteridge,Matthew Thomas Jackson,Toni Kukurin,Xiaowen Dong
発行日 2025-02-27 17:21:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Judge a Book by its Cover: Investigating Multi-Modal LLMs for Multi-Page Handwritten Document Transcription はコメントを受け付けていません

A Dataset and Framework for Learning State-invariant Object Representations

要約

認識と検索のためにオブジェクト表現を学習するために、より一般的に使用される他のinvarianceにもう1つの不変性を追加します。
状態の不変性とは、傘が折りたたまれたとき、または床に衣服のアイテムが投げられたときなど、オブジェクトの構造形式の変化に関して堅牢性を意味します。
この作業では、任意の視点から記録されたオブジェクト画像の状態をキャプチャし、ポーズバリエーションをキャプチャする新しいデータセットであるObjectSwithStateChangeを提示します。
このデータセットは、状態の変更が可能な3Dオブジェクトの微調整されたオブジェクト認識と取得の研究を促進すると考えています。
そのような研究の目標は、視点、ポーズ、照明などの変化によって誘発される変換に不変の変化にも不変の留まることにも不変の識別オブジェクト埋め込みを学習できるモデルを訓練することです。
これに対処するために、トレーニング段階で学習した埋め込みスペースのオブジェクト間距離が小さいオブジェクトペアを徐々に選択するカリキュラム学習戦略を提案します。
このアプローチは、視覚的に類似したオブジェクトの例を徐々に区切るのが難しく、異なるカテゴリ内とその両方でサンプリングします。
カリキュラム学習が果たす役割に関連する私たちのアブレーションは、オブジェクト認識の精度が7.9%の改善と、新しいデータセットの最先端に対する9.2%の検索マップの改善と、ModelNet40、ObjectPi、FG3Dなどの3つの挑戦的なマルチビューデータセットを示しています。

要約(オリジナル)

We add one more invariance – the state invariance – to the more commonly used other invariances for learning object representations for recognition and retrieval. By state invariance, we mean robust with respect to changes in the structural form of the objects, such as when an umbrella is folded, or when an item of clothing is tossed on the floor. In this work, we present a novel dataset, ObjectsWithStateChange, which captures state and pose variations in the object images recorded from arbitrary viewpoints. We believe that this dataset will facilitate research in fine-grained object recognition and retrieval of 3D objects that are capable of state changes. The goal of such research would be to train models capable of learning discriminative object embeddings that remain invariant to state changes while also staying invariant to transformations induced by changes in viewpoint, pose, illumination, etc. A major challenge in this regard is that instances of different objects (both within and across different categories) under various state changes may share similar visual characteristics and therefore may be close to one another in the learned embedding space, which would make it more difficult to discriminate between them. To address this, we propose a curriculum learning strategy that progressively selects object pairs with smaller inter-object distances in the learned embedding space during the training phase. This approach gradually samples harder-to-distinguish examples of visually similar objects, both within and across different categories. Our ablation related to the role played by curriculum learning indicates an improvement in object recognition accuracy of 7.9% and retrieval mAP of 9.2% over the state-of-the-art on our new dataset, as well as three other challenging multi-view datasets such as ModelNet40, ObjectPI, and FG3D.

arxiv情報

著者 Rohan Sarkar,Avinash Kak
発行日 2025-02-27 17:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.LG | A Dataset and Framework for Learning State-invariant Object Representations はコメントを受け付けていません

M^3Builder: A Multi-Agent System for Automated Machine Learning in Medical Imaging

要約

エージェントAIシステムは、複雑なタスクを自律的に実行する能力について大きな注目を集めています。
ただし、適切に準備されたツールへの依存により、医療ドメインでの適用性が制限されているため、特殊なモデルを訓練する必要があります。
この論文では、3つの貢献をしています。(i)医療画像で機械学習(ML)を自動化するために設計された新しいマルチエージェントシステムであるM3Builderを提示します。
M3Builderは、そのコアで、自動化されたデータ処理と環境構成から自己完結型の自動デバッグとモデルトレーニングまで、複雑でマルチステップの医療MLワークフローに取り組むために協力する4つの専門エージェントを採用しています。
これらのエージェントは、医療イメージングMLワークスペース内で動作します。これは、エージェントにデータセット、トレーニングコード、および相互作用ツールのフリーテキスト説明を提供するように設計された構造化された環境で、シームレスな通信とタスクの実行を可能にします。
(ii)自動化された医療イメージングMLの進捗状況を評価するために、5つの解剖学と3つのイメージングモダリティにわたって、14のトレーニングデータセットの4つの一般的なタスクを含むベンチマークであるM3Benchを提案します。
(iii)Claudeシリーズ、GPT-4o、DeepSeek-V3など、システムのエージェントコアとして機能する7つの最先端の大規模言語モデルを実験します。
既存のMLエージェントデザインと比較して、M3Builderは医療イメージングのMLタスクの完了に優れたパフォーマンスを示し、Claude-3.7-Sonnetをエージェントコアとして使用して94.29%の成功率を達成し、医療イメージングにおける完全に自動化された機械学習に向けた大きな可能性を示しています。

要約(オリジナル)

Agentic AI systems have gained significant attention for their ability to autonomously perform complex tasks. However, their reliance on well-prepared tools limits their applicability in the medical domain, which requires to train specialized models. In this paper, we make three contributions: (i) We present M3Builder, a novel multi-agent system designed to automate machine learning (ML) in medical imaging. At its core, M3Builder employs four specialized agents that collaborate to tackle complex, multi-step medical ML workflows, from automated data processing and environment configuration to self-contained auto debugging and model training. These agents operate within a medical imaging ML workspace, a structured environment designed to provide agents with free-text descriptions of datasets, training codes, and interaction tools, enabling seamless communication and task execution. (ii) To evaluate progress in automated medical imaging ML, we propose M3Bench, a benchmark comprising four general tasks on 14 training datasets, across five anatomies and three imaging modalities, covering both 2D and 3D data. (iii) We experiment with seven state-of-the-art large language models serving as agent cores for our system, such as Claude series, GPT-4o, and DeepSeek-V3. Compared to existing ML agentic designs, M3Builder shows superior performance on completing ML tasks in medical imaging, achieving a 94.29% success rate using Claude-3.7-Sonnet as the agent core, showing huge potential towards fully automated machine learning in medical imaging.

arxiv情報

著者 Jinghao Feng,Qiaoyu Zheng,Chaoyi Wu,Ziheng Zhao,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2025-02-27 17:29:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | M^3Builder: A Multi-Agent System for Automated Machine Learning in Medical Imaging はコメントを受け付けていません