SETA: Semantic-Aware Token Augmentation for Domain Generalization

要約

ドメイン一般化 (DG) は、ターゲット ドメインにアクセスせずに、ドメイン シフトに対するモデルの堅牢性を強化することを目的としています。
DG の一般的なカテゴリの手法はデータ拡張です。これは、ドメイン シフトをシミュレートする仮想サンプルを生成することに重点を置いています。
ただし、DG の既存の拡張技術は主に畳み込みニューラル ネットワーク (CNN) 向けに調整されており、トークンベースのアーキテクチャ、つまりビジョン トランスフォーマー (ViT) や多層パーセプトロン (MLP) モデルでの探索は限られています。
この論文では、従来の CNN ベースの拡張手法がトークンベースのモデルに及ぼす影響を研究し、全体的な形状情報をモデルに学習させるインセンティブが欠如しているため、そのパフォーマンスが次善であることを明らかにしました。
この問題に取り組むために、SEmantic-aware Token Augmentation (SETA) 手法を提案します。
SETA は、グローバルな形状特徴を維持しながら、ローカル エッジ キューを摂動させることによってトークン フィーチャを変換し、それによって形状情報のモデル学習を強化します。
モデルの汎化能力をさらに強化するために、DG の 2 つの最先端のスタイル拡張メソッドと組み合わせた、私たちのメソッドの 2 つの様式化されたバリアントを導入します。
私たちは、私たちの方法に対する理論的な洞察を提供し、一般化のリスク限界を軽減する際のその有効性を実証します。
5 つのベンチマークに関する包括的な実験により、私たちの手法がさまざまな ViT および MLP アーキテクチャにわたって SOTA パフォーマンスを達成できることが証明されました。
私たちのコードは https://github.com/lingeringlight/SETA で入手できます。

要約(オリジナル)

Domain generalization (DG) aims to enhance the model robustness against domain shifts without accessing target domains. A prevalent category of methods for DG is data augmentation, which focuses on generating virtual samples to simulate domain shifts. However, existing augmentation techniques in DG are mainly tailored for convolutional neural networks (CNNs), with limited exploration in token-based architectures, i.e., vision transformer (ViT) and multi-layer perceptrons (MLP) models. In this paper, we study the impact of prior CNN-based augmentation methods on token-based models, revealing their performance is suboptimal due to the lack of incentivizing the model to learn holistic shape information. To tackle the issue, we propose the SEmantic-aware Token Augmentation (SETA) method. SETA transforms token features by perturbing local edge cues while preserving global shape features, thereby enhancing the model learning of shape information. To further enhance the generalization ability of the model, we introduce two stylized variants of our method combined with two state-of-the-art style augmentation methods in DG. We provide a theoretical insight into our method, demonstrating its effectiveness in reducing the generalization risk bound. Comprehensive experiments on five benchmarks prove that our method achieves SOTA performances across various ViT and MLP architectures. Our code is available at https://github.com/lingeringlight/SETA.

arxiv情報

著者 Jintao Guo,Lei Qi,Yinghuan Shi,Yang Gao
発行日 2024-10-21 14:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SETA: Semantic-Aware Token Augmentation for Domain Generalization はコメントを受け付けていません

Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation

要約

小さなサンプル インスタンスのセグメンテーションは非常に困難なタスクであり、既存のメソッドの多くは、サポート セットでモデルを事前トレーニングし、クエリ セットで微調整するメタ学習のトレーニング戦略に従っています。
タスクとの関連性が高い事前トレーニング段階では、有効性を確保するためにかなりの追加トレーニング時間と、近接したデータセットの選択が必要です。
この記事では、アノテーションの負担やトレーニングのコストを増加させることなく、既存の情報を最大限に活用するという観点から、新しい小規模サンプル インスタンスのセグメンテーション ソリューションを提案しています。
提案された方法は、小さなサンプル インスタンスのセグメンテーションで発生する問題に対処する 2 つのモジュールを設計します。
まず、モデルが擬似ラベルの生成を学習し、利用可能なサンプルの数を増やすことで、ラベルのないデータを最大限に活用できるようになります。
次に、テキストと画像の特徴を統合することで、より正確な分類結果を得ることができます。
これら 2 つのモジュールは、ボックスフリー フレームワークとボックス依存フレームワークに適しています。
このように、提案された方法は、小さなサンプルインスタンスのセグメンテーションのパフォーマンスを向上させるだけでなく、事前トレーニングへの依存を大幅に軽減します。
私たちは、陸上、水中、顕微鏡下のさまざまなシーンからの 3 つのデータセットで実験を実施しました。
私たちの実験で証明されたように、統合された画像とテキストは分類の信頼度を修正し、擬似ラベルはモデルがより正確なマスクを取得するのに役立ちます。
すべての結果は、私たちの方法の有効性と優位性を示しています。

要約(オリジナル)

Small sample instance segmentation is a very challenging task, and many existing methods follow the training strategy of meta-learning which pre-train models on support set and fine-tune on query set. The pre-training phase, which is highly task related, requires a significant amount of additional training time and the selection of datasets with close proximity to ensure effectiveness. The article proposes a novel small sample instance segmentation solution from the perspective of maximizing the utilization of existing information without increasing annotation burden and training costs. The proposed method designs two modules to address the problems encountered in small sample instance segmentation. First, it helps the model fully utilize unlabeled data by learning to generate pseudo labels, increasing the number of available samples. Second, by integrating the features of text and image, more accurate classification results can be obtained. These two modules are suitable for box-free and box-dependent frameworks. In the way, the proposed method not only improves the performance of small sample instance segmentation, but also greatly reduce reliance on pre-training. We have conducted experiments in three datasets from different scenes: on land, underwater and under microscope. As evidenced by our experiments, integrated image-text corrects the confidence of classification, and pseudo labels help the model obtain preciser masks. All the results demonstrate the effectiveness and superiority of our method.

arxiv情報

著者 Ruting Chi,Zhiyi Huang,Yuexing Han
発行日 2024-10-21 14:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation はコメントを受け付けていません

Final Report for CHESS: Cloud, High-Performance Computing, and Edge for Science and Security

要約

理論と実験のサイクルを自動化するには、実験室の機器、エッジ センサー、複数の施設のコンピューティング リソース、複数の情報ソースに分散されたデータ セット、および場合によってはクラウドにまたがるコンピューティングの連続体を利用する効果的な分散ワークフローが必要です。
残念ながら、連続プラットフォームを構築し、ワークフロー タスクを調整し、時間をかけてデータセットをキュレーションするための明白な方法では、パフォーマンス、エネルギー、セキュリティ、信頼性に関する科学的要件を達成できません。
さらに、連続体リソースを最大限に活用できるかどうかは、ワークフロー タスクの効率的な構成と実行、つまり数値ソルバー、データ分析、機械学習の組み合わせに依存します。
パシフィック ノースウェスト国立研究所の LDRD「クラウド、ハイパフォーマンス コンピューティング (HPC)、および科学とセキュリティのためのエッジ」(CHESS) は、分散科学ワークフローを実現し、データセットをキュレーションするための一連の相互関連機能を開発しました。
このレポートでは、オープンサイエンスの観点から CHESS の成果と成功について説明します。

要約(オリジナル)

Automating the theory-experiment cycle requires effective distributed workflows that utilize a computing continuum spanning lab instruments, edge sensors, computing resources at multiple facilities, data sets distributed across multiple information sources, and potentially cloud. Unfortunately, the obvious methods for constructing continuum platforms, orchestrating workflow tasks, and curating datasets over time fail to achieve scientific requirements for performance, energy, security, and reliability. Furthermore, achieving the best use of continuum resources depends upon the efficient composition and execution of workflow tasks, i.e., combinations of numerical solvers, data analytics, and machine learning. Pacific Northwest National Laboratory’s LDRD ‘Cloud, High-Performance Computing (HPC), and Edge for Science and Security’ (CHESS) has developed a set of interrelated capabilities for enabling distributed scientific workflows and curating datasets. This report describes the results and successes of CHESS from the perspective of open science.

arxiv情報

著者 Nathan Tallent,Jan Strube,Luanzheng Guo,Hyungro Lee,Jesun Firoz,Sayan Ghosh,Bo Fang,Oceane Bel,Steven Spurgeon,Sarah Akers,Christina Doty,Erol Cromwell
発行日 2024-10-21 15:16:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.2.4, cs.CV, cs.DC, cs.PF, cs.SY, eess.SY | Final Report for CHESS: Cloud, High-Performance Computing, and Edge for Science and Security はコメントを受け付けていません

Pre-processing and Compression: Understanding Hidden Representation Refinement Across Imaging Domains via Intrinsic Dimension

要約

近年、ニューラル ネットワークの隠れた表現の固有次元 (ID) などの幾何学的特性が層を通じてどのように変化するか、またそのような特性が汎化能力などの重要なモデルの動作をどのように予測するかに関心が集まっています。
しかし、そのような動作は、自然画像と医療画像など、ネットワークのトレーニング データの領域に応じて大きく変化する可能性があるという証拠が現れ始めています。
ここでは、ネットワークの学習された表現の ID がその層を通じてどのように変化するかを調査することで、この調査をさらに深めます。これは、本質的に、ネットワークが予測に使用される入力データの情報内容をどのように連続的に洗練するかを特徴付けるものです。
6 つのネットワーク アーキテクチャにわたる 11 の自然画像データセットと医用画像データセットを分析したところ、ネットワークを介して ID がどのように変化するかが自然画像モデルと医用画像モデルの間で顕著に異なることがわかりました。
具体的には、医療画像モデルはネットワークの早い段階で表現 ID のピークに達し、これらのドメインの下流タスクに通常使用される画像特徴とその抽象性の違いを意味します。
さらに、このピーク表現 ID と入力空間内のデータの ID との強い相関関係も発見しました。これは、モデルの学習された表現の固有の情報内容が、トレーニングに使用されたデータの内容によって導かれていることを意味します。
全体として、私たちの調査結果は、隠蔽表現情報コンテンツに関する自然画像ドメインと非自然画像ドメインの間のネットワーク動作の顕著な相違を強調し、ネットワークの学習された特徴がトレーニング データによってどのように形成されるかについてのさらなる洞察を提供します。

要約(オリジナル)

In recent years, there has been interest in how geometric properties such as intrinsic dimension (ID) of a neural network’s hidden representations change through its layers, and how such properties are predictive of important model behavior such as generalization ability. However, evidence has begun to emerge that such behavior can change significantly depending on the domain of the network’s training data, such as natural versus medical images. Here, we further this inquiry by exploring how the ID of a network’s learned representations changes through its layers, in essence, characterizing how the network successively refines the information content of input data to be used for predictions. Analyzing eleven natural and medical image datasets across six network architectures, we find that how ID changes through the network differs noticeably between natural and medical image models. Specifically, medical image models peak in representation ID earlier in the network, implying a difference in the image features and their abstractness that are typically used for downstream tasks in these domains. Additionally, we discover a strong correlation of this peak representation ID with the ID of the data in its input space, implying that the intrinsic information content of a model’s learned representations is guided by that of the data it was trained on. Overall, our findings emphasize notable discrepancies in network behavior between natural and non-natural imaging domains regarding hidden representation information content, and provide further insights into how a network’s learned features are shaped by its training data.

arxiv情報

著者 Nicholas Konz,Maciej A. Mazurowski
発行日 2024-10-21 15:18:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, stat.ML | Pre-processing and Compression: Understanding Hidden Representation Refinement Across Imaging Domains via Intrinsic Dimension はコメントを受け付けていません

LMHaze: Intensity-aware Image Dehazing with a Large-scale Multi-intensity Real Haze Dataset

要約

画像のかすみ除去は、近年大きな注目を集めています。
学習ベースの方法では、通常、トレーニング用にかすんだ画像と対応するグラウンド トゥルース (かすみのない) 画像のペアが必要です。
しかし、現実世界の画像ペアを収集することは困難であり、既存の手法の開発を妨げています。
いくつかの研究では、合成データセットまたは小規模な実際のデータセットを使用することで、この問題を部分的に軽減しています。
既存のデータセットにおけるヘイズ強度分布の偏りおよびシーンの均一性により、特にこれまでに見たことのないヘイズ強度を持つ画像に遭遇した場合、これらの方法の一般化能力が制限されます。
この研究では、大規模で高品質な実世界のデータセットである LMHaze を紹介します。
LMHaze は、屋内および屋外のさまざまな環境で撮影された、霞んだ画像と霞のない画像のペアで構成され、複数のシナリオと霞の強度にまたがります。
これには 5K を超える高解像度画像ペアが含まれており、既存の最大の実世界のかすみ除去データセットのサイズを 25 倍以上上回っています。
一方、異なるヘイズ強度の画像をより適切に処理するために、かすみの強度に応じてモデルパラメータを動的に調整する、かすみ除去用のMamba (MoE-Mamba)に基づく専門家混合モデルを提案します。
さらに、私たちが提案したデータセットを使用して、かすみが除去された画像を評価するために人間の知覚をシミュレートする新しい大規模マルチモーダル モデル (LMM) ベースのベンチマーク研究を実施します。
実験では、LMHaze データセットが実際のシナリオでのかすみ除去パフォーマンスを向上させ、私たちのかすみ除去方法が最先端の方法と比較して優れた結果を提供することを実証しています。

要約(オリジナル)

Image dehazing has drawn a significant attention in recent years. Learning-based methods usually require paired hazy and corresponding ground truth (haze-free) images for training. However, it is difficult to collect real-world image pairs, which prevents developments of existing methods. Although several works partially alleviate this issue by using synthetic datasets or small-scale real datasets. The haze intensity distribution bias and scene homogeneity in existing datasets limit the generalization ability of these methods, particularly when encountering images with previously unseen haze intensities. In this work, we present LMHaze, a large-scale, high-quality real-world dataset. LMHaze comprises paired hazy and haze-free images captured in diverse indoor and outdoor environments, spanning multiple scenarios and haze intensities. It contains over 5K high-resolution image pairs, surpassing the size of the biggest existing real-world dehazing dataset by over 25 times. Meanwhile, to better handle images with different haze intensities, we propose a mixture-of-experts model based on Mamba (MoE-Mamba) for dehazing, which dynamically adjusts the model parameters according to the haze intensity. Moreover, with our proposed dataset, we conduct a new large multimodal model (LMM)-based benchmark study to simulate human perception for evaluating dehazed images. Experiments demonstrate that LMHaze dataset improves the dehazing performance in real scenarios and our dehazing method provides better results compared to state-of-the-art methods.

arxiv情報

著者 Ruikun Zhang,Hao Yang,Yan Yang,Ying Fu,Liyuan Pan
発行日 2024-10-21 15:20:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LMHaze: Intensity-aware Image Dehazing with a Large-scale Multi-intensity Real Haze Dataset はコメントを受け付けていません

Increasing Interpretability of Neural Networks By Approximating Human Visual Saliency

要約

モデルが画像内のどこに焦点を当てているかを具体的に理解することは、意思決定プロセスを人間が解釈できるようにするために重要です。
深層学習ベースのソリューションは、トレーニング データセットで偶然の相関関係を学習する傾向があり、過剰適合が発生して説明可能性が低下します。
最近の進歩により、個々の画像内で人間が定義した顕著な領域にモデルを誘導すると、パフォーマンスと解釈可能性が大幅に向上することがわかりました。
また、人間によるガイド付きモデルは、データセットの特徴の偶然の一致が回避されるため、より優れた一般化機能も発揮します。
結果は、顕著性を組み込んでトレーニングしたモデルは、顕著性情報なしでトレーニングしたモデルと比較して解釈可能性が最大 30% 向上することを示しています。
ただし、この顕著性情報の収集には費用と労力がかかり、場合によっては実行不可能です。
この制限に対処するために、人間の顕著性による解釈可能性とパフォーマンスの向上を維持しながら、必要な人間の注釈データを 80% 削減する、顕著性の組み込みとアクティブ ラーニングの組み合わせ戦略を提案します。
広範な実験により、5 つの公開データセットと 6 つのアクティブ ラーニング基準にわたって、提案されたアプローチの有効性が概説されています。

要約(オリジナル)

Understanding specifically where a model focuses on within an image is critical for human interpretability of the decision-making process. Deep learning-based solutions are prone to learning coincidental correlations in training datasets, causing over-fitting and reducing the explainability. Recent advances have shown that guiding models to human-defined regions of saliency within individual images significantly increases performance and interpretability. Human-guided models also exhibit greater generalization capabilities, as coincidental dataset features are avoided. Results show that models trained with saliency incorporation display an increase in interpretability of up to 30% over models trained without saliency information. The collection of this saliency information, however, can be costly, laborious and in some cases infeasible. To address this limitation, we propose a combination strategy of saliency incorporation and active learning to reduce the human annotation data required by 80% while maintaining the interpretability and performance increase from human saliency. Extensive experimentation outlines the effectiveness of the proposed approach across five public datasets and six active learning criteria.

arxiv情報

著者 Aidan Boyd,Mohamed Trabelsi,Huseyin Uzunalioglu,Dan Kushnir
発行日 2024-10-21 15:42:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Increasing Interpretability of Neural Networks By Approximating Human Visual Saliency はコメントを受け付けていません

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

要約

マルチモーダル基礎モデルの最近の進歩により、視覚言語の理解に大きな進歩がもたらされました。
初期の試みでは、ビジュアル コンテンツ生成のためのマルチモーダル大規模言語モデル (MLLM) の可能性も調査されました。
しかし、既存の研究では、テキストから画像への生成に必要な多様性から、画像操作に必要な正確な制御性まで、統一された MLLM パラダイム内のさまざまな画像生成タスクのさまざまな粒度の要求に十分に対応できていません。
この取り組みでは、Multi-grAnular ビジュアル生成を使用して Unified MLLM を強化する PUMA を提案します。
PUMA は、MLLM の入力と出力の両方としてマルチ粒度のビジュアル機能を統合し、統合された MLLM フレームワーク内でさまざまな画像生成タスクのさまざまな粒度要件にエレガントに対応します。
マルチモーダルな事前トレーニングとタスク固有の命令調整の後、PUMA は幅広いマルチモーダルなタスクの習熟度を実証します。
この取り組みは、さまざまな視覚タスクの粒度要求に適応できる真に統合された MLLM に向けた重要な一歩を表しています。
コードとモデルは https://github.com/rongyaofang/PUMA で公開されます。

要約(オリジナル)

Recent advancements in multimodal foundation models have yielded significant progress in vision-language understanding. Initial attempts have also explored the potential of multimodal large language models (MLLMs) for visual content generation. However, existing works have insufficiently addressed the varying granularity demands of different image generation tasks within a unified MLLM paradigm – from the diversity required in text-to-image generation to the precise controllability needed in image manipulation. In this work, we propose PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifies multi-granular visual features as both inputs and outputs of MLLMs, elegantly addressing the different granularity requirements of various image generation tasks within a unified MLLM framework. Following multimodal pretraining and task-specific instruction tuning, PUMA demonstrates proficiency in a wide range of multimodal tasks. This work represents a significant step towards a truly unified MLLM capable of adapting to the granularity demands of various visual tasks. The code and model will be released in https://github.com/rongyaofang/PUMA.

arxiv情報

著者 Rongyao Fang,Chengqi Duan,Kun Wang,Hao Li,Hao Tian,Xingyu Zeng,Rui Zhao,Jifeng Dai,Hongsheng Li,Xihui Liu
発行日 2024-10-21 15:42:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PUMA: Empowering Unified MLLM with Multi-granular Visual Generation はコメントを受け付けていません

Multimodal Flare Forecasting with Deep Learning

要約

太陽フレアの予測は、主に光球磁力線とそれに関連する物理的特徴に基づいて今後のフレアを予測します。
しかし、フレア開始メカニズムは彩層やコロナ下部で発生することが多いと考えられています。
この研究では、純粋なデータ駆動型のアプローチとして深層学習を採用し、さまざまな波長にわたる彩層およびコロナの UV および EUV 放射の予測能力を、光球の見通し線磁力図の予測能力と比較します。
私たちの調査結果は、個々の EUV 波長が、見通し線磁力図と同等かそれ以上の識別力を提供できることを示しています。
さらに、単一入力モデルよりも常に優れたパフォーマンスを発揮する単純なマルチモーダル ニューラル ネットワーク アーキテクチャを特定し、太陽大気の異なる層から抽出できるフレア前駆体間の相補性を示します。
アクティブ領域フレア カタログの既知の誤った分布による潜在的なバイアスを軽減するために、モデルはフルディスク イメージとフルディスク レベルの包括的なフレア イベント カタログを使用してトレーニングおよび評価されます。
フルディスクビデオから時間的特徴を抽出するのに適したディープラーニングアーキテクチャを紹介します。

要約(オリジナル)

Solar flare forecasting mainly relies on photospheric magnetograms and associated physical features to predict forthcoming flares. However, it is believed that flare initiation mechanisms often originate in the chromosphere and the lower corona. In this study, we employ deep learning as a purely data-driven approach to compare the predictive capabilities of chromospheric and coronal UV and EUV emissions across different wavelengths with those of photospheric line-of-sight magnetograms. Our findings indicate that individual EUV wavelengths can provide discriminatory power comparable or better to that of line-of-sight magnetograms. Moreover, we identify simple multimodal neural network architectures that consistently outperform single-input models, showing complementarity between the flare precursors that can be extracted from the distinct layers of the solar atmosphere. To mitigate potential biases from known misattributions in Active Region flare catalogs, our models are trained and evaluated using full-disk images and a comprehensive flare event catalog at the full-disk level. We introduce a deep-learning architecture suited for extracting temporal features from full-disk videos.

arxiv情報

著者 Grégoire Francisco,Sabrina Guastavino,Teresa Barata,João Fernandes,Dario Del Moro
発行日 2024-10-21 15:42:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, astro-ph.SR, cs.AI, cs.CV | Multimodal Flare Forecasting with Deep Learning はコメントを受け付けていません

CoTCoNet: An Optimized Coupled Transformer-Convolutional Network with an Adaptive Graph Reconstruction for Leukemia Detection

要約

迅速かつ正確な血液塗抹標本分析は、白血病やその他の血液悪性腫瘍の効果的な診断方法です。
ただし、手動による白血球数の計測と顕微鏡を使用した形態学的評価は時間がかかり、エラーが発生しやすくなります。
また、従来の画像処理方法では、悪性細胞と良性細胞の形態の視覚的類似性により、細胞の識別に限界がありました。
この制限は、信頼できる適切な特徴の抽出を妨げる歪んだトレーニング データによってさらに悪化します。
これらの課題に対応して、我々は、白血病の分類に最適化された結合変圧器畳み込みネットワーク (CoTCoNet) フレームワークを提案します。このフレームワークは、深い畳み込みネットワークと統合された適切に設計された変換器を採用して、包括的なグローバルな特徴とスケーラブルな空間パターンを効果的にキャプチャし、
複雑かつ大規模な血液学的特徴の特定。
さらに、このフレームワークには、白血球細胞の隠された、または観察されにくい生物学的特徴を明らかにするためのグラフベースの特徴再構成モジュールが組み込まれており、特徴の選択と最適化には集団ベースのメタヒューリスティック アルゴリズムが採用されています。
データの不均衡の問題を軽減するために、合成白血球ジェネレーターを採用しています。
評価フェーズでは、最初に 16,982 個の注釈付きセルを含むデータセットで CoTCoNet を評価し、それぞれ 0.9894 および 0.9893 という顕著な精度と F1 スコア率を達成しました。
モデルの一般化可能性を広げるために、前述のデータセットを含む、公開されている 4 つの多様なデータセットにわたってモデルを評価します。
この評価は、私たちの方法が現在の最先端のアプローチよりも優れていることを示しています。
また、フレームワークのより深い理解を提供するために、セルの注釈と密接に連携した機能の視覚化の形で説明可能性のアプローチも組み込んでいます。

要約(オリジナル)

Swift and accurate blood smear analysis is an effective diagnostic method for leukemia and other hematological malignancies. However, manual leukocyte count and morphological evaluation using a microscope is time-consuming and prone to errors. Conventional image processing methods also exhibit limitations in differentiating cells due to the visual similarity between malignant and benign cell morphology. This limitation is further compounded by the skewed training data that hinders the extraction of reliable and pertinent features. In response to these challenges, we propose an optimized Coupled Transformer Convolutional Network (CoTCoNet) framework for the classification of leukemia, which employs a well-designed transformer integrated with a deep convolutional network to effectively capture comprehensive global features and scalable spatial patterns, enabling the identification of complex and large-scale hematological features. Further, the framework incorporates a graph-based feature reconstruction module to reveal the hidden or unobserved hard-to-see biological features of leukocyte cells and employs a Population-based Meta-Heuristic Algorithm for feature selection and optimization. To mitigate data imbalance issues, we employ a synthetic leukocyte generator. In the evaluation phase, we initially assess CoTCoNet on a dataset containing 16,982 annotated cells, and it achieves remarkable accuracy and F1-Score rates of 0.9894 and 0.9893, respectively. To broaden the generalizability of our model, we evaluate it across four publicly available diverse datasets, which include the aforementioned dataset. This evaluation demonstrates that our method outperforms current state-of-the-art approaches. We also incorporate an explainability approach in the form of feature visualization closely aligned with cell annotations to provide a deeper understanding of the framework.

arxiv情報

著者 Chandravardhan Singh Raghaw,Arnav Sharma,Shubhi Bansal,Mohammad Zia Ur Rehman,Nagendra Kumar
発行日 2024-10-21 15:45:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoTCoNet: An Optimized Coupled Transformer-Convolutional Network with an Adaptive Graph Reconstruction for Leukemia Detection はコメントを受け付けていません

Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition

要約

デモンストレーション収集に遠隔操作システムを採用することで、より効率的にロボット操作を学習できる可能性があります。
しかし、器用なハンドやグリッパーを備えたロボットアームを遠隔操作システムを介して遠隔操作するには、タスクの高次元性、動作の複雑さ、生理学的構造の違いにより固有の課題が生じます。
この研究では、人間のオペレーターとロボットの間の共同学習のための新しいシステムを紹介します。これにより、人間のオペレーターがロボットのエンドエフェクターの制御を学習済みの支援エージェントと共有できるようになり、データ収集プロセスが簡素化され、人間によるデモンストレーションとデータの同時収集が容易になります。
ロボット操作訓練。
データが蓄積されるにつれて、支援エージェントは徐々に学習します。
その結果、必要な人間の労力と注意が減り、データ収集プロセスの効率が向上します。
また、人間のオペレーターが制御比率を調整して、手動制御と自動制御の間のトレードオフを達成することもできます。
私たちは、シミュレートされた環境と物理的な現実世界の設定の両方で実験を実施しました。
ユーザー調査と定量的評価を通じて、提案されたシステムがデータ収集効率を向上させ、人間による適応の必要性を軽減しながら、収集されたデータが下流のタスクに十分な品質であることを保証できることは明らかです。
\textit{詳細については、Web ページ https://norweig1an.github.io/HAJL.github.io/ を参照してください。

要約(オリジナル)

Employing a teleoperation system for gathering demonstrations offers the potential for more efficient learning of robot manipulation. However, teleoperating a robot arm equipped with a dexterous hand or gripper, via a teleoperation system presents inherent challenges due to the task’s high dimensionality, complexity of motion, and differences between physiological structures. In this study, we introduce a novel system for joint learning between human operators and robots, that enables human operators to share control of a robot end-effector with a learned assistive agent, simplifies the data collection process, and facilitates simultaneous human demonstration collection and robot manipulation training. As data accumulates, the assistive agent gradually learns. Consequently, less human effort and attention are required, enhancing the efficiency of the data collection process. It also allows the human operator to adjust the control ratio to achieve a trade-off between manual and automated control. We conducted experiments in both simulated environments and physical real-world settings. Through user studies and quantitative evaluations, it is evident that the proposed system could enhance data collection efficiency and reduce the need for human adaptation while ensuring the collected data is of sufficient quality for downstream tasks. \textit{For more details, please refer to our webpage https://norweig1an.github.io/HAJL.github.io/.

arxiv情報

著者 Shengcheng Luo,Quanquan Peng,Jun Lv,Kaiwen Hong,Katherine Rose Driggs-Campbell,Cewu Lu,Yong-Lu Li
発行日 2024-10-21 15:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.RO | Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition はコメントを受け付けていません