Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications

要約

車両やロボットなどの自律システムでは、人間と機械の安全なインタラクションのために、周囲の物体の将来の位置と動きに関する初期情報を得るために、信頼性が高く、正確で、高速で、リソース効率が高く、スケーラブルで低遅延の軌道予測が必要です。
さらに、安全な経路計画を提供するために、リスク評価の予測の不確実性を知る必要があります。
この論文では、長期短期記憶と混合密度ネットワークを組み合わせて、これらの要件に対処する軽量な方法を紹介します。
私たちの方法は、後続のリスク管理アプリケーションをサポートするために、位置の不確実性の信頼レベル推定を含む確率分布を予測し、低電力組み込みプラットフォーム上で実行されます。
自動運転車アプリケーションにおける人間の軌跡予測の必須要件について議論し、複数の交通関連データセットを使用して手法のパフォーマンスを実証します。
さらに、信頼性と鮮明さのメトリクスについて説明し、モデルの予測と不確実性評価の正確性と堅牢性を保証するためにそれらがいかに重要であるかを示します。
これらの重要な評価は、これまでのところ正当な理由もなくほとんど注目されていません。
私たちのアプローチは、現実世界への適用性に完全に焦点を当てています。
予測の不確実性とモデルの信頼性を検証することは、自律的な現実世界のアプリケーションの中心です。
私たちのフレームワークとコードは、https://github.com/kav-institute/mdn_trajectory_forecasting から入手できます。

要約(オリジナル)

Autonomous systems, like vehicles or robots, require reliable, accurate, fast, resource-efficient, scalable, and low-latency trajectory predictions to get initial knowledge about future locations and movements of surrounding objects for safe human-machine interaction. Furthermore, they need to know the uncertainty of the predictions for risk assessment to provide safe path planning. This paper presents a lightweight method to address these requirements, combining Long Short-Term Memory and Mixture Density Networks. Our method predicts probability distributions, including confidence level estimations for positional uncertainty to support subsequent risk management applications and runs on a low-power embedded platform. We discuss essential requirements for human trajectory prediction in autonomous vehicle applications and demonstrate our method’s performance using multiple traffic-related datasets. Furthermore, we explain reliability and sharpness metrics and show how important they are to guarantee the correctness and robustness of a model’s predictions and uncertainty assessments. These essential evaluations have so far received little attention for no good reason. Our approach focuses entirely on real-world applicability. Verifying prediction uncertainties and a model’s reliability are central to autonomous real-world applications. Our framework and code are available at: https://github.com/kav-institute/mdn_trajectory_forecasting.

arxiv情報

著者 Manuel Hetzel,Hannes Reichert,Konrad Doll,Bernhard Sick
発行日 2024-10-09 14:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Compositional Entailment Learning for Hyperbolic Vision-Language Models

要約

画像とテキストの表現学習は、視覚言語モデルの基礎を形成し、画像とテキストの説明のペアが共有埋め込み空間内で対照的に配置されます。
視覚的概念とテキスト的概念は自然に階層的であるため、最近の研究では、双曲空間が強力な下流パフォーマンスで視覚言語表現を学習するための高い可能性をもつ多様体として機能できることが示されています。
この研究では、個々の画像とテキストのペアを超えて、双曲線埋め込みの固有の階層的性質を完全に活用する方法を初めて示します。
私たちは双曲線視覚言語モデルのための構成的含意学習を提案します。
その考え方は、画像は文によって説明されるだけでなく、それ自体が複数のオブジェクト ボックスの構成であり、それぞれに独自のテキストによる説明が含まれるということです。
このような情報は、文から名詞を抽出し、公開されている局所的グラウンディング モデルを使用することで自由に取得できます。
対比的かつ含意ベースの目的を通じて、画像、画像ボックス、およびそれらのテキスト説明を階層的に整理する方法を示します。
数百万の画像とテキストのペアでトレーニングされた双曲線視覚言語モデルの経験的評価では、提案された構成学習アプローチが従来のユークリッド CLIP 学習や最近の双曲線代替手法よりも優れており、より優れたゼロショットと検索一般化、および明らかに強力な階層パフォーマンスを備えていることが示されています。

要約(オリジナル)

Image-text representation learning forms a cornerstone in vision-language models, where pairs of images and textual descriptions are contrastively aligned in a shared embedding space. Since visual and textual concepts are naturally hierarchical, recent work has shown that hyperbolic space can serve as a high-potential manifold to learn vision-language representation with strong downstream performance. In this work, for the first time we show how to fully leverage the innate hierarchical nature of hyperbolic embeddings by looking beyond individual image-text pairs. We propose Compositional Entailment Learning for hyperbolic vision-language models. The idea is that an image is not only described by a sentence but is itself a composition of multiple object boxes, each with their own textual description. Such information can be obtained freely by extracting nouns from sentences and using openly available localized grounding models. We show how to hierarchically organize images, image boxes, and their textual descriptions through contrastive and entailment-based objectives. Empirical evaluation on a hyperbolic vision-language model trained with millions of image-text pairs shows that the proposed compositional learning approach outperforms conventional Euclidean CLIP learning, as well as recent hyperbolic alternatives, with better zero-shot and retrieval generalization and clearly stronger hierarchical performance.

arxiv情報

著者 Avik Pal,Max van Spengler,Guido Maria D’Amely di Melendugno,Alessandro Flaborea,Fabio Galasso,Pascal Mettes
発行日 2024-10-09 14:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

要約

Visual Language Tracking (VLT) は、ビデオからの自然言語記述を統合することにより、単一オブジェクト トラッキング (SOT) を強化し、指定されたオブジェクトを正確に追跡します。
VLT は、高レベルのセマンティック情報を活用することでオブジェクト追跡をガイドし、視覚的なモダリティへの依存に伴う制約を軽減します。
それにもかかわらず、ほとんどの VLT ベンチマークには単一の粒度で注釈が付けられており、科学的なガイダンスを提供する一貫したセマンティック フレームワークが欠けています。
さらに、高品質のアノテーションを実現するために人間のアノテーターを調整するのは、手間と時間がかかります。
これらの課題に対処するために、環境の多様性を高めるために広範かつ多粒度のテキストを自動的に生成する DTLLM-VLT を導入します。
(1) DTLLM-VLT は、一貫性のあるプロンプト フレームワークを使用して、科学的で多粒度のテキスト記述を生成します。
簡潔で適応性の高い設計により、さまざまな視覚追跡ベンチマークへのシームレスな統合が可能になります。
(2) アプローチを展開するために、短期追跡、長期追跡、およびグローバル インスタンス追跡の 3 つの著名なベンチマークを選択します。
意味情報の範囲と密度を考慮して、これらのベンチマークに対して 4 つの粒度の組み合わせを提供し、DTLLM-VLT の実用性と多用途性を示しています。
(3) 異なるテキスト粒度の VLT ベンチマークで比較実験を行い、多様なテキストが追跡パフォーマンスに与える影響を評価および分析します。
結論として、この研究では LLM を活用して、効率的かつ多様な観点から VLT タスクに多粒度のセマンティック情報を提供し、マルチモーダル トラッカーのきめ細かい評価を可能にします。
将来的には、この作業をより多くのデータセットに拡張して、視覚データセットの理解をサポートできると考えています。

要約(オリジナル)

Visual Language Tracking (VLT) enhances single object tracking (SOT) by integrating natural language descriptions from a video, for the precise tracking of a specified object. By leveraging high-level semantic information, VLT guides object tracking, alleviating the constraints associated with relying on a visual modality. Nevertheless, most VLT benchmarks are annotated in a single granularity and lack a coherent semantic framework to provide scientific guidance. Moreover, coordinating human annotators for high-quality annotations is laborious and time-consuming. To address these challenges, we introduce DTLLM-VLT, which automatically generates extensive and multi-granularity text to enhance environmental diversity. (1) DTLLM-VLT generates scientific and multi-granularity text descriptions using a cohesive prompt framework. Its succinct and highly adaptable design allows seamless integration into various visual tracking benchmarks. (2) We select three prominent benchmarks to deploy our approach: short-term tracking, long-term tracking, and global instance tracking. We offer four granularity combinations for these benchmarks, considering the extent and density of semantic information, thereby showcasing the practicality and versatility of DTLLM-VLT. (3) We conduct comparative experiments on VLT benchmarks with different text granularities, evaluating and analyzing the impact of diverse text on tracking performance. Conclusionally, this work leverages LLM to provide multi-granularity semantic information for VLT task from efficient and diverse perspectives, enabling fine-grained evaluation of multi-modal trackers. In the future, we believe this work can be extended to more datasets to support vision datasets understanding.

arxiv情報

著者 Xuchen Li,Xiaokun Feng,Shiyu Hu,Meiqi Wu,Dailing Zhang,Jing Zhang,Kaiqi Huang
発行日 2024-10-09 14:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

要約

最近の研究では、(生成) 拡散モデルのノイズ除去プロセスにより、モデル内に意味のある (識別的な) 表現が誘導される可能性があることが示されていますが、これらの表現の品質は、最近の自己教師あり学習手法で学習されたものよりもまだ劣っています。
私たちは、生成のために大規模拡散モデルをトレーニングする際の主なボトルネックの 1 つは、これらの表現を効果的に学習することにあると主張します。
さらに、拡散モデルのみに依存して独立して学習するのではなく、高品質の外部視覚表現を組み込むことでトレーニングが容易になります。
私たちは、REPresentation Alignment (REPA) と呼ばれる直接的な正則化を導入することでこれを研究します。これは、ノイズ除去ネットワーク内のノイズの多い入力隠れ状態の投影を、外部の事前学習済みビジュアル エンコーダーから取得したクリーンな画像表現と位置合わせします。
結果は驚くべきものでした。私たちのシンプルな戦略は、DiT や SiT などの一般的な拡散およびフローベースのトランスフォーマーに適用すると、トレーニング効率と生成品質の両方で大幅な改善をもたらしました。
たとえば、私たちの方法では、SiT トレーニングを 17.5 倍以上高速化でき、40 万ステップ未満で 700 万ステップでトレーニングされた SiT-XL モデルのパフォーマンス (分類器なしのガイダンスなし) に匹敵します。
最終生成の品質に関しては、私たちのアプローチは、ガイダンス間隔を使用した分類子なしのガイダンスを使用して、FID=1.42 という最先端の結果を達成しました。

要約(オリジナル)

Recent studies have shown that the denoising process in (generative) diffusion models can induce meaningful (discriminative) representations inside the model, though the quality of these representations still lags behind those learned through recent self-supervised learning methods. We argue that one main bottleneck in training large-scale diffusion models for generation lies in effectively learning these representations. Moreover, training can be made easier by incorporating high-quality external visual representations, rather than relying solely on the diffusion models to learn them independently. We study this by introducing a straightforward regularization called REPresentation Alignment (REPA), which aligns the projections of noisy input hidden states in denoising networks with clean image representations obtained from external, pretrained visual encoders. The results are striking: our simple strategy yields significant improvements in both training efficiency and generation quality when applied to popular diffusion and flow-based transformers, such as DiTs and SiTs. For instance, our method can speed up SiT training by over 17.5$\times$, matching the performance (without classifier-free guidance) of a SiT-XL model trained for 7M steps in less than 400K steps. In terms of final generation quality, our approach achieves state-of-the-art results of FID=1.42 using classifier-free guidance with the guidance interval.

arxiv情報

著者 Sihyun Yu,Sangkyung Kwak,Huiwon Jang,Jongheon Jeong,Jonathan Huang,Jinwoo Shin,Saining Xie
発行日 2024-10-09 14:34:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

ELMO: Enhanced Real-time LiDAR Motion Capture through Upsampling

要約

このペーパーでは、単一の LiDAR センサー用に設計されたリアルタイム アップサンプリング モーション キャプチャ フレームワークである ELMO を紹介します。
条件付き自己回帰トランスフォーマーベースのアップサンプリング モーション ジェネレーターとしてモデル化された ELMO は、20 fps の LiDAR 点群シーケンスから 60 fps のモーション キャプチャを実現します。
ELMO の主な特徴は、セルフ アテンション メカニズムと、モーションおよび点群用に慎重に設計された埋め込みモジュールを組み合わせて、モーションの品質を大幅に向上させることです。
正確なモーション キャプチャを容易にするために、単一フレームの点群からユーザーのスケルトン オフセットを予測できるワンタイム スケルトン キャリブレーション モデルを開発します。
さらに、LiDAR シミュレーターを利用した新しいデータ拡張手法を導入します。これにより、グローバルな根の追跡が強化され、環境への理解が向上します。
私たちの方法の有効性を実証するために、画像ベースと点群ベースの両方のモーション キャプチャにおける最先端の方法と ELMO を比較します。
さらに、設計原則を検証するためにアブレーション研究を実施します。
ELMO は推論時間が速いため、リアルタイム アプリケーションに最適であり、ライブ ストリーミングとインタラクティブ ゲーム シナリオを特集したデモ ビデオで実証されています。
さらに、さまざまな動作を実行する 20 人の異なる被験者で構成される高品質の LiDAR モーションキャプチャ同期データセットを提供します。これは、将来の研究のための貴重なリソースとして役立ちます。
データセットと評価コードは、{\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}} で入手できます。

要約(オリジナル)

This paper introduces ELMO, a real-time upsampling motion capture framework designed for a single LiDAR sensor. Modeled as a conditional autoregressive transformer-based upsampling motion generator, ELMO achieves 60 fps motion capture from a 20 fps LiDAR point cloud sequence. The key feature of ELMO is the coupling of the self-attention mechanism with thoughtfully designed embedding modules for motion and point clouds, significantly elevating the motion quality. To facilitate accurate motion capture, we develop a one-time skeleton calibration model capable of predicting user skeleton offsets from a single-frame point cloud. Additionally, we introduce a novel data augmentation technique utilizing a LiDAR simulator, which enhances global root tracking to improve environmental understanding. To demonstrate the effectiveness of our method, we compare ELMO with state-of-the-art methods in both image-based and point cloud-based motion capture. We further conduct an ablation study to validate our design principles. ELMO’s fast inference time makes it well-suited for real-time applications, exemplified in our demo video featuring live streaming and interactive gaming scenarios. Furthermore, we contribute a high-quality LiDAR-mocap synchronized dataset comprising 20 different subjects performing a range of motions, which can serve as a valuable resource for future research. The dataset and evaluation code are available at {\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}}

arxiv情報

著者 Deok-Kyeong Jang,Dongseok Yang,Deok-Yun Jang,Byeoli Choi,Donghoon Shin,Sung-hee Lee
発行日 2024-10-09 15:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントする

Bridge the Points: Graph-based Few-shot Segment Anything Semantically

要約

大規模な事前トレーニング技術の最近の進歩により、ビジョン基盤モデル、特にポイントおよびボックス プロンプトに基づいて正確なマスクを生成できるセグメント エニシング モデル (SAM) の機能が大幅に強化されました。
最近の研究では、SAM を少数ショット セマンティック セグメンテーション (FSS) に拡張し、SAM ベースの自動セマンティック セグメンテーションのプロンプト生成に焦点を当てています。
ただし、これらの方法では、適切なプロンプトを選択するのに苦労し、さまざまなシナリオに合わせて特定のハイパーパラメータ設定が必要であり、SAM の過剰使用によりワンショット推論時間が長くなり、効率が低く自動化機能が制限されます。
これらの問題に対処するために、グラフ分析に基づいたシンプルかつ効果的なアプローチを提案します。
特に、ポジティブ/ネガティブ アラインメント モジュールは、マスクを生成するためのポイント プロンプトを動的に選択し、特にネガティブ参照としての背景コンテキストの可能性を明らかにします。
後続の別のポイントマスク クラスタリング モジュールは、ポイント上のマスク カバレッジに基づいて、マスクと選択されたポイントの粒度を有向グラフとして調整します。
これらの点は、有向グラフの弱く接続されたコンポーネントを効率的な方法で分解することによって集約され、別個の自然なクラスターを構築します。
最後に、グラフベースの粒度調整の利点を活かしたポジティブ ゲートとオーバーシュート ゲーティングは、信頼性の高いマスクを集約し、最終予測のために偽陽性マスクをフィルタリングして除外し、追加のハイパーパラメータの使用と冗長なマスク生成を削減します。
標準 FSS、ワンショット パーツ セグメンテーション、およびクロスドメイン FSS データセットにわたる広範な実験分析により、提案されたアプローチの有効性と効率性が検証され、COCO-20i および 35.2 の mIoU が 58.7% という最先端のジェネラリスト モデルを上回っています。
LVIS-92i では %。
コードは https://andyzaq.github.io/GF-SAM/ で入手できます。

要約(オリジナル)

The recent advancements in large-scale pre-training techniques have significantly enhanced the capabilities of vision foundation models, notably the Segment Anything Model (SAM), which can generate precise masks based on point and box prompts. Recent studies extend SAM to Few-shot Semantic Segmentation (FSS), focusing on prompt generation for SAM-based automatic semantic segmentation. However, these methods struggle with selecting suitable prompts, require specific hyperparameter settings for different scenarios, and experience prolonged one-shot inference times due to the overuse of SAM, resulting in low efficiency and limited automation ability. To address these issues, we propose a simple yet effective approach based on graph analysis. In particular, a Positive-Negative Alignment module dynamically selects the point prompts for generating masks, especially uncovering the potential of the background context as the negative reference. Another subsequent Point-Mask Clustering module aligns the granularity of masks and selected points as a directed graph, based on mask coverage over points. These points are then aggregated by decomposing the weakly connected components of the directed graph in an efficient manner, constructing distinct natural clusters. Finally, the positive and overshooting gating, benefiting from graph-based granularity alignment, aggregate high-confident masks and filter out the false-positive masks for final prediction, reducing the usage of additional hyperparameters and redundant mask generation. Extensive experimental analysis across standard FSS, One-shot Part Segmentation, and Cross Domain FSS datasets validate the effectiveness and efficiency of the proposed approach, surpassing state-of-the-art generalist models with a mIoU of 58.7% on COCO-20i and 35.2% on LVIS-92i. The code is available in https://andyzaq.github.io/GF-SAM/.

arxiv情報

著者 Anqi Zhang,Guangyu Gao,Jianbo Jiao,Chi Harold Liu,Yunchao Wei
発行日 2024-10-09 15:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

要約

ビジョン言語モデル (VLM) では、ビジュアル トークンは、テキスト トークンと比較して情報密度がまばらであるにもかかわらず、通常、大量の計算オーバーヘッドを消費します。
これに対処するために、既存の手法のほとんどはネットワークを学習して冗長なビジュアル トークンを取り除き、追加のトレーニング データを必要とします。
これとは異なり、追加のパラメータや微調整コストを必要としない、SparseVLM と呼ばれる効率的なトレーニング不要のトークン最適化メカニズムを提案します。
具体的には、視覚的トークンが言語的推論のために VLM 内のテキスト トークンを補完することを考慮して、視覚関連のテキスト トークンを選択して、VLM から抽出された自己注意マトリックス内で視覚トークンの重要性を評価します。
次に、無関係なトークンを段階的に削除します。
重要な情報を保持しながらスパース性を最大化するために、プルーニングされたトークンをよりコンパクトな表現に圧縮するトークン リサイクル手法と並行して、各レイヤーのスパース化率を適応的に決定するランクベースの戦略を導入します。
実験結果は、SparseVLM がさまざまな画像およびビデオ理解タスクにわたってさまざまな VLM の効率を向上させることを示しています。
特に、SparseVLM を搭載した LLaVA は、93% の精度を維持しながら、78% の圧縮率で FLOP を 61% ~ 67% 削減します。
私たちのコードは https://github.com/Gumpest/SparseVLMs で入手できます。

要約(オリジナル)

In vision-language models (VLMs), visual tokens usually consume a significant amount of computational overhead, despite their sparser information density compared to text tokens. To address this, most existing methods learn a network to prune redundant visual tokens and require additional training data. Differently, we propose an efficient training-free token optimization mechanism dubbed SparseVLM without extra parameters or fine-tuning costs. Concretely, given that visual tokens complement text tokens in VLMs for linguistic reasoning, we select visual-relevant text tokens to rate the significance of vision tokens within the self-attention matrix extracted from the VLMs. Then we progressively prune irrelevant tokens. To maximize sparsity while retaining essential information, we introduce a rank-based strategy to adaptively determine the sparsification ratio for each layer, alongside a token recycling method that compresses pruned tokens into more compact representations. Experimental results show that our SparseVLM improves the efficiency of various VLMs across a range of image and video understanding tasks. In particular, LLaVA equipped with SparseVLM reduces 61% to 67% FLOPs with a compression ratio of 78% while maintaining 93% of the accuracy. Our code is available at https://github.com/Gumpest/SparseVLMs.

arxiv情報

著者 Yuan Zhang,Chun-Kai Fan,Junpeng Ma,Wenzhao Zheng,Tao Huang,Kuan Cheng,Denis Gudovskiy,Tomoyuki Okuno,Yohei Nakata,Kurt Keutzer,Shanghang Zhang
発行日 2024-10-09 15:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

The BRAVO Semantic Segmentation Challenge Results in UNCV2024

要約

私たちは、現実的な摂動や未知の配信外 (OOD) シナリオの下でセマンティック セグメンテーション モデルの信頼性をベンチマークするための統一 BRAVO チャレンジを提案します。
信頼性の 2 つのカテゴリを定義します。(1) 意味論的な信頼性。これは、さまざまな摂動にさらされたときのモデルの精度と校正を反映します。
(2) OOD の信頼性。トレーニング中に不明なオブジェクト クラスを検出するモデルの能力を測定します。
この課題には、著名な研究機関を代表する国際チームから 100 近い応募が集まりました。
この結果は、堅牢で信頼性の高いセマンティック セグメンテーション モデルの開発における大規模な事前トレーニングと最小限のアーキテクチャ設計の重要性について興味深い洞察を明らかにしました。

要約(オリジナル)

We propose the unified BRAVO challenge to benchmark the reliability of semantic segmentation models under realistic perturbations and unknown out-of-distribution (OOD) scenarios. We define two categories of reliability: (1) semantic reliability, which reflects the model’s accuracy and calibration when exposed to various perturbations; and (2) OOD reliability, which measures the model’s ability to detect object classes that are unknown during training. The challenge attracted nearly 100 submissions from international teams representing notable research institutions. The results reveal interesting insights into the importance of large-scale pre-training and minimal architectural design in developing robust and reliable semantic segmentation models.

arxiv情報

著者 Tuan-Hung Vu,Eduardo Valle,Andrei Bursuc,Tommie Kerssies,Daan de Geus,Gijs Dubbelman,Long Qian,Bingke Zhu,Yingying Chen,Ming Tang,Jinqiao Wang,Tomáš Vojíř,Jan Šochman,Jiří Matas,Michael Smith,Frank Ferrie,Shamik Basu,Christos Sakaridis,Luc Van Gool
発行日 2024-10-09 15:09:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Diagnosis of Malignant Lymphoma Cancer Using Hybrid Optimized Techniques Based on Dense Neural Networks

要約

リンパ腫の診断、特にサブタイプを区別することは効果的な治療に不可欠ですが、病理組織画像の形態学的に微妙な違いがあるため依然として困難です。
この研究では、特徴抽出のための DenseNet201 と、Harris Hawks Optimization (HHO) アルゴリズムを使用して最適化された分類のための Dense Neural Network (DNN) を組み合わせた、新しいハイブリッド ディープ ラーニング フレームワークを紹介します。
このモデルは、慢性リンパ性白血病 (CLL)、濾胞性リンパ腫 (FL)、およびマントル細胞リンパ腫 (MCL) の 3 つのリンパ腫サブタイプにわたる 15,000 枚の生検画像のデータセットでトレーニングされました。
私たちのアプローチは 99.33\% のテスト精度を達成し、精度とモデルの解釈可能性の両方が大幅に向上したことを実証しました。
精度、再現率、F1 スコア、ROC-AUC を使用した包括的な評価により、モデルの堅牢性と臨床採用の可能性が強調されます。
このフレームワークは、腫瘍学の診断精度と効率を向上させるためのスケーラブルなソリューションを提供します。

要約(オリジナル)

Lymphoma diagnosis, particularly distinguishing between subtypes, is critical for effective treatment but remains challenging due to the subtle morphological differences in histopathological images. This study presents a novel hybrid deep learning framework that combines DenseNet201 for feature extraction with a Dense Neural Network (DNN) for classification, optimized using the Harris Hawks Optimization (HHO) algorithm. The model was trained on a dataset of 15,000 biopsy images, spanning three lymphoma subtypes: Chronic Lymphocytic Leukemia (CLL), Follicular Lymphoma (FL), and Mantle Cell Lymphoma (MCL). Our approach achieved a testing accuracy of 99.33\%, demonstrating significant improvements in both accuracy and model interpretability. Comprehensive evaluation using precision, recall, F1-score, and ROC-AUC underscores the model’s robustness and potential for clinical adoption. This framework offers a scalable solution for improving diagnostic accuracy and efficiency in oncology.

arxiv情報

著者 Salah A. Aly,Ali Bakhiet,Mazen Balat
発行日 2024-10-09 15:12:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Adaptive High-Frequency Transformer for Diverse Wildlife Re-Identification

要約

Wildlife ReID には、視覚テクノロジーを利用してさまざまなシナリオで野生動物の特定の個体を識別することが含まれており、野生動物の保護、生態学的研究、環境モニタリングにとって重要な意味を持っています。
既存の野生生物の ReID 手法は、主に特定の種に合わせて調整されており、適用性が限られています。
一部のアプローチは広範囲に研究された人物 ReID 技術を活用していますが、野生動物によってもたらされる特有の課題に対処するのに苦労しています。
したがって、この論文では、野生生物 ReID のための統一された複数種の一般的なフレームワークを提示します。
高周波情報はさまざまな種の固有の特徴を一貫して表現しており、輪郭や毛皮の質感などの詳細を識別するのに大きく役立つことを考慮して、高周波情報の学習を強化することを目的とした適応高周波トランスフォーマーモデルを提案します。
荒野環境における避けられない高周波干渉を軽減するために、より貴重な高周波成分を適応的に捕捉するオブジェクト認識高周波選択戦略を導入します。
特に、ReID 用に複数の野生動物データセットの実験設定を統合し、最先端の ReID 手法を上回る優れたパフォーマンスを実現しています。
ドメイン一般化シナリオでは、私たちのアプローチは未知の種に対する堅牢な一般化を実証します。

要約(オリジナル)

Wildlife ReID involves utilizing visual technology to identify specific individuals of wild animals in different scenarios, holding significant importance for wildlife conservation, ecological research, and environmental monitoring. Existing wildlife ReID methods are predominantly tailored to specific species, exhibiting limited applicability. Although some approaches leverage extensively studied person ReID techniques, they struggle to address the unique challenges posed by wildlife. Therefore, in this paper, we present a unified, multi-species general framework for wildlife ReID. Given that high-frequency information is a consistent representation of unique features in various species, significantly aiding in identifying contours and details such as fur textures, we propose the Adaptive High-Frequency Transformer model with the goal of enhancing high-frequency information learning. To mitigate the inevitable high-frequency interference in the wilderness environment, we introduce an object-aware high-frequency selection strategy to adaptively capture more valuable high-frequency components. Notably, we unify the experimental settings of multiple wildlife datasets for ReID, achieving superior performance over state-of-the-art ReID methods. In domain generalization scenarios, our approach demonstrates robust generalization to unknown species.

arxiv情報

著者 Chenyue Li,Shuoyi Chen,Mang Ye
発行日 2024-10-09 15:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする