An Advanced NLP Framework for Automated Medical Diagnosis with DeBERTa and Dynamic Contextual Positional Gating

要約

このペーパーでは、データ増強、特徴抽出、および分類における高度な技術の統合を通じて医療診断を強化するための新しい自然言語処理(NLP)フレームワークを紹介します。
提案されているアプローチは、バック翻訳を採用して、多様な言い換えデータセットを生成し、堅牢性を改善し、分類タスクの過剰適合を軽減します。
ダイナリックコンテキスト位置ゲーティング(DCPG)を使用して、デコード強化BERT(DEBERTA)をレバレッジして、モデルは微細なコンテキストおよび位置的関係と位置的関係をキャプチャし、セマンティックコンテキストに基づいて位置情報の影響を動的に調整して高品質のテキスト埋め込みを生成します。
分類のために、注意ベースのフィードフォワードニューラルネットワーク(ABFNN)が利用され、意思決定の精度を向上させるために最も関連性の高い機能に効果的に焦点を当てます。
症状、臨床ノート、およびその他の医療テキストの分類に適用されるこのアーキテクチャは、医療データの複雑さに対処する能力を示しています。
データ増強、コンテキスト埋め込み生成、および高度な分類メカニズムの組み合わせは、自動化された医療診断と臨床的意思決定サポートにおける潜在的なアプリケーションを備えた堅牢で正確な診断ツールを提供します。
この方法は、医療診断のために提案されたNLPフレームワークの有効性を示しており、99.78%の精度、99.72%、99.79%の精度、F1スコア99.75%のリコールで顕著な結果を達成します。
これらのメトリックは、並外れた精度と信頼性で医療テキストを分類する際のモデルの堅牢なパフォーマンスを強調するだけでなく、既存の方法に対する優位性も強調しているため、自動化された診断システムのための非常に有望なツールになります。

要約(オリジナル)

This paper presents a novel Natural Language Processing (NLP) framework for enhancing medical diagnosis through the integration of advanced techniques in data augmentation, feature extraction, and classification. The proposed approach employs back-translation to generate diverse paraphrased datasets, improving robustness and mitigating overfitting in classification tasks. Leveraging Decoding-enhanced BERT with Disentangled Attention (DeBERTa) with Dynamic Contextual Positional Gating (DCPG), the model captures fine-grained contextual and positional relationships, dynamically adjusting the influence of positional information based on semantic context to produce high-quality text embeddings. For classification, an Attention-Based Feedforward Neural Network (ABFNN) is utilized, effectively focusing on the most relevant features to improve decision-making accuracy. Applied to the classification of symptoms, clinical notes, and other medical texts, this architecture demonstrates its ability to address the complexities of medical data. The combination of data augmentation, contextual embedding generation, and advanced classification mechanisms offers a robust and accurate diagnostic tool, with potential applications in automated medical diagnosis and clinical decision support. This method demonstrates the effectiveness of the proposed NLP framework for medical diagnosis, achieving remarkable results with an accuracy of 99.78%, recall of 99.72%, precision of 99.79%, and an F1-score of 99.75%. These metrics not only underscore the model’s robust performance in classifying medical texts with exceptional precision and reliability but also highlight its superiority over existing methods, making it a highly promising tool for automated diagnostic systems.

arxiv情報

著者 Mohammad Ali Labbaf Khaniki,Sahabeh Saadati,Mohammad Manthouri
発行日 2025-02-11 18:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | An Advanced NLP Framework for Automated Medical Diagnosis with DeBERTa and Dynamic Contextual Positional Gating はコメントを受け付けていません

Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks

要約

大規模な言語モデル(LLM)が進化し続けるにつれて、それらを評価することは依然として永続的な課題です。
最近の多くの評価では、LLMSを審査員として使用して、他のLLMからの出力を採点し、GPT-4Oのような単一の大型モデルに依存することがよくあります。
ただし、単一のLLMジャッジを使用することはモデル内のバイアスを起こしやすく、感情的知性、創造的な執筆、説得力に関連するタスクは、単一のモデルが公正に判断するにはあまりにも主観的である可能性があります。
LLMSのグループが協力してテストを作成し、それらに応答し、お互いの回答を評価して民主的な方法でランキングを作成するために協力する言語モデル評議会(LMC)を紹介します。
小規模なモデルのパネルを使用してコストやバイアスの削減に焦点を当てた以前のアプローチとは異なり、当社の作業では、完全に包括的なLLM評価システムの利点とニュアンスを調べます。
感情的知性に関する詳細なケーススタディでは、20の最近のLLMSの評議会を展開して、対人紛争に対する自由回答形式の反応について互いにランク付けします。
私たちの結果は、LMCがより分離可能でより堅牢なランキングを生成していることを示しており、ユーザー調査を通じて、個々のLLM裁判官よりも人間の評価と一致していることが示されています。
ただし、すべてのLLMを審査に使用すると費用がかかる可能性があるため、モンテカルロシミュレーションと手curateされたサブカウンティを使用して、仮想評議会の構成を研究し、増分LLMジャッジの価値を議論します。

要約(オリジナル)

As Large Language Models (LLMs) continue to evolve, evaluating them remains a persistent challenge. Many recent evaluations use LLMs as judges to score outputs from other LLMs, often relying on a single large model like GPT-4o. However, using a single LLM judge is prone to intra-model bias, and many tasks – such as those related to emotional intelligence, creative writing, and persuasiveness – may be too subjective for a single model to judge fairly. We introduce the Language Model Council (LMC), where a group of LLMs collaborate to create tests, respond to them, and evaluate each other’s responses to produce a ranking in a democratic fashion. Unlike previous approaches that focus on reducing cost or bias by using a panel of smaller models, our work examines the benefits and nuances of a fully inclusive LLM evaluation system. In a detailed case study on emotional intelligence, we deploy a council of 20 recent LLMs to rank each other on open-ended responses to interpersonal conflicts. Our results show that the LMC produces rankings that are more separable and more robust, and through a user study, we show that they are more consistent with human evaluations than any individual LLM judge. Using all LLMs for judging can be costly, however, so we use Monte Carlo simulations and hand-curated sub-councils to study hypothetical council compositions and discuss the value of the incremental LLM judge.

arxiv情報

著者 Justin Zhao,Flor Miriam Plaza-del-Arco,Benjie Genchel,Amanda Cercas Curry
発行日 2025-02-11 18:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks はコメントを受け付けていません

Polynomial-Time Approximability of Constrained Reinforcement Learning

要約

一般的な制約されたマルコフ決定プロセスを近似する計算の複雑さを研究します。
私たちの主な貢献は、多項式時間$(0、\ epsilon)$の設計です。

下限を一致させることは、近似保証が$ p \ neq np $である限り最適であることを意味します。
私たちのアプローチの一般性は、制約された強化学習文献におけるいくつかの長年のオープンな複雑さの質問に対する回答をもたらします。
具体的には、次の設定の多項式時間近似性を証明したのは、偶然の制約に基づくポリシー、複数の期待制約に基づく決定論的ポリシー、非同等の制約(すなわち、さまざまなタイプの制約)に基づくポリシー、および継続的な制約の下でのポリシー
– ステートプロセス。

要約(オリジナル)

We study the computational complexity of approximating general constrained Markov decision processes. Our primary contribution is the design of a polynomial time $(0,\epsilon)$-additive bicriteria approximation algorithm for finding optimal constrained policies across a broad class of recursively computable constraints, including almost-sure, chance, expectation, and their anytime variants. Matching lower bounds imply our approximation guarantees are optimal so long as $P \neq NP$. The generality of our approach results in answers to several long-standing open complexity questions in the constrained reinforcement learning literature. Specifically, we are the first to prove polynomial-time approximability for the following settings: policies under chance constraints, deterministic policies under multiple expectation constraints, policies under non-homogeneous constraints (i.e., constraints of different types), and policies under constraints for continuous-state processes.

arxiv情報

著者 Jeremy McMahan
発行日 2025-02-11 18:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.LG | Polynomial-Time Approximability of Constrained Reinforcement Learning はコメントを受け付けていません

Effect of Adaptive Communication Support on LLM-powered Human-Robot Collaboration

要約

効果的なヒューマンロボットコラボレーションには、ロボットが人間のニーズ、タスク要件、複雑さに基づいて、役割とサポートレベルを採用する必要があります。
従来のヒューマンロボットチームは、多くの場合、事前に決定されたロボット通信スキームに依存しており、複雑なタスクにおけるチームワークの適応性を制限します。
大規模な言語モデル(LLMS)の強力なコミュニケーション機能を活用すると、言語の頻度と内容を調整することで人間とロボットの相互作用を強化するように設計されたマルチモーダル言語フィードバック(HRT-ML)を使用したヒューマンロボットチームのフレームワークを提案します。
ベースのフィードバック。
HRT-MLフレームワークには、2つのコアモジュールが含まれています。高レベルで低周波戦略的ガイダンスのコーディネーターと、サブタスク固有の高周波命令のマネージャーで、人間のチームメイトとのパッシブおよびアクティブな相互作用を可能にします。
共同シナリオでの言語フィードバックの影響を評価するために、さまざまなレベルのタスクの複雑さ(イージー、ミディアム、ハード)およびフィードバック頻度(非アクティブ、パッシブ、アクティブ、スーパーアクティブ)で、強化された過度に調理された環境で実験を実施しました。
私たちの結果は、タスクの複雑さが人間の能力に比べて増加するにつれて、人間のチームメイトが頻繁で積極的なサポートを提供できるロボットエージェントよりも強い好みを示したことを示しています。
ただし、タスクの複雑さがLLMの容量を超えると、スーパーアクティブロボットエージェントからのノイズの多いフィードバックが代わりにチームのパフォーマンスを妨げる可能性があります。これは、人間のチームメイトがパフォーマンスのリターンが限られている多数のコミュニケーションを解釈して対応する努力を増やす必要があるためです。
私たちの結果は、ロボットエージェントがコミュニケーションのレベルと頻度を動的に調整して、人間とシームレスに連携し、チームのパフォーマンスを向上させるための一般的な原則を提供します。

要約(オリジナル)

Effective human-robot collaboration requires robot to adopt their roles and levels of support based on human needs, task requirements, and complexity. Traditional human-robot teaming often relies on a pre-determined robot communication scheme, restricting teamwork adaptability in complex tasks. Leveraging strong communication capabilities of Large Language Models (LLMs), we propose a Human-Robot Teaming Framework with Multi-Modal Language feedback (HRT-ML), a framework designed to enhance human-robot interaction by adjusting the frequency and content of language-based feedback. HRT-ML framework includes two core modules: a Coordinator for high-level, low-frequency strategic guidance, and a Manager for subtask-specific, high-frequency instructions, enabling passive and active interactions with human teammates. To assess the impact of language feedback in collaborative scenarios, we conducted experiments in an enhanced Overcooked environment with varying levels of task complexity (easy, medium, hard) and feedback frequency (inactive, passive, active, superactive). Our results show that as task complexity increases relative to human capabilities, human teammates exhibited a stronger preference towards robotic agents that can offer frequent, proactive support. However, when task complexities exceed the LLM’s capacity, noisy and inaccurate feedback from superactive robotic agents can instead hinder team performance, as it requires human teammates to increase their effort to interpret and respond to a large number of communications, with limited performance return. Our results offer a general principle for robotic agents to dynamically adjust their levels and frequencies of communications to work seamlessly with humans and achieve improved teaming performance.

arxiv情報

著者 Shipeng Liu,FNU Shrutika,Boshen Zhang,Zhehui Huang,Gaurav Sukhatme,Feifei Qian
発行日 2025-02-11 18:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.AI, cs.HC, cs.RO, I.2.9 | Effect of Adaptive Communication Support on LLM-powered Human-Robot Collaboration はコメントを受け付けていません

Breaking Down Bias: On The Limits of Generalizable Pruning Strategies

要約

モデル剪定を採用して、LLMSが人種バイアスをどのように概念化するか、およびそのようなバイアスの一般化可能な緩和戦略が実現可能かどうかを調べます。
分析では、いくつかの新しい洞察が得られます。
剪定は、異常なモデルの挙動を大幅に増加させることなく、バイアスを減らすための効果的な方法になる可能性があることがわかります。
ニューロンベースの剪定戦略は、一般に、注意ヘッド全体を剪定するアプローチよりも良い結果をもたらします。
しかし、我々の結果は、剪定戦略がより一般化されるにつれて、いずれかのアプローチの有効性が急速に悪化することを示しています。
たとえば、財務上の意思決定の文脈で人種的バイアスを削除するように訓練されているモデルは、商業取引のバイアスに不十分に一般的になります。
全体として、私たちの分析は、人種的バイアスは言語モデル内の一般的な概念として部分的にしか表されないことを示唆しています。
これらのバイアスの他の部分は非常にコンテキスト固有であり、一般化可能な緩和戦略は有効性が限られている可能性があることを示唆しています。
私たちの調査結果は、AIを取り巻く法的枠組みに重要な意味を持っています。
特に、効果的な緩和戦略には、特定のユースケースにモデルを展開する人々に対する法的責任の割り当てを含める必要があることを示唆しています。

要約(オリジナル)

We employ model pruning to examine how LLMs conceptualize racial biases, and whether a generalizable mitigation strategy for such biases appears feasible. Our analysis yields several novel insights. We find that pruning can be an effective method to reduce bias without significantly increasing anomalous model behavior. Neuron-based pruning strategies generally yield better results than approaches pruning entire attention heads. However, our results also show that the effectiveness of either approach quickly deteriorates as pruning strategies become more generalized. For instance, a model that is trained on removing racial biases in the context of financial decision-making poorly generalizes to biases in commercial transactions. Overall, our analysis suggests that racial biases are only partially represented as a general concept within language models. The other part of these biases is highly context-specific, suggesting that generalizable mitigation strategies may be of limited effectiveness. Our findings have important implications for legal frameworks surrounding AI. In particular, they suggest that an effective mitigation strategy should include the allocation of legal responsibility on those that deploy models in a specific use case.

arxiv情報

著者 Sibo Ma,Alejandro Salinas,Peter Henderson,Julian Nyarko
発行日 2025-02-11 18:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | Breaking Down Bias: On The Limits of Generalizable Pruning Strategies はコメントを受け付けていません

OLMES: A Standard for Language Model Evaluations

要約

AIの進捗は、モデル機能を測定するタスクのパフォーマンスの向上を主張する新しいモデルによってしばしば実証されます。
言語モデルの評価は、タスクでモデルがどのように評価されるかの選択が測定されたパフォーマンスの大きな変化につながる可能性があるため、特に困難な場合があります。
一般的な標準セットアップはないため、同じタスクで異なる方法で異なるモデルが評価され、どのモデルが再現性がないことが最も効果的であるかについての主張につながります。
再現可能なLLM評価のための完全に文書化された実用的なオープン標準であるOlmesを提案します。
この基準の開発において、迅速なフォーマットの詳細、コンテキスト内の例の選択、確率の正常化、タスクの定式化など、コミュニティが採用した評価慣行のさまざまな要因を特定してレビューします。
特に、OLMESは、元の定式化を利用できる大規模なモデルに対する複数選択の質問の不自然な「クローズ」定式化を必要とする小さなベースモデル間の意味のある比較をサポートしています。
Olmesには、既存の文献の結果と、未解決の質問を解決する新しい実験によって導かれた、よく考えられた文書化された推奨事項が含まれています。

要約(オリジナル)

Progress in AI is often demonstrated by new models claiming improved performance on tasks measuring model capabilities. Evaluating language models can be particularly challenging, as choices of how a model is evaluated on a task can lead to large changes in measured performance. There is no common standard setup, so different models are evaluated on the same tasks in different ways, leading to claims about which models perform best not being reproducible. We propose OLMES, a completely documented, practical, open standard for reproducible LLM evaluations. In developing this standard, we identify and review the varying factors in evaluation practices adopted by the community – such as details of prompt formatting, choice of in-context examples, probability normalizations, and task formulation. In particular, OLMES supports meaningful comparisons between smaller base models that require the unnatural ‘cloze’ formulation of multiple-choice questions against larger models that can utilize the original formulation. OLMES includes well-considered, documented recommendations guided by results from existing literature as well as new experiments resolving open questions.

arxiv情報

著者 Yuling Gu,Oyvind Tafjord,Bailey Kuehl,Dany Haddad,Jesse Dodge,Hannaneh Hajishirzi
発行日 2025-02-11 18:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | OLMES: A Standard for Language Model Evaluations はコメントを受け付けていません

Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning

要約

クラスインクリメンテルラーニング(CIL)は、モデルが以前に学んだ知識の知識を保持しながら、新しいクラスを順次学習できるようにすることを目指しています。
特にタスクIDが不明な場合、柔軟性と安定性のバランスをとることは重要な課題のままです。
これに対処するために、我々の研究では、斬新なタスクと既存のタスクの間の特徴分布のギャップは、主に平均と共分散の瞬間の違いによって駆動されることが明らかになりました。
この洞察に基づいて、平均シフト補償と共分散キャリブレーションを組み込んだ新しいセマンティックドリフトキャリブレーション法を提案します。
具体的には、サンプルの埋め込みを平均化することにより、各クラスの平均を計算し、以前の平均に近い加重埋め込み変更を使用してタスクシフトを推定し、新しいタスクごとにすべての学習クラスの平均シフトを効果的にキャプチャします。
また、共分散キャリブレーションのためにマハラノビス距離制約を適用し、クラス固有の埋め込みコバリエンスを古いネットワークと現在のネットワーク間の共分散化に合わせて、共分散シフトを緩和します。
さらに、一般化を強化するために、機能レベルの自己設定アプローチを統合します。
一般的に使用されるデータセットでの包括的な実験は、私たちのアプローチの有効性を示しています。
ソースコードは、\ href {https://github.com/fwu11/macil.git} {https://github.com/fwu11/macil.git}で利用できます。

要約(オリジナル)

Class-incremental learning (CIL) seeks to enable a model to sequentially learn new classes while retaining knowledge of previously learned ones. Balancing flexibility and stability remains a significant challenge, particularly when the task ID is unknown. To address this, our study reveals that the gap in feature distribution between novel and existing tasks is primarily driven by differences in mean and covariance moments. Building on this insight, we propose a novel semantic drift calibration method that incorporates mean shift compensation and covariance calibration. Specifically, we calculate each class’s mean by averaging its sample embeddings and estimate task shifts using weighted embedding changes based on their proximity to the previous mean, effectively capturing mean shifts for all learned classes with each new task. We also apply Mahalanobis distance constraint for covariance calibration, aligning class-specific embedding covariances between old and current networks to mitigate the covariance shift. Additionally, we integrate a feature-level self-distillation approach to enhance generalization. Comprehensive experiments on commonly used datasets demonstrate the effectiveness of our approach. The source code is available at \href{https://github.com/fwu11/MACIL.git}{https://github.com/fwu11/MACIL.git}.

arxiv情報

著者 Fangwen Wu,Lechao Cheng,Shengeng Tang,Xiaofeng Zhu,Chaowei Fang,Dingwen Zhang,Meng Wang
発行日 2025-02-11 13:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning はコメントを受け付けていません

An Elliptic Curve Based Solution to the Perspective-Three-Point Problem

要約

視点3点問題(P3P)は、カメラから制御ポイントまでの距離ではなく、カメラに対するコントロールポイントのペアを介してラインの方向を決定することに最初に焦点を当てることによって解決されます。
この分析は、最先端のP3Pソルバー「Lambda Twist」と比較される、効率的で正確で合理的にシンプルなP3Pソルバーを生成します。
両方の方法は、立方体の多項式の単一のルートの正確な計算に依存します。
それらは、幅広い制御点三角形について実装およびテストされており、特定の合理的な制限の下では、新しい方法はラムダのねじれよりも顕著に正確ですが、遅くなります。
ただし、現在の研究の主要な価値は、さらに別のP3Pソルバーを導入することではなく、P3P問題と暗号化に使用される曲線を含む楕円曲線の特別なファミリーとの間の親密なつながりを発見することにあります。
これにより、多くの方向にさらなる進歩の可能性があります。
このつながりを作るために、古代の「スライド」問題の興味深い球状の類似物が述べられ、解決されます。

要約(オリジナル)

The Perspective-Three-Point Problem (P3P) is solved by first focusing on determining the directions of the lines through pairs of control points, relative to the camera, rather than the distances from the camera to the control points. The analysis of this produces an efficient, accurate and reasonably simple P3P solver, which is compared with a state-of-the-art P3P solver, ‘Lambda Twist.’ Both methods depend on the accurate computation of a single root of a cubic polynomial. They have been implemented and tested for a wide range of control-point triangles, and under certain reasonable restrictions, the new method is noticably more accurate than Lambda Twist, though it is slower. However, the principal value of the present work is not in introducing yet another P3P solver, but lies rather in the discovery of an intimate connection between the P3P problem and a special family of elliptic curves that includes curves utilized in cryptography. This holds the potential for further advances in a number of directions. To make this connection, an interesting spherical analogue of an ancient ‘sliding’ problem is stated and solved.

arxiv情報

著者 Michael Q. Rieck
発行日 2025-02-11 14:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 14H52, 51M10, cs.CV, math.AG | An Elliptic Curve Based Solution to the Perspective-Three-Point Problem はコメントを受け付けていません

Finding Dino: A Plug-and-Play Framework for Zero-Shot Detection of Out-of-Distribution Objects Using Prototypes

要約

あらゆるシーンで不明または分散排出(OOD)オブジェクトを検出およびローカリングすることは、特に自動化された車両や列車などの自律システムが関与する安全性のあるケースでは、ビジョンにおける挑戦的なタスクになる可能性があります。
監視された異常セグメンテーションまたはオープンワールドオブジェクト検出モデルは、すべてのドメインの徹底的に注釈付きのデータセットでのトレーニングに依存し、背景とOODオブジェクトを区別するのに苦労しています。
この作業では、プラグアンドプレイフレームワーク – ラベルのないプロトタイプベースのOOD検出(Prowl)を提示します。
これは、ドメインデータセットでのトレーニングを必要としない推論ベースの方法であり、自己教師の事前訓練モデルから関連する機能の抽出に依存しています。
Prowlは、このドメインから既知のクラスのリストを指定することにより、任意の設計ドメイン(ODD)のドメイン内オブジェクトをゼロショット方法で簡単に検出できるように簡単に適合させることができます。
Prowlは、最初のゼロショットの監視なしの方法として、道路駆動ベンチマークで提供されるロードノマリーおよびロード抽象データセットで最新の結果を達成します – SegmentMeifyoucan(SMIYC)と魚の科。
補助的なoodデータ。
また、鉄道や海事などの他のドメインに対する一般化可能性も示しています。

要約(オリジナル)

Detecting and localising unknown or out-of-distribution (OOD) objects in any scene can be a challenging task in vision, particularly in safety-critical cases involving autonomous systems like automated vehicles or trains. Supervised anomaly segmentation or open-world object detection models depend on training on exhaustively annotated datasets for every domain and still struggle in distinguishing between background and OOD objects. In this work, we present a plug-and-play framework – PRototype-based OOD detection Without Labels (PROWL). It is an inference-based method that does not require training on the domain dataset and relies on extracting relevant features from self-supervised pre-trained models. PROWL can be easily adapted to detect in-domain objects in any operational design domain (ODD) in a zero-shot manner by specifying a list of known classes from this domain. PROWL, as a first zero-shot unsupervised method, achieves state-of-the-art results on the RoadAnomaly and RoadObstacle datasets provided in road driving benchmarks – SegmentMeIfYouCan (SMIYC) and Fishyscapes, as well as comparable performance against existing supervised methods trained without auxiliary OOD data. We also demonstrate its generalisability to other domains such as rail and maritime.

arxiv情報

著者 Poulami Sinhamahapatra,Franziska Schwaiger,Shirsha Bose,Huiyu Wang,Karsten Roscher,Stephan Guennemann
発行日 2025-02-11 14:05:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Finding Dino: A Plug-and-Play Framework for Zero-Shot Detection of Out-of-Distribution Objects Using Prototypes はコメントを受け付けていません

Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology

要約

組織病理学総合画像(WSI)は、計算病理学(CPATH)の癌予後を評価するための重要なツールを提供します。
既存の生存分析(SA)アプローチはエキサイティングな進歩を遂げましたが、一般に、非常に発現するネットワークアーキテクチャと粗い患者レベルのラベルのみを採用して、ギガピクセルWSIからの視覚的予後表現を学習します。
このような学習パラダイムは、現在の希少なトレーニングデータとCPATHの標準的なマルチインスタンス学習(MIL)フレームワークに直面している場合、重要なパフォーマンスボトルネックに苦しんでいます。
それを克服するために、この論文は初めて、新しいビジョン言語ベースのSA(VLSA)パラダイムを提案します。
具体的には、(1)VLSAは病理VL基礎モデルによって駆動されます。
高能力ネットワークに依存しなくなり、データ効率の利点を示しています。
(2)ビジョンエンドでは、VLSAはテキスト予後事前をエンコードし、インスタンスレベルでの視覚的予後特徴の集約を導くために補助信号としてそれを採用し、それによってMILの弱い監督を補正します。
さらに、SAの特性を考慮して、i)順序生存プロンプトの学習が継続的生存ラベルをテキストプロンプトに変換することを提案します。
およびii)VLベースの予測とSAを互換性のあるものにするための予測ターゲットとしての順序発生率。
特に、VLSAの予測は、Shapleyの価値ベースの方法によって直感的に解釈される可能性があります。
5つのデータセットでの広範な実験は、スキームの有効性を確認します。
私たちのVLSAは、Gigapixel WSIから貴重な予後の手がかりを学ぶための効果的な手段を弱く監視したMILに提供することにより、CPATのSAの新しい方法を開くことができます。
ソースコードは、https://github.com/liupei101/vlsaで入手できます。

要約(オリジナル)

Histopathology Whole-Slide Images (WSIs) provide an important tool to assess cancer prognosis in computational pathology (CPATH). While existing survival analysis (SA) approaches have made exciting progress, they are generally limited to adopting highly-expressive network architectures and only coarse-grained patient-level labels to learn visual prognostic representations from gigapixel WSIs. Such learning paradigm suffers from critical performance bottlenecks, when facing present scarce training data and standard multi-instance learning (MIL) framework in CPATH. To overcome it, this paper, for the first time, proposes a new Vision-Language-based SA (VLSA) paradigm. Concretely, (1) VLSA is driven by pathology VL foundation models. It no longer relies on high-capability networks and shows the advantage of data efficiency. (2) In vision-end, VLSA encodes textual prognostic prior and then employs it as auxiliary signals to guide the aggregating of visual prognostic features at instance level, thereby compensating for the weak supervision in MIL. Moreover, given the characteristics of SA, we propose i) ordinal survival prompt learning to transform continuous survival labels into textual prompts; and ii) ordinal incidence function as prediction target to make SA compatible with VL-based prediction. Notably, VLSA’s predictions can be interpreted intuitively by our Shapley values-based method. The extensive experiments on five datasets confirm the effectiveness of our scheme. Our VLSA could pave a new way for SA in CPATH by offering weakly-supervised MIL an effective means to learn valuable prognostic clues from gigapixel WSIs. Our source code is available at https://github.com/liupei101/VLSA.

arxiv情報

著者 Pei Liu,Luping Ji,Jiaxiang Gou,Bo Fu,Mao Ye
発行日 2025-02-11 14:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology はコメントを受け付けていません