RelGNN: Composite Message Passing for Relational Deep Learning

要約

リレーショナルデータベースの予測タスクは、eコマース、ヘルスケア、ソーシャルメディアにまたがる現実世界のアプリケーションで重要です。
これらのタスクに効果的に対処するために、リレーショナルディープラーニング(RDL)はリレーショナルデータをグラフとしてエンコードし、グラフニューラルネットワーク(GNN)を可能にして、改善された予測のためにリレーショナル構造を活用します。
ただし、既存の不均一なGNNは、多くの場合、リレーショナルデータベースの本質的な構造特性を見落とし、モデリングの非効率性につながります。
ここでは、リレーショナルデータベースのユニークな特性をキャプチャするように特別に設計された新しいGNNフレームワークであるRelgnnを紹介します。
私たちのアプローチの中心にあるのは、原子ルートの導入です。これは、高次の三者構造を形成するノードのシーケンスです。
これらの原子ルートに基づいて、RELGNNは不均一なノード間の新しい複合メッセージの通過メカニズムを設計し、それらの間の直接シングルホップの相互作用を可能にします。
このアプローチは、冗長な集計を回避し、情報の絡み合いを軽減し、最終的にはより効率的で正確な予測モデリングにつながります。
Relgnnは、Relbenchからの30の多様な現実世界のタスク(Fey et al。、2024)で評価され、最大25%の改善で一貫して最先端の精度を達成します。

要約(オリジナル)

Predictive tasks on relational databases are critical in real-world applications spanning e-commerce, healthcare, and social media. To address these tasks effectively, Relational Deep Learning (RDL) encodes relational data as graphs, enabling Graph Neural Networks (GNNs) to exploit relational structures for improved predictions. However, existing heterogeneous GNNs often overlook the intrinsic structural properties of relational databases, leading to modeling inefficiencies. Here we introduce RelGNN, a novel GNN framework specifically designed to capture the unique characteristics of relational databases. At the core of our approach is the introduction of atomic routes, which are sequences of nodes forming high-order tripartite structures. Building upon these atomic routes, RelGNN designs new composite message passing mechanisms between heterogeneous nodes, allowing direct single-hop interactions between them. This approach avoids redundant aggregations and mitigates information entanglement, ultimately leading to more efficient and accurate predictive modeling. RelGNN is evaluated on 30 diverse real-world tasks from RelBench (Fey et al., 2024), and consistently achieves state-of-the-art accuracy with up to 25% improvement.

arxiv情報

著者 Tianlang Chen,Charilaos Kanatsoulis,Jure Leskovec
発行日 2025-02-10 18:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG | RelGNN: Composite Message Passing for Relational Deep Learning はコメントを受け付けていません

Matryoshka Quantization

要約

モデルの重みの量子化は、大規模なモデルの通信コストと推論コストを削減するために重要です。
ただし、モデルの量子化 – 特にINT4やINT2などの低精度では、モデルの品質のトレードオフが必要です。
特に、INT2はモデルの品質をひどく低下させることが知られています。
その結果、実務家は、量子化レベルが異なる複数のモデルを維持することを余儀なくされるか、品質遅延のトレードオフを最もよく満たす単一のモデルを提供することを余儀なくされます。
一方、INT8などの整数データ型は、INT4やINT2などのより小さなビット幅の整数が最も重要なビット内にネストされるネストされた(マトリオシュカ)構造を本質的に持っています。
このペーパーでは、複数の量子化されたモデルを必要とするという課題に対処する新しいマルチスケール量子化技術であるMatryoshka量子化(Matquant)を提案します。
これにより、トレーニングと1つのモデルのみを維持でき、さまざまな精度レベルで提供できます。
さらに、Matquantが提供する共同トレーニングと共蒸留の正規化により、Matquantによって抽出されたInt2精度モデルは、標準のINT2量子化(QATやomniquantなどの技術を使用)よりも最大$ 10 \%$ $より正確になります。
これは、同じレシピを使用して、INT2 FFN定量化されたGEMMA-2 9BモデルがINT8 FFN定量化されたGEMMA-2 2Bモデルよりも正確であるという事実によって実証されたモデル量子化の大きな進歩を表しています。

要約(オリジナル)

Quantizing model weights is critical for reducing the communication and inference costs of large models. However, quantizing models — especially to low precisions like int4 or int2 — requires a trade-off in model quality; int2, in particular, is known to severely degrade model quality. Consequently, practitioners are often forced to maintain multiple models with different quantization levels or serve a single model that best satisfies the quality-latency trade-off. On the other hand, integer data types, such as int8, inherently possess a nested (Matryoshka) structure where smaller bit-width integers, like int4 or int2, are nested within the most significant bits. This paper proposes Matryoshka Quantization (MatQuant), a novel multi-scale quantization technique that addresses the challenge of needing multiple quantized models. It allows training and maintaining just one model, which can then be served at different precision levels. Furthermore, due to the co-training and co-distillation regularization provided by MatQuant, the int2 precision models extracted by MatQuant can be up to $10\%$ more accurate than standard int2 quantization (using techniques like QAT or OmniQuant). This represents significant progress in model quantization, demonstrated by the fact that, with the same recipe, an int2 FFN-quantized Gemma-2 9B model is more accurate than an int8 FFN-quantized Gemma-2 2B model.

arxiv情報

著者 Pranav Nair,Puranjay Datta,Jeff Dean,Prateek Jain,Aditya Kusupati
発行日 2025-02-10 18:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Matryoshka Quantization はコメントを受け付けていません

HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation

要約

人間のモーションビデオ生成は大幅に進歩していますが、既存の方法は、特に長いシーケンスや複雑な動きで、手や顔のような詳細な身体部分を正確にレンダリングすることに苦労しています。
現在のアプローチは、固定解像度にも依存しており、視覚的な一貫性を維持するために苦労しています。
これらの制限に対処するために、14,000時間の高品質ビデオを含む大規模で野生のデータセットで訓練されたポーズ誘導拡散変圧器(DIT)ベースのフレームワークであるHumanditを提案して、微調整されたボディレンダリングを備えた高フィデリティビデオを作成します。
具体的には、(i)DITに基づいて構築されたHumanditは、多数のビデオ解像度と可変シーケンスの長さをサポートし、長期順序ビデオ生成の学習を促進します。
(ii)拡張されたシーケンス全体でパーソナライズされた特性を維持するために、プレフィックスを含む参照戦略を紹介します。
さらに、推論中、HumanditはKeypoint-Ditを活用して後続のポーズシーケンスを生成し、静的画像または既存のビデオからのビデオの継続を促進します。
また、ポーズアダプターを使用して、指定されたシーケンスを使用してポーズ転送を可能にします。
広範な実験は、多様なシナリオ全体で長期にわたるポーズaccurateビデオを生成する上で優れたパフォーマンスを示しています。

要約(オリジナル)

Human motion video generation has advanced significantly, while existing methods still struggle with accurately rendering detailed body parts like hands and faces, especially in long sequences and intricate motions. Current approaches also rely on fixed resolution and struggle to maintain visual consistency. To address these limitations, we propose HumanDiT, a pose-guided Diffusion Transformer (DiT)-based framework trained on a large and wild dataset containing 14,000 hours of high-quality video to produce high-fidelity videos with fine-grained body rendering. Specifically, (i) HumanDiT, built on DiT, supports numerous video resolutions and variable sequence lengths, facilitating learning for long-sequence video generation; (ii) we introduce a prefix-latent reference strategy to maintain personalized characteristics across extended sequences. Furthermore, during inference, HumanDiT leverages Keypoint-DiT to generate subsequent pose sequences, facilitating video continuation from static images or existing videos. It also utilizes a Pose Adapter to enable pose transfer with given sequences. Extensive experiments demonstrate its superior performance in generating long-form, pose-accurate videos across diverse scenarios.

arxiv情報

著者 Qijun Gan,Yi Ren,Chen Zhang,Zhenhui Ye,Pan Xie,Xiang Yin,Zehuan Yuan,Bingyue Peng,Jianke Zhu
発行日 2025-02-10 14:51:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation はコメントを受け付けていません

Discriminative and Consistent Representation Distillation

要約

Knowledge Distillation(KD)は、知識を大規模な教師モデルから小規模な学生モデルに転送することを目指しています。
対照的な学習は、識別表現を作成することにより自己教師の学習に有望を示していますが、知識の蒸留におけるその適用は限られたままであり、主に差別に焦点を当てており、教師モデルによって捕らえられた構造的関係を無視しています。
この制限に対処するために、識別と一貫した蒸留(DCD)を提案します。これは、教師と生徒の表現の分布の間の矛盾を最小限に抑えるために、一貫性の正則化とともに対照的な損失を採用しています。
私たちの方法では、トレーニング中に適応する学習可能な温度とバイアスパラメーターを紹介します。これらの補完的な目的のバランスをとり、対照的な学習アプローチで一般的に使用される固定ハイパーパラメーターを置き換えます。
CIFAR-100およびImagenet ILSVRC-2012の広範な実験を通じて、DCDが最先端のパフォーマンスを達成し、学生モデルが教師の正確さを上回ることがあることを実証します。
さらに、DCDの学習表現は、Tiny ImagenetとSTL-10に転送されたときに優れたクロスダタセットの一般化を示すことを示しています。

要約(オリジナル)

Knowledge Distillation (KD) aims to transfer knowledge from a large teacher model to a smaller student model. While contrastive learning has shown promise in self-supervised learning by creating discriminative representations, its application in knowledge distillation remains limited and focuses primarily on discrimination, neglecting the structural relationships captured by the teacher model. To address this limitation, we propose Discriminative and Consistent Distillation (DCD), which employs a contrastive loss along with a consistency regularization to minimize the discrepancy between the distributions of teacher and student representations. Our method introduces learnable temperature and bias parameters that adapt during training to balance these complementary objectives, replacing the fixed hyperparameters commonly used in contrastive learning approaches. Through extensive experiments on CIFAR-100 and ImageNet ILSVRC-2012, we demonstrate that DCD achieves state-of-the-art performance, with the student model sometimes surpassing the teacher’s accuracy. Furthermore, we show that DCD’s learned representations exhibit superior cross-dataset generalization when transferred to Tiny ImageNet and STL-10.

arxiv情報

著者 Nikolaos Giakoumoglou,Tania Stathaki
発行日 2025-02-10 14:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, I.2 | Discriminative and Consistent Representation Distillation はコメントを受け付けていません

Direct-CP: Directed Collaborative Perception for Connected and Autonomous Vehicles via Proactive Attention

要約

共同認識(CP)は、接続された車両および自律車(CAV)からの視覚データを活用して、エゴ車両の視野(FOV)を強化します。
最近の進歩にもかかわらず、現在のCPメソッドは、エゴ車両の360度の知覚範囲をほぼ等しく拡張し、2つの重要な課題に直面しています。
第一に、交通量の不均一な地域では、交通量が少ない方向に焦点を当てることは、限られた利点をもたらします。
第二に、限られた通信予算の下では、過度の帯域幅をより重要でない方向に割り当てることで、より重要な領域での知覚精度が低下します。
これらの問題に対処するために、特定の方向にCPを改善することを目的とした積極的で方向性を意識するCPシステムである直接CPを提案します。
私たちの重要なアイデアは、エゴ車両が関心のある方向を積極的に知らせ、その注意を再調整してローカルの方向性CPパフォーマンスを強化することです。
これを達成するために、最初に、自我の車両が重要な方向を特定するのを支援するRSU支援方向マスキングメカニズムを提案します。
さらに、エゴ車両の方向性の優先順位、通信予算、およびCavsの位置データに基づいて、賢明に集約された適切な機能を賢明に集約するための方向に意識した選択的注意モジュールを設計します。
さらに、方向性CPの結果とグラウンドトゥルースの間の発散を捉えるために、方向加重検出損失(dwloss)を導入し、効果的なモデルトレーニングを促進します。
V2X-SIM 2.0データセットでの広範な実験は、私たちのアプローチが、関心のある方向で19.8%高い局所認識精度を達成し、共同3Dオブジェクト検出タスクの最先端の方法よりも2.5%高い全体的な知覚精度を達成することを示しています。

要約(オリジナル)

Collaborative perception (CP) leverages visual data from connected and autonomous vehicles (CAV) to enhance an ego vehicle’s field of view (FoV). Despite recent progress, current CP methods expand the ego vehicle’s 360-degree perceptual range almost equally, which faces two key challenges. Firstly, in areas with uneven traffic distribution, focusing on directions with little traffic offers limited benefits. Secondly, under limited communication budgets, allocating excessive bandwidth to less critical directions lowers the perception accuracy in more vital areas. To address these issues, we propose Direct-CP, a proactive and direction-aware CP system aiming at improving CP in specific directions. Our key idea is to enable an ego vehicle to proactively signal its interested directions and readjust its attention to enhance local directional CP performance. To achieve this, we first propose an RSU-aided direction masking mechanism that assists an ego vehicle in identifying vital directions. Additionally, we design a direction-aware selective attention module to wisely aggregate pertinent features based on ego vehicle’s directional priorities, communication budget, and the positional data of CAVs. Moreover, we introduce a direction-weighted detection loss (DWLoss) to capture the divergence between directional CP outcomes and the ground truth, facilitating effective model training. Extensive experiments on the V2X-Sim 2.0 dataset demonstrate that our approach achieves 19.8\% higher local perception accuracy in interested directions and 2.5\% higher overall perception accuracy than the state-of-the-art methods in collaborative 3D object detection tasks.

arxiv情報

著者 Yihang Tao,Senkang Hu,Zhengru Fang,Yuguang Fang
発行日 2025-02-10 15:06:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Direct-CP: Directed Collaborative Perception for Connected and Autonomous Vehicles via Proactive Attention はコメントを受け付けていません

Unsupervised Learning for Feature Extraction and Temporal Alignment of 3D+t Point Clouds of Zebrafish Embryos

要約

ゼブラフィッシュは、生物医学の研究で広く使用されており、胚の発達段階は、さらなる分析のために同期する必要があることがよくあります。
ゼブラフィッシュ胚の3D+Tポイント雲から記述的特徴を抽出し、その後、それらの特徴を使用して、対応する発達段階を一時的に整列させるための監視されていないアプローチを提示します。
ポイントクラウドの記述表現を学習するために自動エンコーダーアーキテクチャが提案されており、その時間的アライメントのために深い回帰ネットワークを設計しました。
5.3時間の実験期間でわずか3.83分の平均不一致で高いアライメント精度を達成します。
完全に不承認のアプローチとして、手動分析とは異なり、メソッドのスケールとは異なり、手動のラベル付け作業は必要ありません。
その上、データの人間の注釈なしのアラインメントは、主観的なバイアスによって引き起こされる影響も回避します。

要約(オリジナル)

Zebrafish are widely used in biomedical research and developmental stages of their embryos often need to be synchronized for further analysis. We present an unsupervised approach to extract descriptive features from 3D+t point clouds of zebrafish embryos and subsequently use those features to temporally align corresponding developmental stages. An autoencoder architecture is proposed to learn a descriptive representation of the point clouds and we designed a deep regression network for their temporal alignment. We achieve a high alignment accuracy with an average mismatch of only 3.83 minutes over an experimental duration of 5.3 hours. As a fully-unsupervised approach, there is no manual labeling effort required and unlike manual analyses the method easily scales. Besides, the alignment without human annotation of the data also avoids any influence caused by subjective bias.

arxiv情報

著者 Zhu Chen,Ina Laube,Johannes Stegmaier
発行日 2025-02-10 15:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unsupervised Learning for Feature Extraction and Temporal Alignment of 3D+t Point Clouds of Zebrafish Embryos はコメントを受け付けていません

Sequence Transferability and Task Order Selection in Continual Learning

要約

継続的な学習では、タスクシーケンスの特性とモデルパフォーマンスとの関係を理解することは、より良い精度で高度なアルゴリズムを開発するために重要です。
ただし、方法論開発の進歩を促進しているにもかかわらず、この方向への努力は未開発のままです。
この作業では、継続的な学習に対するシーケンス転送可能性の影響を調査し、前方または後方方向のいずれかでタスクシーケンスの総移動性をキャプチャする2つの新しい測定値を提案します。
これらの測定の経験的特性に基づいて、継続的な学習におけるタスクオーダー選択の問題の新しい方法を開発します。
私たちの方法は、ランダムタスク選択の従来の戦略よりも優れたパフォーマンスを提供することが示されます。

要約(オリジナル)

In continual learning, understanding the properties of task sequences and their relationships to model performance is important for developing advanced algorithms with better accuracy. However, efforts in this direction remain underdeveloped despite encouraging progress in methodology development. In this work, we investigate the impacts of sequence transferability on continual learning and propose two novel measures that capture the total transferability of a task sequence, either in the forward or backward direction. Based on the empirical properties of these measures, we then develop a new method for the task order selection problem in continual learning. Our method can be shown to offer a better performance than the conventional strategy of random task selection.

arxiv情報

著者 Thinh Nguyen,Cuong N. Nguyen,Quang Pham,Binh T. Nguyen,Savitha Ramasamy,Xiaoli Li,Cuong V. Nguyen
発行日 2025-02-10 15:09:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 68T45, cs.CV, cs.LG | Sequence Transferability and Task Order Selection in Continual Learning はコメントを受け付けていません

Visual Prompt Engineering for Vision Language Models in Radiology

要約

医療画像分類は臨床的意思決定において重要な役割を果たしますが、ほとんどのモデルは定義されたクラスの固定セットに制約されており、適応性を新しい条件に制限しています。
対照的な言語イメージの事前トレーニング(CLIP)は、マルチモーダルの大規模な事前トレーニングを通じてゼロショット分類を可能にすることにより、有望なソリューションを提供します。
ただし、CLIPはグローバルな画像コンテンツを効果的にキャプチャしますが、放射線学では、解釈性と診断の精度の両方を強化するために、特定の病理領域により局所的な焦点が必要です。
これに対処するために、視覚キューをゼロショット分類に組み込む可能性を探り、矢印、境界ボックス、サークルなどの視覚マーカー$ \ unicode {x2013} $を埋め込みます$ \ unicode {x2013} $は放射線画像に直接導きます。
モデルの注意。
4つのパブリックチェストX線データセットで評価すると、視覚マーカーはAUROCを最大0.185改善し、分類パフォーマンスを向上させる効果を強調することを実証します。
さらに、注意マップ分析により、視覚的なキューがモデルが臨床的に関連する領域に焦点を合わせ、より解釈可能な予測につながるのに役立つことが確認されています。
さらなる調査をサポートするために、パブリックデータセットを使用し、コードと前処理パイプラインをリリースし、医療イメージングにおけるローカライズされた分類に関する将来の作業の基準点を提供します。

要約(オリジナル)

Medical image classification plays a crucial role in clinical decision-making, yet most models are constrained to a fixed set of predefined classes, limiting their adaptability to new conditions. Contrastive Language-Image Pretraining (CLIP) offers a promising solution by enabling zero-shot classification through multimodal large-scale pretraining. However, while CLIP effectively captures global image content, radiology requires a more localized focus on specific pathology regions to enhance both interpretability and diagnostic accuracy. To address this, we explore the potential of incorporating visual cues into zero-shot classification, embedding visual markers $\unicode{x2013}$ such as arrows, bounding boxes, and circles $\unicode{x2013}$ directly into radiological images to guide model attention. Evaluating across four public chest X-ray datasets, we demonstrate that visual markers improve AUROC by up to 0.185, highlighting their effectiveness in enhancing classification performance. Furthermore, attention map analysis confirms that visual cues help models focus on clinically relevant areas, leading to more interpretable predictions. To support further research, we use public datasets and will release our code and preprocessing pipeline, providing a reference point for future work on localized classification in medical imaging.

arxiv情報

著者 Stefan Denner,Markus Bujotzek,Dimitrios Bounias,David Zimmerer,Raphael Stock,Klaus Maier-Hein
発行日 2025-02-10 15:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visual Prompt Engineering for Vision Language Models in Radiology はコメントを受け付けていません

Diffusion Models for Computational Neuroimaging: A Survey

要約

計算ニューロイメージングには、脳画像または信号を分析して、人間の認知と行動のための機械的な洞察と予測ツールを提供します。
拡散モデルは、自然画像の安定性と高品質の生成を示していますが、データ強化、疾患診断、脳のデコードなどのさまざまな神経課題の脳データを分析するためにそれらを適応させることに関心が高まっています。
この調査では、拡散モデルを計算ニューロイメージングに統合するための最近の取り組みの概要を提供します。
まず、一般的なニューロイメージングデータのモダリティを導入し、拡散定式化と条件付けメカニズムに従います。
次に、拡散モデルの除去開始点、条件入力、および生成ターゲットの変動がどのように開発され、特定のニューロイメージングタスクが強化されるかについて説明します。
進行中の研究の包括的な概要については、https://github.com/joezhao527/dm4neuroで公開されているリポジトリを提供します。

要約(オリジナル)

Computational neuroimaging involves analyzing brain images or signals to provide mechanistic insights and predictive tools for human cognition and behavior. While diffusion models have shown stability and high-quality generation in natural images, there is increasing interest in adapting them to analyze brain data for various neurological tasks such as data enhancement, disease diagnosis and brain decoding. This survey provides an overview of recent efforts to integrate diffusion models into computational neuroimaging. We begin by introducing the common neuroimaging data modalities, follow with the diffusion formulations and conditioning mechanisms. Then we discuss how the variations of the denoising starting point, condition input and generation target of diffusion models are developed and enhance specific neuroimaging tasks. For a comprehensive overview of the ongoing research, we provide a publicly available repository at https://github.com/JoeZhao527/dm4neuro.

arxiv情報

著者 Haokai Zhao,Haowei Lou,Lina Yao,Wei Peng,Ehsan Adeli,Kilian M Pohl,Yu Zhang
発行日 2025-02-10 15:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion Models for Computational Neuroimaging: A Survey はコメントを受け付けていません

Multitask Learning in Minimally Invasive Surgical Vision: A Review

要約

低侵襲手術(MIS)は多くの手順に革命をもたらし、回復時間の短縮と患者の怪我のリスクをもたらしました。
ただし、MISは手術チームに追加の複雑さと負担をもたらします。
データ駆動型の外科的視力アルゴリズムは、自律性が改善された将来のMISシステムの開発における重要なビルディングブロックであると考えられています。
機械学習とコンピュータービジョンにおける最近の進歩により、MISビデオの課題を軽減するという約束でMISから得られたビデオの分析に成功したアプリケーションが成功しました。
外科シーンとアクション理解には、個別に解決すると、メモリが集中し、非効率的であり、タスク関係をキャプチャできない複数の関連タスクが含まれます。
マルチタスクラーニング(MTL)は、複数の関連タスクから情報を活用してパフォーマンスを改善し、一般化を支援する学習パラダイムであり、MISデータの細かく高レベルの理解に適しています。
このレビューは、MISから取得したビデオを活用する現在の最先端のMTLシステムの物語の概要を提供します。
公開されたアプローチのリストを超えて、これらのMTLシステムの利点と制限について説明します。
さらに、この原稿は、MISのMTLのさまざまなアプリケーション分野の文献の分析を提示します。これには、大きなモデルがあるものを含む、顕著な傾向、研究の新しい方向、および開発を強調しています。

要約(オリジナル)

Minimally invasive surgery (MIS) has revolutionized many procedures and led to reduced recovery time and risk of patient injury. However, MIS poses additional complexity and burden on surgical teams. Data-driven surgical vision algorithms are thought to be key building blocks in the development of future MIS systems with improved autonomy. Recent advancements in machine learning and computer vision have led to successful applications in analyzing videos obtained from MIS with the promise of alleviating challenges in MIS videos. Surgical scene and action understanding encompasses multiple related tasks that, when solved individually, can be memory-intensive, inefficient, and fail to capture task relationships. Multitask learning (MTL), a learning paradigm that leverages information from multiple related tasks to improve performance and aid generalization, is well suited for fine-grained and high-level understanding of MIS data. This review provides a narrative overview of the current state-of-the-art MTL systems that leverage videos obtained from MIS. Beyond listing published approaches, we discuss the benefits and limitations of these MTL systems. Moreover, this manuscript presents an analysis of the literature for various application fields of MTL in MIS, including those with large models, highlighting notable trends, new directions of research, and developments.

arxiv情報

著者 Oluwatosin Alabi,Tom Vercauteren,Miaojing Shi
発行日 2025-02-10 15:35:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multitask Learning in Minimally Invasive Surgical Vision: A Review はコメントを受け付けていません