Counting Fish with Temporal Representations of Sonar Video

要約

サケの脱出の正確な推定 – 上流に移動する魚の数 – は、保全と漁業管理の重要なデータです。
高解像度イメージングソナーハードウェアを使用したサーモンカウントの既存の方法は、侵襲的であり、コンピュータービジョン処理と互換性があります。
この分野での以前の作業では、自動化されたサーモンカウントのためのオブジェクトの検出と追跡ベースの方法が利用されています。
ただし、これらの手法は、フィールドでの計算と接続が限られているため、多くのソナー展開サイトにはアクセスできません。
数百フレームのイメージングソナービデオを単一の画像に圧縮する時間的表現の分析に基づいて、魚カウントのための代替の軽量コンピュータービジョン方法を提案します。
ResNet-18モデルを使用して、エコーググラムから直接200フレームの時間窓以内に上流と下流のカウントを予測し、ドメイン固有の画像増強のセットと弱く監視されたトレーニングプロトコルを提案して、結果をさらに改善します。
アラスカのケナイ川からの代表的なデータで23%のカウントエラーを達成し、アプローチの実現可能性を示しています。

要約(オリジナル)

Accurate estimates of salmon escapement – the number of fish migrating upstream to spawn – are key data for conservation and fishery management. Existing methods for salmon counting using high-resolution imaging sonar hardware are non-invasive and compatible with computer vision processing. Prior work in this area has utilized object detection and tracking based methods for automated salmon counting. However, these techniques remain inaccessible to many sonar deployment sites due to limited compute and connectivity in the field. We propose an alternative lightweight computer vision method for fish counting based on analyzing echograms – temporal representations that compress several hundred frames of imaging sonar video into a single image. We predict upstream and downstream counts within 200-frame time windows directly from echograms using a ResNet-18 model, and propose a set of domain-specific image augmentations and a weakly-supervised training protocol to further improve results. We achieve a count error of 23% on representative data from the Kenai River in Alaska, demonstrating the feasibility of our approach.

arxiv情報

著者 Kai Van Brunt,Justin Kay,Timm Haucke,Pietro Perona,Grant Van Horn,Sara Beery
発行日 2025-02-07 18:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Counting Fish with Temporal Representations of Sonar Video はコメントを受け付けていません

Latent Swap Joint Diffusion for Long-Form Audio Generation

要約

グローバルビューの拡散または反復生成を使用した長期のオーディオ生成に関する以前の作業には、重要なトレーニングまたは推論コストが必要です。
パノラマ生成のマルチビュー関節拡散の最近の進歩は効率的なオプションを提供しますが、彼らは深刻なオーバーラップ歪みと高いクロスビューの一貫性コストを備えたスペクトル生成と闘っています。
最初に、潜在マップの接続性継承を介してこの現象を探索し、潜在マップの高周波成分を平均的に滑らかに滑らかにすることを明らかにします。
これらの問題に対処するために、複数の拡散を同期させるフレームレベルの潜在スワップフレームワークであるスワップフォワード(SAFA)を提案します。
そのコアでは、隣接するビュー間に双方向のセルフループ潜在スワップが適用され、段階的な拡散軌道を活用して、低周波成分を破壊することなく高周波成分を適応的に強化します。
さらに、クロスビューの一貫性を確保するために、初期段階では、各サブビューの参照領域と非オーバーラップ領域の間に一方向の参照誘導潜在スワップが適用され、集中軌道ガイダンスが提供されます。
定量的および定性的実験は、SAFAが既存の関節拡散法やトレーニングベースの長いオーディオ生成モデルを大幅に上回ることを示しています。
さらに、パノラマの世代にも適応し、効率が向上し、モデルの一般化可能性を備えた同等の最先端のパフォーマンスを達成することがわかりました。
プロジェクトページは、https://swapforward.github.io/で入手できます。

要約(オリジナル)

Previous work on long-form audio generation using global-view diffusion or iterative generation demands significant training or inference costs. While recent advancements in multi-view joint diffusion for panoramic generation provide an efficient option, they struggle with spectrum generation with severe overlap distortions and high cross-view consistency costs. We initially explore this phenomenon through the connectivity inheritance of latent maps and uncover that averaging operations excessively smooth the high-frequency components of the latent map. To address these issues, we propose Swap Forward (SaFa), a frame-level latent swap framework that synchronizes multiple diffusions to produce a globally coherent long audio with more spectrum details in a forward-only manner. At its core, the bidirectional Self-Loop Latent Swap is applied between adjacent views, leveraging stepwise diffusion trajectory to adaptively enhance high-frequency components without disrupting low-frequency components. Furthermore, to ensure cross-view consistency, the unidirectional Reference-Guided Latent Swap is applied between the reference and the non-overlap regions of each subview during the early stages, providing centralized trajectory guidance. Quantitative and qualitative experiments demonstrate that SaFa significantly outperforms existing joint diffusion methods and even training-based long audio generation models. Moreover, we find that it also adapts well to panoramic generation, achieving comparable state-of-the-art performance with greater efficiency and model generalizability. Project page is available at https://swapforward.github.io/.

arxiv情報

著者 Yusheng Dai,Chenxi Wang,Chang Li,Chen Wang,Jun Du,Kewei Li,Ruoyu Wang,Jiefeng Ma,Lei Sun,Jianqing Gao
発行日 2025-02-07 18:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Latent Swap Joint Diffusion for Long-Form Audio Generation はコメントを受け付けていません

ADAPT to Robustify Prompt Tuning Vision Transformers

要約

視覚変圧器を含むディープモデルのパフォーマンスは、敵対的な攻撃に対して脆弱であることが知られています。
敵対的な訓練など、これらの攻撃に対する多くの既存の防御は、モデルに堅牢性を誘発するためにフルモデルの微調整に依存しています。
これらの防御では、各タスクに対して、数十億のパラメーターを持つことができるモデル全体のコピーを保存する必要があります。
同時に、パラメーター効率の高いプロンプトチューニングを使用して、大規模なコピーを保存する必要なく、大規模なトランスベースのモデルを下流タスクに適応させます。
このホワイトペーパーでは、堅牢性の下での下流タスクの視力変圧器のパラメーター効率の高い迅速な調整を調べます。
迅速な調整パラダイムに適用された場合、以前の敵対的防御方法は、勾配的な原性に苦しみ、適応攻撃に対して脆弱であることを示します。
迅速な調整パラダイムで適応敵対的なトレーニングを実行するための新しいフレームワークであるAdaptを紹介します。
私たちの方法は、〜40%W.R.T。
フルモデルの微調整を使用したSOTA堅牢性メソッド、パラメーターの数の約1%のみを調整します。

要約(オリジナル)

The performance of deep models, including Vision Transformers, is known to be vulnerable to adversarial attacks. Many existing defenses against these attacks, such as adversarial training, rely on full-model fine-tuning to induce robustness in the models. These defenses require storing a copy of the entire model, that can have billions of parameters, for each task. At the same time, parameter-efficient prompt tuning is used to adapt large transformer-based models to downstream tasks without the need to save large copies. In this paper, we examine parameter-efficient prompt tuning of Vision Transformers for downstream tasks under the lens of robustness. We show that previous adversarial defense methods, when applied to the prompt tuning paradigm, suffer from gradient obfuscation and are vulnerable to adaptive attacks. We introduce ADAPT, a novel framework for performing adaptive adversarial training in the prompt tuning paradigm. Our method achieves competitive robust accuracy of ~40% w.r.t. SOTA robustness methods using full-model fine-tuning, by tuning only ~1% of the number of parameters.

arxiv情報

著者 Masih Eskandar,Tooba Imtiaz,Zifeng Wang,Jennifer Dy
発行日 2025-02-07 18:04:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | ADAPT to Robustify Prompt Tuning Vision Transformers はコメントを受け付けていません

Chest X-ray Foundation Model with Global and Local Representations Integration

要約

胸部X線(CXR)は最も頻繁に注文された画像検査であり、胸部疾患の検出から術後モニタリングまでの多様な臨床タスクをサポートしています。
ただし、タスク固有の分類モデルは範囲が制限されており、費用のかかるラベル付きデータが必要であり、分散型データセットの一般化が不足しています。
これらの課題に対処するために、堅牢なCXR表現を学習し、幅広いダウンストリームタスクに効果的に一般化する自己監視ビジョンファンデーションモデルであるChexFoundを紹介します。
キュレーションされたCXR-1MデータセットでChexFoundを獲得しました。
下流の適応のためのグローバルおよびローカル表現統合(Glori)モジュールを提案します。これにより、疾患固有のローカル機能をグローバルな画像機能に組み込み、マルチラベル分類におけるパフォーマンスを向上させます。
私たちの実験結果は、ChexFoundがCXR-LT 24データセットの異なる有病率レベルにわたって40の疾患所見を分類する際に最先端のモデルを上回り、限られたトレーニングデータを持つ下流タスクで優れたラベル効率を示すことを示しています。
さらに、ChexFoundは、日和見的な心血管疾患のリスク推定や死亡率予測など、分散型データセットを備えた新しいタスクの大幅な改善を達成しました。
これらの結果は、Chexfoundの強力な一般化機能を強調し、ラベルの効率を改善することで多様な適応を可能にします。
プロジェクトソースコードは、https://github.com/rpidial/chexfoundで公開されています。

要約(オリジナル)

Chest X-ray (CXR) is the most frequently ordered imaging test, supporting diverse clinical tasks from thoracic disease detection to postoperative monitoring. However, task-specific classification models are limited in scope, require costly labeled data, and lack generalizability to out-of-distribution datasets. To address these challenges, we introduce CheXFound, a self-supervised vision foundation model that learns robust CXR representations and generalizes effectively across a wide range of downstream tasks. We pretrain CheXFound on a curated CXR-1M dataset, comprising over one million unique CXRs from publicly available sources. We propose a Global and Local Representations Integration (GLoRI) module for downstream adaptations, by incorporating disease-specific local features with global image features for enhanced performance in multilabel classification. Our experimental results show that CheXFound outperforms state-of-the-art models in classifying 40 disease findings across different prevalence levels on the CXR-LT 24 dataset and exhibits superior label efficiency on downstream tasks with limited training data. Additionally, CheXFound achieved significant improvements on new tasks with out-of-distribution datasets, including opportunistic cardiovascular disease risk estimation and mortality prediction. These results highlight CheXFound’s strong generalization capabilities, enabling diverse adaptations with improved label efficiency. The project source code is publicly available at https://github.com/RPIDIAL/CheXFound.

arxiv情報

著者 Zefan Yang,Xuanang Xu,Jiajin Zhang,Ge Wang,Mannudeep K. Kalra,Pingkun Yan
発行日 2025-02-07 18:16:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Chest X-ray Foundation Model with Global and Local Representations Integration はコメントを受け付けていません

LP-DETR: Layer-wise Progressive Relations for Object Detection

要約

このホワイトペーパーでは、マルチスケールリレーションモデリングを通じてDETRベースのオブジェクト検出を強化する新しいアプローチであるLP-DERT(レイヤーごとのプログレッシブDETR)を紹介します。
私たちの方法は、デコーダー層全体でさまざまな関係(ローカル、メディア、グローバル)のバランスをとることを適応的に学習する、関係認識の自己触媒メカニズムを通じて、オブジェクトクエリ間の学習可能な空間的関係を導入します。
このプログレッシブ設計により、モデルは検出パイプライン全体で進化する空間依存関係を効果的にキャプチャできます。
COCO 2017データセットの広範な実験は、標準の自己触媒モジュールと比較して、この方法が収束速度と検出精度の両方を改善することを示しています。
提案された方法は競争結果を達成し、ResNet-50バックボーンを使用して12エポックと24エポックで52.3%APと52.5 \%APで52.3%APに達し、さらにSWIN-Lバックボーンで58.0 \%APに改善します。
さらに、私たちの分析は興味深いパターンを明らかにしています。モデルは自然に初期デコーダー層のローカル空間関係に優先順位を付けることを学びながら、より深い層のより広いコンテキストに徐々に注意をシフトし、オブジェクト検出の将来の研究のための貴重な洞察を提供します。

要約(オリジナル)

This paper presents LP-DETR (Layer-wise Progressive DETR), a novel approach that enhances DETR-based object detection through multi-scale relation modeling. Our method introduces learnable spatial relationships between object queries through a relation-aware self-attention mechanism, which adaptively learns to balance different scales of relations (local, medium and global) across decoder layers. This progressive design enables the model to effectively capture evolving spatial dependencies throughout the detection pipeline. Extensive experiments on COCO 2017 dataset demonstrate that our method improves both convergence speed and detection accuracy compared to standard self-attention module. The proposed method achieves competitive results, reaching 52.3\% AP with 12 epochs and 52.5\% AP with 24 epochs using ResNet-50 backbone, and further improving to 58.0\% AP with Swin-L backbone. Furthermore, our analysis reveals an interesting pattern: the model naturally learns to prioritize local spatial relations in early decoder layers while gradually shifting attention to broader contexts in deeper layers, providing valuable insights for future research in object detection.

arxiv情報

著者 Zhengjian Kang,Ye Zhang,Xiaoyu Deng,Xintao Li,Yongzhe Zhang
発行日 2025-02-07 18:25:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LP-DETR: Layer-wise Progressive Relations for Object Detection はコメントを受け付けていません

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

要約

大規模なマルチモーダル言語モデルの出現により、Scienceは現在、AIベースの技術変換のしきい値になりました。
最近、多数の新しいAIモデルとツールが提案されており、世界中の研究者と学者がより効果的かつ効率的に研究を行うことを約束しています。
これには、研究サイクルのすべての側面、特に(1)関連する文献の検索が含まれます。
(2)研究のアイデアを生成し、実験を実施する。
(3)テキストベースおよび(4)マルチモーダルコンテンツ(例:科学者や図);
(5)AIベースの自動ピアレビュー。
この調査では、これらのエキサイティングな最近の開発に関する詳細な概要を提供します。
私たちの調査では、上記の5つの側面について説明し、関連するデータセット、方法、結果(評価を含む)、および将来の研究の制限と範囲を示しています。
これらのツールの欠点と誤用の可能性に関する倫理的懸念(偽の科学、盗作、研究の完全性への害)は、私たちの議論で特に顕著な位置を占めています。
私たちの調査が、この分野への新参者の参照ガイドになるだけでなく、「AI4Science」の分野での新しいAIベースのイニシアチブの触媒になることを願っています。

要約(オリジナル)

With the advent of large multimodal language models, science is now at a threshold of an AI-based technological transformation. Recently, a plethora of new AI models and tools has been proposed, promising to empower researchers and academics worldwide to conduct their research more effectively and efficiently. This includes all aspects of the research cycle, especially (1) searching for relevant literature; (2) generating research ideas and conducting experimentation; generating (3) text-based and (4) multimodal content (e.g., scientific figures and diagrams); and (5) AI-based automatic peer review. In this survey, we provide an in-depth overview over these exciting recent developments, which promise to fundamentally alter the scientific research process for good. Our survey covers the five aspects outlined above, indicating relevant datasets, methods and results (including evaluation) as well as limitations and scope for future research. Ethical concerns regarding shortcomings of these tools and potential for misuse (fake science, plagiarism, harms to research integrity) take a particularly prominent place in our discussion. We hope that our survey will not only become a reference guide for newcomers to the field but also a catalyst for new AI-based initiatives in the area of ‘AI4Science’.

arxiv情報

著者 Steffen Eger,Yong Cao,Jennifer D’Souza,Andreas Geiger,Christian Greisinger,Stephanie Gross,Yufang Hou,Brigitte Krenn,Anne Lauscher,Yizhi Li,Chenghua Lin,Nafise Sadat Moosavi,Wei Zhao,Tristan Miller
発行日 2025-02-07 18:26:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation はコメントを受け付けていません

GLAM: Glomeruli Segmentation for Human Pathological Lesions using Adapted Mouse Model

要約

前臨床研究における動物モデルから人間の応用への移動には、医学の幅広い分野が含まれます。
新薬、治療、診断方法の開発、および疾患プロセスの理解を深めることにおける基本的な要素は、腎臓組織の正確な測定です。
過去の研究では、マウスモデルからヒト用途に糸球体セグメンテーション技術を翻訳する実行可能性が実証されています。
しかし、これらの調査は、異なる病変の影響を受ける病理学的糸球体のセグメント化に関与する複雑さを無視する傾向があります。
このような病変は、臨床診療における通常の糸球体よりも間違いなく価値がある健康な糸球体組織と比較して、より広い範囲の形態学的変動を提示します。
さらに、動物モデルからの病変に関するデータは、疾患モデルや腎生検全体からより容易に拡大することができます。
これは、「マウスモデルで訓練された病理学的セグメンテーションモデルをヒト患者に効果的に適用できますか?}」という質問が表示されます。
マウスサンプルを活用することにより、ゼロショット転送学習とハイブリッド学習を使用してヒトの病変病変をセグメント化するためのさまざまな学習戦略を評価することにより、マウスモデルを使用してマウスモデルを使用し、マウスからヒューマンへの転送学習に対処します。
結果から、ハイブリッド学習モデルは優れたパフォーマンスを達成しました。

要約(オリジナル)

Moving from animal models to human applications in preclinical research encompasses a broad spectrum of disciplines in medical science. A fundamental element in the development of new drugs, treatments, diagnostic methods, and in deepening our understanding of disease processes is the accurate measurement of kidney tissues. Past studies have demonstrated the viability of translating glomeruli segmentation techniques from mouse models to human applications. Yet, these investigations tend to neglect the complexities involved in segmenting pathological glomeruli affected by different lesions. Such lesions present a wider range of morphological variations compared to healthy glomerular tissue, which are arguably more valuable than normal glomeruli in clinical practice. Furthermore, data on lesions from animal models can be more readily scaled up from disease models and whole kidney biopsies. This brings up a question: “\textit{Can a pathological segmentation model trained on mouse models be effectively applied to human patients?}’ To answer this question, we introduced GLAM, a deep learning study for fine-grained segmentation of human kidney lesions using a mouse model, addressing mouse-to-human transfer learning, by evaluating different learning strategies for segmenting human pathological lesions using zero-shot transfer learning and hybrid learning by leveraging mouse samples. From the results, the hybrid learning model achieved superior performance.

arxiv情報

著者 Lining Yu,Mengmeng Yin,Ruining Deng,Quan Liu,Tianyuan Yao,Can Cui,Yitian Long,Yu Wang,Yaohong Wang,Shilin Zhao,Haichun Yang,Yuankai Huo
発行日 2025-02-07 18:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | GLAM: Glomeruli Segmentation for Human Pathological Lesions using Adapted Mouse Model はコメントを受け付けていません

Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment

要約

拡散モデルは、オブジェクト中心のタスクの高品質で多様な合成データを生成するのに強力ですが、既存の方法は、視覚的な質問応答(VQA)や人間オブジェクトの相互作用(HOI)の推論などのシーン認識タスクと格闘しています。
マルチモーダルコンテキスト、つまり、テキストガイダンスクエリを伴う参照画像と一致する生成された画像にシーン属性を保持するため。
これに対処するために、マルチモーダルのコンテキストを考慮して、非常に多様な画像を生成する最初の拡散ベースの画像ジェネレーターであるHummingbirdを紹介します。
参照画像は、テキストガイダンスからのオブジェクトの相互作用や空間的関係など、シーンの属性を正確に保存することにより、高い忠実度を保証しながら。
Hummingbirdは、多様性を維持しながらテキストガイダンスに関連して生成された画像を参照画像のシーン属性を保持するために、策定されたグローバルなセマンティックおよび微細に粒度の一貫性報酬を同時に最適化する新しいマルチモーダルコンテキスト評価者を採用しています。
マルチモーダルコンテキストを考慮して、多様性と忠実度の両方を維持するタスクに対処する最初のモデルとして、MMEの知覚とボンガードHOIデータセットを組み込んだ新しいベンチマーク定式化を導入します。
ベンチマークの実験では、ハチドリが多様性を維持しながら優れた忠実度を達成することにより、すべての既存の方法を上回ることを示しており、複雑な視覚タスクでの堅牢なマルチモーダルコンテキストに整列した画像ジェネレーターとしてのハミングバードの可能性を検証します。

要約(オリジナル)

While diffusion models are powerful in generating high-quality, diverse synthetic data for object-centric tasks, existing methods struggle with scene-aware tasks such as Visual Question Answering (VQA) and Human-Object Interaction (HOI) Reasoning, where it is critical to preserve scene attributes in generated images consistent with a multimodal context, i.e. a reference image with accompanying text guidance query. To address this, we introduce Hummingbird, the first diffusion-based image generator which, given a multimodal context, generates highly diverse images w.r.t. the reference image while ensuring high fidelity by accurately preserving scene attributes, such as object interactions and spatial relationships from the text guidance. Hummingbird employs a novel Multimodal Context Evaluator that simultaneously optimizes our formulated Global Semantic and Fine-grained Consistency Rewards to ensure generated images preserve the scene attributes of reference images in relation to the text guidance while maintaining diversity. As the first model to address the task of maintaining both diversity and fidelity given a multimodal context, we introduce a new benchmark formulation incorporating MME Perception and Bongard HOI datasets. Benchmark experiments show Hummingbird outperforms all existing methods by achieving superior fidelity while maintaining diversity, validating Hummingbird’s potential as a robust multimodal context-aligned image generator in complex visual tasks.

arxiv情報

著者 Minh-Quan Le,Gaurav Mittal,Tianjian Meng,A S M Iftekhar,Vishwas Suryanarayanan,Barun Patra,Dimitris Samaras,Mei Chen
発行日 2025-02-07 18:32:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hummingbird: High Fidelity Image Generation via Multimodal Context Alignment はコメントを受け付けていません

Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration

要約

最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、臨床医のワークロードを効果的に緩和しています。
ただし、異なる疾患間の固有のサンプルの不均衡は、アルゴリズムを過半数カテゴリに偏っており、まれなカテゴリのパフォーマンスが低下します。
既存の作品は、この課題を長期尾のある問題として定式化し、特徴の表現と分類を分離することでそれに取り組むことを試みました。
しかし、不均衡な分布とテールクラスからの限られたサンプルにより、これらの作品は偏った表現学習と不十分な分類器のキャリブレーションを起こしやすくなります。
これらの問題に取り組むために、ロングテールされたデータセットでのバランスの取れた医療画像分類のための新しいロングテール医療診断(LMD)フレームワークを提案します。
初期段階では、エンコーダーがさまざまなデータ増強を通じて固有のセマンティック機能をキャプチャするよう奨励することにより、関係認識表現学習(RRL)スキームを開発します。
その後の段階では、分類器を繰り返し調整するための反復分類器キャリブレーション(ICC)スキームを提案します。
これは、多数のバランスの取れた仮想機能を生成し、期待最大化方法を使用してエンコーダーを微調整することによって達成されます。
提案されているICCは、少数派のカテゴリを補償して、多数派クラスの診断知識を維持しながら、偏りのない分類器の最適化を促進します。
3つの公共の長期尾のある医療データセットでの包括的な実験は、LMDフレームワークが最先端のアプローチを大幅に上回っていることを示しています。
ソースコードは、https://github.com/peterlipan/lmdでアクセスできます。

要約(オリジナル)

Recently computer-aided diagnosis has demonstrated promising performance, effectively alleviating the workload of clinicians. However, the inherent sample imbalance among different diseases leads algorithms biased to the majority categories, leading to poor performance for rare categories. Existing works formulated this challenge as a long-tailed problem and attempted to tackle it by decoupling the feature representation and classification. Yet, due to the imbalanced distribution and limited samples from tail classes, these works are prone to biased representation learning and insufficient classifier calibration. To tackle these problems, we propose a new Long-tailed Medical Diagnosis (LMD) framework for balanced medical image classification on long-tailed datasets. In the initial stage, we develop a Relation-aware Representation Learning (RRL) scheme to boost the representation ability by encouraging the encoder to capture intrinsic semantic features through different data augmentations. In the subsequent stage, we propose an Iterative Classifier Calibration (ICC) scheme to calibrate the classifier iteratively. This is achieved by generating a large number of balanced virtual features and fine-tuning the encoder using an Expectation-Maximization manner. The proposed ICC compensates for minority categories to facilitate unbiased classifier optimization while maintaining the diagnostic knowledge in majority classes. Comprehensive experiments on three public long-tailed medical datasets demonstrate that our LMD framework significantly surpasses state-of-the-art approaches. The source code can be accessed at https://github.com/peterlipan/LMD.

arxiv情報

著者 Li Pan,Yupei Zhang,Qiushi Yang,Tan Li,Zhen Chen
発行日 2025-02-07 18:37:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration はコメントを受け付けていません

Multitwine: Multi-Object Compositing with Text and Layout Control

要約

テキストとレイアウトの両方に導かれた、同時にマルチオブジェクトコンポジットが可能な最初の生成モデルを紹介します。
私たちのモデルでは、シーン内に複数のオブジェクトを追加することができ、単純な位置関係(例えば、前の、前の、隣の)から、後退(例えば、ハグ、ギターの演奏)を必要とする複雑なアクションまでの幅広い相互作用をキャプチャできます。
相互作用が「自撮りをする」などの追加の小道具を暗示する場合、モデルはこれらのサポートオブジェクトを自律的に生成します。
カスタマイズとも呼ばれる合成およびサブジェクト駆動型の生成のための共同トレーニングにより、テキスト駆動型オブジェクトの合成のテキストと視覚入力のよりバランスの取れた統合を実現します。
その結果、両方のタスクで最先端のパフォーマンスを備えた多用途のモデルを取得します。
さらに、視覚モデルと言語モデルを活用するデータ生成パイプラインを提示して、マルチモーダルの整列したトレーニングデータを簡単に合成します。

要約(オリジナル)

We introduce the first generative model capable of simultaneous multi-object compositing, guided by both text and layout. Our model allows for the addition of multiple objects within a scene, capturing a range of interactions from simple positional relations (e.g., next to, in front of) to complex actions requiring reposing (e.g., hugging, playing guitar). When an interaction implies additional props, like `taking a selfie’, our model autonomously generates these supporting objects. By jointly training for compositing and subject-driven generation, also known as customization, we achieve a more balanced integration of textual and visual inputs for text-driven object compositing. As a result, we obtain a versatile model with state-of-the-art performance in both tasks. We further present a data generation pipeline leveraging visual and language models to effortlessly synthesize multimodal, aligned training data.

arxiv情報

著者 Gemma Canet Tarrés,Zhe Lin,Zhifei Zhang,He Zhang,Andrew Gilbert,John Collomosse,Soo Ye Kim
発行日 2025-02-07 18:48:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multitwine: Multi-Object Compositing with Text and Layout Control はコメントを受け付けていません