Why does my medical AI look at pictures of birds? Exploring the efficacy of transfer learning across domain boundaries

要約

Imagenetが前orainingの万能薬として扱われることは、オープンな秘密です。
特に医療機械学習では、ゼロからトレーニングされていないモデルは、多くの場合、Imagenet-Preatreaded Modelsに基づいて微調整されます。
下流タスクのドメインからのデータを事前に削除することを、代わりにほとんど常に優先する必要があると仮定します。
1,200万を超えるコンピューター断層撮影(CT)画像スライスを含むデータセットであるRadnet-12Mを活用して、医学的および自然な画像に対する自己監視前の事前採取の有効性を調査します。
私たちの実験は、ドメイン内およびクロスドメインの移転シナリオ、さまざまなデータスケール、微調整と線形評価、および特徴空間分析をカバーしています。
ドメイン内移動は、クロスドメインの移動と比較して比較され、同等または改善されたパフォーマンス(実験に応じて、ラドネット前削除を使用して0.44%-2.07%のパフォーマンスの増加)を達成し、ドメイン境界関連の一般化ギャップと存在を実証することがわかります。
ドメイン固有の学習機能。

要約(オリジナル)

It is an open secret that ImageNet is treated as the panacea of pretraining. Particularly in medical machine learning, models not trained from scratch are often finetuned based on ImageNet-pretrained models. We posit that pretraining on data from the domain of the downstream task should almost always be preferred instead. We leverage RadNet-12M, a dataset containing more than 12 million computed tomography (CT) image slices, to explore the efficacy of self-supervised pretraining on medical and natural images. Our experiments cover intra- and cross-domain transfer scenarios, varying data scales, finetuning vs. linear evaluation, and feature space analysis. We observe that intra-domain transfer compares favorably to cross-domain transfer, achieving comparable or improved performance (0.44% – 2.07% performance increase using RadNet pretraining, depending on the experiment) and demonstrate the existence of a domain boundary-related generalization gap and domain-specific learned features.

arxiv情報

著者 Frederic Jonske,Moon Kim,Enrico Nasca,Janis Evers,Johannes Haubold,René Hosch,Felix Nensa,Michael Kamp,Constantin Seibold,Jan Egger,Jens Kleesiek
発行日 2025-02-14 10:12:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Why does my medical AI look at pictures of birds? Exploring the efficacy of transfer learning across domain boundaries はコメントを受け付けていません

RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control

要約

カメラトリュームガイド付きの画像からビデオへの最近の進歩により、テキストベースのアプローチと比較して、より高い精度と複雑なカメラ制御のサポートが高くなります。
ただし、ユーザーは深さやシーンスケールの知識なしに任意の現実世界画像を操作する際に正確なカメラパラメーターを提供するのに苦労することが多いため、重要なユーザビリティの課題を導入します。
これらの現実世界のアプリケーションの問題に対処するために、単眼のメートリック深度推定を統合して3Dシーンの再構築を前処理ステップで確立する新しい拡散ベースのビデオ生成フレームワークであるRealCam-I2Vを提案します。
トレーニング中、再構築された3Dシーンは、相対値から絶対値へのスケーリングカメラパラメーターを可能にし、多様な現実世界の画像間の互換性とスケールの一貫性を確保します。
推論では、RealCam-I2Vは、3Dシーン内でドラッグすることでユーザーがカメラの軌跡を正確に描画できる直感的なインターフェイスを提供します。
正確なカメラの制御とシーンの一貫性をさらに強化するために、シーンが制約されたノイズシェーピングを提案します。これにより、高レベルのノイズが形成され、フレームワークがより低いノイズ段階で動的でコヒーレントなビデオ生成を維持できます。
RealCam-I2Vは、RealEState10Kおよびドメイン外の画像で制御可能性とビデオ品質の大幅な改善を達成します。
さらに、カメラ制御のループビデオ生成や生成フレームの補間などのアプリケーションを有効にします。
絶対規模の注釈、コード、およびすべてのチェックポイントをリリースします。
https://zgctroy.github.io/realcam-i2vの動的結果をご覧ください。

要約(オリジナル)

Recent advancements in camera-trajectory-guided image-to-video generation offer higher precision and better support for complex camera control compared to text-based approaches. However, they also introduce significant usability challenges, as users often struggle to provide precise camera parameters when working with arbitrary real-world images without knowledge of their depth nor scene scale. To address these real-world application issues, we propose RealCam-I2V, a novel diffusion-based video generation framework that integrates monocular metric depth estimation to establish 3D scene reconstruction in a preprocessing step. During training, the reconstructed 3D scene enables scaling camera parameters from relative to absolute values, ensuring compatibility and scale consistency across diverse real-world images. In inference, RealCam-I2V offers an intuitive interface where users can precisely draw camera trajectories by dragging within the 3D scene. To further enhance precise camera control and scene consistency, we propose scene-constrained noise shaping, which shapes high-level noise and also allows the framework to maintain dynamic, coherent video generation in lower noise stages. RealCam-I2V achieves significant improvements in controllability and video quality on the RealEstate10K and out-of-domain images. We further enables applications like camera-controlled looping video generation and generative frame interpolation. We will release our absolute-scale annotation, codes, and all checkpoints. Please see dynamic results in https://zgctroy.github.io/RealCam-I2V.

arxiv情報

著者 Teng Li,Guangcong Zheng,Rui Jiang,Shuigenzhan,Tao Wu,Yehao Lu,Yining Lin,Xi Li
発行日 2025-02-14 10:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control はコメントを受け付けていません

DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery

要約

視覚データは、リモートセンシングから生態学まで、さまざまな科学的ワークフローで使用されています。
観測データの量が増加するにつれて、課題は正確な予測を行うだけでなく、それらの予測の根本的なメカニズムを理解することでもあります。
科学的ワークフローでは、データの洞察を提供することでより良い意思決定を可能にするため、優れた解釈が重要です。
このペーパーでは、ニューラルネットワークをインターリーブするプログラムを学習することにより、このような解釈可能な設計モデルを取得する自動方法を紹介します。
LLMSと進化を使用して科学プログラムを発見する)を提案します。これは、大規模な言語モデル(LLM)の常識と事前知識を活用して視覚データを説明するPythonプログラムを作成する進化的アルゴリズムを提案します。
さらに、2つの改善を提案します。プログラム批評家とプログラムの単純化により、優れたプログラムを統合するための方法をさらに改善します。
3つの異なる現実世界の問題について、弟子は以前の文献のない新しいタスクに関する最先端のプログラムを学びます。
たとえば、人口密度の推定に最も近い不安定なベースラインよりも35%低い誤差でプログラムを学ぶことができます。

要約(オリジナル)

Visual data is used in numerous different scientific workflows ranging from remote sensing to ecology. As the amount of observation data increases, the challenge is not just to make accurate predictions but also to understand the underlying mechanisms for those predictions. Good interpretation is important in scientific workflows, as it allows for better decision-making by providing insights into the data. This paper introduces an automatic way of obtaining such interpretable-by-design models, by learning programs that interleave neural networks. We propose DiSciPLE (Discovering Scientific Programs using LLMs and Evolution) an evolutionary algorithm that leverages common sense and prior knowledge of large language models (LLMs) to create Python programs explaining visual data. Additionally, we propose two improvements: a program critic and a program simplifier to improve our method further to synthesize good programs. On three different real-world problems, DiSciPLE learns state-of-the-art programs on novel tasks with no prior literature. For example, we can learn programs with 35% lower error than the closest non-interpretable baseline for population density estimation.

arxiv情報

著者 Utkarsh Mall,Cheng Perng Phoo,Mia Chiquier,Bharath Hariharan,Kavita Bala,Carl Vondrick
発行日 2025-02-14 10:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery はコメントを受け付けていません

Hands-off Image Editing: Language-guided Editing without any Task-specific Labeling, Masking or even Training

要約

命令ガイド付き画像編集は、画像と指示を取り、その命令に従って変更されたその画像を作成することで構成されています。
このタスクに対する最先端のアプローチは、最終的にタスク固有のラベル付け、マスキング、またはトレーニングに頼るため、監督に関連する典型的なスケールアップおよびドメインの適応障害に苦しんでいます。
私たちは、このようなタスク固有の監督なしで行う新しいアプローチを提案し、したがって改善の可能性を高めることができます。
その評価は、それが非常に効果的であり、非常に競争力のあるパフォーマンスを達成していることを示しています。

要約(オリジナル)

Instruction-guided image editing consists in taking an image and an instruction and deliverring that image altered according to that instruction. State-of-the-art approaches to this task suffer from the typical scaling up and domain adaptation hindrances related to supervision as they eventually resort to some kind of task-specific labelling, masking or training. We propose a novel approach that does without any such task-specific supervision and offers thus a better potential for improvement. Its assessment demonstrates that it is highly effective, achieving very competitive performance.

arxiv情報

著者 Rodrigo Santos,António Branco,João Silva,João Rodrigues
発行日 2025-02-14 10:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Hands-off Image Editing: Language-guided Editing without any Task-specific Labeling, Masking or even Training はコメントを受け付けていません

HaSPeR: An Image Repository for Hand Shadow Puppet Recognition

要約

ShadowgraphyまたはOmbromanieとも呼ばれるハンドシャドウパペットは、生き物の幻想を生み出すためにハンドシャドウが平らな表面に投影される演劇芸術とストーリーテリングの一種です。
熟練したパフォーマーは、動物や物の影に似るために、手の位置、指の動き、器用なジェスチャーによってこれらのシルエットを作成します。
開業医の不足と人々の娯楽基準の地震の変化により、この芸術形式は絶滅の危機にonしています。
その保存を促進し、より多くの聴衆に増殖させるために、$ {\ rm h {\ small a} sp {\ small e} r} $を紹介します。
プロのハンドシャドウパペットクリップの両方。
データセットの詳細な統計分析を提供し、ベースラインを確立するために、幅広い前提型画像分類モデルを使用します。
私たちの調査結果は、注意ベースのトランスアーキテクチャよりもスキップ接続された畳み込みモデルの実質的なパフォーマンスの優位性を示しています。
また、モバイルアプリケーションや埋め込みデバイスに適したMobileNETV2などの軽量モデルが比較的うまく機能することがわかります。
このような低遅延アーキテクチャは、Ombromanie Teaching Toolsの開発に役立つ可能性があると推測し、この保険を調査するためのプロトタイプアプリケーションを作成します。
最適なモデルのresnet34を脚光を浴びている状態に保ち、包括的な機能空間、説明、エラー分析を実施して、意思決定プロセスに関する洞察を得ます。
私たちの知る限り、これは最初に文書化されたデータセットと研究の努力であり、この死にゆく芸術を将来の世代のために維持し、コンピュータービジョンアプローチを備えています。
私たちのコードとデータは公開されます。

要約(オリジナル)

Hand shadow puppetry, also known as shadowgraphy or ombromanie, is a form of theatrical art and storytelling where hand shadows are projected onto flat surfaces to create illusions of living creatures. The skilled performers create these silhouettes by hand positioning, finger movements, and dexterous gestures to resemble shadows of animals and objects. Due to the lack of practitioners and a seismic shift in people’s entertainment standards, this art form is on the verge of extinction. To facilitate its preservation and proliferate it to a wider audience, we introduce ${\rm H{\small A}SP{\small E}R}$, a novel dataset consisting of 15,000 images of hand shadow puppets across 15 classes extracted from both professional and amateur hand shadow puppeteer clips. We provide a detailed statistical analysis of the dataset and employ a range of pretrained image classification models to establish baselines. Our findings show a substantial performance superiority of skip-connected convolutional models over attention-based transformer architectures. We also find that lightweight models, such as MobileNetV2, suited for mobile applications and embedded devices, perform comparatively well. We surmise that such low-latency architectures can be useful in developing ombromanie teaching tools, and we create a prototype application to explore this surmission. Keeping the best-performing model ResNet34 under the limelight, we conduct comprehensive feature-spatial, explainability, and error analyses to gain insights into its decision-making process. To the best of our knowledge, this is the first documented dataset and research endeavor to preserve this dying art for future generations, with computer vision approaches. Our code and data will be publicly available.

arxiv情報

著者 Syed Rifat Raiyan,Zibran Zarif Amio,Sabbir Ahmed
発行日 2025-02-14 10:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HaSPeR: An Image Repository for Hand Shadow Puppet Recognition はコメントを受け付けていません

CrossFi: A Cross Domain Wi-Fi Sensing Framework Based on Siamese Network

要約

近年、Wi-Fi Sensingは、プライバシー保護、低コスト、浸透能力など、多くの利点のために大きな注目を集めています。
この分野では、ジェスチャー認識、人々の識別、転倒検出などの分野に焦点を当てた広範な研究が行われています。
ただし、多くのデータ駆動型の方法は、トレーニングデータとは異なる環境でモデルがうまく機能しないドメインシフトに関連する課題に遭遇します。
この問題に貢献する主な要因の1つは、Wi-Fi Sensingデータセットの利用可能性が限られていることです。これにより、モデルは過度の無関係な情報を学習し、トレーニングセットに過剰に適合します。
残念ながら、多様なシナリオ全体で大規模なWi-Fi Sensingデータセットを収集することは困難な作業です。
この問題に対処するために、少数のショット、ゼロショットシナリオなど、ドメイン内のシナリオとクロスドメインシナリオの両方で優れたシャムネットワークベースのアプローチであるCrossFiを提案し、さらには少数のショットの新しいクラスシナリオでも機能します。
テストセットには新しいカテゴリが含まれています。
CrossFiのコアコンポーネントは、CSI-NETと呼ばれるサンプルシミラリティ計算ネットワークであり、距離やコサインの類似性を単純に計算する代わりに、注意メカニズムを使用して類似情報をキャプチャすることにより、シャムネットワークの構造を改善します。
それに基づいて、クラスごとにテンプレートを生成できる追加のウェイトネットを開発し、CrossFiがさまざまなシナリオで動作できるようにします。
実験結果は、CrossFiがさまざまなシナリオで最先端のパフォーマンスを達成することを示しています。
ジェスチャー認識タスクでは、CrossFiはドメイン内シナリオで98.17%、ワンショットクロスドメインシナリオで91.72%、ゼロショットクロスドメインシナリオで64.81%、ワンショットの新規で84.75%を達成します。
クラスシナリオ。
モデルのコードは、https://github.com/rs2002/crossfiで公開されています。

要約(オリジナル)

In recent years, Wi-Fi sensing has garnered significant attention due to its numerous benefits, such as privacy protection, low cost, and penetration ability. Extensive research has been conducted in this field, focusing on areas such as gesture recognition, people identification, and fall detection. However, many data-driven methods encounter challenges related to domain shift, where the model fails to perform well in environments different from the training data. One major factor contributing to this issue is the limited availability of Wi-Fi sensing datasets, which makes models learn excessive irrelevant information and over-fit to the training set. Unfortunately, collecting large-scale Wi-Fi sensing datasets across diverse scenarios is a challenging task. To address this problem, we propose CrossFi, a siamese network-based approach that excels in both in-domain scenario and cross-domain scenario, including few-shot, zero-shot scenarios, and even works in few-shot new-class scenario where testing set contains new categories. The core component of CrossFi is a sample-similarity calculation network called CSi-Net, which improves the structure of the siamese network by using an attention mechanism to capture similarity information, instead of simply calculating the distance or cosine similarity. Based on it, we develop an extra Weight-Net that can generate a template for each class, so that our CrossFi can work in different scenarios. Experimental results demonstrate that our CrossFi achieves state-of-the-art performance across various scenarios. In gesture recognition task, our CrossFi achieves an accuracy of 98.17% in in-domain scenario, 91.72% in one-shot cross-domain scenario, 64.81% in zero-shot cross-domain scenario, and 84.75% in one-shot new-class scenario. The code for our model is publicly available at https://github.com/RS2002/CrossFi.

arxiv情報

著者 Zijian Zhao,Tingwei Chen,Zhijie Cai,Xiaoyang Li,Hang Li,Qimei Chen,Guangxu Zhu
発行日 2025-02-14 11:12:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.SP | CrossFi: A Cross Domain Wi-Fi Sensing Framework Based on Siamese Network はコメントを受け付けていません

City-Scale Multi-Camera Vehicle Tracking System with Improved Self-Supervised Camera Link Model

要約

マルチターゲットマルチカメラ追跡(MTMCT)には幅広いアプリケーションがあり、多数の将来の都市全体のシステム(トラフィック管理、クラッシュ検出など)の基礎を形成しています。
ただし、特徴抽出のみに基づいて、さまざまなカメラで車両の軌跡を一致させるという課題は、大きな困難をもたらします。
この記事では、自己監視カメラリンクモデルを利用する革新的なマルチカメラ車両追跡システムを紹介します。
手動の空間的注釈に依存する関連作品とは対照的に、私たちのモデルは、車両マッチングのために重要なマルチカメラ関係を自動的に抽出します。
カメラリンクは、高品質のトラックの特徴の類似性、ペア番号、および時間の分散を評価する事前に一致するプロセスを通じて確立されます。
このプロセスは、すべてのカメラの組み合わせの空間リンクの確率を計算し、カメラリンクを作成するための最高のスコアリングペアを選択します。
私たちのアプローチは、人間の注釈の必要性を排除することにより、展開時間を大幅に改善し、実際のアプリケーションに関しては効率と費用対効果の大幅な改善を提供します。
このペアリングプロセスは、空間的制約を設定することにより、クロスカメラマッチングをサポートし、潜在的な車両マッチの検索スペースを削減します。
実験結果によると、提案された方法は、61.07%IDF1スコアを備えたCityFlow V2ベンチマークの自動カメラリンクベースの方法の中で新しい最先端の最先端を達成します。

要約(オリジナル)

Multi-Target Multi-Camera Tracking (MTMCT) has broad applications and forms the basis for numerous future city-wide systems (e.g. traffic management, crash detection, etc.). However, the challenge of matching vehicle trajectories across different cameras based solely on feature extraction poses significant difficulties. This article introduces an innovative multi-camera vehicle tracking system that utilizes a self-supervised camera link model. In contrast to related works that rely on manual spatial-temporal annotations, our model automatically extracts crucial multi-camera relationships for vehicle matching. The camera link is established through a pre-matching process that evaluates feature similarities, pair numbers, and time variance for high-quality tracks. This process calculates the probability of spatial linkage for all camera combinations, selecting the highest scoring pairs to create camera links. Our approach significantly improves deployment times by eliminating the need for human annotation, offering substantial improvements in efficiency and cost-effectiveness when it comes to real-world application. This pairing process supports cross camera matching by setting spatial-temporal constraints, reducing the searching space for potential vehicle matches. According to our experimental results, the proposed method achieves a new state-of-the-art among automatic camera-link based methods in CityFlow V2 benchmarks with 61.07% IDF1 Score.

arxiv情報

著者 Yuqiang Lin,Sam Lockyer,Nic Zhang
発行日 2025-02-14 11:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | City-Scale Multi-Camera Vehicle Tracking System with Improved Self-Supervised Camera Link Model はコメントを受け付けていません

Domain-Invariant Per-Frame Feature Extraction for Cross-Domain Imitation Learning with Visual Observations

要約

模倣学習(IL)により、エージェントは報酬シグナルなしで専門家の行動を模倣できますが、高次元的、ノイズがよく、不完全な視覚的観測を伴うクロスドメインシナリオで課題に直面します。
これに対処するために、模倣学習のためのドメイン不変の特徴機能抽出(diff-il)を提案します。これは、個々のフレームからドメイン不変の特徴を抽出し、それらをシーケンスに適応させて専門家の行動を分離および再現する新しいIL方法です。
また、Timestepsによる専門家の動作をセグメント化し、時間的コンテキストに沿った報酬を割り当てて、タスクのパフォーマンスを向上させるためのフレームごとの時間ラベリング手法を導入します。
多様な視覚環境にわたる実験は、複雑な視覚タスクへの対処におけるDiff-ILの有効性を示しています。

要約(オリジナル)

Imitation learning (IL) enables agents to mimic expert behavior without reward signals but faces challenges in cross-domain scenarios with high-dimensional, noisy, and incomplete visual observations. To address this, we propose Domain-Invariant Per-Frame Feature Extraction for Imitation Learning (DIFF-IL), a novel IL method that extracts domain-invariant features from individual frames and adapts them into sequences to isolate and replicate expert behaviors. We also introduce a frame-wise time labeling technique to segment expert behaviors by timesteps and assign rewards aligned with temporal contexts, enhancing task performance. Experiments across diverse visual environments demonstrate the effectiveness of DIFF-IL in addressing complex visual tasks.

arxiv情報

著者 Minung Kim,Kawon Lee,Jungmo Kim,Sungho Choi,Seungyul Han
発行日 2025-02-14 11:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Domain-Invariant Per-Frame Feature Extraction for Cross-Domain Imitation Learning with Visual Observations はコメントを受け付けていません

Anti-Forgetting Adaptation for Unsupervised Person Re-identification

要約

定期的に監視されていないドメイン適応者の再識別(Reid)は、ソースドメインから固定ターゲットドメインへのモデルの適応に焦点を当てています。
ただし、適応されたReidモデルは、以前に獲得された知識をほとんど保持することができず、目に見えないデータに一般化することはできません。
この論文では、ソースドメインと各適応ターゲットドメインを忘れることなく、新しいドメインにモデルを徐々に適応させるデュアルレベルの共同適応と焦点アンチ焦点(DJAA)フレームワークを提案します。
プロトタイプとインスタンスレベルの一貫性を使用して、適応中の忘却を軽減する可能性を探ります。
具体的には、各適応ステップで更新されるメモリバッファーに、少数の代表的な画像サンプルと対応するクラスタープロトタイプを保存します。
バッファリングされた画像とプロトタイプを使用して、画像とイメージの類似性と画像間の類似性を正規化して、古い知識をリハーサルします。
マルチステップ適応の後、モデルは、すべての見られたドメインといくつかの目に見えないドメインでテストされ、メソッドの一般化能力を検証します。
広範な実験では、提案された方法が、監視されていない人のReidモデルの浸透防止、一般化、および後方互換能力を大幅に改善することを示しています。

要約(オリジナル)

Regular unsupervised domain adaptive person re-identification (ReID) focuses on adapting a model from a source domain to a fixed target domain. However, an adapted ReID model can hardly retain previously-acquired knowledge and generalize to unseen data. In this paper, we propose a Dual-level Joint Adaptation and Anti-forgetting (DJAA) framework, which incrementally adapts a model to new domains without forgetting source domain and each adapted target domain. We explore the possibility of using prototype and instance-level consistency to mitigate the forgetting during the adaptation. Specifically, we store a small number of representative image samples and corresponding cluster prototypes in a memory buffer, which is updated at each adaptation step. With the buffered images and prototypes, we regularize the image-to-image similarity and image-to-prototype similarity to rehearse old knowledge. After the multi-step adaptation, the model is tested on all seen domains and several unseen domains to validate the generalization ability of our method. Extensive experiments demonstrate that our proposed method significantly improves the anti-forgetting, generalization and backward-compatible ability of an unsupervised person ReID model.

arxiv情報

著者 Hao Chen,Francois Bremond,Nicu Sebe,Shiliang Zhang
発行日 2025-02-14 12:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Anti-Forgetting Adaptation for Unsupervised Person Re-identification はコメントを受け付けていません

Image Embedding Sampling Method for Diverse Captioning

要約

最先端のVLMSの画像キャプションは、時間とともに大幅に改善されました。
ただし、これには計算の複雑さが増加するため、モバイルデバイスや支援技術などのリソース制約のあるアプリケーションではアクセスしにくいものになります。
あるいは、より小さなVLMSが高レベルのシーンの説明を優先し、画像のより豊かな理解に寄与するより細かい詳細を見下ろしています。
この論文では、バックボーンとして同等の小さなVLM、BLIPを使用して異なる画像領域に明示的に参加することにより、キャプションの多様性と情報性を高めるトレーニングフリーのフレームワークを紹介します。
私たちのアプローチは、構造化されたセグメンテーションを活用して、グローバルとローカライズされたセマンティクスの両方をキャプチャする階層表現を生成します。
追加のモデルトレーニングを必要とせずに、私たちの方法により、より小さなVLMが画像キャプションのアライメント、セマンティックの完全性、多様性の点で、より大きなモデルに匹敵するパフォーマンスを実現できることを実証します。
MSCOCO、FlickR30K、およびNOCAPSテストデータセットに関するフレームワークを評価し、各データセットでそれぞれ0.735、0.750、および0.748のDIV-2スコアを達成し、人間が発生したキャプションとの強力な画像キャプションの関連性とセマンティックの完全性を維持します。

要約(オリジナル)

Image Captioning for state-of-the-art VLMs has significantly improved over time; however, this comes at the cost of increased computational complexity, making them less accessible for resource-constrained applications such as mobile devices and assistive technologies. Alternatively, smaller VLMs prioritize high-level scene descriptions, overlooking finer details that contribute to a richer understanding of an image. In this paper, we introduce a training-free framework that enhances caption diversity and informativeness by explicitly attending to distinct image regions using a comparably small VLM, BLIP, as the backbone. Our approach leverages structured segmentation to produce hierarchical representations that capture both global and localized semantics. Without requiring additional model training, we demonstrate that our method allows smaller VLMs to achieve performance comparable to larger models in terms of image-caption alignment, semantic integrity, and diversity. We evaluate our framework on MSCOCO, Flickr30k, and Nocaps test datasets, achieving a Div-2 score of 0.735, 0.750, and 0.748 for each dataset respectively, while maintaining strong image-caption relevancy and semantic integrity with the human-annotated captions.

arxiv情報

著者 Sania Waheed,Na Min An
発行日 2025-02-14 12:33:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Image Embedding Sampling Method for Diverse Captioning はコメントを受け付けていません