VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

要約

埋め込みモデルは、意味的類似性、情報検索、クラスタリングなどのさまざまな下流タスクを可能にする上で極めて重要です。
最近、タスク全体で一般化できるユニバーサル テキスト埋め込みモデル (MTEB など) の開発に対する関心が高まっています。
ただし、ユニバーサルマルチモーダル埋め込みモデルの学習の進歩は、その重要性にもかかわらず比較的遅いです。
この研究では、幅広い下流タスクを処理できるユニバーサルな埋め込みを構築する可能性を探ることを目的としています。
私たちの貢献は 2 つあります: (1) MMEB (Massive Multimodal Embedding Benchmark)。これは 4 つのメタタスク (つまり、分類、視覚的な質問応答、マルチモーダル検索、視覚的グラウンディング) と 20 のトレーニング データセットと 16 の評価データセットを含む 36 のデータセットをカバーします。
(2) VLM2Vec (Vision-Language Model -> Vector)。MMEB でのトレーニングを通じて、最先端の視覚言語モデルを埋め込みモデルに変換する対照的なトレーニング フレームワークです。
CLIP や BLIP などの以前のモデルとは異なり、VLM2Vec は画像とテキストの任意の組み合わせを処理して、タスク命令に基づいて固定次元ベクトルを生成できます。
Phi-3.5-V 上で一連の VLM2Vec モデルを構築し、MMEB の評価分割で評価します。
私たちの結果は、VLM2Vec が MMEB の分布内データセットと分布外データセットの両方で、既存のマルチモーダル埋め込みモデルと比較して絶対平均 10% ~ 20% の改善を達成することを示しています。

要約(オリジナル)

Embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering. Recently, there has been a surge of interest in developing universal text embedding models that can generalize across tasks (e.g., MTEB). However, progress in learning universal multimodal embedding models has been relatively slow despite their importance. In this work, we aim to explore the potential for building universal embeddings capable of handling a wide range of downstream tasks. Our contributions are twofold: (1) MMEB (Massive Multimodal Embedding Benchmark), which covers 4 meta-tasks (i.e. classification, visual question answering, multimodal retrieval, and visual grounding) and 36 datasets, including 20 training and 16 evaluation datasets, and (2) VLM2Vec (Vision-Language Model -> Vector), a contrastive training framework that converts any state-of-the-art vision-language model into an embedding model via training on MMEB. Unlike previous models such as CLIP and BLIP, VLM2Vec can process any combination of images and text to generate a fixed-dimensional vector based on task instructions. We build a series of VLM2Vec models on Phi-3.5-V and evaluate them on MMEB’s evaluation split. Our results show that VLM2Vec achieves an absolute average improvement of 10% to 20% over existing multimodal embedding models on both in-distribution and out-of-distribution datasets in MMEB.

arxiv情報

著者 Ziyan Jiang,Rui Meng,Xinyi Yang,Semih Yavuz,Yingbo Zhou,Wenhu Chen
発行日 2024-10-11 15:00:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

Can GPTs Evaluate Graphic Design Based on Design Principles?

要約

基礎モデルの最近の進歩により、グラフィック デザインの生成において有望な機能が示されています。
いくつかの研究では、LMM がグラフィック デザインの品質を適切に評価できると仮定して、グラフィック デザインを評価するために LMM を採用し始めていますが、その評価が信頼できるかどうかは不明です。
グラフィック デザインの品質を評価する 1 つの方法は、デザインがデザイナーの一般的な実践である基本的なグラフィック デザイン原則に準拠しているかどうかを評価することです。
この論文では、GPT ベースの評価と、60 人の被験者から収集したヒューマン アノテーションを使用した設計原則に基づくヒューリスティック評価の動作を比較します。
私たちの実験では、GPT は細部を区別できないものの、人間による注釈とかなり良好な相関関係があり、デザイン原則に基づくヒューリスティック指標に対して同様の傾向を示すことが明らかになりました。これは、GPT が実際にグラフィック デザインの品質を評価できることを示唆しています。
私たちのデータセットは https://cyberagentalab.github.io/Graphic-design-evaluation で入手できます。

要約(オリジナル)

Recent advancements in foundation models show promising capability in graphic design generation. Several studies have started employing Large Multimodal Models (LMMs) to evaluate graphic designs, assuming that LMMs can properly assess their quality, but it is unclear if the evaluation is reliable. One way to evaluate the quality of graphic design is to assess whether the design adheres to fundamental graphic design principles, which are the designer’s common practice. In this paper, we compare the behavior of GPT-based evaluation and heuristic evaluation based on design principles using human annotations collected from 60 subjects. Our experiments reveal that, while GPTs cannot distinguish small details, they have a reasonably good correlation with human annotation and exhibit a similar tendency to heuristic metrics based on design principles, suggesting that they are indeed capable of assessing the quality of graphic design. Our dataset is available at https://cyberagentailab.github.io/Graphic-design-evaluation .

arxiv情報

著者 Daichi Haraguchi,Naoto Inoue,Wataru Shimoda,Hayato Mitani,Seiichi Uchida,Kota Yamaguchi
発行日 2024-10-11 15:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | コメントする

Exploiting Memory-aware Q-distribution Prediction for Nuclear Fusion via Modern Hopfield Network

要約

この研究は、クリーン エネルギー ソリューションを前進させるための重要な要素である長期安定核融合タスクにおける Q 分布を予測するという重要な課題に取り組んでいます。
最新のホップフィールド ネットワークを採用して、歴史的なショットからの連想記憶を組み込む、革新的な深層学習フレームワークを紹介します。
新しくコンパイルされたデータセットを利用して、Q 分布予測を強化するアプローチの有効性を実証します。
提案された手法は、この文脈で初めて過去の記憶情報を活用することで大きな進歩を示し、予測精度の向上を示し、核融合研究の最適化に貢献します。

要約(オリジナル)

This study addresses the critical challenge of predicting the Q-distribution in long-term stable nuclear fusion task, a key component for advancing clean energy solutions. We introduce an innovative deep learning framework that employs Modern Hopfield Networks to incorporate associative memory from historical shots. Utilizing a newly compiled dataset, we demonstrate the effectiveness of our approach in enhancing Q-distribution prediction. The proposed method represents a significant advancement by leveraging historical memory information for the first time in this context, showcasing improved prediction accuracy and contributing to the optimization of nuclear fusion research.

arxiv情報

著者 Qingchuan Ma,Shiao Wang,Tong Zheng,Xiaodong Dai,Yifeng Wang,Qingquan Yang,Xiao Wang
発行日 2024-10-11 15:05:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models

要約

Large Vision-Language Model (LVLM) は、マルチモーダル入力をキャプチャして推論するための優れた機能を実証しています。
ただし、これらのモデルは、視覚コンポーネントと言語コンポーネントの間で表現された知識の不一致から生じる、パラメトリックな知識の競合が発生する傾向があります。
この論文では、$\textbf{クロスモダリティパラメトリック知識衝突}$ の問題を正式に定義し、それらを検出、解釈、軽減するための体系的なアプローチを提示します。
視覚的な回答とテキストによる回答の間の競合を特定するパイプラインを導入しました。これにより、モデルのサイズに関係なく、最近の LVLM ではモダリティ間で一貫して高い競合率が示されています。
これらの競合が推論プロセスにどのように干渉するかをさらに調査し、競合するサンプルを他のサンプルから識別するための対照的な指標を提案します。
これらの洞察に基づいて、応答の信頼性に基づいて、信頼性の低いモダリティコンポーネントから推測される望ましくないロジットを除去する、新しい動的対比復号化方法を開発します。
ロジットを提供しないモデルについては、競合を軽減するための 2 つのプロンプトベースの戦略も導入します。
私たちの手法は、ViQuAE データセットと InfoSeek データセットの両方で精度の確実な向上を実現します。
具体的には、LLaVA-34B を使用することで、私たちが提案する動的コントラスト復号化により、平均精度が 2.24% 向上します。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have demonstrated impressive capabilities for capturing and reasoning over multimodal inputs. However, these models are prone to parametric knowledge conflicts, which arise from inconsistencies of represented knowledge between their vision and language components. In this paper, we formally define the problem of $\textbf{cross-modality parametric knowledge conflict}$ and present a systematic approach to detect, interpret, and mitigate them. We introduce a pipeline that identifies conflicts between visual and textual answers, showing a persistently high conflict rate across modalities in recent LVLMs regardless of the model size. We further investigate how these conflicts interfere with the inference process and propose a contrastive metric to discern the conflicting samples from the others. Building on these insights, we develop a novel dynamic contrastive decoding method that removes undesirable logits inferred from the less confident modality components based on answer confidence. For models that do not provide logits, we also introduce two prompt-based strategies to mitigate the conflicts. Our methods achieve promising improvements in accuracy on both the ViQuAE and InfoSeek datasets. Specifically, using LLaVA-34B, our proposed dynamic contrastive decoding improves an average accuracy of 2.24%.

arxiv情報

著者 Tinghui Zhu,Qin Liu,Fei Wang,Zhengzhong Tu,Muhao Chen
発行日 2024-10-11 15:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

Bridge the Points: Graph-based Few-shot Segment Anything Semantically

要約

大規模な事前トレーニング技術の最近の進歩により、ビジョン基盤モデル、特にポイントおよびボックス プロンプトに基づいて正確なマスクを生成できるセグメント エニシング モデル (SAM) の機能が大幅に強化されました。
最近の研究では、SAM を少数ショット セマンティック セグメンテーション (FSS) に拡張し、SAM ベースの自動セマンティック セグメンテーションのプロンプト生成に焦点を当てています。
ただし、これらの方法では、適切なプロンプトを選択するのに苦労し、さまざまなシナリオに合わせて特定のハイパーパラメータ設定が必要であり、SAM の過剰使用によりワンショット推論時間が長くなり、効率が低く自動化機能が制限されます。
これらの問題に対処するために、グラフ分析に基づいたシンプルかつ効果的なアプローチを提案します。
特に、ポジティブ/ネガティブ アラインメント モジュールは、マスクを生成するためのポイント プロンプトを動的に選択し、特にネガティブ参照としての背景コンテキストの可能性を明らかにします。
後続の別のポイントマスク クラスタリング モジュールは、ポイント上のマスク カバレッジに基づいて、マスクと選択されたポイントの粒度を有向グラフとして調整します。
これらの点は、有向グラフの弱く接続されたコンポーネントを効率的な方法で分解することによって集約され、別個の自然なクラスターを構築します。
最後に、グラフベースの粒度調整の利点を活かしたポジティブ ゲートとオーバーシュート ゲーティングは、信頼性の高いマスクを集約し、最終予測のために偽陽性マスクをフィルタリングして除外し、追加のハイパーパラメータの使用と冗長なマスク生成を削減します。
標準 FSS、ワンショット パーツ セグメンテーション、およびクロスドメイン FSS データセットにわたる広範な実験分析により、提案されたアプローチの有効性と効率性が検証され、COCO-20i および 35.2 の mIoU が 58.7% という最先端のジェネラリスト モデルを上回っています。
LVIS-92i では %。
コードは https://andyzaq.github.io/GF-SAM/ で入手できます。

要約(オリジナル)

The recent advancements in large-scale pre-training techniques have significantly enhanced the capabilities of vision foundation models, notably the Segment Anything Model (SAM), which can generate precise masks based on point and box prompts. Recent studies extend SAM to Few-shot Semantic Segmentation (FSS), focusing on prompt generation for SAM-based automatic semantic segmentation. However, these methods struggle with selecting suitable prompts, require specific hyperparameter settings for different scenarios, and experience prolonged one-shot inference times due to the overuse of SAM, resulting in low efficiency and limited automation ability. To address these issues, we propose a simple yet effective approach based on graph analysis. In particular, a Positive-Negative Alignment module dynamically selects the point prompts for generating masks, especially uncovering the potential of the background context as the negative reference. Another subsequent Point-Mask Clustering module aligns the granularity of masks and selected points as a directed graph, based on mask coverage over points. These points are then aggregated by decomposing the weakly connected components of the directed graph in an efficient manner, constructing distinct natural clusters. Finally, the positive and overshooting gating, benefiting from graph-based granularity alignment, aggregate high-confident masks and filter out the false-positive masks for final prediction, reducing the usage of additional hyperparameters and redundant mask generation. Extensive experimental analysis across standard FSS, One-shot Part Segmentation, and Cross Domain FSS datasets validate the effectiveness and efficiency of the proposed approach, surpassing state-of-the-art generalist models with a mIoU of 58.7% on COCO-20i and 35.2% on LVIS-92i. The code is available in https://andyzaq.github.io/GF-SAM/.

arxiv情報

著者 Anqi Zhang,Guangyu Gao,Jianbo Jiao,Chi Harold Liu,Yunchao Wei
発行日 2024-10-11 15:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation

要約

キャッシュベースのアプローチは、ビジョン言語モデル (VLM) を適応させる上で効果的かつ効率的であるという点で際立っています。
それにもかかわらず、既存のキャッシュ モデルは 3 つの重要な側面を見落としています。
1) 事前トレーニングされた VLM は主に画像とテキストの類似性に関して最適化されており、画像間の類似性の重要性が無視されているため、事前トレーニングと適応の間にギャップが生じます。
2) 現在のキャッシュ モデルは Nadaraya-Watson (N-W) 推定器に基づいており、重み関数を構築する際にトレーニング サンプル間の複雑な関係を無視します。
3) 限られたサンプルの条件下では、キャッシュ モデルによって生成されたロジットは不確実性が高く、信頼性を考慮せずにこれらのロジットを直接使用すると問題が発生する可能性があります。
この研究では、上記の課題に対処することを目的とした 3 つのキャリブレーション モジュールを紹介します。
類似性キャリブレーションは、ラベルのない画像を使用して画像間の類似性を調整します。
CLIP の事前トレーニングされた画像エンコーダーの上に残余接続を備えた学習可能な投影レイヤーを追加し、自己教師によるコントラスト損失を最小限に抑えることでパラメーターを最適化します。
重みキャリブレーションでは、重み関数に精度行列を導入してトレーニング サンプル間の関係を適切にモデル化し、既存のキャッシュ モデルをガウス過程 (GP) リグレッサーに変換します。これは、N-W 推定器よりも正確である可能性があります。
信頼度キャリブレーションは、GP 回帰によって計算された予測分散を利用して、キャッシュ モデルのロジットを動的に再スケーリングし、キャッシュ モデルの出力が信頼レベルに基づいて適切に調整されるようにします。
さらに、GP の高度な複雑性を軽減するために、グループベースの学習戦略をさらに提案します。
上記の設計を統合して、トレーニング不要のバリアントとトレーニングが必要なバリアントの両方を提案します。
11 個の少数ショット分類データセットに対する広範な実験により、提案された方法が最先端のパフォーマンスを達成できることが検証されました。

要約(オリジナル)

Cache-based approaches stand out as both effective and efficient for adapting vision-language models (VLMs). Nonetheless, the existing cache model overlooks three crucial aspects. 1) Pre-trained VLMs are mainly optimized for image-text similarity, neglecting the importance of image-image similarity, leading to a gap between pre-training and adaptation. 2) The current cache model is based on the Nadaraya-Watson (N-W) estimator, which disregards the intricate relationships among training samples while constructing weight function. 3) Under the condition of limited samples, the logits generated by cache model are of high uncertainty, directly using these logits without accounting for the confidence could be problematic. This work presents three calibration modules aimed at addressing the above challenges. Similarity Calibration refines the image-image similarity by using unlabeled images. We add a learnable projection layer with residual connection on top of the pre-trained image encoder of CLIP and optimize the parameters by minimizing self-supervised contrastive loss. Weight Calibration introduces a precision matrix into the weight function to adequately model the relation between training samples, transforming the existing cache model to a Gaussian Process (GP) regressor, which could be more accurate than N-W estimator. Confidence Calibration leverages the predictive variances computed by GP Regression to dynamically re-scale the logits of cache model, ensuring that the cache model’s outputs are appropriately adjusted based on their confidence levels. Besides, to reduce the high complexity of GPs, we further propose a group-based learning strategy. Integrating the above designs, we propose both training-free and training-required variants. Extensive experiments on 11 few-shot classification datasets validate that the proposed methods can achieve state-of-the-art performance.

arxiv情報

著者 Kun Ding,Qiang Yu,Haojian Zhang,Gaofeng Meng,Shiming Xiang
発行日 2024-10-11 15:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

LoTLIP: Improving Language-Image Pre-training for Long Text Understanding

要約

長いテキストを理解することは実際には大きな要求ですが、ほとんどの言語画像事前トレーニング (LIP) モデルでは実現できません。
この研究では、このような問題を引き起こす主な理由は、トレーニング画像が通常短いキャプションと組み合わされており、特定のトークンが顕著なトークンによって簡単に隠れてしまうためであることを経験的に確認しました。
この問題に対して、私たちの最初の試みは、長いキャプションでデータを再ラベルすることですが、それを直接学習すると、短いテキストを理解する際のパフォーマンスの低下につながる可能性があります (画像分類タスクなど)。
次に、コーナー トークンを組み込んで多様なテキスト情報を集約した後、モデルが本来の短文理解レベルに追いつきながら、長文理解能力を大幅に強化できるようにしました。
さらに、モデルが長いキャプションから継続的に恩恵を受けることができるかどうかを調査し、パフォーマンスと効率の間に明確なトレードオフがあることに気付きました。
最後に、100M の長いキャプション指向のテキストと画像のペアで構成される自己構築された大規模データセットを使用して、アプローチの有効性を検証します。
注目に値するのは、長いテキストの画像検索のタスクにおいて、長いキャプションを使用する競合他社に 11.1% の向上 (つまり、72.62% から 83.72% へ) で勝ったことです。
再現性とさらなる研究を促進するために、コード、モデル、および新しいデータセットをリリースします。
プロジェクト ページは https://wuw2019.github.io/lot-lip で利用できます。

要約(オリジナル)

Understanding long text is of great demands in practice but beyond the reach of most language-image pre-training (LIP) models. In this work, we empirically confirm that the key reason causing such an issue is that the training images are usually paired with short captions, leaving certain tokens easily overshadowed by salient tokens. Towards this problem, our initial attempt is to relabel the data with long captions, however, directly learning with which may lead to performance degradation in understanding short text (e.g., in the image classification task). Then, after incorporating corner tokens to aggregate diverse textual information, we manage to help the model catch up to its original level of short text understanding yet greatly enhance its capability of long text understanding. We further look into whether the model can continuously benefit from longer captions and notice a clear trade-off between the performance and the efficiency. Finally, we validate the effectiveness of our approach using a self-constructed large-scale dataset, which consists of 100M long caption oriented text-image pairs. It is noteworthy that, on the task of long-text image retrieval, we beat the competitor using long captions with 11.1% improvement (i.e., from 72.62% to 83.72%). We will release the code, the model, and the new dataset to facilitate the reproducibility and further research. The project page is available at https://wuw2019.github.io/lot-lip.

arxiv情報

著者 Wei Wu,Kecheng Zheng,Shuailei Ma,Fan Lu,Yuxin Guo,Yifei Zhang,Wei Chen,Qingpei Guo,Yujun Shen,Zheng-Jun Zha
発行日 2024-10-11 15:37:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Efficient Hyperparameter Importance Assessment for CNNs

要約

ハイパーパラメータの選択は機械学習パイプラインの重要な側面であり、モデルの堅牢性、安定性、一般化機能に大きな影響を与えます。
ニューラル ネットワークに関連する複雑なハイパーパラメータ空間と、計算リソースと時間の制約を考慮すると、すべてのハイパーパラメータを最適化することは非現実的になります。
この文脈では、ハイパーパラメータ重要性評価 (HIA) を活用すると、検索スペースを絞り込むことで貴重なガイダンスを提供できます。
これにより、機械学習の実践者は、時間とリソースを節約しながら、モデルのパフォーマンスに最も大きな影響を与えるハイパーパラメーターに最適化の取り組みを集中させることができます。
この論文は、N-RReliefF と呼ばれるアルゴリズムを使用して畳み込みニューラル ネットワーク (CNN) の一部のハイパーパラメーターの重要度の重みを定量化し、深層学習分野で HIA 手法を適用するための基礎を築くことを目的としています。
私たちは、10 の一般的な画像分類データセットにわたって 1 万を超える CNN モデルをトレーニングすることで広範な調査を実施し、それによってハイパーパラメーター構成インスタンスとそれに対応するパフォーマンス メトリックを含む包括的なデータセットを取得します。
調査されたハイパーパラメータのうち、CNN モデルの重要なハイパーパラメータのトップ 5 は、畳み込み層の数、学習率、ドロップアウト率、オプティマイザ、およびエポックであることが実証されています。

要約(オリジナル)

Hyperparameter selection is an essential aspect of the machine learning pipeline, profoundly impacting models’ robustness, stability, and generalization capabilities. Given the complex hyperparameter spaces associated with Neural Networks and the constraints of computational resources and time, optimizing all hyperparameters becomes impractical. In this context, leveraging hyperparameter importance assessment (HIA) can provide valuable guidance by narrowing down the search space. This enables machine learning practitioners to focus their optimization efforts on the hyperparameters with the most significant impact on model performance while conserving time and resources. This paper aims to quantify the importance weights of some hyperparameters in Convolutional Neural Networks (CNNs) with an algorithm called N-RReliefF, laying the groundwork for applying HIA methodologies in the Deep Learning field. We conduct an extensive study by training over ten thousand CNN models across ten popular image classification datasets, thereby acquiring a comprehensive dataset containing hyperparameter configuration instances and their corresponding performance metrics. It is demonstrated that among the investigated hyperparameters, the top five important hyperparameters of the CNN model are the number of convolutional layers, learning rate, dropout rate, optimizer and epoch.

arxiv情報

著者 Ruinan Wang,Ian Nabney,Mohammad Golbabaee
発行日 2024-10-11 15:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Accurately Classifying Out-Of-Distribution Data in Facial Recognition

要約

標準的な分類理論では、テスト セットとトレーニング セット内の画像の分布が同一であると仮定しています。
残念ながら、現実のシナリオには通常、トレーニング分布内のデータ (「分布内」) とは異なる、目に見えないデータ (「分布外データ」) が含まれます。
この問題は、過小評価されたグループのデータがトレーニング データの同じ割合を代表せずにテスト データに表示される可能性がある社会正義の問題で最も一般的です。
その結果、モデルが自信を持って間違った決定や予測を返す可能性があります。
私たちは次の質問に興味があります: 分布内データの複数のデータセットで同時にトレーニングされた場合、分布外データの顔画像のニューラル ネットワークのパフォーマンスは向上しますか?
私たちは、Outlier Exposure モデルを組み込むことでこの問題にアプローチし、顔画像の他のデータセットが実装されたときにモデルのパフォーマンスがどのように変化するかを調査します。
Outlier Exposure を適用し、異常値画像に対するマシンの強調を高めるトレーニング可能な重みパラメーターを組み込み、さまざまなクラス ラベルの重要性を再重み付けすることによって、モデルの精度とその他のメトリクスが向上することがわかります。
また、画像を並べ替えて画像の特徴によって外れ値を判断する方が、平均ピクセル値で並べ替えるよりもメトリクスに大きな影響を与えるかどうかも実験しましたが、決定的な結果は見つかりませんでした。
私たちの目標は、より広範囲の画像をスキャンすることで、モデルをより正確にするだけでなく、より公平にすることでした。
Python と Pytorch パッケージを利用すると、外れ値の露出を利用したモデルにより、より公平な分類が可能になることがわかりました。

要約(オリジナル)

Standard classification theory assumes that the distribution of images in the test and training sets are identical. Unfortunately, real-life scenarios typically feature unseen data (“out-of-distribution data’) which is different from data in the training distribution (“in-distribution’). This issue is most prevalent in social justice problems where data from under-represented groups may appear in the test data without representing an equal proportion of the training data. This may result in a model returning confidently wrong decisions and predictions. We are interested in the following question: Can the performance of a neural network improve on facial images of out-of-distribution data when it is trained simultaneously on multiple datasets of in-distribution data? We approach this problem by incorporating the Outlier Exposure model and investigate how the model’s performance changes when other datasets of facial images were implemented. We observe that the accuracy and other metrics of the model can be increased by applying Outlier Exposure, incorporating a trainable weight parameter to increase the machine’s emphasis on outlier images, and by re-weighting the importance of different class labels. We also experimented with whether sorting the images and determining outliers via image features would have more of an effect on the metrics than sorting by average pixel value, and found no conclusive results. Our goal was to make models not only more accurate but also more fair by scanning a more expanded range of images. Utilizing Python and the Pytorch package, we found models utilizing outlier exposure could result in more fair classification.

arxiv情報

著者 Gianluca Barone,Aashrit Cunchala,Rudy Nunez
発行日 2024-10-11 15:48:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.LG | コメントする

HyperPg — Prototypical Gaussians on the Hypersphere for Interpretable Deep Learning

要約

プロトタイプ学習手法は、ブラックボックスの深層学習モデルに代わる解釈可能な代替手段を提供します。
ProtoPNet などのアプローチは、テスト画像のどの部分がトレーニング画像からの既知のプロトタイプ部分に「似ている」かを学習し、予測力とケースベース推論の固有の解釈可能性を組み合わせます。
ただし、既存のアプローチには 2 つの主な欠点があります。 A) 統計的な信頼性がなく、決定論的な類似性スコアのみに依存しています。
B) プロトタイプは人間の入力なしでブラックボックス方式で学習されます。
この研究では、学習可能な平均と分散を備えた潜在空間の超球上のガウス分布を活用した新しいプロトタイプ表現である HyperPg を紹介します。
HyperPg プロトタイプは、潜在空間内のクラスターの広がりに適応し、尤度スコアを出力します。
新しいアーキテクチャである HyperPgNet は、HyperPg を活用して、人間の概念に合わせたプロトタイプをピクセルレベルの注釈から学習します。
したがって、各プロトタイプは、色、画像のテクスチャ、画像の主題の一部などの特定の概念を表します。
基礎モデルに基づいて構築されたコンセプト抽出パイプラインはピクセルレベルの注釈を提供し、人間によるラベル付けの労力を大幅に削減します。
CUB-200-2011 および Stanford Cars データセットの実験では、HyperPgNet がより少ないパラメーターとトレーニング ステップを使用しながら、他のプロトタイプ学習アーキテクチャよりも優れたパフォーマンスを発揮することが実証されました。
さらに、コンセプトに合わせた HyperPg プロトタイプは透過的に学習され、モデルの解釈可能性が向上します。

要約(オリジナル)

Prototype Learning methods provide an interpretable alternative to black-box deep learning models. Approaches such as ProtoPNet learn, which part of a test image ‘look like’ known prototypical parts from training images, combining predictive power with the inherent interpretability of case-based reasoning. However, existing approaches have two main drawbacks: A) They rely solely on deterministic similarity scores without statistical confidence. B) The prototypes are learned in a black-box manner without human input. This work introduces HyperPg, a new prototype representation leveraging Gaussian distributions on a hypersphere in latent space, with learnable mean and variance. HyperPg prototypes adapt to the spread of clusters in the latent space and output likelihood scores. The new architecture, HyperPgNet, leverages HyperPg to learn prototypes aligned with human concepts from pixel-level annotations. Consequently, each prototype represents a specific concept such as color, image texture, or part of the image subject. A concept extraction pipeline built on foundation models provides pixel-level annotations, significantly reducing human labeling effort. Experiments on CUB-200-2011 and Stanford Cars datasets demonstrate that HyperPgNet outperforms other prototype learning architectures while using fewer parameters and training steps. Additionally, the concept-aligned HyperPg prototypes are learned transparently, enhancing model interpretability.

arxiv情報

著者 Maximilian Xiling Li,Korbinian Franz Rudolf,Nils Blank,Rudolf Lioutikov
発行日 2024-10-11 15:50:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする