Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation

要約

キャッシュベースのアプローチは、ビジョン言語モデル (VLM) を適応させる上で効果的かつ効率的であるという点で際立っています。
それにもかかわらず、既存のキャッシュ モデルは 3 つの重要な側面を見落としています。
1) 事前トレーニングされた VLM は主に画像とテキストの類似性に関して最適化されており、画像間の類似性の重要性が無視されているため、事前トレーニングと適応の間にギャップが生じます。
2) 現在のキャッシュ モデルは Nadaraya-Watson (N-W) 推定器に基づいており、重み関数を構築する際にトレーニング サンプル間の複雑な関係を無視します。
3) 限られたサンプルの条件下では、キャッシュ モデルによって生成されたロジットは不確実性が高く、信頼性を考慮せずにこれらのロジットを直接使用すると問題が発生する可能性があります。
この研究では、上記の課題に対処することを目的とした 3 つのキャリブレーション モジュールを紹介します。
類似性キャリブレーションは、ラベルのない画像を使用して画像間の類似性を調整します。
CLIP の事前トレーニングされた画像エンコーダーの上に残余接続を備えた学習可能な投影レイヤーを追加し、自己教師によるコントラスト損失を最小限に抑えることでパラメーターを最適化します。
重みキャリブレーションでは、重み関数に精度行列を導入してトレーニング サンプル間の関係を適切にモデル化し、既存のキャッシュ モデルをガウス過程 (GP) リグレッサーに変換します。これは、N-W 推定器よりも正確である可能性があります。
信頼度キャリブレーションは、GP 回帰によって計算された予測分散を利用して、キャッシュ モデルのロジットを動的に再スケーリングし、キャッシュ モデルの出力が信頼レベルに基づいて適切に調整されるようにします。
さらに、GP の高度な複雑性を軽減するために、グループベースの学習戦略をさらに提案します。
上記の設計を統合して、トレーニング不要のバリアントとトレーニングが必要なバリアントの両方を提案します。
11 個の少数ショット分類データセットに対する広範な実験により、提案された方法が最先端のパフォーマンスを達成できることが検証されました。

要約(オリジナル)

Cache-based approaches stand out as both effective and efficient for adapting vision-language models (VLMs). Nonetheless, the existing cache model overlooks three crucial aspects. 1) Pre-trained VLMs are mainly optimized for image-text similarity, neglecting the importance of image-image similarity, leading to a gap between pre-training and adaptation. 2) The current cache model is based on the Nadaraya-Watson (N-W) estimator, which disregards the intricate relationships among training samples while constructing weight function. 3) Under the condition of limited samples, the logits generated by cache model are of high uncertainty, directly using these logits without accounting for the confidence could be problematic. This work presents three calibration modules aimed at addressing the above challenges. Similarity Calibration refines the image-image similarity by using unlabeled images. We add a learnable projection layer with residual connection on top of the pre-trained image encoder of CLIP and optimize the parameters by minimizing self-supervised contrastive loss. Weight Calibration introduces a precision matrix into the weight function to adequately model the relation between training samples, transforming the existing cache model to a Gaussian Process (GP) regressor, which could be more accurate than N-W estimator. Confidence Calibration leverages the predictive variances computed by GP Regression to dynamically re-scale the logits of cache model, ensuring that the cache model’s outputs are appropriately adjusted based on their confidence levels. Besides, to reduce the high complexity of GPs, we further propose a group-based learning strategy. Integrating the above designs, we propose both training-free and training-required variants. Extensive experiments on 11 few-shot classification datasets validate that the proposed methods can achieve state-of-the-art performance.

arxiv情報

著者 Kun Ding,Qiang Yu,Haojian Zhang,Gaofeng Meng,Shiming Xiang
発行日 2024-10-11 15:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation はコメントを受け付けていません

LoTLIP: Improving Language-Image Pre-training for Long Text Understanding

要約

長いテキストを理解することは実際には大きな要求ですが、ほとんどの言語画像事前トレーニング (LIP) モデルでは実現できません。
この研究では、このような問題を引き起こす主な理由は、トレーニング画像が通常短いキャプションと組み合わされており、特定のトークンが顕著なトークンによって簡単に隠れてしまうためであることを経験的に確認しました。
この問題に対して、私たちの最初の試みは、長いキャプションでデータを再ラベルすることですが、それを直接学習すると、短いテキストを理解する際のパフォーマンスの低下につながる可能性があります (画像分類タスクなど)。
次に、コーナー トークンを組み込んで多様なテキスト情報を集約した後、モデルが本来の短文理解レベルに追いつきながら、長文理解能力を大幅に強化できるようにしました。
さらに、モデルが長いキャプションから継続的に恩恵を受けることができるかどうかを調査し、パフォーマンスと効率の間に明確なトレードオフがあることに気付きました。
最後に、100M の長いキャプション指向のテキストと画像のペアで構成される自己構築された大規模データセットを使用して、アプローチの有効性を検証します。
注目に値するのは、長いテキストの画像検索のタスクにおいて、長いキャプションを使用する競合他社に 11.1% の向上 (つまり、72.62% から 83.72% へ) で勝ったことです。
再現性とさらなる研究を促進するために、コード、モデル、および新しいデータセットをリリースします。
プロジェクト ページは https://wuw2019.github.io/lot-lip で利用できます。

要約(オリジナル)

Understanding long text is of great demands in practice but beyond the reach of most language-image pre-training (LIP) models. In this work, we empirically confirm that the key reason causing such an issue is that the training images are usually paired with short captions, leaving certain tokens easily overshadowed by salient tokens. Towards this problem, our initial attempt is to relabel the data with long captions, however, directly learning with which may lead to performance degradation in understanding short text (e.g., in the image classification task). Then, after incorporating corner tokens to aggregate diverse textual information, we manage to help the model catch up to its original level of short text understanding yet greatly enhance its capability of long text understanding. We further look into whether the model can continuously benefit from longer captions and notice a clear trade-off between the performance and the efficiency. Finally, we validate the effectiveness of our approach using a self-constructed large-scale dataset, which consists of 100M long caption oriented text-image pairs. It is noteworthy that, on the task of long-text image retrieval, we beat the competitor using long captions with 11.1% improvement (i.e., from 72.62% to 83.72%). We will release the code, the model, and the new dataset to facilitate the reproducibility and further research. The project page is available at https://wuw2019.github.io/lot-lip.

arxiv情報

著者 Wei Wu,Kecheng Zheng,Shuailei Ma,Fan Lu,Yuxin Guo,Yifei Zhang,Wei Chen,Qingpei Guo,Yujun Shen,Zheng-Jun Zha
発行日 2024-10-11 15:37:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LoTLIP: Improving Language-Image Pre-training for Long Text Understanding はコメントを受け付けていません

Efficient Hyperparameter Importance Assessment for CNNs

要約

ハイパーパラメータの選択は機械学習パイプラインの重要な側面であり、モデルの堅牢性、安定性、一般化機能に大きな影響を与えます。
ニューラル ネットワークに関連する複雑なハイパーパラメータ空間と、計算リソースと時間の制約を考慮すると、すべてのハイパーパラメータを最適化することは非現実的になります。
この文脈では、ハイパーパラメータ重要性評価 (HIA) を活用すると、検索スペースを絞り込むことで貴重なガイダンスを提供できます。
これにより、機械学習の実践者は、時間とリソースを節約しながら、モデルのパフォーマンスに最も大きな影響を与えるハイパーパラメーターに最適化の取り組みを集中させることができます。
この論文は、N-RReliefF と呼ばれるアルゴリズムを使用して畳み込みニューラル ネットワーク (CNN) の一部のハイパーパラメーターの重要度の重みを定量化し、深層学習分野で HIA 手法を適用するための基礎を築くことを目的としています。
私たちは、10 の一般的な画像分類データセットにわたって 1 万を超える CNN モデルをトレーニングすることで広範な調査を実施し、それによってハイパーパラメーター構成インスタンスとそれに対応するパフォーマンス メトリックを含む包括的なデータセットを取得します。
調査されたハイパーパラメータのうち、CNN モデルの重要なハイパーパラメータのトップ 5 は、畳み込み層の数、学習率、ドロップアウト率、オプティマイザ、およびエポックであることが実証されています。

要約(オリジナル)

Hyperparameter selection is an essential aspect of the machine learning pipeline, profoundly impacting models’ robustness, stability, and generalization capabilities. Given the complex hyperparameter spaces associated with Neural Networks and the constraints of computational resources and time, optimizing all hyperparameters becomes impractical. In this context, leveraging hyperparameter importance assessment (HIA) can provide valuable guidance by narrowing down the search space. This enables machine learning practitioners to focus their optimization efforts on the hyperparameters with the most significant impact on model performance while conserving time and resources. This paper aims to quantify the importance weights of some hyperparameters in Convolutional Neural Networks (CNNs) with an algorithm called N-RReliefF, laying the groundwork for applying HIA methodologies in the Deep Learning field. We conduct an extensive study by training over ten thousand CNN models across ten popular image classification datasets, thereby acquiring a comprehensive dataset containing hyperparameter configuration instances and their corresponding performance metrics. It is demonstrated that among the investigated hyperparameters, the top five important hyperparameters of the CNN model are the number of convolutional layers, learning rate, dropout rate, optimizer and epoch.

arxiv情報

著者 Ruinan Wang,Ian Nabney,Mohammad Golbabaee
発行日 2024-10-11 15:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Efficient Hyperparameter Importance Assessment for CNNs はコメントを受け付けていません

Accurately Classifying Out-Of-Distribution Data in Facial Recognition

要約

標準的な分類理論では、テスト セットとトレーニング セット内の画像の分布が同一であると仮定しています。
残念ながら、現実のシナリオには通常、トレーニング分布内のデータ (「分布内」) とは異なる、目に見えないデータ (「分布外データ」) が含まれます。
この問題は、過小評価されたグループのデータがトレーニング データの同じ割合を代表せずにテスト データに表示される可能性がある社会正義の問題で最も一般的です。
その結果、モデルが自信を持って間違った決定や予測を返す可能性があります。
私たちは次の質問に興味があります: 分布内データの複数のデータセットで同時にトレーニングされた場合、分布外データの顔画像のニューラル ネットワークのパフォーマンスは向上しますか?
私たちは、Outlier Exposure モデルを組み込むことでこの問題にアプローチし、顔画像の他のデータセットが実装されたときにモデルのパフォーマンスがどのように変化するかを調査します。
Outlier Exposure を適用し、異常値画像に対するマシンの強調を高めるトレーニング可能な重みパラメーターを組み込み、さまざまなクラス ラベルの重要性を再重み付けすることによって、モデルの精度とその他のメトリクスが向上することがわかります。
また、画像を並べ替えて画像の特徴によって外れ値を判断する方が、平均ピクセル値で並べ替えるよりもメトリクスに大きな影響を与えるかどうかも実験しましたが、決定的な結果は見つかりませんでした。
私たちの目標は、より広範囲の画像をスキャンすることで、モデルをより正確にするだけでなく、より公平にすることでした。
Python と Pytorch パッケージを利用すると、外れ値の露出を利用したモデルにより、より公平な分類が可能になることがわかりました。

要約(オリジナル)

Standard classification theory assumes that the distribution of images in the test and training sets are identical. Unfortunately, real-life scenarios typically feature unseen data (“out-of-distribution data’) which is different from data in the training distribution (“in-distribution’). This issue is most prevalent in social justice problems where data from under-represented groups may appear in the test data without representing an equal proportion of the training data. This may result in a model returning confidently wrong decisions and predictions. We are interested in the following question: Can the performance of a neural network improve on facial images of out-of-distribution data when it is trained simultaneously on multiple datasets of in-distribution data? We approach this problem by incorporating the Outlier Exposure model and investigate how the model’s performance changes when other datasets of facial images were implemented. We observe that the accuracy and other metrics of the model can be increased by applying Outlier Exposure, incorporating a trainable weight parameter to increase the machine’s emphasis on outlier images, and by re-weighting the importance of different class labels. We also experimented with whether sorting the images and determining outliers via image features would have more of an effect on the metrics than sorting by average pixel value, and found no conclusive results. Our goal was to make models not only more accurate but also more fair by scanning a more expanded range of images. Utilizing Python and the Pytorch package, we found models utilizing outlier exposure could result in more fair classification.

arxiv情報

著者 Gianluca Barone,Aashrit Cunchala,Rudy Nunez
発行日 2024-10-11 15:48:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.LG | Accurately Classifying Out-Of-Distribution Data in Facial Recognition はコメントを受け付けていません

HyperPg — Prototypical Gaussians on the Hypersphere for Interpretable Deep Learning

要約

プロトタイプ学習手法は、ブラックボックスの深層学習モデルに代わる解釈可能な代替手段を提供します。
ProtoPNet などのアプローチは、テスト画像のどの部分がトレーニング画像からの既知のプロトタイプ部分に「似ている」かを学習し、予測力とケースベース推論の固有の解釈可能性を組み合わせます。
ただし、既存のアプローチには 2 つの主な欠点があります。 A) 統計的な信頼性がなく、決定論的な類似性スコアのみに依存しています。
B) プロトタイプは人間の入力なしでブラックボックス方式で学習されます。
この研究では、学習可能な平均と分散を備えた潜在空間の超球上のガウス分布を活用した新しいプロトタイプ表現である HyperPg を紹介します。
HyperPg プロトタイプは、潜在空間内のクラスターの広がりに適応し、尤度スコアを出力します。
新しいアーキテクチャである HyperPgNet は、HyperPg を活用して、人間の概念に合わせたプロトタイプをピクセルレベルの注釈から学習します。
したがって、各プロトタイプは、色、画像のテクスチャ、画像の主題の一部などの特定の概念を表します。
基礎モデルに基づいて構築されたコンセプト抽出パイプラインはピクセルレベルの注釈を提供し、人間によるラベル付けの労力を大幅に削減します。
CUB-200-2011 および Stanford Cars データセットの実験では、HyperPgNet がより少ないパラメーターとトレーニング ステップを使用しながら、他のプロトタイプ学習アーキテクチャよりも優れたパフォーマンスを発揮することが実証されました。
さらに、コンセプトに合わせた HyperPg プロトタイプは透過的に学習され、モデルの解釈可能性が向上します。

要約(オリジナル)

Prototype Learning methods provide an interpretable alternative to black-box deep learning models. Approaches such as ProtoPNet learn, which part of a test image ‘look like’ known prototypical parts from training images, combining predictive power with the inherent interpretability of case-based reasoning. However, existing approaches have two main drawbacks: A) They rely solely on deterministic similarity scores without statistical confidence. B) The prototypes are learned in a black-box manner without human input. This work introduces HyperPg, a new prototype representation leveraging Gaussian distributions on a hypersphere in latent space, with learnable mean and variance. HyperPg prototypes adapt to the spread of clusters in the latent space and output likelihood scores. The new architecture, HyperPgNet, leverages HyperPg to learn prototypes aligned with human concepts from pixel-level annotations. Consequently, each prototype represents a specific concept such as color, image texture, or part of the image subject. A concept extraction pipeline built on foundation models provides pixel-level annotations, significantly reducing human labeling effort. Experiments on CUB-200-2011 and Stanford Cars datasets demonstrate that HyperPgNet outperforms other prototype learning architectures while using fewer parameters and training steps. Additionally, the concept-aligned HyperPg prototypes are learned transparently, enhancing model interpretability.

arxiv情報

著者 Maximilian Xiling Li,Korbinian Franz Rudolf,Nils Blank,Rudolf Lioutikov
発行日 2024-10-11 15:50:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | HyperPg — Prototypical Gaussians on the Hypersphere for Interpretable Deep Learning はコメントを受け付けていません

Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images

要約

私たちは、視線推定および視線追跡技術の進歩における、視覚基盤モデルである SAM 2 の変革の可能性を探ります。
SAM 2 は、アノテーション時間を大幅に短縮し、導入の容易さによって技術的な障壁を低くし、セグメンテーションの精度を向上させることにより、研究者や専門家が直面する重要な課題に対処します。
最小限のユーザー入力 (ビデオごとに 1 回クリックするだけ) でゼロショット セグメンテーション機能を利用して、仮想現実セットアップやウェアラブル アイ トラッカーを使用して記録された世界最大の統合データセットなど、さまざまなデータセットからの 1,400 万を超える目の画像で SAM 2 をテストしました。
注目すべきことに、瞳孔セグメンテーションタスクでは、SAM 2 は目の画像のみでトレーニングされたドメイン固有モデルのパフォーマンスと同等であり、微調整なしで最大 93% の競合平均交差オーバーユニオン (mIoU) スコアを達成します。
さらに、さらなる研究を促進するために、これらの広く使用されているデータセット用のコードとセグメンテーション マスクを提供します。

要約(オリジナル)

We explore the transformative potential of SAM 2, a vision foundation model, in advancing gaze estimation and eye tracking technologies. By significantly reducing annotation time, lowering technical barriers through its ease of deployment, and enhancing segmentation accuracy, SAM 2 addresses critical challenges faced by researchers and practitioners. Utilizing its zero-shot segmentation capabilities with minimal user input-a single click per video-we tested SAM 2 on over 14 million eye images from diverse datasets, including virtual reality setups and the world’s largest unified dataset recorded using wearable eye trackers. Remarkably, in pupil segmentation tasks, SAM 2 matches the performance of domain-specific models trained solely on eye images, achieving competitive mean Intersection over Union (mIoU) scores of up to 93% without fine-tuning. Additionally, we provide our code and segmentation masks for these widely used datasets to promote further research.

arxiv情報

著者 Virmarie Maquiling,Sean Anthony Byrne,Diederick C. Niehorster,Marco Carminati,Enkelejda Kasneci
発行日 2024-10-11 15:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images はコメントを受け付けていません

For a semiotic AI: Bridging computer vision and visual semiotics for computational observation of large scale facial image archives

要約

ソーシャル ネットワークは、人間の顔や体の画像の認知的、感情的、実用的な価値がおそらく変化しているデジタル世界を生み出しています。
しかし、デジタル人文科学の研究者は、これらの現象を大規模に研究するための設備が整っていないことがよくあります。
この研究では、ソーシャル メディア プラットフォーム上の画像の社会文化的意味を大規模に調査するために設計されたフレームワークである FRESCO (Face Representation in E-Societies through Computational Observation) を紹介します。
FRESCO は、視覚記号論の原理に沿った最先端のコンピューター ビジョン技術を使用して、画像を数値変数とカテゴリ変数に分解します。
このフレームワークは、3 つのレベルにわたって画像を分析します。1 つは線や色などの基本的な視覚的特徴を含むプラスチック レベルです。
比喩的なレベル。特定の実体または概念を表します。
そして、特に観客と観察者の視点を構築することに焦点を当てた発声レベル。
これらのレベルは、画像内のより深い物語の層を識別するために分析されます。
実験による検証により、FRESCO の信頼性と有用性が確認され、2 つの公開データセットにわたるその一貫性と精度が評価されます。
続いて、画像コンテンツの類似性の信頼できる尺度として機能する、フレームワークの出力から得られる指標である FRESCO スコアを導入します。

要約(オリジナル)

Social networks are creating a digital world in which the cognitive, emotional, and pragmatic value of the imagery of human faces and bodies is arguably changing. However, researchers in the digital humanities are often ill-equipped to study these phenomena at scale. This work presents FRESCO (Face Representation in E-Societies through Computational Observation), a framework designed to explore the socio-cultural implications of images on social media platforms at scale. FRESCO deconstructs images into numerical and categorical variables using state-of-the-art computer vision techniques, aligning with the principles of visual semiotics. The framework analyzes images across three levels: the plastic level, encompassing fundamental visual features like lines and colors; the figurative level, representing specific entities or concepts; and the enunciation level, which focuses particularly on constructing the point of view of the spectator and observer. These levels are analyzed to discern deeper narrative layers within the imagery. Experimental validation confirms the reliability and utility of FRESCO, and we assess its consistency and precision across two public datasets. Subsequently, we introduce the FRESCO score, a metric derived from the framework’s output that serves as a reliable measure of similarity in image content.

arxiv情報

著者 Lia Morra,Antonio Santangelo,Pietro Basci,Luca Piano,Fabio Garcea,Fabrizio Lamberti,Massimo Leone
発行日 2024-10-11 16:03:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | For a semiotic AI: Bridging computer vision and visual semiotics for computational observation of large scale facial image archives はコメントを受け付けていません

Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images

要約

セマンティック対応方法は、モデルの能力を最大化することを目的として、複雑なネットワークを使用して高品質の対応を取得するように進歩しました。
ただし、パフォーマンスが向上したにもかかわらず、トレーニング画像の制限とキーポイントの希薄さの結果、トレーニング キーポイント ペアの不足によって制約が残る可能性があります。
この論文は、意味論的対応関係の学習には本質的にデータを必要とする問題があるという仮説に基づいて構築されており、高密度化されたトレーニング ペアを採用することでモデルをさらにトレーニングできることを明らかにしています。
私たちは、単純なマシン アノテーターがマシンの監視を通じてペアのキー ポイントを確実に強化することを実証します。追加のラベル付きキー ポイントも、ラベルのない画像からのトレーニング可能なモジュールも必要ありません。
その結果、私たちのモデルは、SPair-71k、PF-PASCAL、PF-WILLOW などのセマンティック対応学習ベンチマークで現在の最先端のモデルを上回り、破損ベンチマークでさらなる堅牢性を享受できます。
私たちのコードは https://github.com/naver-ai/matchme で入手できます。

要約(オリジナル)

Semantic correspondence methods have advanced to obtaining high-quality correspondences employing complicated networks, aiming to maximize the model capacity. However, despite the performance improvements, they may remain constrained by the scarcity of training keypoint pairs, a consequence of the limited training images and the sparsity of keypoints. This paper builds on the hypothesis that there is an inherent data-hungry matter in learning semantic correspondences and uncovers the models can be more trained by employing densified training pairs. We demonstrate a simple machine annotator reliably enriches paired key points via machine supervision, requiring neither extra labeled key points nor trainable modules from unlabeled images. Consequently, our models surpass current state-of-the-art models on semantic correspondence learning benchmarks like SPair-71k, PF-PASCAL, and PF-WILLOW and enjoy further robustness on corruption benchmarks. Our code is available at https://github.com/naver-ai/matchme.

arxiv情報

著者 Jiwon Kim,Byeongho Heo,Sangdoo Yun,Seungryong Kim,Dongyoon Han
発行日 2024-10-11 16:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images はコメントを受け付けていません

MeshGS: Adaptive Mesh-Aligned Gaussian Splatting for High-Quality Rendering

要約

最近、3D ガウス スプラッティングは、高忠実度のレンダリング結果を生成できる機能として注目を集めています。
同時に、ゲーム、アニメーション、AR/VR などのほとんどのアプリケーションは、メッシュベースの表現を使用して 3D シーンを表現およびレンダリングします。
私たちは、メッシュ表現を 3D ガウス スプラットと統合して、再構築された現実世界のシーンの高品質なレンダリングを実行する新しいアプローチを提案します。
特に、距離ベースのガウス スプラッティング手法を導入して、ガウス スプラットをメッシュ サーフェスに位置合わせし、レンダリングに寄与しない冗長なガウス スプラットを削除します。
各ガウス スプラットとメッシュ サーフェスの間の距離を考慮して、しっかりと結合されたガウス スプラットと緩く結合されたガウス スプラットを区別します。
しっかりと結合されたスプラットは平らになり、メッシュ ジオメトリと適切に位置合わせされます。
緩やかに結合されたガウス スプラットは、レンダリングの観点から再構築された 3D メッシュ内のアーティファクトを考慮するために使用されます。
ガウス スプラットをメッシュ ジオメトリにバインドするトレーニング戦略を提示し、両方のタイプのスプラットを考慮します。
これに関連して、トレーニング プロセス中に緊密にバインドされたガウス スプラットをメッシュ サーフェスと正確に位置合わせすることを目的としたいくつかの正則化手法を導入します。
mip-NeRF 360 およびディープ ブレンディング データセットからの大規模で境界のないシーンに対するこの方法の有効性を検証します。
私たちの手法は、2dB 高い PSNR を達成することで最近のメッシュベースのニューラル レンダリング技術を上回り、特に屋外の mip-NeRF 360 データセットにおいて、メッシュベースのガウス スプラッティング手法を 1.3 dB PSNR 上回り、より優れたレンダリング品質を示しています。
ガウス スプラットの各タイプの分析を提供し、元の 3D ガウス スプラッティングと比較してガウス スプラットの数を 30% 削減しました。

要約(オリジナル)

Recently, 3D Gaussian splatting has gained attention for its capability to generate high-fidelity rendering results. At the same time, most applications such as games, animation, and AR/VR use mesh-based representations to represent and render 3D scenes. We propose a novel approach that integrates mesh representation with 3D Gaussian splats to perform high-quality rendering of reconstructed real-world scenes. In particular, we introduce a distance-based Gaussian splatting technique to align the Gaussian splats with the mesh surface and remove redundant Gaussian splats that do not contribute to the rendering. We consider the distance between each Gaussian splat and the mesh surface to distinguish between tightly-bound and loosely-bound Gaussian splats. The tightly-bound splats are flattened and aligned well with the mesh geometry. The loosely-bound Gaussian splats are used to account for the artifacts in reconstructed 3D meshes in terms of rendering. We present a training strategy of binding Gaussian splats to the mesh geometry, and take into account both types of splats. In this context, we introduce several regularization techniques aimed at precisely aligning tightly-bound Gaussian splats with the mesh surface during the training process. We validate the effectiveness of our method on large and unbounded scene from mip-NeRF 360 and Deep Blending datasets. Our method surpasses recent mesh-based neural rendering techniques by achieving a 2dB higher PSNR, and outperforms mesh-based Gaussian splatting methods by 1.3 dB PSNR, particularly on the outdoor mip-NeRF 360 dataset, demonstrating better rendering quality. We provide analyses for each type of Gaussian splat and achieve a reduction in the number of Gaussian splats by 30% compared to the original 3D Gaussian splatting.

arxiv情報

著者 Jaehoon Choi,Yonghan Lee,Hyungtae Lee,Heesung Kwon,Dinesh Manocha
発行日 2024-10-11 16:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MeshGS: Adaptive Mesh-Aligned Gaussian Splatting for High-Quality Rendering はコメントを受け付けていません

Parallel Watershed Partitioning: GPU-Based Hierarchical Image Segmentation

要約

多くの画像処理アプリケーションは、ピクセルが「類似している」互いに素な領域に画像を分割することに依存しています。
ウォーターシェッド変換とウォーターフォール変換は、確立された数学的形態学のピクセル クラスタリング手法です。
これらは両方とも、ピクセルのグループを一度に決定する必要がある、または隣接情報が関連する最新のアプリケーションに関連しています。
GPU 用の 3 つの新しい並列パーティショニング アルゴリズムを導入します。
ウォーターシェッド アルゴリズムを繰り返し適用することで、入力画像上に分割領域の階層を形成するウォーターフォール結果が生成されます。
当社のウォーターシェッド アルゴリズムは、2D と 3D の両方で競争力のある実行時間を達成し、800 メガボクセルの画像を 1.4 秒未満で処理します。
また、この完全に決定的な画像分割を機械学習ベースのセマンティック セグメンテーションの前処理ステップとして使用する方法も示します。
これはスーパーピクセル アルゴリズムの役割を置き換え、同等の精度とより速いトレーニング時間をもたらします。

要約(オリジナル)

Many image processing applications rely on partitioning an image into disjoint regions whose pixels are ‘similar.’ The watershed and waterfall transforms are established mathematical morphology pixel clustering techniques. They are both relevant to modern applications where groups of pixels are to be decided upon in one go, or where adjacency information is relevant. We introduce three new parallel partitioning algorithms for GPUs. By repeatedly applying watershed algorithms, we produce waterfall results which form a hierarchy of partition regions over an input image. Our watershed algorithms attain competitive execution times in both 2D and 3D, processing an 800 megavoxel image in less than 1.4 sec. We also show how to use this fully deterministic image partitioning as a pre-processing step to machine learning based semantic segmentation. This replaces the role of superpixel algorithms, and results in comparable accuracy and faster training times.

arxiv情報

著者 Varduhi Yeghiazaryan,Yeva Gabrielyan,Irina Voiculescu
発行日 2024-10-11 16:15:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DC | Parallel Watershed Partitioning: GPU-Based Hierarchical Image Segmentation はコメントを受け付けていません