CYCLO: Cyclic Graph Transformer Approach to Multi-Object Relationship Modeling in Aerial Videos

要約

ビデオ シーン グラフ生成 (VidSGG) は、ビデオ シーケンス内のオブジェクト間の複雑な関係とその時間的ダイナミクスをキャプチャして解釈する革新的なアプローチとして登場しました。
このペーパーでは、航空ビデオにおける複数のオブジェクトの関係モデリングに焦点を当てた新しい AeroEye データセットを紹介します。
当社の AeroEye データセットには、さまざまなドローン シーンが含まれており、オブジェクト間の複雑な関係や空間配置を捉える、視覚的に包括的かつ正確な述語のコレクションが含まれています。
この目的を達成するために、循環的な方法で相互作用の履歴を継続的に更新することにより、モデルが直接的および長距離の時間依存性の両方をキャプチャできるようにする新しい Cyclic Graph Transformer (CYCLO) アプローチを提案します。
提案されたアプローチでは、固有の循環パターンを持つシーケンスを処理し、オブジェクトの関係を正しい順序で処理することもできます。
したがって、情報損失を最小限に抑えながら、周期的で重複する関係を効果的にキャプチャできます。
AeroEye データセットに関する広範な実験により、提案された CYCLO モデルの有効性が実証され、ドローン ビデオのシーン理解を実行できる可能性が実証されました。
最後に、CYCLO メソッドは、2 つの実際のシーン グラフ生成ベンチマーク、つまり PVSG と ASPIRe で最先端 (SOTA) の結果を一貫して達成します。

要約(オリジナル)

Video scene graph generation (VidSGG) has emerged as a transformative approach to capturing and interpreting the intricate relationships among objects and their temporal dynamics in video sequences. In this paper, we introduce the new AeroEye dataset that focuses on multi-object relationship modeling in aerial videos. Our AeroEye dataset features various drone scenes and includes a visually comprehensive and precise collection of predicates that capture the intricate relationships and spatial arrangements among objects. To this end, we propose the novel Cyclic Graph Transformer (CYCLO) approach that allows the model to capture both direct and long-range temporal dependencies by continuously updating the history of interactions in a circular manner. The proposed approach also allows one to handle sequences with inherent cyclical patterns and process object relationships in the correct sequential order. Therefore, it can effectively capture periodic and overlapping relationships while minimizing information loss. The extensive experiments on the AeroEye dataset demonstrate the effectiveness of the proposed CYCLO model, demonstrating its potential to perform scene understanding on drone videos. Finally, the CYCLO method consistently achieves State-of-the-Art (SOTA) results on two in-the-wild scene graph generation benchmarks, i.e., PVSG and ASPIRe.

arxiv情報

著者 Trong-Thuan Nguyen,Pha Nguyen,Xin Li,Jackson Cothren,Alper Yilmaz,Khoa Luu
発行日 2024-10-07 16:20:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

MARs: Multi-view Attention Regularizations for Patch-based Feature Recognition of Space Terrain

要約

宇宙船が安全に天体に着陸したり、その近傍を航行したりするには、表面地形の視覚的な検出と追跡が必要です。
現在のアプローチは、事前に収集されたパッチベースの機能とのテンプレート マッチングに依存していますが、これは入手に費用がかかり、知覚能力の制限要因となっています。
最近の文献は、ナビゲーションと運用の自律性を強化するための現場での検出方法に焦点を当てていますが、依然として確実な説明が必要です。
この研究では、軽量の特徴記述メカニズムとして計量学習を調査し、現在のソリューションがクラス間の類似性とマルチビューの観察幾何学に対処できていないことを発見しました。
私たちはこれをビューを意識しない注意メカニズムによるものだと考え、マルチビュー注意正則化 (MAR) を導入して、複数のフィーチャ ビューにわたるチャネルと空間的注意を制限し、どこに注意を向けるかを規則化します。
私たちは、MAR の有無にかかわらず多くの最新の計量学習損失を徹底的に分析し、地形特徴認識パフォーマンスが 85% 以上向上していることを実証しました。
さらに、この困難な課題における将来の研究をサポートするために、月のクレーターのランドマークと NASA ミッション データからの参照ナビゲーション フレームで構成される Luna-1 データセットを紹介します。
Luna-1 とソース コードは https://droneslab.github.io/mars/ で公開されています。

要約(オリジナル)

The visual detection and tracking of surface terrain is required for spacecraft to safely land on or navigate within close proximity to celestial objects. Current approaches rely on template matching with pre-gathered patch-based features, which are expensive to obtain and a limiting factor in perceptual capability. While recent literature has focused on in-situ detection methods to enhance navigation and operational autonomy, robust description is still needed. In this work, we explore metric learning as the lightweight feature description mechanism and find that current solutions fail to address inter-class similarity and multi-view observational geometry. We attribute this to the view-unaware attention mechanism and introduce Multi-view Attention Regularizations (MARs) to constrain the channel and spatial attention across multiple feature views, regularizing the what and where of attention focus. We thoroughly analyze many modern metric learning losses with and without MARs and demonstrate improved terrain-feature recognition performance by upwards of 85%. We additionally introduce the Luna-1 dataset, consisting of Moon crater landmarks and reference navigation frames from NASA mission data to support future research in this difficult task. Luna-1 and source code are publicly available at https://droneslab.github.io/mars/.

arxiv情報

著者 Timothy Chase Jr,Karthik Dantu
発行日 2024-10-07 16:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

A Narrative Review of Image Processing Techniques Related to Prostate Ultrasound

要約

前立腺がん(PCa)は男性の健康に重大な脅威をもたらしており、予後の改善と死亡率の低下には早期診断が極めて重要です。
経直腸超音波 (TRUS) は、PCa の診断と画像に基づく介入において重要な役割を果たします。医師がより正確かつ効率的にコンピュータ支援による診断と介入を行えるようにするために、TRUS の多くの画像処理アルゴリズムが提案され、最新の状態を達成しています。
前立腺セグメンテーション、前立腺画像登録、PCa 分類と検出、介入針検出などのいくつかのタスクにおける最先端のパフォーマンス。
過去 20 年間にわたるこれらのアルゴリズムの急速な発展により、包括的な概要が必要になります。
その結果、この調査はこの分野の \textcolor{blue}{narrative } 分析を提供し、TRUS 画像分析の文脈における画像処理手法の進化を概説し、同時にそれらの関連する貢献を強調します。
さらに、この調査では現在の課題について議論し、この分野をさらに前進させる可能性のある将来の研究の方向性を示唆しています。

要約(オリジナル)

Prostate cancer (PCa) poses a significant threat to men’s health, with early diagnosis being crucial for improving prognosis and reducing mortality rates. Transrectal ultrasound (TRUS) plays a vital role in the diagnosis and image-guided intervention of PCa.To facilitate physicians with more accurate and efficient computer-assisted diagnosis and interventions, many image processing algorithms in TRUS have been proposed and achieved state-of-the-art performance in several tasks, including prostate gland segmentation, prostate image registration, PCa classification and detection, and interventional needle detection. The rapid development of these algorithms over the past two decades necessitates a comprehensive summary. In consequence, this survey provides a \textcolor{blue}{narrative } analysis of this field, outlining the evolution of image processing methods in the context of TRUS image analysis and meanwhile highlighting their relevant contributions. Furthermore, this survey discusses current challenges and suggests future research directions to possibly advance this field further.

arxiv情報

著者 Haiqiao Wang,Hong Wu,Zhuoyuan Wang,Peiyan Yue,Dong Ni,Pheng-Ann Heng,Yi Wang
発行日 2024-10-07 16:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする

Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality

要約

Fr\’echet Video Distance (FVD) は、ビデオ生成の配信品質を評価するために広く採用されている指標です。
ただし、その有効性は重要な前提に依存します。
私たちの分析により、次の 3 つの重大な制限が明らかになりました。(1) Inflated 3D Convnet (I3D) 特徴空間の非ガウス性。
(2) I3D 特徴は時間的な歪みに対して鈍感である。
(3) 信頼性の高い推定に必要なサンプル サイズが非現実的である。
これらの発見は、FVD の信頼性を損ない、FVD がビデオ生成評価の独立した指標として不十分であることを示しています。
幅広いメトリクスとバックボーン アーキテクチャの広範な分析を経て、多項式カーネルによる最大平均不一致を使用して測定された、ジョイント エンベディング予測アーキテクチャから導出された特徴に基づいた JEDi (JEPA エンベディング ディスタンス) を提案します。
複数のオープンソース データセットに対する私たちの実験では、これが広く使用されている FVD メトリクスの優れた代替手段であるという明らかな証拠が示されており、サンプルの 16% だけで定常値に到達するだけで、人間の評価との整合性が平均 34% 向上します。

要約(オリジナル)

The Fr\’echet Video Distance (FVD) is a widely adopted metric for evaluating video generation distribution quality. However, its effectiveness relies on critical assumptions. Our analysis reveals three significant limitations: (1) the non-Gaussianity of the Inflated 3D Convnet (I3D) feature space; (2) the insensitivity of I3D features to temporal distortions; (3) the impractical sample sizes required for reliable estimation. These findings undermine FVD’s reliability and show that FVD falls short as a standalone metric for video generation evaluation. After extensive analysis of a wide range of metrics and backbone architectures, we propose JEDi, the JEPA Embedding Distance, based on features derived from a Joint Embedding Predictive Architecture, measured using Maximum Mean Discrepancy with polynomial kernel. Our experiments on multiple open-source datasets show clear evidence that it is a superior alternative to the widely used FVD metric, requiring only 16% of the samples to reach its steady value, while increasing alignment with human evaluation by 34%, on average.

arxiv情報

著者 Ge Ya,Luo,Gian Favero,Zhi Hao Luo,Alexia Jolicoeur-Martineau,Christopher Pal
発行日 2024-10-07 17:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Finding Visual Task Vectors

要約

視覚的なプロンプトは、追加のトレーニングを行わずに、コンテキスト内の例を通じて視覚的なタスクを実行するようにモデルを教育するための手法です。
この研究では、最近のビジュアル プロンプティング モデルである MAE-VQGAN のアクティベーションを分析し、タスク固有の情報をエンコードするアクティベーションであるタスク ベクトルを見つけます。
この洞察を備えて、入出力の例を提供することなく、タスク ベクトルを特定し、それを使用してネットワークをさまざまなタスクの実行に導くことができることを実証します。
タスク ベクトルを見つけるには、タスクごとの平均中間アクティベーションを計算し、REINFORCE アルゴリズムを使用してタスク ベクトルのサブセットを検索します。
結果として得られるタスク ベクトルは、入出力例を必要とせずに、元のモデルよりも優れたタスクを実行できるようにモデルを導きます。

要約(オリジナル)

Visual Prompting is a technique for teaching models to perform a visual task via in-context examples, without any additional training. In this work, we analyze the activations of MAE-VQGAN, a recent Visual Prompting model, and find task vectors, activations that encode task-specific information. Equipped with this insight, we demonstrate that it is possible to identify the task vectors and use them to guide the network towards performing different tasks without providing any input-output examples. To find task vectors, we compute the average intermediate activations per task and use the REINFORCE algorithm to search for the subset of task vectors. The resulting task vectors guide the model towards performing a task better than the original model without the need for input-output examples.

arxiv情報

著者 Alberto Hojel,Yutong Bai,Trevor Darrell,Amir Globerson,Amir Bar
発行日 2024-10-07 17:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Organizing Unstructured Image Collections using Natural Language

要約

非構造化ビジュアル データをセマンティック クラスターに編成することは、コンピューター ビジョンにおける重要な課題です。
従来のディープ クラスタリング (DC) アプローチはデータの単一パーティションに焦点を当てていますが、マルチ クラスタリング (MC) 手法は、個別のクラスタリング ソリューションを明らかにすることでこの制限に対処します。
大規模言語モデル (LLM) とマルチモーダル LLM (MLLM) の台頭により、ユーザーが自然言語でクラスタリング基準を定義できるようになり、MC が強化されました。
ただし、大規模なデータセットの基準を手動で指定するのは現実的ではありません。
この研究では、大規模な画像コレクションからクラスタリング基準を自動的に検出し、人間の入力を必要とせずに解釈可能な部分構造を明らかにすることを目的としたタスク Semantic Multiple Clustering (SMC) を紹介します。
私たちのフレームワークである Text Driven Semantic Multiple Clustering (TeDeSC) は、テキストをプロキシとして使用して、大規模な画像コレクションを同時に推論し、自然言語で表現された分割基準を発見し、意味論的な下部構造を明らかにします。
TeDeSC を評価するために、COCO-4c および Food-4c ベンチマークを導入します。それぞれのベンチマークには 4 つのグループ化基準とグラウンド トゥルースの注釈が含まれています。
私たちは TeDeSC を、偏見の発見やソーシャル メディア画像の人気の分析などのさまざまなアプリケーションに適用し、画像コレクションを自動的に整理して新しい洞察を明らかにするツールとしての有用性を実証します。

要約(オリジナル)

Organizing unstructured visual data into semantic clusters is a key challenge in computer vision. Traditional deep clustering (DC) approaches focus on a single partition of data, while multiple clustering (MC) methods address this limitation by uncovering distinct clustering solutions. The rise of large language models (LLMs) and multimodal LLMs (MLLMs) has enhanced MC by allowing users to define clustering criteria in natural language. However, manually specifying criteria for large datasets is impractical. In this work, we introduce the task Semantic Multiple Clustering (SMC) that aims to automatically discover clustering criteria from large image collections, uncovering interpretable substructures without requiring human input. Our framework, Text Driven Semantic Multiple Clustering (TeDeSC), uses text as a proxy to concurrently reason over large image collections, discover partitioning criteria, expressed in natural language, and reveal semantic substructures. To evaluate TeDeSC, we introduce the COCO-4c and Food-4c benchmarks, each containing four grouping criteria and ground-truth annotations. We apply TeDeSC to various applications, such as discovering biases and analyzing social media image popularity, demonstrating its utility as a tool for automatically organizing image collections and revealing novel insights.

arxiv情報

著者 Mingxuan Liu,Zhun Zhong,Jun Li,Gianni Franchi,Subhankar Roy,Elisa Ricci
発行日 2024-10-07 17:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

The Dawn of Video Generation: Preliminary Explorations with SORA-like Models

要約

テキストからビデオ (T2V)、画像からビデオ (I2V)、およびビデオからビデオ (V2V) の生成を含む高品質のビデオ生成は、コンテンツ作成において非常に重要であり、誰もが本来持っている創造性を表現するのに役立ちます。
世界をモデル化して理解するための新しい方法と世界シミュレーション。
SORA のようなモデルは、特に長いビデオ シーケンスにおいて、より高い解像度、より自然な動き、より優れた視覚言語の調整、および向上した制御性を備えたビデオの生成を進歩させています。
これらの改善は、大規模なデータ拡張と洗練されたトレーニング戦略とともに、UNet からよりスケーラブルでパラメーターが豊富な DiT モデルへの移行というモデル アーキテクチャの進化によって推進されてきました。
しかし、DiT ベースのクローズドソースおよびオープンソース モデルの出現にもかかわらず、その機能と限界についての包括的な調査は依然として不足しています。
さらに、急速な開発により、最近のベンチマークが SORA のようなモデルを完全にカバーし、その重要な進歩を認識することが困難になっています。
さらに、評価指標が人間の好みと一致しないこともよくあります。

要約(オリジナル)

High-quality video generation, encompassing text-to-video (T2V), image-to-video (I2V), and video-to-video (V2V) generation, holds considerable significance in content creation to benefit anyone express their inherent creativity in new ways and world simulation to modeling and understanding the world. Models like SORA have advanced generating videos with higher resolution, more natural motion, better vision-language alignment, and increased controllability, particularly for long video sequences. These improvements have been driven by the evolution of model architectures, shifting from UNet to more scalable and parameter-rich DiT models, along with large-scale data expansion and refined training strategies. However, despite the emergence of DiT-based closed-source and open-source models, a comprehensive investigation into their capabilities and limitations remains lacking. Furthermore, the rapid development has made it challenging for recent benchmarks to fully cover SORA-like models and recognize their significant advancements. Additionally, evaluation metrics often fail to align with human preferences.

arxiv情報

著者 Ailing Zeng,Yuhang Yang,Weidong Chen,Wei Liu
発行日 2024-10-07 17:35:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

要約

最近の 3D ノベル ビュー合成 (NVS) 手法は、単一オブジェクト中心のシーンに限定されており、複雑な環境に対応するのに苦労しています。
多くの場合、トレーニングには大規模な 3D データが必要ですが、トレーニングの分布を超えた一般化が欠けています。
逆に、3D フリーの方法では、大量の 3D ベースのトレーニング データを必要とせずに、事前トレーニングされた安定した拡散モデルを使用して、複雑な自然のシーンのテキスト制御ビューを生成できますが、カメラ制御がありません。
この論文では、3D フリーのアプローチと 3D ベースのアプローチの利点を組み合わせて、単一の入力画像からカメラ制御の視点を生成できる方法を紹介します。
私たちの方法は、大規模なトレーニングや追加の 3D データやマルチビュー データを必要とせずに、複雑で多様なシーンを処理することに優れています。
弱いガイダンスには広く利用可能な事前トレーニング済み NVS モデルを活用し、この知識を 3D フリーのビュー合成アプローチに統合して、望ましい結果を達成します。
実験結果は、私たちの方法が定性的および定量的評価の両方で既存のモデルよりも優れており、さまざまなシーンにわたって希望のカメラ角度で高忠実度で一貫した新しいビューの合成を提供することを示しています。

要約(オリジナル)

Recent 3D novel view synthesis (NVS) methods are limited to single-object-centric scenes and struggle with complex environments. They often require extensive 3D data for training, lacking generalization beyond the training distribution. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without the need for a large amount of 3D-based training data, but lack camera control. In this paper, we introduce a method capable of generating camera-controlled viewpoints from a single input image, by combining the benefits of 3D-free and 3D-based approaches. Our method excels in handling complex and diverse scenes without extensive training or additional 3D and multiview data. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis approach to achieve the desired results. Experimental results demonstrate that our method outperforms existing models in both qualitative and quantitative evaluations, providing high-fidelity and consistent novel view synthesis at desired camera angles across a wide variety of scenes.

arxiv情報

著者 Taewon Kang,Divya Kothandaraman,Dinesh Manocha,Ming C. Lin
発行日 2024-10-07 17:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Generative Parameter-Efficient Fine-Tuning

要約

事前トレーニングされた Transformer バックボーンをダウンストリーム タスクに適応させるための Generative Parameter-Efficient Fine-Tuning (GIFT) を紹介します。
GIFT は、レイヤーの微調整された重みを事前トレーニングされた重みから直接生成することを学習します。
GIFT ネットワークは、2 つの線形層 (バイアス項なし) によって最小限の単純な方法でパラメータ化され、微調整のために選択されたさまざまな事前トレーニング済み層 (クエリ層など) によって共有されるため、GIFT ネットワークと比較してトレーニング可能なパラメータが大幅に少なくなります。
低ランク アダプター (LoRA) などのレイヤー固有のメソッド。
また、この定式化がパラメーター効率の高い微調整と表現の微調整を橋渡しすることも示します。
私たちは、自然言語タスク (常識と算術推論、命令チューニング、シーケンス分類) とコンピューター ビジョン タスク (詳細な分類) に関する包括的な実験を実行します。
常識的および算術推論のベースラインと、Llama ファミリのモデルを使用した指示に従って、および Vision Transformers を使用した視覚認識ベンチマークの中で、最高のパフォーマンスとパラメーター効率が得られました。
特に、LoRA と比較して、Llama-3 (8B) を使用した Commonsense170k のパラメータの 14 倍の削減により平均精度が 5.7% 絶対的に増加し、Llama-2 を使用してパラメータを 4 倍削減して勝率が 5.4% 絶対的に増加しました。
(7B) 命令チューニング中。
また、GIFT は、命令チューニングにおいて GPT 3.5 (Turbo 1106) よりもわずかに高い勝率を獲得しています。

要約(オリジナル)

We present Generative Parameter-Efficient Fine-Tuning (GIFT) for adapting pretrained Transformer backbones on downstream tasks. GIFT learns to generate the fine-tuned weights for a layer directly from its pretrained weights. The GIFT network is parameterized in a minimally-simple way by two linear layers (without bias terms), and is shared by different pretrained layers selected for fine-tuning (e.g., the Query layers), which result in significantly fewer trainable parameters compared to the layer-specific methods like Low-Rank Adapter (LoRA). We also show this formulation bridges parameter-efficient fine-tuning and representation fine-tuning. We perform comprehensive experiments on natural language tasks (commonsense and arithmetic reasoning, instruction tuning, and sequence classification) and computer vision tasks (fine-grained classification). We obtain the best performance and parameter efficiency among baselines on commonsense and arithmetic reasoning, and instruction following using the Llama family of models and on visual recognition benchmarks using Vision Transformers. Notably, compared to LoRA, we obtain 5.7% absolute increase in average accuracy with 14 times reduction of parameters on Commonsense170k using Llama-3 (8B), and 5.4% absolute increase in the win rate with 4 times reduction of parameters using Llama-2 (7B) during instruction tuning. Our GIFT also obtains a slightly higher win rate on instruction tuning than GPT 3.5 (Turbo 1106).

arxiv情報

著者 Chinmay Savadikar,Xi Song,Tianfu Wu
発行日 2024-10-07 17:40:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

SimO Loss: Anchor-Free Contrastive Loss for Fine-Grained Supervised Contrastive Learning

要約

私たちが提案する類似性直交性 (SimO) 損失を活用した、新しいアンカーフリー対比学習 (AFCL) 手法を紹介します。
私たちのアプローチは、2 つの重要な目的を同時に最適化するセミメトリック識別損失関数を最小化します。それは、類似した入力の埋め込み間の距離と直交性を削減すると同時に、異なる入力に対してこれらのメトリックを最大化し、よりきめの細かい対比学習を促進することです。
SimO 損失を活用した AFCL 手法は、埋め込み空間にファイバー束トポロジー構造を作成し、クラス固有の内部結合性がありながら直交する近傍を形成します。
CIFAR-10 データセットに対する手法の有効性を検証し、埋め込み空間に対する SimO 損失の影響を示す視覚化を提供します。
私たちの結果は、明確な直交クラス近傍の形成を示しており、クラス分離とクラス内変動性のバランスをとる、適切に構造化された埋め込みを作成するこのメソッドの能力を示しています。
この研究により、さまざまな機械学習タスクにおける学習された表現の幾何学的特性を理解して活用するための新しい道が開かれます。

要約(オリジナル)

We introduce a novel anchor-free contrastive learning (AFCL) method leveraging our proposed Similarity-Orthogonality (SimO) loss. Our approach minimizes a semi-metric discriminative loss function that simultaneously optimizes two key objectives: reducing the distance and orthogonality between embeddings of similar inputs while maximizing these metrics for dissimilar inputs, facilitating more fine-grained contrastive learning. The AFCL method, powered by SimO loss, creates a fiber bundle topological structure in the embedding space, forming class-specific, internally cohesive yet orthogonal neighborhoods. We validate the efficacy of our method on the CIFAR-10 dataset, providing visualizations that demonstrate the impact of SimO loss on the embedding space. Our results illustrate the formation of distinct, orthogonal class neighborhoods, showcasing the method’s ability to create well-structured embeddings that balance class separation with intra-class variability. This work opens new avenues for understanding and leveraging the geometric properties of learned representations in various machine learning tasks.

arxiv情報

著者 Taha Bouhsine,Imad El Aaroussi,Atik Faysal,Wang Huaxia
発行日 2024-10-07 17:41:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする