Economics of Sourcing Human Data

要約

AIの進歩は、アノテーター市場からより広いインターネットまで、人間で生成されたデータに依存しています。
ただし、大規模な言語モデルの広範な使用は、これらのプラットフォーム上の人間で生成されたデータの品質と完全性を脅かしています。
この問題は、AIに生成されたコンテンツをフィルタリングするという即時の課題を超えていると主張します。それは、データ収集システムの設計方法に関するより深い欠陥を明らかにしています。
既存のシステムは、多くの場合、本質的な人間の動機付けを犠牲にして速度、スケール、効率を優先し、エンゲージメントとデータの品質の低下につながります。
データ収集システムを再考するために、貢献者の本質的な動機(外部のインセンティブのみに依存するよりも)に合わせて、貢献者の信頼と長期参加を維持しながら、大規模な高品質のデータ調達を支援することを提案します。

要約(オリジナル)

Progress in AI has relied on human-generated data, from annotator marketplaces to the wider Internet. However, the widespread use of large language models now threatens the quality and integrity of human-generated data on these very platforms. We argue that this issue goes beyond the immediate challenge of filtering AI-generated content–it reveals deeper flaws in how data collection systems are designed. Existing systems often prioritize speed, scale, and efficiency at the cost of intrinsic human motivation, leading to declining engagement and data quality. We propose that rethinking data collection systems to align with contributors’ intrinsic motivations–rather than relying solely on external incentives–can help sustain high-quality data sourcing at scale while maintaining contributor trust and long-term participation.

arxiv情報

著者 Sebastin Santy,Prasanta Bhattacharya,Manoel Horta Ribeiro,Kelsey Allen,Sewoong Oh
発行日 2025-02-11 17:51:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.HC, cs.LG | Economics of Sourcing Human Data はコメントを受け付けていません

EdgeEar: Efficient and Accurate Ear Recognition for Edge Devices

要約

耳認識は、さまざまなドメインにわたってアプリケーションを備えた非接触で控えめな生体認証技術です。
ただし、リソースに制約のあるデバイスに高性能の耳認識モデルを展開することは困難であり、適用性と広範な採用を制限しています。
このペーパーでは、この問題を解決するために、提案されているハイブリッドCNNトランスフォーマーアーキテクチャに基づいた軽量モデルであるEdgearを紹介します。
低ランクの近似を特定の線形層に組み込むことにより、エッジアアはパラメーターカウントを現在の最先端と比較して50倍に減少させ、競争の精度を維持しながら200万未満をもたらします。
制約のない耳認識チャレンジ(UERC2023)のベンチマークに関する評価は、Edgearが最低のEERを達成しながら計算コストを大幅に削減することを示しています。
これらの調査結果は、効率的かつ正確な耳認識の実現可能性を示しています。これは、耳の生体認証のより広い採用に貢献すると考えています。

要約(オリジナル)

Ear recognition is a contactless and unobtrusive biometric technique with applications across various domains. However, deploying high-performing ear recognition models on resource-constrained devices is challenging, limiting their applicability and widespread adoption. This paper introduces EdgeEar, a lightweight model based on a proposed hybrid CNN-transformer architecture to solve this problem. By incorporating low-rank approximations into specific linear layers, EdgeEar reduces its parameter count by a factor of 50 compared to the current state-of-the-art, bringing it below two million while maintaining competitive accuracy. Evaluation on the Unconstrained Ear Recognition Challenge (UERC2023) benchmark shows that EdgeEar achieves the lowest EER while significantly reducing computational costs. These findings demonstrate the feasibility of efficient and accurate ear recognition, which we believe will contribute to the wider adoption of ear biometrics.

arxiv情報

著者 Camile Lendering,Bernardo Perrone Ribeiro,Žiga Emeršič,Peter Peer
発行日 2025-02-11 17:53:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | EdgeEar: Efficient and Accurate Ear Recognition for Edge Devices はコメントを受け付けていません

SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes

要約

メッシュは視覚的なコンピューティングとシミュレーションで遍在していますが、ほとんどの既存の機械学習手法は間接的にのみメッシュを表しています。
スカラーフィールドのレベルセットまたはテンプレートの変形、または局所構造を欠く無秩序な三角スープとして。
この作業は、ニューラルネットワークの出力として複雑な接続性の多角形の多角形のメッシュを直接生成するスキームを提示します。
私たちの主要な革新は、各メッシュ頂点で連続潜在的な接続空間を定義することです。これは、離散メッシュを意味します。
特に、頂点の埋め込みは、ハーフエッジメッシュ表現で循環隣接関係を生成し、エッジマニフォールド性と一般的な多角形メッシュを表現する能力を保証します。
この表現は、接続性やトポロジーに制限されることなく、機械学習と確率的最適化に適しています。
最初にこの表現の基本的な特性を調査し、次に使用して、大きなデータセットからのメッシュの分布を適合させます。
結果のモデルは、データセット母集団から学習されたテッセレーション構造を備えた多様なメッシュを生成し、簡潔な詳細と高品質のメッシュ要素を備えています。
アプリケーションでは、このアプローチは生成モデルから高品質の出力を生成するだけでなく、メッシュ修理などの挑戦的なジオメトリ処理タスクを直接学習することもできます。

要約(オリジナル)

Meshes are ubiquitous in visual computing and simulation, yet most existing machine learning techniques represent meshes only indirectly, e.g. as the level set of a scalar field or deformation of a template, or as a disordered triangle soup lacking local structure. This work presents a scheme to directly generate manifold, polygonal meshes of complex connectivity as the output of a neural network. Our key innovation is to define a continuous latent connectivity space at each mesh vertex, which implies the discrete mesh. In particular, our vertex embeddings generate cyclic neighbor relationships in a halfedge mesh representation, which gives a guarantee of edge-manifoldness and the ability to represent general polygonal meshes. This representation is well-suited to machine learning and stochastic optimization, without restriction on connectivity or topology. We first explore the basic properties of this representation, then use it to fit distributions of meshes from large datasets. The resulting models generate diverse meshes with tessellation structure learned from the dataset population, with concise details and high-quality mesh elements. In applications, this approach not only yields high-quality outputs from generative models, but also enables directly learning challenging geometry processing tasks such as mesh repair.

arxiv情報

著者 Tianchang Shen,Zhaoshuo Li,Marc Law,Matan Atzmon,Sanja Fidler,James Lucas,Jun Gao,Nicholas Sharp
発行日 2025-02-11 17:53:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes はコメントを受け付けていません

Next Block Prediction: Video Generation via Semi-Auto-Regressive Modeling

要約

Next-Token Prediction(NTP)は、自己回帰(AR)ビデオ生成のための事実上のアプローチですが、最適ではない一方向の依存関係と推論速度が遅いことに苦しんでいます。
この作業では、ビデオ生成のために、次のブロック予測(NBP)と呼ばれる半自動性(SEMI-AR)フレームワークを提案します。
ビデオコンテンツを等しいサイズのブロック(行やフレームなど)に均一に分解することにより、生成ユニットを個々のトークンからブロックにシフトし、現在のブロック内の各トークンが次のブロックの対応するトークンを同時に予測できるようにします。
従来のARモデリングとは異なり、当社のフレームワークは各ブロック内で双方向の注意を採用しており、トークンがより堅牢な空間依存関係をキャプチャできるようにします。
複数のトークンを並行して予測することにより、NBPモデルは生成ステップの数を大幅に減らし、より速く、より効率的な推論につながります。
私たちのモデルは、UCF101で103.3、K600で25.5のFVDスコアを達成し、平均4.4でバニラNTPモデルを上回ります。
さらに、推論手順の数が減ったため、NBPモデルは1秒あたり8.89フレーム(128×128解像度)を生成し、11倍のスピードアップを達成します。
また、700mから3Bのパラメーターの範囲のモデルスケールを調査し、生成品質の大幅な改善を観察し、FVDスコアはUCF101で103.3から55.3、K600で25.5から19.5に低下し、アプローチのスケーラビリティを示しました。

要約(オリジナル)

Next-Token Prediction (NTP) is a de facto approach for autoregressive (AR) video generation, but it suffers from suboptimal unidirectional dependencies and slow inference speed. In this work, we propose a semi-autoregressive (semi-AR) framework, called Next-Block Prediction (NBP), for video generation. By uniformly decomposing video content into equal-sized blocks (e.g., rows or frames), we shift the generation unit from individual tokens to blocks, allowing each token in the current block to simultaneously predict the corresponding token in the next block. Unlike traditional AR modeling, our framework employs bidirectional attention within each block, enabling tokens to capture more robust spatial dependencies. By predicting multiple tokens in parallel, NBP models significantly reduce the number of generation steps, leading to faster and more efficient inference. Our model achieves FVD scores of 103.3 on UCF101 and 25.5 on K600, outperforming the vanilla NTP model by an average of 4.4. Furthermore, thanks to the reduced number of inference steps, the NBP model generates 8.89 frames (128×128 resolution) per second, achieving an 11x speedup. We also explored model scales ranging from 700M to 3B parameters, observing significant improvements in generation quality, with FVD scores dropping from 103.3 to 55.3 on UCF101 and from 25.5 to 19.5 on K600, demonstrating the scalability of our approach.

arxiv情報

著者 Shuhuai Ren,Shuming Ma,Xu Sun,Furu Wei
発行日 2025-02-11 17:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Next Block Prediction: Video Generation via Semi-Auto-Regressive Modeling はコメントを受け付けていません

CausalGeD: Blending Causality and Diffusion for Spatial Gene Expression Generation

要約

単一細胞RNAシーケンス(SCRNA-seq)と空間トランスクリプトミクス(ST)データの統合は、空間的コンテキストでの遺伝子発現を理解するために重要です。
このような統合のための既存の方法のパフォーマンスは限られており、構造的類似性はしばしば60 \%未満であるため、この制限は遺伝子間の因果関係を考慮しなかったことに起因します。
これらの関係を活用するために拡散プロセスと自己回帰プロセスを組み合わせた因果関係を提示します。
因果関係の変圧器を画像生成から遺伝子発現データに一般化することにより、モデルは事前定義された関係のない調節メカニズムをキャプチャします。
10個の組織データセットで、因果関係のあるアウトパフォームが、ピアソンの相関や構造的類似性を含む主要なメトリックで5-32 \%で最先端のベースラインをパフォーマンスし、技術的および生物学的洞察の両方を進めました。

要約(オリジナル)

The integration of single-cell RNA sequencing (scRNA-seq) and spatial transcriptomics (ST) data is crucial for understanding gene expression in spatial context. Existing methods for such integration have limited performance, with structural similarity often below 60\%, We attribute this limitation to the failure to consider causal relationships between genes. We present CausalGeD, which combines diffusion and autoregressive processes to leverage these relationships. By generalizing the Causal Attention Transformer from image generation to gene expression data, our model captures regulatory mechanisms without predefined relationships. Across 10 tissue datasets, CausalGeD outperformed state-of-the-art baselines by 5- 32\% in key metrics, including Pearson’s correlation and structural similarity, advancing both technical and biological insights.

arxiv情報

著者 Rabeya Tus Sadia,Md Atik Ahamed,Qiang Cheng
発行日 2025-02-11 18:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.GN | CausalGeD: Blending Causality and Diffusion for Spatial Gene Expression Generation はコメントを受け付けていません

Direct Ascent Synthesis: Revealing Hidden Generative Capabilities in Discriminative Models

要約

識別モデルには本質的に強力な生成能力が含まれており、識別アーキテクチャと生成アーキテクチャの根本的な区別に挑戦することを実証します。
私たちの方法であるDirect Ascent Synthesis(DAS)は、CLIPモデル表現のマルチ解像度の最適化を通じてこれらの潜在能力を明らかにしています。
従来の反転の試みは敵対的なパターンを生成しますが、DASは複数の空間スケール(1×1〜224×224)にわたって最適化を分解することにより高品質の画像合成を達成し、追加のトレーニングを必要としません。
このアプローチは、テキストからイメージの生成からスタイルの転送まで、多様なアプリケーションを可能にするだけでなく、自然画像統計($ 1/f^2 $スペクトル)を維持し、生成を非偏った敵対パターンから導きます。
我々の結果は、標準的な識別モデルが以前に認識されていたよりも実質的に豊富な生成知識をエンコードし、モデルの解釈可能性と敵対的な例と自然画像合成の関係に関する新しい視点を提供することを示しています。

要約(オリジナル)

We demonstrate that discriminative models inherently contain powerful generative capabilities, challenging the fundamental distinction between discriminative and generative architectures. Our method, Direct Ascent Synthesis (DAS), reveals these latent capabilities through multi-resolution optimization of CLIP model representations. While traditional inversion attempts produce adversarial patterns, DAS achieves high-quality image synthesis by decomposing optimization across multiple spatial scales (1×1 to 224×224), requiring no additional training. This approach not only enables diverse applications — from text-to-image generation to style transfer — but maintains natural image statistics ($1/f^2$ spectrum) and guides the generation away from non-robust adversarial patterns. Our results demonstrate that standard discriminative models encode substantially richer generative knowledge than previously recognized, providing new perspectives on model interpretability and the relationship between adversarial examples and natural image synthesis.

arxiv情報

著者 Stanislav Fort,Jonathan Whitaker
発行日 2025-02-11 18:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Direct Ascent Synthesis: Revealing Hidden Generative Capabilities in Discriminative Models はコメントを受け付けていません

MeshSplats: Mesh-Based Rendering with Gaussian Splatting Initialization

要約

Gaussian Splatting(GS)は、3Dコンピューターグラフィックスの最近の極めて重要な手法です。
GSベースのアルゴリズムは、ほとんどの場合、Ray Tracingなどの古典的な方法をバイパスします。これは、レンダリングに多くの固有の利点を提供します。
たとえば、Ray Tracingは、影や反射などの高度な照明効果のために、一貫性のない光線を処理できます。
この制限に対処するために、GSをメッシュのような形式に変換するメソッドであるMeshsplatを紹介します。
トレーニングの完了後、Meshsplatはガウス要素をメッシュ面に変換し、関連するすべての利点を備えたレイトレース方法を使用してレンダリングを可能にします。
私たちのモデルは、変換の直後に利用することができ、追加のトレーニングなしで品質がわずかに低下したメッシュをもたらします。
さらに、ガウスコンポーネントではなくメッシュ面で動作する専用の最適化アルゴリズムを適用することにより、再構築品質を向上させることができます。
この方法の有効性は、実験結果によって実証されており、コンピューターグラフィックスと画像処理における広範なアプリケーションを強調しています。

要約(オリジナル)

Gaussian Splatting (GS) is a recent and pivotal technique in 3D computer graphics. GS-based algorithms almost always bypass classical methods such as ray tracing, which offers numerous inherent advantages for rendering. For example, ray tracing is able to handle incoherent rays for advanced lighting effects, including shadows and reflections. To address this limitation, we introduce MeshSplats, a method which converts GS to a mesh-like format. Following the completion of training, MeshSplats transforms Gaussian elements into mesh faces, enabling rendering using ray tracing methods with all their associated benefits. Our model can be utilized immediately following transformation, yielding a mesh of slightly reduced quality without additional training. Furthermore, we can enhance the reconstruction quality through the application of a dedicated optimization algorithm that operates on mesh faces rather than Gaussian components. The efficacy of our method is substantiated by experimental results, underscoring its extensive applications in computer graphics and image processing.

arxiv情報

著者 Rafał Tobiasz,Grzegorz Wilczyński,Marcin Mazur,Sławomir Tadeja,Przemysław Spurek
発行日 2025-02-11 18:27:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | MeshSplats: Mesh-Based Rendering with Gaussian Splatting Initialization はコメントを受け付けていません

From Fog to Failure: How Dehazing Can Harm Clear Image Object Detection

要約

この研究では、人間の知覚の選択的性質を考慮して、人間の視覚キューベースの脱毛をオブジェクト検出に統合するという課題を探ります。
人間の視力は環境条件に動的に適応しますが、計算脱毛は常に均一に検出を強化するとは限りません。
軽量検出器が関心のある領域(ROI)を識別するマルチステージフレームワークを提案します。これは、より重いモデルによる最終的な検出の前に、空間的注意ベースの脱毛を介して強化されます。
霧の状態では効果的ですが、このアプローチは、クリア画像のパフォーマンスを予期せずに低下させます。
この現象を分析し、考えられる原因を調査し、強化と検出のバランスをとるハイブリッドパイプラインを設計するための洞察を提供します。
私たちの調査結果は、カスケード変換による普遍的な利点に関する選択的前処理と挑戦の仮定の必要性を強調しています。

要約(オリジナル)

This study explores the challenges of integrating human visual cue-based dehazing into object detection, given the selective nature of human perception. While human vision adapts dynamically to environmental conditions, computational dehazing does not always enhance detection uniformly. We propose a multi-stage framework where a lightweight detector identifies regions of interest (RoIs), which are then enhanced via spatial attention-based dehazing before final detection by a heavier model. Though effective in foggy conditions, this approach unexpectedly degrades the performance on clear images. We analyze this phenomenon, investigate possible causes, and offer insights for designing hybrid pipelines that balance enhancement and detection. Our findings highlight the need for selective preprocessing and challenge assumptions about universal benefits from cascading transformations.

arxiv情報

著者 Ashutosh Kumar,Aman Chadha
発行日 2025-02-11 18:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | From Fog to Failure: How Dehazing Can Harm Clear Image Object Detection はコメントを受け付けていません

Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras

要約

HyperComplex画像処理は、代数および幾何学的原理を含む統一されたパラダイムで従来の技術を拡張します。
この作業は、次の計算ワークフローと転帰を介して自然/生物医学画像分析のために、四項と2次元直交平面分割フレームワーク(四項 – 正結腸2D平面のペアへの分割 – ピクセルを表す – ピクセルを表す)を活用しています:自然/生物医学的イメージの再採用
色素化、自然画像の脱色、自然/生物医学的イメージのコントラストの強化、組織学的画像の計算の再染色と染色分離、および組織学的画像の機械/深い学習パイプラインのパフォーマンスの向上。
ワークフローは、提案されたアプローチの有効性を紹介するために、自然および生物医学の画像について個別に分析されます。
提案されたワークフローは、色の外観を調節することができます(たとえば、代替レンディションやグレースケール変換など)と画像のコントラストは、自動化された画像処理パイプライン(例:ステイン成分の分離、学習モデルの増加)の一部であり、デジタル病理アプリケーション(例えば、バイオマーカーの視認性を高めるのを支援します。
カラーブランドに優しいレンディションを有効にします)。
基本的な算術操作とマトリックス操作のみを採用して、この作業は、画像処理タスク全体で汎用性と一貫性を示し、コンピュータービジョンと生物医学的アプリケーションの範囲を紹介する計算的にアクセス可能な方法論を提供します。
提案されている非DATA駆動型の方法は、文献で報告されているものと同等の結果またはより良い結果(特によく知られている方法を含む場合)を実用的な有効性を備えた堅牢な理論的枠組みの可能性を示しています。
結果、方法、制限は、有望な拡張の議論とともに詳細に詳述されており、自然および生物医学画像のための機能が豊富な数学的/計算フレームワークの可能性を強調しています。

要約(オリジナル)

Hypercomplex image processing extends conventional techniques in a unified paradigm encompassing algebraic and geometric principles. This work leverages quaternions and the two-dimensional orthogonal planes split framework (splitting of a quaternion – representing a pixel – into pairs of orthogonal 2D planes) for natural/biomedical image analysis through the following computational workflows and outcomes: natural/biomedical image re-colorization, natural image de-colorization, natural/biomedical image contrast enhancement, computational re-staining and stain separation in histological images, and performance gains in machine/deep learning pipelines for histological images. The workflows are analyzed separately for natural and biomedical images to showcase the effectiveness of the proposed approaches. The proposed workflows can regulate color appearance (e.g. with alternative renditions and grayscale conversion) and image contrast, be part of automated image processing pipelines (e.g. isolating stain components, boosting learning models), and assist in digital pathology applications (e.g. enhancing biomarker visibility, enabling colorblind-friendly renditions). Employing only basic arithmetic and matrix operations, this work offers a computationally accessible methodology – in the hypercomplex domain – that showcases versatility and consistency across image processing tasks and a range of computer vision and biomedical applications. The proposed non-data-driven methods achieve comparable or better results (particularly in cases involving well-known methods) to those reported in the literature, showcasing the potential of robust theoretical frameworks with practical effectiveness. Results, methods, and limitations are detailed alongside discussion of promising extensions, emphasizing the potential of feature-rich mathematical/computational frameworks for natural and biomedical images.

arxiv情報

著者 Nektarios A. Valous,Eckhard Hitzer,Dragoş Duşe,Rodrigo Rojas Moraleda,Ferdinand Popp,Meggy Suarez-Carmona,Anna Berthel,Ismini Papageorgiou,Carlo Fremd,Alexander Rölle,Christina C. Westhoff,Bénédicte Lenoir,Niels Halama,Inka Zörnig,Dirk Jäger
発行日 2025-02-11 18:38:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras はコメントを受け付けていません

Accessing Vision Foundation Models via ImageNet-1K

要約

Vision Foundationモデルは、大規模なトレーニングデータにより、一般化能力で有名です。
それにもかかわらず、彼らは途方もないトレーニングリソースを要求し、トレーニングデータはしばしばアクセスできません。たとえば、クリップ、DINOV2は、研究を促進できるデリバティブの開発に大きな課題をもたらします。
この作業では、\ textit {proteus}という名前の非常にシンプルで一般的なソリューションを提供し、元のトレーニングデータにアクセスすることなく、基礎モデルをImagenet-1Kのより小さな同等物に蒸留します。
具体的には、データセットバイアスをもたらす従来の知識蒸留設定から設計を削除し、3つのレベルのトレーニング目標、つまりトークン、パッチ、機能を提示して、知識伝達の有効性を最大化します。
このようにして、Proteusは驚くべき能力でImagenetレベルのコストで訓練され、より広範な研究コミュニティのための基礎モデルのトレーニングのアクセシビリティを促進します。
Dinov2-G/14を教師として活用する場合、Proteus-L/14は、19のベンチマークでOracle Method Dinov2-L/14(142mトレーニングデータ)のパフォーマンスに一致し、Clip-L/14(400mを含む他のVision Foundationモデルを上回ります
)、OpenClip-L/14(400m/2b)およびSynclr-L/14(600m)は、1.2m画像のかなり小さいトレーニングセットを備えています。

要約(オリジナル)

Vision foundation models are renowned for the generalization ability due to massive training data. Nevertheless, they demand tremendous training resources, and the training data is often inaccessible, e.g., CLIP, DINOv2, posing great challenges to developing derivatives that could facilitate the research. In this work, we offer a very simple and general solution, named \textit{Proteus}, to distill foundation models into smaller equivalents on ImageNet-1K without access to the original training data. Specifically, we remove the designs from conventional knowledge distillation settings that result in dataset bias and present three levels of training objectives, i.e., token, patch, and feature, to maximize the efficacy of knowledge transfer. In this manner, Proteus is trained at ImageNet-level costs with surprising ability, facilitating the accessibility of training foundation models for the broader research community. When leveraging DINOv2-g/14 as the teacher, Proteus-L/14 matches the performance of the Oracle method DINOv2-L/14 (142M training data) across 19 benchmarks and outperforms other vision foundation models including CLIP-L/14 (400M), OpenCLIP-L/14 (400M/2B) and SynCLR-L/14 (600M) with a significantly smaller training set of 1.2M images.

arxiv情報

著者 Yitian Zhang,Xu Ma,Yue Bai,Huan Wang,Yun Fu
発行日 2025-02-11 18:44:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Accessing Vision Foundation Models via ImageNet-1K はコメントを受け付けていません