Instance Segmentation for Point Sets

要約

PointNet [QSMG16]やPointNet ++ [Qysg17]などの最近提案されたニューラルネットワークアーキテクチャにより、3Dポイントセットに深い学習を適用することが可能になりました。
これら2つのネットワークによって学習した形状の特徴は、セマンティックセグメンテーションのためにトレーニング分類器を有効にし、最近では類似性グループプロポーザルネットワーク(SGPN)[WYHN17]を介したセグメンテーションを可能にしました。
SGPNの著者によって強調されている改善の1つは、ポイント数で記憶集中的な類似性マトリックスの使用に関連しています。
このレポートでは、サブサンプリングポイントセットでインスタンスセグメンテーションを計算する2つのサンプリングベースのメソッドを使用してこの問題に取り組むことを試み、最寄りのNeigbhourアプローチを使用して完全なセットにラベルを外挿します。
どちらのアプローチも大規模なサブサンプルでも同様に機能しますが、ランダムベースの戦略は、速度とメモリの使用に関して最も改善されます。

要約(オリジナル)

Recently proposed neural network architectures like PointNet [QSMG16] and PointNet++ [QYSG17] have made it possible to apply Deep Learning to 3D point sets. The feature representations of shapes learned by these two networks enabled training classifiers for Semantic Segmentation, and more recently for Instance Segmentation via the Similarity Group Proposal Network (SGPN) [WYHN17]. One area of improvement which has been highlighted by SGPN’s authors, pertains to use of memory intensive similarity matrices which occupy memory quadratic in the number of points. In this report, we attempt to tackle this issue through use of two sampling based methods, which compute Instance Segmentation on a sub-sampled Point Set, and then extrapolate labels to the complete set using the nearest neigbhour approach. While both approaches perform equally well on large sub-samples, the random-based strategy gives the most improvements in terms of speed and memory usage.

arxiv情報

著者 Abhimanyu Talwar,Julien Laasri
発行日 2025-05-20 16:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.CV, cs.LG, I.2.10 | Instance Segmentation for Point Sets はコメントを受け付けていません

ActiveSSF: An Active-Learning-Guided Self-Supervised Framework for Long-Tailed Megakaryocyte Classification

要約

骨髄異形成症候群の診断には、巨核球の正確な分類が重要です。
自己監視学習は医療画像分析で有望であることを示していますが、染色されたスライドの巨核球を分類するための応用は、3つの主な課題に直面しています。
これらの問題に対処するために、ActivessFフレームワークを提案します。これは、アクティブな学習を自己監視前の事前削除と統合します。
具体的には、私たちのアプローチでは、正確な領域抽出のために、K-MeansクラスタリングとHSV分析(臨床事前知識によって増強)と組み合わせたガウスフィルタリングを採用しています。
類似性のしきい値を動的に調整してクラスの不均衡を緩和する適応サンプル選択メカニズム。
形態学的な複雑さを克服するために、ラベル付きサンプルのプロトタイプクラスタリング。
臨床巨核データセットの実験結果は、ActivessFが最先端のパフォーマンスを達成するだけでなく、まれなサブタイプの認識精度を大幅に向上させることを示しています。
さらに、これらの高度な技術の統合は、臨床設定におけるActivessFの実際的な可能性をさらに強調します。

要約(オリジナル)

Precise classification of megakaryocytes is crucial for diagnosing myelodysplastic syndromes. Although self-supervised learning has shown promise in medical image analysis, its application to classifying megakaryocytes in stained slides faces three main challenges: (1) pervasive background noise that obscures cellular details, (2) a long-tailed distribution that limits data for rare subtypes, and (3) complex morphological variations leading to high intra-class variability. To address these issues, we propose the ActiveSSF framework, which integrates active learning with self-supervised pretraining. Specifically, our approach employs Gaussian filtering combined with K-means clustering and HSV analysis (augmented by clinical prior knowledge) for accurate region-of-interest extraction; an adaptive sample selection mechanism that dynamically adjusts similarity thresholds to mitigate class imbalance; and prototype clustering on labeled samples to overcome morphological complexity. Experimental results on clinical megakaryocyte datasets demonstrate that ActiveSSF not only achieves state-of-the-art performance but also significantly improves recognition accuracy for rare subtypes. Moreover, the integration of these advanced techniques further underscores the practical potential of ActiveSSF in clinical settings.

arxiv情報

著者 Linghao Zhuang,Ying Zhang,Gege Yuan,Xingyue Zhao,Zhiping Jiang
発行日 2025-05-20 17:03:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ActiveSSF: An Active-Learning-Guided Self-Supervised Framework for Long-Tailed Megakaryocyte Classification はコメントを受け付けていません

KIND: Knowledge Integration and Diversion for Training Decomposable Models

要約

モデルパラメーターの複雑さが増加するため、事前に訓練されたモデルは好ましいバックボーンになりました。
ただし、従来の事前に訓練されたモデルは、固定サイズのために展開の課題に直面していることが多く、トレーニングタスクとターゲットタスクの間に矛盾が生じた場合に否定的な転送が起こりやすくなります。
これに対処するために、分解可能なモデルを構築するために設計された新しいトレーニング方法である種類を提案します。
Kindは、各基本コンポーネントがu、\ sigma、およびv^\ topマトリックスの列ベクトル、特異値、およびrowベクトルの組み合わせとして表され、各基本コンポーネントを構造的制約として組み込むことにより、知識を統合します。
これらのコンポーネントは、トレーニング中のクラスゲートメカニズムによって促進される知識の転換により、クラスに依存しない知識とクラス固有の知識をキャプチャするためのカプセルをカプセル化するための学習ゲンに分類されます。
広範な実験では、種類の事前に訓練されたモデルが学習者と仕立て屋に分解できることを示しています。
さらに、大規模なドメインシフトを持つタスクの場合、ランダムに初期化されたテーラーと組み合わせると、タスクに依存しない知識を持つ学習ゲンのみを転送すると、ドメインシフトを効果的に緩和します。
コードはhttps://github.com/te4p0t/kindで利用可能になります。

要約(オリジナル)

Pre-trained models have become the preferred backbone due to the increasing complexity of model parameters. However, traditional pre-trained models often face deployment challenges due to their fixed sizes, and are prone to negative transfer when discrepancies arise between training tasks and target tasks. To address this, we propose KIND, a novel pre-training method designed to construct decomposable models. KIND integrates knowledge by incorporating Singular Value Decomposition (SVD) as a structural constraint, with each basic component represented as a combination of a column vector, singular value, and row vector from U, \Sigma, and V^\top matrices. These components are categorized into learngenes for encapsulating class-agnostic knowledge and tailors for capturing class-specific knowledge, with knowledge diversion facilitated by a class gate mechanism during training. Extensive experiments demonstrate that models pre-trained with KIND can be decomposed into learngenes and tailors, which can be adaptively recombined for diverse resource-constrained deployments. Moreover, for tasks with large domain shifts, transferring only learngenes with task-agnostic knowledge, when combined with randomly initialized tailors, effectively mitigates domain shifts. Code will be made available at https://github.com/Te4P0t/KIND.

arxiv情報

著者 Yucheng Xie,Fu Feng,Ruixiao Shi,Jing Wang,Yong Rui,Xin Geng
発行日 2025-05-20 17:08:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | KIND: Knowledge Integration and Diversion for Training Decomposable Models はコメントを受け付けていません

3D Reconstruction from Sketches

要約

複数のスケッチから3Dシーンを再構築する問題を検討します。
(1)通信ポイントを使用して複数のスケッチを縫い合わせ、(2)縫い付けられたスケッチをサイクルを使用して現実的な画像に変換し、(3)Megadepthと呼ばれる事前に訓練された畳み込みニューラルネットワークベースのアーキテクチャを使用した画像の深さマップを推定することを含むパイプラインを提案します。
私たちの貢献には、Image-Sketchペアのデータセットの構築が含まれます。これは、チューリッヒビルディングデータベースからの画像であり、スケッチは私たちによって生成されました。
このデータセットを使用して、パイプラインの2番目のステップでCycleganをトレーニングします。
実際の図面によく一般化されないステッチプロセスになりますが、単一のスケッチから3D再構成を作成するパイプラインの残りの部分は、さまざまな図面で非常にうまく機能します。

要約(オリジナル)

We consider the problem of reconstructing a 3D scene from multiple sketches. We propose a pipeline which involves (1) stitching together multiple sketches through use of correspondence points, (2) converting the stitched sketch into a realistic image using a CycleGAN, and (3) estimating that image’s depth-map using a pre-trained convolutional neural network based architecture called MegaDepth. Our contribution includes constructing a dataset of image-sketch pairs, the images for which are from the Zurich Building Database, and sketches have been generated by us. We use this dataset to train a CycleGAN for our pipeline’s second step. We end up with a stitching process that does not generalize well to real drawings, but the rest of the pipeline that creates a 3D reconstruction from a single sketch performs quite well on a wide variety of drawings.

arxiv情報

著者 Abhimanyu Talwar,Julien Laasri
発行日 2025-05-20 17:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.CV, cs.LG, I.2.10 | 3D Reconstruction from Sketches はコメントを受け付けていません

On the Generalizability of Foundation Models for Crop Type Mapping

要約

自己監視学習を使用した事前訓練を受けた基礎モデルは、言語理解、テキスト生成、画像認識など、さまざまな下流タスクで強力な転送学習機能を示しています。
地球観測(EO)フィールドは、精密農業、山火事、干ばつ監視、自然災害対応などの用途向けに、マルチスペクトル衛星画像で直接事前に訓練されたいくつかの基礎モデルを生成しました。
ただし、これらのモデルが新しい地理的位置に一般化する能力を調査した研究はほとんどありません。また、地理空間バイアスの潜在的な懸念 – データが豊富な先進国に訓練されたモデルは、データを規模の発展途上国に移すことができません。
5つの大陸の5つの作物分類データセットで、3つの一般的なEO Foundationモデル、SSL4EO-S12、Satlaspretrain、およびImagenetを評価します。
結果は、SSL4EO-S12などのセンチネル-2向けに明示的に設計された事前に訓練された重量が、Imagenetのような一般的な訓練を受けた重みを上回ることを示しています。
クラスの不均衡を緩和し、平均精度を向上させるには、高い全体的な精度を達成するのに十分なラベル付き画像のみで十分ですが、900の画像が必要です。

要約(オリジナル)

Foundation models pre-trained using self-supervised learning have shown powerful transfer learning capabilities on various downstream tasks, including language understanding, text generation, and image recognition. The Earth observation (EO) field has produced several foundation models pre-trained directly on multispectral satellite imagery for applications like precision agriculture, wildfire and drought monitoring, and natural disaster response. However, few studies have investigated the ability of these models to generalize to new geographic locations, and potential concerns of geospatial bias — models trained on data-rich developed nations not transferring well to data-scarce developing nations — remain. We evaluate three popular EO foundation models, SSL4EO-S12, SatlasPretrain, and ImageNet, on five crop classification datasets across five continents. Results show that pre-trained weights designed explicitly for Sentinel-2, such as SSL4EO-S12, outperform general pre-trained weights like ImageNet. While only 100 labeled images are sufficient for achieving high overall accuracy, 900 images are required to mitigate class imbalance and improve average accuracy.

arxiv情報

著者 Yi-Chia Chang,Adam J. Stewart,Favyen Bastani,Piper Wolters,Shreya Kannan,George R. Huber,Jingtong Wang,Arindam Banerjee
発行日 2025-05-20 17:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | On the Generalizability of Foundation Models for Crop Type Mapping はコメントを受け付けていません

KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩と食品データの豊富さにより、LLMを使用した食品の理解を改善する研究が生じています。
LLMSと知識グラフ(KGS)を利用しているいくつかの推奨システムにもかかわらず、食品関連のKGとLLMの統合に関する研究は限られています。
食品KGとLLMSを活用してパーソナライズされた食品の推奨を提供し、関連する微量栄養情報を含むレシピを生成する統一されたシステムであるKerlを紹介します。
自然言語の質問を考えると、Kerlはエンティティを抽出し、KGからサブグラフを取得し、その後、コンテキストとしてLLMに供給され、制約を満たすレシピを選択します。
次に、私たちのシステムは、各レシピの調理手順と栄養情報を生成します。
アプローチを評価するために、制約と個人的な好みと組み合わせたレシピ関連の質問をキュレーションすることにより、ベンチマークデータセットも開発します。
広範な実験を通じて、提案されたKGの高度LLMが既存のアプローチを大幅に上回り、食品推奨、レシピ生成、栄養分析のための完全で一貫したソリューションを提供することを示しています。
コードとベンチマークデータセットは、https://github.com/mohbattharani/kerlで公開されています。

要約(オリジナル)

Recent advances in large language models (LLMs) and the abundance of food data have resulted in studies to improve food understanding using LLMs. Despite several recommendation systems utilizing LLMs and Knowledge Graphs (KGs), there has been limited research on integrating food related KGs with LLMs. We introduce KERL, a unified system that leverages food KGs and LLMs to provide personalized food recommendations and generates recipes with associated micro-nutritional information. Given a natural language question, KERL extracts entities, retrieves subgraphs from the KG, which are then fed into the LLM as context to select the recipes that satisfy the constraints. Next, our system generates the cooking steps and nutritional information for each recipe. To evaluate our approach, we also develop a benchmark dataset by curating recipe related questions, combined with constraints and personal preferences. Through extensive experiments, we show that our proposed KG-augmented LLM significantly outperforms existing approaches, offering a complete and coherent solution for food recommendation, recipe generation, and nutritional analysis. Our code and benchmark datasets are publicly available at https://github.com/mohbattharani/KERL.

arxiv情報

著者 Fnu Mohbat,Mohammed J Zaki
発行日 2025-05-20 17:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language Models はコメントを受け付けていません

How Effective Can Dropout Be in Multiple Instance Learning ?

要約

複数のインスタンス学習(MIL)は、さまざまなアプリケーションに人気のある弱く監視された方法であり、組織学的全体のスライド画像(WSI)分類に特に関心があります。
WSIのギガピクセルの解像度により、WSIでのMILのアプリケーションは通常、2段階のトレーニングスキームを必要とします。まず、事前に訓練されたバックボーンから機能を抽出し、MIL集約を実行します。
ただし、この準最適なトレーニングスキームは、バックボーンからの「騒々しい」機能の埋め込みに苦しんでおり、豊かで一般化可能な機能を学習することを妨げている固有の弱い監督に苦しんでいることがよく知られています。
ただし、この問題を緩和するための最も一般的に使用される手法(つまり、ドロップアウト)は、MILでまだ調査されていません。
この論文では、MILでドロップアウトがどれほど効果的であるかを経験的に調査します。
興味深いことに、バッグ内のトップKの最も重要なインスタンスをドロップすると、騒音攻撃下でもパフォーマンスと一般化が向上することがわかります。
この重要な観察結果に基づいて、MILドロップアウトと呼ばれる新しいMIL固有のドロップアウト方法を提案します。これは、どのインスタンスをドロップするインスタンスを体系的に決定します。
5つのMILベンチマークデータセットと2つのWSIデータセットでの実験は、MILドロップアウトが現在のMILメソッドのパフォーマンスを無視できる計算コストで向上させることを示しています。
このコードは、https://github.com/chongqingnosubway/mildropoutで入手できます。

要約(オリジナル)

Multiple Instance Learning (MIL) is a popular weakly-supervised method for various applications, with a particular interest in histological whole slide image (WSI) classification. Due to the gigapixel resolution of WSI, applications of MIL in WSI typically necessitate a two-stage training scheme: first, extract features from the pre-trained backbone and then perform MIL aggregation. However, it is well-known that this suboptimal training scheme suffers from ‘noisy’ feature embeddings from the backbone and inherent weak supervision, hindering MIL from learning rich and generalizable features. However, the most commonly used technique (i.e., dropout) for mitigating this issue has yet to be explored in MIL. In this paper, we empirically explore how effective the dropout can be in MIL. Interestingly, we observe that dropping the top-k most important instances within a bag leads to better performance and generalization even under noise attack. Based on this key observation, we propose a novel MIL-specific dropout method, termed MIL-Dropout, which systematically determines which instances to drop. Experiments on five MIL benchmark datasets and two WSI datasets demonstrate that MIL-Dropout boosts the performance of current MIL methods with a negligible computational cost. The code is available at https://github.com/ChongQingNoSubway/MILDropout.

arxiv情報

著者 Wenhui Zhu,Peijie Qiu,Xiwen Chen,Zhangsihao Yang,Aristeidis Sotiras,Abolfazl Razi,Yalin Wang
発行日 2025-05-20 17:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, stat.ML | How Effective Can Dropout Be in Multiple Instance Learning ? はコメントを受け付けていません

ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models

要約

大規模な言語モデルの最近の進歩と大規模なロボットデータセットへのアクセスは、ロボットモデルのパラダイムシフトを引き起こし、それらをさまざまなタスク、シーン、ロボットのモダリティに適応できるジェネラリストに変換されました。
コミュニティにとって大きなステップは、さまざまなタスクで強力なパフォーマンスを示すオープンビジョン言語アクションモデルです。
この作業では、3つの既存のロボット基礎モデルの視覚的一般化機能を研究し、対応する評価フレームワークを提案します。
私たちの研究は、既存のモデルが視覚的な領域外シナリオに堅牢性を示さないことを示しています。
これは、トレーニングデータの限られた変動および/または壊滅的な忘却によって引き起こされる可能性があり、Vision Foundationモデルのドメインの制限につながります。
さらに、2つの事前に訓練されたVision Foundationモデルを使用しているOpenVLAを探索し、したがって、ドメイン外の実験に一般化することが期待されています。
ただし、深度回帰のタスクを満たすことができないことにより、dino-V2による壊滅的な忘却をOpenVLAに忘れてしまいます。
視覚壊滅的な忘却の前述の問題を克服するために、モデルの合併に基づいた漸進的なバックボーン反転アプローチを提案します。
これにより、視覚化能力を取り戻すために、最初のトレーニング中に視覚的なバックボーンを適応させる必要があるOpenVLAが可能になります。
この機能を取り戻すことにより、REVLAモデルは、視覚的なOODタスクでの把握と持ち上げのために、OpenVLAを77%、66 \%で改善することができます。
包括的な評価、エピソードロールアウト、モデルのウェイトは、REVLAページで入手できます

要約(オリジナル)

Recent progress in large language models and access to large-scale robotic datasets has sparked a paradigm shift in robotics models transforming them into generalists able to adapt to various tasks, scenes, and robot modalities. A large step for the community are open Vision Language Action models which showcase strong performance in a wide variety of tasks. In this work, we study the visual generalization capabilities of three existing robotic foundation models, and propose a corresponding evaluation framework. Our study shows that the existing models do not exhibit robustness to visual out-of-domain scenarios. This is potentially caused by limited variations in the training data and/or catastrophic forgetting, leading to domain limitations in the vision foundation models. We further explore OpenVLA, which uses two pre-trained vision foundation models and is, therefore, expected to generalize to out-of-domain experiments. However, we showcase catastrophic forgetting by DINO-v2 in OpenVLA through its failure to fulfill the task of depth regression. To overcome the aforementioned issue of visual catastrophic forgetting, we propose a gradual backbone reversal approach founded on model merging. This enables OpenVLA — which requires the adaptation of the visual backbones during initial training — to regain its visual generalization ability. Regaining this capability enables our ReVLA model to improve over OpenVLA by a factor of 77\% and 66\% for grasping and lifting in visual OOD tasks. Comprehensive evaluations, episode rollouts and model weights are available on the ReVLA Page

arxiv情報

著者 Sombit Dey,Jan-Nico Zaech,Nikolay Nikolov,Luc Van Gool,Danda Pani Paudel
発行日 2025-05-20 17:23:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models はコメントを受け付けていません

A General Framework for Group Sparsity in Hyperspectral Unmixing Using Endmember Bundles

要約

空間分解能が低いため、ハイパースペクトルデータは、多くの場合、複数の材料からの寄与の混合で構成されています。
この制限は、ハイパースペクトルイメージングの根本的な問題であるハイパースペクトルアンミックス(HU)のタスクを動機付けます。
Huは、観察されたシーンに存在する材料のスペクトル署名(\ textit {endmembers})を、各ピクセルの相対的な割合(\ textit {fractional vundance})を識別することを目指しています。
従来の線形混合モデルで想定されるように、単一のスペクトル署名による正確な表現を妨げる材料のクラスの変動性に大きな課題があります。
さらに、この問題に対処するために、各グループが特定の材料に対応するエンドメンバーバンドルとして知られるスペクトルシグネチャのセットを持つ各素材を表現した後、グループスパースを使用することを提案します。
特に、豊富な係数でグループ内およびグループ全体(SWAG)内およびスパースのいずれかを実施できるバンドルベースのフレームワークを開発します。
さらに、私たちのフレームワークは、さまざまなスパースを促進するペナルティを組み込む柔軟性を提供します。その中で、変換された$ \ ELL_1 $(TL1)ペナルティは、HU文献の新しい正規化です。
合成および実際のハイパースペクトルデータの両方で行われた広範な実験は、提案されたアプローチの有効性と優位性を示しています。

要約(オリジナル)

Due to low spatial resolution, hyperspectral data often consists of mixtures of contributions from multiple materials. This limitation motivates the task of hyperspectral unmixing (HU), a fundamental problem in hyperspectral imaging. HU aims to identify the spectral signatures (\textit{endmembers}) of the materials present in an observed scene, along with their relative proportions (\textit{fractional abundance}) in each pixel. A major challenge lies in the class variability in materials, which hinders accurate representation by a single spectral signature, as assumed in the conventional linear mixing model. Moreover, To address this issue, we propose using group sparsity after representing each material with a set of spectral signatures, known as endmember bundles, where each group corresponds to a specific material. In particular, we develop a bundle-based framework that can enforce either inter-group sparsity or sparsity within and across groups (SWAG) on the abundance coefficients. Furthermore, our framework offers the flexibility to incorporate a variety of sparsity-promoting penalties, among which the transformed $\ell_1$ (TL1) penalty is a novel regularization in the HU literature. Extensive experiments conducted on both synthetic and real hyperspectral data demonstrate the effectiveness and superiority of the proposed approaches.

arxiv情報

著者 Gokul Bhusal,Yifei Lou,Cristina Garcia-Cardona,Ekaterina Merkurjev
発行日 2025-05-20 17:25:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | A General Framework for Group Sparsity in Hyperspectral Unmixing Using Endmember Bundles はコメントを受け付けていません

Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference

要約

深いニューラルネットワークは、自然言語処理やコンピュータービジョンから音声認識まで、幅広いアプリケーションで最先端の結果を達成しています。
ただし、タスクがますます複雑になるにつれて、モデルのサイズが増加し続け、レイテンシとメモリの効率に課題をもたらします。
これらの制約を満たすために、トレーニング後の量子化は有望な解決策として浮上しています。
このホワイトペーパーでは、最小限の精度分解でハードウェアの利点を活用する新しいハードウェア効率の高い量子化および推論スキームを提案します。
具体的には、W4A8スキームを導入します。ここでは、4ビット整数精度を使用して重みが量子化され、保存され、推論計算は8ビットの浮動小数点算術を使用して実行され、さまざまな最新の加速器に適用される16ビット操作と比較して、重要なスピードアップと16ビット操作の改善を実証します。
精度の損失を軽減するために、追加の推論オーバーヘッドを導入することなくスキームの一意の構造を活用するデュアル精度量子化(DPQ)と呼ばれる新しい量子化アルゴリズムを開発します。
実験結果は、全精度モデルに比べて許容精度分解を維持しながら、パフォーマンスの向上(つまり、スループットの増加)を示しています。

要約(オリジナル)

Deep neural networks have achieved state-of-the-art results in a wide range of applications, from natural language processing and computer vision to speech recognition. However, as tasks become increasingly complex, model sizes continue to grow, posing challenges in latency and memory efficiency. To meet these constraints, post-training quantization has emerged as a promising solution. In this paper, we propose a novel hardware-efficient quantization and inference scheme that exploits hardware advantages with minimal accuracy degradation. Specifically, we introduce a W4A8 scheme, where weights are quantized and stored using 4-bit integer precision, and inference computations are performed using 8-bit floating-point arithmetic, demonstrating significant speedups and improved memory utilization compared to 16-bit operations, applicable on various modern accelerators. To mitigate accuracy loss, we develop a novel quantization algorithm, dubbed Dual Precision Quantization (DPQ), that leverages the unique structure of our scheme without introducing additional inference overhead. Experimental results demonstrate improved performance (i.e., increased throughput) while maintaining tolerable accuracy degradation relative to the full-precision model.

arxiv情報

著者 Tomer Gafni,Asaf Karnieli,Yair Hanani
発行日 2025-05-20 17:26:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference はコメントを受け付けていません