Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models

要約

テキストからイメージ(T2I)拡散モデルは、印象的な画像生成機能を実証しています。
それでも、彼らの計算強度は、リソースに制約のある組織が、内部ターゲットデータで微調整した後、T2Iモデルの展開を禁止しています。
剪定技術は、T2Iモデルの計算負担を減らすための潜在的なソリューションを提供しますが、静的な剪定方法は、さまざまなプロンプトのさまざまな容量要件を見下ろすすべての入力プロンプトに対して同じプルーニングモデルを使用します。
ダイナミックプルーニングは、各プロンプトに個別のサブネットワークを利用することによりこの問題に対処しますが、GPUのバッチ並列性を防ぎます。
これらの制限を克服するために、T2I拡散モデル向けに設計された新しいプロンプトベースの剪定法である適応促進プロンプ型剪定(APTP)を導入します。
私たちのアプローチの中心はプロンプトルーターモデルです。これは、入力テキストプロンプトに必要な容量を決定することを学び、プロンプトの完全な希望の計算予算を考慮して、アーキテクチャコードにルーティングします。
各アーキテクチャコードは、割り当てられたプロンプトに合わせた専門モデルを表し、コードの数はハイパーパラメーターです。
対照学習を使用してプロンプトルーターとアーキテクチャコードをトレーニングし、同様のプロンプトが近くのコードにマッピングされるようにします。
さらに、最適な輸送を使用して、コードが単一のものに崩壊するのを防ぎます。
ターゲットデータセットとしてCC3MとCOCOを使用して、安定した拡散(SD)v2.1を剪定することにより、APTPの有効性を示します。
APTPは、FID、クリップ、およびCMMDスコアに関して、シングルモデル剪定ベースラインよりも優れています。
APTPによって学んだクラスターの分析は、それらが意味的に意味があることを明らかにしています。
また、APTPは、SDの以前に経験的に発見された挑戦的なプロンプトを自動的に発見できることを示しています。
テキストイメージを生成し、それらをより高い容量コードに割り当てるためのプロンプト。

要約(オリジナル)

Text-to-image (T2I) diffusion models have demonstrated impressive image generation capabilities. Still, their computational intensity prohibits resource-constrained organizations from deploying T2I models after fine-tuning them on their internal target data. While pruning techniques offer a potential solution to reduce the computational burden of T2I models, static pruning methods use the same pruned model for all input prompts, overlooking the varying capacity requirements of different prompts. Dynamic pruning addresses this issue by utilizing a separate sub-network for each prompt, but it prevents batch parallelism on GPUs. To overcome these limitations, we introduce Adaptive Prompt-Tailored Pruning (APTP), a novel prompt-based pruning method designed for T2I diffusion models. Central to our approach is a prompt router model, which learns to determine the required capacity for an input text prompt and routes it to an architecture code, given a total desired compute budget for prompts. Each architecture code represents a specialized model tailored to the prompts assigned to it, and the number of codes is a hyperparameter. We train the prompt router and architecture codes using contrastive learning, ensuring that similar prompts are mapped to nearby codes. Further, we employ optimal transport to prevent the codes from collapsing into a single one. We demonstrate APTP’s effectiveness by pruning Stable Diffusion (SD) V2.1 using CC3M and COCO as target datasets. APTP outperforms the single-model pruning baselines in terms of FID, CLIP, and CMMD scores. Our analysis of the clusters learned by APTP reveals they are semantically meaningful. We also show that APTP can automatically discover previously empirically found challenging prompts for SD, e.g. prompts for generating text images, assigning them to higher capacity codes.

arxiv情報

著者 Alireza Ganjdanesh,Reza Shirkavand,Shangqian Gao,Heng Huang
発行日 2025-02-11 15:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models はコメントを受け付けていません

From Pixels to Components: Eigenvector Masking for Visual Representation Learning

要約

画像の目に見える部分からマスクされた予測は、視覚表現学習のための強力な自己監視アプローチです。
ただし、ピクセルのランダムパッチをマスキングする一般的な慣行は、特定の障害モードを示します。これにより、ダウンストリームタスクに必要な意味のある高レベル機能の学習を防ぐことができます。
生のピクセルではなく、データの適切な変換で動作する代替マスキング戦略を提案します。
具体的には、主成分分析を実行し、データ差異の固定比を説明するコンポーネントのサブセットをランダムにマスクします。
学習タスクは、目に見えるコンポーネントからマスクされたコンポーネントを再構築することになります。
ピクセルのローカルパッチと比較して、画像の主要なコンポーネントはよりグローバルな情報を提供します。
したがって、目に見えるコンポーネントからマスクされたものを予測するには、より高レベルの機能が含まれ、マスキング戦略がより便利な表現を抽出できるようにすると仮定します。
これは、ピクセルマスキングを超えるコンポーネントの画像分類パフォーマンスの改善を示す経験的発見によって裏付けられています。
したがって、私たちの方法は、従来のマスクされた画像モデリングアプローチに代わる、シンプルで堅牢なデータ駆動型の代替品を構成します。

要約(オリジナル)

Predicting masked from visible parts of an image is a powerful self-supervised approach for visual representation learning. However, the common practice of masking random patches of pixels exhibits certain failure modes, which can prevent learning meaningful high-level features, as required for downstream tasks. We propose an alternative masking strategy that operates on a suitable transformation of the data rather than on the raw pixels. Specifically, we perform principal component analysis and then randomly mask a subset of components, which accounts for a fixed ratio of the data variance. The learning task then amounts to reconstructing the masked components from the visible ones. Compared to local patches of pixels, the principal components of images carry more global information. We thus posit that predicting masked from visible components involves more high-level features, allowing our masking strategy to extract more useful representations. This is corroborated by our empirical findings which demonstrate improved image classification performance for component over pixel masking. Our method thus constitutes a simple and robust data-driven alternative to traditional masked image modeling approaches.

arxiv情報

著者 Alice Bizeul,Thomas Sutter,Alain Ryser,Bernhard Schölkopf,Julius von Kügelgen,Julia E. Vogt
発行日 2025-02-11 16:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | From Pixels to Components: Eigenvector Masking for Visual Representation Learning はコメントを受け付けていません

MRAnnotator: multi-Anatomy and many-Sequence MRI segmentation of 44 structures

要約

このレトロスペクティブ研究では、2つのデータセットで44の構造に注釈を付けました。マウントシナイヘルスシステムの843人の患者からの1,518 MRIシーケンスの内部データセットと、ベンチマークのために263人の患者から397 MRIシーケンスの外部データセットです。
内部データセットは、NNU-NETモデルMrannotatorをトレーニングし、外部データセットで強力な一般化可能性を示しました。
Mrannotatorは、両方のデータセットでTotalSegmentator MRIやMrSegmentatorなどの既存のモデルを上回り、内部データセットで0.878、外部セットで0.875の全体の平均DICEスコアを達成しました。
モデルの重みはGitHubで利用でき、外部テストセットはリクエストに応じて共有できます。

要約(オリジナル)

In this retrospective study, we annotated 44 structures on two datasets: an internal dataset of 1,518 MRI sequences from 843 patients at the Mount Sinai Health System, and an external dataset of 397 MRI sequences from 263 patients for benchmarking. The internal dataset trained the nnU-Net model MRAnnotator, which demonstrated strong generalizability on the external dataset. MRAnnotator outperformed existing models such as TotalSegmentator MRI and MRSegmentator on both datasets, achieving an overall average Dice score of 0.878 on the internal dataset and 0.875 on the external set. Model weights are available on GitHub, and the external test set can be shared upon request.

arxiv情報

著者 Alexander Zhou,Zelong Liu,Andrew Tieu,Nikhil Patel,Sean Sun,Anthony Yang,Peter Choi,Hao-Chih Lee,Mickael Tordjman,Louisa Deyer,Yunhao Mei,Valentin Fauveau,George Soultanidis,Bachir Taouli,Mingqian Huang,Amish Doshi,Zahi A. Fayad,Timothy Deyer,Xueyan Mei
発行日 2025-02-11 16:23:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | MRAnnotator: multi-Anatomy and many-Sequence MRI segmentation of 44 structures はコメントを受け付けていません

Multiview Point Cloud Registration Based on Minimum Potential Energy for Free-Form Blade Measurement

要約

ポイントクラウド登録は、産業測定におけるフリーフォームブレードの再構築に不可欠なステップです。
それにもかかわらず、3D取得システムの欠陥を測定すると、騒々しく不完全なポイントクラウドデータが発生し、登録が効率的で正確な登録が困難になります。
この論文では、これらの問題に対処するための最小ポテンシャルエネルギー(MPE)方法に基づいた新しいグローバル登録方法を提案します。
基本的な戦略は、目的関数が物理登録システムの最小ポテンシャルエネルギー最適化関数として定義されることです。
この関数は、より多くの重量をインライアポイントの大部分に分配し、ノイズと外れ値に対する重量を減らし、基本的に数学的定式化における摂動の影響を減らします。
ソリューションを、収束を強化するために、トリミングされた反復的な最も近いポイントアルゴリズムを使用して、グローバルに最適な近似手順と微細な登録プロセスに分解します。
近似手順は、2つの主要なステップで構成されています。
第一に、フォーストラクションオペレーターの構築によれば、ポテンシャルエネルギーの最小値の位置を単純に計算できます。
第二に、MPEポイントを見つけるために、2つのフラグを使用して登録手順のステータスを観察する新しい理論を提案します。
4種類のブレードで提案されたアルゴリズムのパフォーマンスを示します。
提案された方法は、精度と騒音抵抗の両方の観点から、他のグローバルな方法よりも優れています。

要約(オリジナル)

Point cloud registration is an essential step for free-form blade reconstruction in industrial measurement. Nonetheless, measuring defects of the 3D acquisition system unavoidably result in noisy and incomplete point cloud data, which renders efficient and accurate registration challenging. In this paper, we propose a novel global registration method that is based on the minimum potential energy (MPE) method to address these problems. The basic strategy is that the objective function is defined as the minimum potential energy optimization function of the physical registration system. The function distributes more weight to the majority of inlier points and less weight to the noise and outliers, which essentially reduces the influence of perturbations in the mathematical formulation. We decompose the solution into a globally optimal approximation procedure and a fine registration process with the trimmed iterative closest point algorithm to boost convergence. The approximation procedure consists of two main steps. First, according to the construction of the force traction operator, we can simply compute the position of the potential energy minimum. Second, to find the MPE point, we propose a new theory that employs two flags to observe the status of the registration procedure. We demonstrate the performance of the proposed algorithm on four types of blades. The proposed method outperforms the other global methods in terms of both accuracy and noise resistance.

arxiv情報

著者 Zijie Wu,Yaonan Wang,Yang Mo,Qing Zhu,He Xie,Haotian Wu,Mingtao Feng,Ajmal Mian
発行日 2025-02-11 16:30:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.CV | Multiview Point Cloud Registration Based on Minimum Potential Energy for Free-Form Blade Measurement はコメントを受け付けていません

Matrix3D: Large Photogrammetry Model All-in-One

要約

同じモデルを使用して、ポーズ推定、深度予測、新しいビュー合成を含むいくつかの写真測量測定サブタスクを実行する統合モデルであるMatrix3Dを提示します。
Matrix3Dは、マルチモーダル拡散トランス(DIT)を利用して、画像、カメラパラメーター、深度マップなどのいくつかのモダリティにわたって変換を統合します。
Matrix3Dの大規模なマルチモーダルトレーニングの鍵は、マスク学習戦略の組み込みにあります。
これにより、画像ポーズや画像の深いペアのバイモダリティデータなど、部分的に完全なデータを使用してもフルモダリティモデルトレーニングが可能になるため、利用可能なトレーニングデータのプールが大幅に増加します。
Matrix3dは、ポーズ推定と新しいビュー合成タスクの最先端のパフォーマンスを示しています。
さらに、マルチラウンドの相互作用を通じて細粒の制御を提供し、3Dコンテンツ作成のための革新的なツールになります。
プロジェクトページ:https://nju-3dv.github.io/projects/matrix3d。

要約(オリジナル)

We present Matrix3D, a unified model that performs several photogrammetry subtasks, including pose estimation, depth prediction, and novel view synthesis using just the same model. Matrix3D utilizes a multi-modal diffusion transformer (DiT) to integrate transformations across several modalities, such as images, camera parameters, and depth maps. The key to Matrix3D’s large-scale multi-modal training lies in the incorporation of a mask learning strategy. This enables full-modality model training even with partially complete data, such as bi-modality data of image-pose and image-depth pairs, thus significantly increases the pool of available training data. Matrix3D demonstrates state-of-the-art performance in pose estimation and novel view synthesis tasks. Additionally, it offers fine-grained control through multi-round interactions, making it an innovative tool for 3D content creation. Project page: https://nju-3dv.github.io/projects/matrix3d.

arxiv情報

著者 Yuanxun Lu,Jingyang Zhang,Tian Fang,Jean-Daniel Nahmias,Yanghai Tsin,Long Quan,Xun Cao,Yao Yao,Shiwei Li
発行日 2025-02-11 16:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Matrix3D: Large Photogrammetry Model All-in-One はコメントを受け付けていません

DPCore: Dynamic Prompt Coreset for Continual Test-Time Adaptation

要約

継続的なテスト時間適応(CTTA)は、事前に訓練されたモデルを継続的に変化しないターゲットドメインに適応させることを目指しています。
既存のCTTAメソッドは、均一な期間で構造化されたドメインの変化を想定していますが、実際の環境は、さまざまな周波数と期間でドメインが再発する動的なパターンを示すことがよくあります。
さまざまなドメインで同じパラメーターを適応させる現在のアプローチは、そのような動的な条件で苦労しています – 彼らは短いドメインの露出との収束の問題、以前に学んだ知識を忘れているリスク、またはそれを無関係なドメインに誤用します。
これを改善するために、DPCOREを提案します。DPCoreは、多様なドメインの変化パターンにわたって堅牢なパフォーマンスのために設計された方法であり、計算効率を確保します。
DPCOREは、3つの重要なコンポーネントを統合します。効率的なドメインアライメントの視覚的なプロンプト適応、知識保存のためのプロンプトコアセット、および実質的に異なるドメインの新しいドメインの新しいドメインを作成しながら、既存のプロンプトをインテリジェントに調整する動的な更新メカニズム。
4つのベンチマークでの広範な実験は、DPCOREがさまざまなCTTAメソッドを一貫して上回り、構造化された設定と動的設定の両方で最先端のパフォーマンスを達成しながら、以前のアプローチと比較して99%と計算時間を64%削減することを示しています。

要約(オリジナル)

Continual Test-Time Adaptation (CTTA) seeks to adapt source pre-trained models to continually changing, unseen target domains. While existing CTTA methods assume structured domain changes with uniform durations, real-world environments often exhibit dynamic patterns where domains recur with varying frequencies and durations. Current approaches, which adapt the same parameters across different domains, struggle in such dynamic conditions-they face convergence issues with brief domain exposures, risk forgetting previously learned knowledge, or misapplying it to irrelevant domains. To remedy this, we propose DPCore, a method designed for robust performance across diverse domain change patterns while ensuring computational efficiency. DPCore integrates three key components: Visual Prompt Adaptation for efficient domain alignment, a Prompt Coreset for knowledge preservation, and a Dynamic Update mechanism that intelligently adjusts existing prompts for similar domains while creating new ones for substantially different domains. Extensive experiments on four benchmarks demonstrate that DPCore consistently outperforms various CTTA methods, achieving state-of-the-art performance in both structured and dynamic settings while reducing trainable parameters by 99% and computation time by 64% compared to previous approaches.

arxiv情報

著者 Yunbei Zhang,Akshay Mehra,Shuaicheng Niu,Jihun Hamm
発行日 2025-02-11 16:47:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DPCore: Dynamic Prompt Coreset for Continual Test-Time Adaptation はコメントを受け付けていません

Towards scientific discovery with dictionary learning: Extracting biological concepts from microscopy foundation models

要約

辞書学習(DL)は、大規模な言語モデルの強力な解釈可能性ツールとして浮上しています。
人間の解釈可能なデータ(テキストなど)から既知の概念(ゴールデンゲートブリッジなど)を抽出することにより、まばらなDLはモデルの内側の動作を解明できます。
この作業では、DLを使用して、人間が解釈できない科学データ(細胞画像など)から未知の概念を発見し、最終的に科学的発見に対する最新のアプローチを可能にするかどうかを尋ねます。
最初のステップとして、DLアルゴリズムを使用して、マルチセル画像データでトレーニングされた顕微鏡基盤モデルを研究します。
まばらな辞書が実際に細胞型や遺伝的摂動タイプなどの生物学的に意味のある概念を抽出することを示します。
また、反復的なコードブック機能学習〜(ICFL)を提案し、コントロールデータセットからPCAホワイトニングを使用する前処理ステップと組み合わせます。
実験では、ICFLとPCAの両方が、TOPKスパースオートエンコーダーと比較して、抽出された特徴の選択性を改善することを実証します。

要約(オリジナル)

Dictionary learning (DL) has emerged as a powerful interpretability tool for large language models. By extracting known concepts (e.g., Golden-Gate Bridge) from human-interpretable data (e.g., text), sparse DL can elucidate a model’s inner workings. In this work, we ask if DL can also be used to discover unknown concepts from less human-interpretable scientific data (e.g., cell images), ultimately enabling modern approaches to scientific discovery. As a first step, we use DL algorithms to study microscopy foundation models trained on multi-cell image data, where little prior knowledge exists regarding which high-level concepts should arise. We show that sparse dictionaries indeed extract biologically-meaningful concepts such as cell type and genetic perturbation type. We also propose Iterative Codebook Feature Learning~(ICFL) and combine it with a pre-processing step which uses PCA whitening from a control dataset. In our experiments, we demonstrate that both ICFL and PCA improve the selectivity of extracted features compared to TopK sparse autoencoders.

arxiv情報

著者 Konstantin Donhauser,Kristina Ulicna,Gemma Elyse Moran,Aditya Ravuri,Kian Kenyon-Dean,Cian Eastwood,Jason Hartford
発行日 2025-02-11 16:54:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | Towards scientific discovery with dictionary learning: Extracting biological concepts from microscopy foundation models はコメントを受け付けていません

Magic 1-For-1: Generating One Minute Video Clips within One Minute

要約

このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的なビデオ生成モデルであるMagic 1-for-1(MAGIC141)を紹介します。
重要なアイデアは単純です。テキストからビデオへの生成タスクを、拡散ステップ蒸留のための2つの別々の簡単なタスク、つまりテキストからイメージの生成と画像間生成に因数分解します。
同じ最適化アルゴリズムを使用して、画像からビデオへのタスクが実際にテキストからビデオへのタスク上で収束しやすいことを確認します。
また、最適化のトリックのバッグを探索して、3つの側面から画像間(I2V)モデルをトレーニングする計算コストを削減します。1)モデルの収束速度速度マルチモーダル事前条件注入を使用して。
2)敵対的なステップ蒸留を適用することにより、推論の遅延速度を上げ、3)パラメーターのスパース化による推論メモリコストの最適化。
これらのテクニックを使用すると、3秒以内に5秒のビデオクリップを生成できます。
テスト時間スライドウィンドウを適用することにより、視覚品質とモーションダイナミクスが大幅に向上し、1分以内に1分以内に1分間のビデオを生成することができ、平均で1秒のビデオクリップを生成するために1秒未満を費やすことができます。
一連の予備調査を実施して、拡散ステップ蒸留中に計算コストとビデオの品質との最適なトレードオフを調べ、これがオープンソース探索の良い基盤モデルになることを願っています。
コードとモデルの重みは、https://github.com/da-group-pku/magic-1-for-1で入手できます。

要約(オリジナル)

In this technical report, we present Magic 1-For-1 (Magic141), an efficient video generation model with optimized memory consumption and inference latency. The key idea is simple: factorize the text-to-video generation task into two separate easier tasks for diffusion step distillation, namely text-to-image generation and image-to-video generation. We verify that with the same optimization algorithm, the image-to-video task is indeed easier to converge over the text-to-video task. We also explore a bag of optimization tricks to reduce the computational cost of training the image-to-video (I2V) models from three aspects: 1) model convergence speedup by using a multi-modal prior condition injection; 2) inference latency speed up by applying an adversarial step distillation, and 3) inference memory cost optimization with parameter sparsification. With those techniques, we are able to generate 5-second video clips within 3 seconds. By applying a test time sliding window, we are able to generate a minute-long video within one minute with significantly improved visual quality and motion dynamics, spending less than 1 second for generating 1 second video clips on average. We conduct a series of preliminary explorations to find out the optimal tradeoff between computational cost and video quality during diffusion step distillation and hope this could be a good foundation model for open-source explorations. The code and the model weights are available at https://github.com/DA-Group-PKU/Magic-1-For-1.

arxiv情報

著者 Hongwei Yi,Shitong Shao,Tian Ye,Jiantong Zhao,Qingyu Yin,Michael Lingelbach,Li Yuan,Yonghong Tian,Enze Xie,Daquan Zhou
発行日 2025-02-11 16:58:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Magic 1-For-1: Generating One Minute Video Clips within One Minute はコメントを受け付けていません

PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization

要約

エゴセントリックビジュアルクエリローカリゼーション(EGOVQL)は、視覚的なクエリを考慮して、一人称ビデオからの空間と時間の関心のターゲットをローカライズすることに焦点を当てています。
最近の進歩的なものにもかかわらず、既存の方法は、十分なターゲットの手がかりが欠けているため、深刻なオブジェクトの外観の変化とビデオの乱雑な背景を処理するのに苦労することが多く、劣化につながります。
これに対処するには、eGoVQLの新しい進歩的な知識誘導精製フレームワークであるPRVQLを紹介します。
コアは、ターゲット関連の知識をビデオから直接継続的に活用し、ターゲットローカリゼーションを改善するためのクエリ機能とビデオ機能の両方を改善するためのガイダンスとしてそれを利用することです。
PRVQLには複数の処理段階が含まれています。
2つの特別に設計された知識学習モジュールを介して抽出された外観と空間知識を含む1つの段階からのターゲット知識は、次の段階のクエリとビデオ機能を改良するためのガイダンスとして利用されます。
このような進歩的なプロセスにより、PRVQLのターゲット知識を徐々に改善することができます。これにより、最終段階でローカライズのための洗練されたクエリとビデオ機能が向上します。
以前の方法と比較して、指定されたオブジェクトのキューに加えて、PRVQLは、機能を改良するためのガイダンスとしてビデオからの追加の重要なターゲット情報を享受しているため、複雑なシーンでEGOVQLを強化します。
挑戦的なEGO4Dに関する実験では、PRVQLは最先端の結果を達成し、他の方法を大幅に上回り、その有効性を示しています。
コード、モデル、および結果は、https://github.com/fb-reps/prvqlでリリースされます。

要約(オリジナル)

Egocentric visual query localization (EgoVQL) focuses on localizing the target of interest in space and time from first-person videos, given a visual query. Despite recent progressive, existing methods often struggle to handle severe object appearance changes and cluttering background in the video due to lacking sufficient target cues, leading to degradation. Addressing this, we introduce PRVQL, a novel Progressive knowledge-guided Refinement framework for EgoVQL. The core is to continuously exploit target-relevant knowledge directly from videos and utilize it as guidance to refine both query and video features for improving target localization. Our PRVQL contains multiple processing stages. The target knowledge from one stage, comprising appearance and spatial knowledge extracted via two specially designed knowledge learning modules, are utilized as guidance to refine the query and videos features for the next stage, which are used to generate more accurate knowledge for further feature refinement. With such a progressive process, target knowledge in PRVQL can be gradually improved, which, in turn, leads to better refined query and video features for localization in the final stage. Compared to previous methods, our PRVQL, besides the given object cues, enjoys additional crucial target information from a video as guidance to refine features, and hence enhances EgoVQL in complicated scenes. In our experiments on challenging Ego4D, PRVQL achieves state-of-the-art result and largely surpasses other methods, showing its efficacy. Our code, model and results will be released at https://github.com/fb-reps/PRVQL.

arxiv情報

著者 Bing Fan,Yunhe Feng,Yapeng Tian,Yuewei Lin,Yan Huang,Heng Fan
発行日 2025-02-11 17:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization はコメントを受け付けていません

The Faiss library

要約

ベクトルデータベースは通常、ベクトルの埋め込みの大規模なコレクションを管理します。
現在、AIアプリケーションは急速に成長しており、保存してインデックス作成する必要がある埋め込みの数も増えています。
FAISSライブラリは、ベクトルデータベースのコア機能であるベクトル類似性検索に専念しています。
FAISSは、ベクトルの検索、クラスター、圧縮、変換に使用されるインデックス作成方法と関連するプリミティブのツールキットです。
このペーパーでは、構造、最適化へのアプローチ、インターフェースの観点から、ベクター検索のトレードオフスペースとFAISSの設計原則について説明します。
ライブラリの主要な機能をベンチマークし、いくつかの選択したアプリケーションについて議論して、その幅広い適用性を強調します。

要約(オリジナル)

Vector databases typically manage large collections of embedding vectors. Currently, AI applications are growing rapidly, and so is the number of embeddings that need to be stored and indexed. The Faiss library is dedicated to vector similarity search, a core functionality of vector databases. Faiss is a toolkit of indexing methods and related primitives used to search, cluster, compress and transform vectors. This paper describes the trade-off space of vector search and the design principles of Faiss in terms of structure, approach to optimization and interfacing. We benchmark key features of the library and discuss a few selected applications to highlight its broad applicability.

arxiv情報

著者 Matthijs Douze,Alexandr Guzhva,Chengqi Deng,Jeff Johnson,Gergely Szilvasy,Pierre-Emmanuel Mazaré,Maria Lomeli,Lucas Hosseini,Hervé Jégou
発行日 2025-02-11 17:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.SE | The Faiss library はコメントを受け付けていません