Image Decomposition with G-norm Weighted by Total Symmetric Variation

要約

この論文では、画像をそれぞれの漫画とテクスチャパーツに分解するための新しい変動モデルを提案します。
私たちのモデルは、総対称変動(TSV)によって、任意の境界変動(BV)画像の特定の非ローカルな特徴を特徴付けます。
TSVが地域の境界を特定するのに効果的であることを実証します。
このプロパティに基づいて、加重マイヤーの$ g $ -normを導入して、輪郭の端を含めることなくテクスチャインテリアを識別します。
境界TSVを備えたBV画像の場合、提案されたモデルがソリューションを認めていることを示します。
さらに、関連する非凸最適化問題に取り組むために、オペレーター分解に基づいて高速アルゴリズムを設計します。
この方法のパフォーマンスは、一連の数値実験によって検証されます。

要約(オリジナル)

In this paper, we propose a novel variational model for decomposing images into their respective cartoon and texture parts. Our model characterizes certain non-local features of any Bounded Variation (BV) image by its Total Symmetric Variation (TSV). We demonstrate that TSV is effective in identifying regional boundaries. Based on this property, we introduce a weighted Meyer’s $G$-norm to identify texture interiors without including contour edges. For BV images with bounded TSV, we show that the proposed model admits a solution. Additionally, we design a fast algorithm based on operator-splitting to tackle the associated non-convex optimization problem. The performance of our method is validated by a series of numerical experiments.

arxiv情報

著者 Roy Y. He,Martin Huska,Hao Liu
発行日 2025-03-28 16:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Image Decomposition with G-norm Weighted by Total Symmetric Variation はコメントを受け付けていません

RELD: Regularization by Latent Diffusion Models for Image Restoration

要約

近年、拡散モデルは深い生成モデリングにおける新しい最先端のモデルになり、生成的敵対的ネットワークの長年の支配を終わらせました。
除去の原則による正則化に触発されて、脱化タスクのために訓練された潜在的な拡散モデルを統合し、半尺度分割を使用して分散フレームワークに統合するアプローチを紹介し、その正規化プロパティを活用します。
このアプローチは、さまざまなイメージングアプリケーションで簡単に満たすことができる適切な条件下で、高品質の結果を達成しながら計算コストを削減できます。
次に、潜在的な除去(RELD)による正則化と呼ばれる提案された戦略は、画像の除去、脱bluring、および超解像度のタスクについて、自然画像のデータセットでテストされます。
数値実験は、RELDが他の最先端の方法と競争力があることを示しています。特に、知覚品質メトリックを使用して評価された場合、顕著な結果を達成します。

要約(オリジナル)

In recent years, Diffusion Models have become the new state-of-the-art in deep generative modeling, ending the long-time dominance of Generative Adversarial Networks. Inspired by the Regularization by Denoising principle, we introduce an approach that integrates a Latent Diffusion Model, trained for the denoising task, into a variational framework using Half-Quadratic Splitting, exploiting its regularization properties. This approach, under appropriate conditions that can be easily met in various imaging applications, allows for reduced computational cost while achieving high-quality results. The proposed strategy, called Regularization by Latent Denoising (RELD), is then tested on a dataset of natural images, for image denoising, deblurring, and super-resolution tasks. The numerical experiments show that RELD is competitive with other state-of-the-art methods, particularly achieving remarkable results when evaluated using perceptual quality metrics.

arxiv情報

著者 Pasquale Cascarano,Lorenzo Stacchio,Andrea Sebastiani,Alessandro Benfenati,Ulugbek S. Kamilov,Gustavo Marfia
発行日 2025-03-28 16:04:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | RELD: Regularization by Latent Diffusion Models for Image Restoration はコメントを受け付けていません

Advancing the Biological Plausibility and Efficacy of Hebbian Convolutional Neural Networks

要約

このペーパーで提示された研究は、イメージ処理のためのヘビアン学習の畳み込みニューラルネットワーク(CNNS)への統合を進め、さまざまなアーキテクチャを体系的に探索して最適な構成を構築し、生物学的テンデビリティに準拠しています。
Hebbian Learningは、地元の監視されていない神経情報に基づいて機能して特徴表現を形成し、一般的であるが、おそらく生物学的に信じられない、計算的に集中的なバックプロパゲーション学習アルゴリズムに代わるものを提供します。
提案された最適なアーキテクチャは、ヘビアン学習を競争メカニズムとCNNと統合することを目的とした最近の研究を大幅に強化し、ハードウィナーテイクス(WTA)競争、ガウスの横方向の阻害メカニズム、および単一モデルでのBIENENSTOCK-COOPER-MUNRO(BCM)学習ルールを組み込むことにより、その表現能力を拡大します。
CIFAR-10のテストエポックの後期における平均精度分類尺度は、結果として生じる最適モデルがエンドツーエンドのバックプロパゲーションバリアントとそれぞれ75.2%と一致し、同じネットワーク深度(64.6%)のCNNSの最先端のハードWTAパフォーマンスを10.6%上回ることを明らかにしました。
また、MNIST(98%)とSTL-10(69.5%)で競争力のあるパフォーマンスを達成しました。
さらに、結果は、ますます複雑で抽象的な受容フィールドを介したまばらな階層学習の明確な兆候を示しました。
要約すると、私たちの実装は、学習した表現のパフォーマンスと一般化の両方を強化し、より生物学的に現実的な人工ニューラルネットワークへの重要なステップを構成します。

要約(オリジナル)

The research presented in this paper advances the integration of Hebbian learning into Convolutional Neural Networks (CNNs) for image processing, systematically exploring different architectures to build an optimal configuration, adhering to biological tenability. Hebbian learning operates on local unsupervised neural information to form feature representations, providing an alternative to the popular but arguably biologically implausible and computationally intensive backpropagation learning algorithm. The suggested optimal architecture significantly enhances recent research aimed at integrating Hebbian learning with competition mechanisms and CNNs, expanding their representational capabilities by incorporating hard Winner-Takes-All (WTA) competition, Gaussian lateral inhibition mechanisms, and Bienenstock-Cooper-Munro (BCM) learning rule in a single model. Mean accuracy classification measures during the last half of test epochs on CIFAR-10 revealed that the resulting optimal model matched its end-to-end backpropagation variant with 75.2% each, critically surpassing the state-of-the-art hard-WTA performance in CNNs of the same network depth (64.6%) by 10.6%. It also achieved competitive performance on MNIST (98%) and STL-10 (69.5%). Moreover, results showed clear indications of sparse hierarchical learning through increasingly complex and abstract receptive fields. In summary, our implementation enhances both the performance and the generalisability of the learnt representations and constitutes a crucial step towards more biologically realistic artificial neural networks.

arxiv情報

著者 Julian Jimenez Nimmo,Esther Mondragon
発行日 2025-03-28 16:11:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE, I.2.6 | Advancing the Biological Plausibility and Efficacy of Hebbian Convolutional Neural Networks はコメントを受け付けていません

Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints

要約

拡散トランス(DIT)は、画像とビデオ生成の強力なアーキテクチャとして浮上しており、優れた品質とスケーラビリティを提供しています。
ただし、それらの実際のアプリケーションは固有の動的特徴の不安定性に苦しんでおり、キャッシュされた推論中のエラー増幅につながります。
体系的な分析を通じて、不安定な特徴の伝播と摂動感度の根本原因として、長距離特徴保存メカニズムがないことを特定します。
この目的のために、U-Netsの主要な効率コンポーネントであるLongSkip接続(LSC)で強化された新しいDITバリアントであるSkip-Ditを提案します。
理論的スペクトル規範と視覚化分析は、LSCが機能のダイナミクスを安定化する方法を示しています。
スキップディットアーキテクチャとその安定した動的機能により、浅いコンポーネントを更新しながら、タイムステップ全体で深い特徴を再利用する効率的な静的キャッシングメカニズムが可能になります。
画像とビデオの生成タスクをめぐる広範な実験は、スキップディットが達成することを示しています。(1)トレーニングの加速とより速い収束、(2)1.5-2倍の推論の加速は、品質損失と元の出力に対する高忠実度なしで、さまざまな定量的メトリックにわたって既存のDITキャッシング方法を上回ります。
私たちの調査結果は、安定した効率的な拡散変圧器をトレーニングするための重要なアーキテクチャコンポーネントとして長SKIP接続を確立します。

要約(オリジナル)

Diffusion Transformers (DiT) have emerged as a powerful architecture for image and video generation, offering superior quality and scalability. However, their practical application suffers from inherent dynamic feature instability, leading to error amplification during cached inference. Through systematic analysis, we identify the absence of long-range feature preservation mechanisms as the root cause of unstable feature propagation and perturbation sensitivity. To this end, we propose Skip-DiT, a novel DiT variant enhanced with Long-Skip-Connections (LSCs) – the key efficiency component in U-Nets. Theoretical spectral norm and visualization analysis demonstrate how LSCs stabilize feature dynamics. Skip-DiT architecture and its stabilized dynamic feature enable an efficient statical caching mechanism that reuses deep features across timesteps while updating shallow components. Extensive experiments across image and video generation tasks demonstrate that Skip-DiT achieves: (1) 4.4 times training acceleration and faster convergence, (2) 1.5-2 times inference acceleration without quality loss and high fidelity to original output, outperforming existing DiT caching methods across various quantitative metrics. Our findings establish long-skip connections as critical architectural components for training stable and efficient diffusion transformers.

arxiv情報

著者 Guanjie Chen,Xinyu Zhao,Yucheng Zhou,Xiaoye Qu,Tianlong Chen,Yu Cheng
発行日 2025-03-28 16:15:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints はコメントを受け付けていません

Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization

要約

視覚言語モデル(VLM)の急速な進歩は、マルチモーダルの理解を変えましたが、入力言語に関係なく英語の応答を生成することで制約されることがよくあります。
この現象は、画像による忠実度損失(IFL)と呼ばれ、限られたマルチモーダル多言語トレーニングデータに由来しています。
これに対処するために、視覚命令の調整中にテキストのみの多言語データを注入する継続的な多言語統合戦略を提案し、言語モデルの元の多言語機能を維持します。
広範な評価は、私たちのアプローチが視覚的パフォーマンスの分解なしに言語間の言語の忠実度を大幅に改善することを示しています。
また、言語の忠実度を向上させますが、視覚的なパフォーマンスを犠牲にするモデルの合併についても探ります。
対照的に、当社のコア方法は、トレードオフなしで堅牢な多言語アライメントを実現し、グローバルVLM採用のためのIFLを緩和するためのスケーラブルで効果的なパスを提供します。

要約(オリジナル)

Rapid advancements in Visual Language Models (VLMs) have transformed multimodal understanding but are often constrained by generating English responses regardless of the input language. This phenomenon has been termed as Image-induced Fidelity Loss (IFL) and stems from limited multimodal multilingual training data. To address this, we propose a continuous multilingual integration strategy that injects text-only multilingual data during visual instruction tuning, preserving the language model’s original multilingual capabilities. Extensive evaluations demonstrate that our approach significantly improves linguistic fidelity across languages without degradation in visual performance. We also explore model merging, which improves language fidelity but comes at the cost of visual performance. In contrast, our core method achieves robust multilingual alignment without trade-offs, offering a scalable and effective path to mitigating IFL for global VLM adoption.

arxiv情報

著者 Iñigo Pikabea,Iñaki Lacunza,Oriol Pareras,Carlos Escolano,Aitor Gonzalez-Agirre,Javier Hernando,Marta Villegas
発行日 2025-03-28 16:26:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization はコメントを受け付けていません

Next-Best-Trajectory Planning of Robot Manipulators for Effective Observation and Exploration

要約

オブジェクトの視覚的観測は、オブジェクトの再構築と操作、ナビゲーション、シーンの理解など、多くのロボットアプリケーションに不可欠です。
機械学習アルゴリズムは、多くの分野で最先端を構成しますが、収集するのに費用がかかり、時間がかかる膨大なデータセットが必要です。
観察と探索のための自動化された戦略は、データ収集の効率を高めるために重要です。
したがって、次のベストトリューションの原則を利用した新しい戦略は、動的環境で動作するロボットマニピュレーター向けに開発されています。
衝突を回避しながら、パスに沿った観測から得られた情報を最大化するために、ローカル軌道が生成されます。
環境モデリングのためにボクセルマップを採用し、関心のあるポイント周辺の視点からレイキャスティングを利用して、情報のゲインを推定します。
グローバルなエルゴード軌道プランナーは、ローカルプランナーにオプションの参照軌跡を提供し、探査を改善し、地域の最小値を回避するのに役立ちます。
計算効率を高めるために、環境での情報ゲインを推定するためのレイキャスティングは、グラフィックス処理ユニットで並行して実行されます。
ベンチマークの結果は、並列化の効率を確認しますが、実際の実験は戦略の有効性を示しています。

要約(オリジナル)

Visual observation of objects is essential for many robotic applications, such as object reconstruction and manipulation, navigation, and scene understanding. Machine learning algorithms constitute the state-of-the-art in many fields but require vast data sets, which are costly and time-intensive to collect. Automated strategies for observation and exploration are crucial to enhance the efficiency of data gathering. Therefore, a novel strategy utilizing the Next-Best-Trajectory principle is developed for a robot manipulator operating in dynamic environments. Local trajectories are generated to maximize the information gained from observations along the path while avoiding collisions. We employ a voxel map for environment modeling and utilize raycasting from perspectives around a point of interest to estimate the information gain. A global ergodic trajectory planner provides an optional reference trajectory to the local planner, improving exploration and helping to avoid local minima. To enhance computational efficiency, raycasting for estimating the information gain in the environment is executed in parallel on the graphics processing unit. Benchmark results confirm the efficiency of the parallelization, while real-world experiments demonstrate the strategy’s effectiveness.

arxiv情報

著者 Heiko Renz,Maximilian Krämer,Frank Hoffmann,Torsten Bertram
発行日 2025-03-28 16:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.RO | Next-Best-Trajectory Planning of Robot Manipulators for Effective Observation and Exploration はコメントを受け付けていません

Using AI to Summarize US Presidential Campaign TV Advertisement Videos, 1952-2012

要約

このペーパーでは、デジタル形式で入手可能な米国大統領キャンペーンテレビ広告の最大かつ最も包括的なデータセットを紹介します。
データセットには、さまざまな学術研究を促進するために設計された機械検索可能なトランスクリプトと高品質の要約も含まれています。
現在までに、米国の大統領選挙キャンペーン広告の収集と分析には大きな関心がありましたが、手動調達と注釈の必要性により多くの人が小さなサブセットに依存するようになりました。
ビデオの準備、転写、および要約の面倒なプロセスを自動化する大規模な並列化されたAIベースの分析パイプラインを設計します。
次に、この方法論を、ジュリアンP.カンターの政治的商業アーカイブの9,707の大統領広告に適用します。
これらの転写と要約は、手動で生成された代替品の品質と一致することを示すために、広範な人間の評価を実施します。
70年にわたる大統領選挙にわたる現在の焦点問題領域の起源と進化を追跡するアプリケーションを含めることにより、このデータの価値を説明します。
分析パイプラインとコードベースは、LLMベースのツールを使用して他のビデオデータセットの高品質の要約を取得する方法も示しています。

要約(オリジナル)

This paper introduces the largest and most comprehensive dataset of US presidential campaign television advertisements, available in digital format. The dataset also includes machine-searchable transcripts and high-quality summaries designed to facilitate a variety of academic research. To date, there has been great interest in collecting and analyzing US presidential campaign advertisements, but the need for manual procurement and annotation led many to rely on smaller subsets. We design a large-scale parallelized, AI-based analysis pipeline that automates the laborious process of preparing, transcribing, and summarizing videos. We then apply this methodology to the 9,707 presidential ads from the Julian P. Kanter Political Commercial Archive. We conduct extensive human evaluations to show that these transcripts and summaries match the quality of manually generated alternatives. We illustrate the value of this data by including an application that tracks the genesis and evolution of current focal issue areas over seven decades of presidential elections. Our analysis pipeline and codebase also show how to use LLM-based tools to obtain high-quality summaries for other video datasets.

arxiv情報

著者 Adam Breuer,Bryce J. Dietrich,Michael H. Crespin,Matthew Butler,J. A. Pyrse,Kosuke Imai
発行日 2025-03-28 16:36:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Using AI to Summarize US Presidential Campaign TV Advertisement Videos, 1952-2012 はコメントを受け付けていません

KEVS: Enhancing Segmentation of Visceral Adipose Tissue in Pre-Cystectomy CT with Gaussian Kernel Density Estimation

要約

目的:膀胱切除患者における内臓脂肪組織(VAT)の分布は、術後合併症の発生率を示しています。
コンピューター断層撮影のための既存のVATセグメンテーション方法(CT)強度しきい値を採用するには、観察者間の変動に関連する制限があります。
さらに、グラウンドトゥルースマスクを作成することの難しさは、このタスクのディープラーニング(DL)モデルの開発を制限します。
このホワイトペーパーでは、Cystectectomy CTにおけるVAT予測の新しい方法を紹介します。これは、完全に自動化されており、前述の制限を克服するために、トレーニングのために地上真実VATマスクを必要としません。
方法:DLセマンティックセグメンテーションモデルを組み合わせたカーネル密度強化VATセグメルター(KEV)を導入し、マルチボディ特徴予測のために、予測された皮下脂肪組織のガウス核密度推定分析を導入し、腹部のVATの正確なスキャン固有の予測を実現します。
DLパイプラインの場合、KEVSは地上虚偽のVATマスクを必要としません。
結果:目に見えないCTデータの腹部臓器を正確にセグメント化するKEVの能力を検証し、KEV VATセグメンテーション予測を、ユニバーシティカレッジロンドン病院(UCLH-CYST)から収集された20の胸郭切除術前CTスキャンのデータセットで、既存の最先端の(SOTA)アプローチと比較します。
KEVSは、UCLH-CYSTで評価されたときに、それぞれ2番目に最高のDLおよびしきい値ベースのVATセグメンテーション技術にわたって、それぞれ4.80%および6.02%のサイコロ係数が改善されます。
結論:この研究ではKEVを紹介します。
観測前のCTにおけるVATの予測のための自動化されたSOTAメソッドは、観察者間の変動を排除し、地上真実VATマスクを含まないオープンソースCTデータセットで完全に訓練されています。

要約(オリジナル)

Purpose: The distribution of visceral adipose tissue (VAT) in cystectomy patients is indicative of the incidence of post-operative complications. Existing VAT segmentation methods for computed tomography (CT) employing intensity thresholding have limitations relating to inter-observer variability. Moreover, the difficulty in creating ground-truth masks limits the development of deep learning (DL) models for this task. This paper introduces a novel method for VAT prediction in pre-cystectomy CT, which is fully automated and does not require ground-truth VAT masks for training, overcoming aforementioned limitations. Methods: We introduce the Kernel density Enhanced VAT Segmentator ( KEVS), combining a DL semantic segmentation model, for multi-body feature prediction, with Gaussian kernel density estimation analysis of predicted subcutaneous adipose tissue to achieve accurate scan-specific predictions of VAT in the abdominal cavity. Uniquely for a DL pipeline, KEVS does not require ground-truth VAT masks. Results: We verify the ability of KEVS to accurately segment abdominal organs in unseen CT data and compare KEVS VAT segmentation predictions to existing state-of-the-art (SOTA) approaches in a dataset of 20 pre-cystectomy CT scans, collected from University College London Hospital (UCLH-Cyst), with expert ground-truth annotations. KEVS presents a 4.80% and 6.02% improvement in Dice Coefficient over the second best DL and thresholding-based VAT segmentation techniques respectively when evaluated on UCLH-Cyst. Conclusion: This research introduces KEVS; an automated, SOTA method for the prediction of VAT in pre-cystectomy CT which eliminates inter-observer variability and is trained entirely on open-source CT datasets which do not contain ground-truth VAT masks.

arxiv情報

著者 Thomas Boucher,Nicholas Tetlow,Annie Fung,Amy Dewar,Pietro Arina,Sven Kerneis,John Whittle,Evangelos B. Mazomenos
発行日 2025-03-28 16:41:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | KEVS: Enhancing Segmentation of Visceral Adipose Tissue in Pre-Cystectomy CT with Gaussian Kernel Density Estimation はコメントを受け付けていません

USC: Uncompromising Spatial Constraints for Safety-Oriented 3D Object Detectors in Autonomous Driving

要約

この作業では、自律運転コンテキストでの3Dオブジェクト検出器の安全指向のパフォーマンスを検討します。
具体的には、大量の文献で示された印象的な結果にもかかわらず、開発者はしばしばこれらの学習ベースの知覚モデルの安全な展開を確保するのが難しいと感じています。
安全指向のメトリックの欠如に課題を帰し、ここに妥協のない空間制約(USC)を提示します。これは、自律車両から見たときにオブジェクトを完全にカバーすることを予測に要求する単純でありながら重要なローカリゼーション要件を特徴付けます。
視点と鳥瞰図を使用して策定する際の制約は、定量的測定によって自然に反映される可能性があります。
最後に、モデル評価を超えて、既存のモデルの安全指向の微調整を可能にするために、定量的尺度を共通の損失関数に組み込みます。
ヌスセンデータセットと閉ループシミュレーションを使用した実験により、我々の作業は、認識レベルでの安全性の概念のそのような考慮事項を示しています。モデルのパフォーマンスを精度を超えて改善するだけでなく、実際のシステム安全とのより直接的なリンクを可能にします。

要約(オリジナル)

In this work, we consider the safety-oriented performance of 3D object detectors in autonomous driving contexts. Specifically, despite impressive results shown by the mass literature, developers often find it hard to ensure the safe deployment of these learning-based perception models. Attributing the challenge to the lack of safety-oriented metrics, we hereby present uncompromising spatial constraints (USC), which characterize a simple yet important localization requirement demanding the predictions to fully cover the objects when seen from the autonomous vehicle. The constraints, as we formulate using the perspective and bird’s-eye views, can be naturally reflected by quantitative measures, such that having an object detector with a higher score implies a lower risk of collision. Finally, beyond model evaluation, we incorporate the quantitative measures into common loss functions to enable safety-oriented fine-tuning for existing models. With experiments using the nuScenes dataset and a closed-loop simulation, our work demonstrates such considerations of safety notions at the perception level not only improve model performances beyond accuracy but also allow for a more direct linkage to actual system safety.

arxiv情報

著者 Brian Hsuan-Cheng Liao,Chih-Hong Cheng,Hasan Esen,Alois Knoll
発行日 2025-03-28 16:42:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | USC: Uncompromising Spatial Constraints for Safety-Oriented 3D Object Detectors in Autonomous Driving はコメントを受け付けていません

TULIP: Token-length Upgraded CLIP

要約

クリップなどのビジョン言語モデルで長いキャプションを表現するという課題に対処します。
設計上、これらのモデルは固定された絶対位置エンコーディングによって制限され、入力を最大77トークンに制限し、より長い説明を必要とするタスクのパフォーマンスを妨げます。
最近の作業はこの限界を克服しようとしましたが、提案されたアプローチは、より長い距離にわたってトークン関係をモデル化し、単に固定された新しいトークンの長さに拡張するのに苦労しています。
代わりに、Tulipという名前の一般化可能な方法を提案し、クリップのようなモデルのトークンの長さを任意の長さにアップグレードできます。
これにより、相対的な位置エンコーディングでアーキテクチャを改善し、次に(i)元のクリップテキストエンコーダーを相対位置エンコーディングを持つエンコーダーに蒸留するトレーニング手順を実行し、(ii)長いキャプションを画像に合わせてモデルを強化します。
デフォルトの77トークンよりも長いキャプションを効果的にエンコードすることにより、モデルは、検索やテキストから画像の生成などのクロスモーダルタスクのベースラインを上回ります。
コードリポジトリは、https://github.com/ivonajdenkoska/tulipで入手できます。

要約(オリジナル)

We address the challenge of representing long captions in vision-language models, such as CLIP. By design these models are limited by fixed, absolute positional encodings, restricting inputs to a maximum of 77 tokens and hindering performance on tasks requiring longer descriptions. Although recent work has attempted to overcome this limit, their proposed approaches struggle to model token relationships over longer distances and simply extend to a fixed new token length. Instead, we propose a generalizable method, named TULIP, able to upgrade the token length to any length for CLIP-like models. We do so by improving the architecture with relative position encodings, followed by a training procedure that (i) distills the original CLIP text encoder into an encoder with relative position encodings and (ii) enhances the model for aligning longer captions with images. By effectively encoding captions longer than the default 77 tokens, our model outperforms baselines on cross-modal tasks such as retrieval and text-to-image generation. The code repository is available at https://github.com/ivonajdenkoska/tulip.

arxiv情報

著者 Ivona Najdenkoska,Mohammad Mahdi Derakhshani,Yuki M. Asano,Nanne van Noord,Marcel Worring,Cees G. M. Snoek
発行日 2025-03-28 16:47:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TULIP: Token-length Upgraded CLIP はコメントを受け付けていません