Visual Adaptive Prompting for Compositional Zero-Shot Learning

要約

Vision-Language Models(VLMS)は、視覚データとテキストデータの共同表現を学習する際に印象的な能力を実証しており、構成ゼロショット学習(CZSL)などのタスクの強力なツールにしています。
CZSLでは、モデルが属性やオブジェクトなどの視覚プリミティブの新しい組み合わせに一般化する必要があります。これは、トレーニング中に明示的に遭遇しませんでした。
CZSLのプロンプトの最近の作品は、テキストエンコーダーの入力の変更に焦点を当てており、多くの場合、さまざまな視覚的コンテキストで変化しない静的プロンプトを使用しています。
ただし、これらのアプローチは、構成の推論のために視覚的特徴を活用するのではなく、テキストの適応に焦点を当てているため、さまざまな視覚的コンテキストを完全にキャプチャするのに苦労しています。
これに対処するために、VLMSのフレームワーク内で学習可能な視覚的なプロンプトリポジトリと類似性ベースの検索メカニズムをレバレッジして、セマンティック機能と視覚的特徴の間のギャップを埋めることを提案します。
この方法では、画像の視覚的特徴に基づいて最も関連性の高い属性とオブジェクトプロンプトを選択する動的な視覚的なプロンプトリポジトリメカニズムを紹介します。
提案されたシステムには、モデルがより一般化可能な埋め込みスペースを学習することを奨励する視覚的なプロンプトアダプターが含まれています。
閉じたシナリオとオープンワールドの両方のシナリオにわたる3つのCZSLベンチマークでの実験は、最先端の結果を示しています。

要約(オリジナル)

Vision-Language Models (VLMs) have demonstrated impressive capabilities in learning joint representations of visual and textual data, making them powerful tools for tasks such as Compositional Zero-Shot Learning (CZSL). CZSL requires models to generalize to novel combinations of visual primitives-such as attributes and objects-that were not explicitly encountered during training. Recent works in prompting for CZSL have focused on modifying inputs for the text encoder, often using static prompts that do not change across varying visual contexts. However, these approaches struggle to fully capture varying visual contexts, as they focus on text adaptation rather than leveraging visual features for compositional reasoning. To address this, we propose Visual Adaptive Prompting System (VAPS) that leverages a learnable visual prompt repository and similarity-based retrieval mechanism within the framework of VLMs to bridge the gap between semantic and visual features. Our method introduces a dynamic visual prompt repository mechanism that selects the most relevant attribute and object prompts based on the visual features of the image. Our proposed system includes a visual prompt adapter that encourages the model to learn a more generalizable embedding space. Experiments on three CZSL benchmarks, across both closed and open-world scenarios, demonstrate state-of-the-art results.

arxiv情報

著者 Kyle Stein,Arash Mahyari,Guillermo Francia,Eman El-Sheikh
発行日 2025-03-14 15:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Visual Adaptive Prompting for Compositional Zero-Shot Learning はコメントを受け付けていません

T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation

要約

最近のテキストからイメージまでの生成モデルは印象的なパフォーマンスを達成していますが、属性のバインディングや異なるエンティティ間の空間的関係を含むプロンプトの構成的複雑さのキャプチャを依然として捉えています。
この不整合は、Clipscoreなどの一般的な評価メトリックによって明らかにされていません。
最近の作品は、より堅牢な組成評価のために生成された画像に関する質問にプロンプ​​トを分解することにより、視覚的な質問応答(VQA)を利用する評価指標を提案しています。
これらの方法は人間の評価とより適切に整合していますが、画像内の構成性を完全にカバーすることはできません。
これに対処するために、画像をコンポーネントに分解する新しいメトリックを提案し、テキストを評価のために生成された画像に関する細粒の質問に提案します。
私たちの方法は、以前の最先端の指標を上回り、テキストからイメージへの生成モデルの評価におけるその有効性を示しています。
コードはhttps://github.com/hadi-hosseini/ t2i-fineevalで入手できます。

要約(オリジナル)

Although recent text-to-image generative models have achieved impressive performance, they still often struggle with capturing the compositional complexities of prompts including attribute binding, and spatial relationships between different entities. This misalignment is not revealed by common evaluation metrics such as CLIPScore. Recent works have proposed evaluation metrics that utilize Visual Question Answering (VQA) by decomposing prompts into questions about the generated image for more robust compositional evaluation. Although these methods align better with human evaluations, they still fail to fully cover the compositionality within the image. To address this, we propose a novel metric that breaks down images into components, and texts into fine-grained questions about the generated image for evaluation. Our method outperforms previous state-of-the-art metrics, demonstrating its effectiveness in evaluating text-to-image generative models. Code is available at https://github.com/hadi-hosseini/ T2I-FineEval.

arxiv情報

著者 Seyed Mohammad Hadi Hosseini,Amir Mohammad Izadi,Ali Abdollahi,Armin Saghafian,Mahdieh Soleymani Baghshah
発行日 2025-03-14 15:06:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation はコメントを受け付けていません

V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning

要約

人間のプロセスビデオ推論を順次空間的推論ロジックで、最初に関連するフレーム( ‘when’)を識別し、次にキーオブジェクト間の空間的関係( ‘where)を分析し、最終的にこれらの関係を活用して推論(「何」)を描きます。
ただし、ビデオの大規模な言語モデル(ビデオ-LLM)も「理由」で動画の時代の論理を介して「理由」を「理由」しますか?
既存のVideo-LLMベンチマークは、主にオブジェクトの存在の評価に焦点を当て、関係の推論を無視します。
したがって、モデルがビデオのオブジェクトの相互作用(アクション/イベント)を本当に理解するのか、それとも単に回答の生成におけるバイアスとして共起の事前に訓練された「メモリ」に依存するかどうかを測定することは困難です。
この作業では、これらの欠点に対処するために、ビデオ空間的推論(V-STAR)ベンチマークを紹介します。
重要なアイデアは、ビデオの理解を逆の時空間推論(RSTR)タスクに分解することです。これは、どのオブジェクトが存在するか、イベントが発生したとき、そして基礎となるチェーン(COT)ロジックをキャプチャしながらそれらがどこにあるかを同時に評価します。
この評価をサポートするために、Video-LLMの空間的推論プロセスを引き出すためのデータセットを構築します。
半自動化されたGPT-4駆動のパイプラインによって生成された粗から洗練されたCOTの質問が含まれており、明示的な推論チェーンを埋め込み、人間の認知を模倣します。
V-STARでの14のVideo-LLMの実験により、現在のビデオLLMと堅牢で一貫した空間的推論のニーズとの間の大きなギャップが明らかになりました。

要約(オリジナル)

Human processes video reasoning in a sequential spatio-temporal reasoning logic, we first identify the relevant frames (‘when’) and then analyse the spatial relationships (‘where’) between key objects, and finally leverage these relationships to draw inferences (‘what’). However, can Video Large Language Models (Video-LLMs) also ‘reason through a sequential spatio-temporal logic’ in videos? Existing Video-LLM benchmarks primarily focus on assessing object presence, neglecting relational reasoning. Consequently, it is difficult to measure whether a model truly comprehends object interactions (actions/events) in videos or merely relies on pre-trained ‘memory’ of co-occurrences as biases in generating answers. In this work, we introduce a Video Spatio-Temporal Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR) task that simultaneously evaluates what objects are present, when events occur, and where they are located while capturing the underlying Chain-of-thought (CoT) logic. To support this evaluation, we construct a dataset to elicit the spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding explicit reasoning chains to mimic human cognition. Experiments from 14 Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and the needs for robust and consistent spatio-temporal reasoning.

arxiv情報

著者 Zixu Cheng,Jian Hu,Ziquan Liu,Chenyang Si,Wei Li,Shaogang Gong
発行日 2025-03-14 15:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning はコメントを受け付けていません

Cognitive Disentanglement for Referring Multi-Object Tracking

要約

インテリジェント輸送知覚システムにおけるマルチソース情報融合の重要なアプリケーションとして、マルチオブジェクト追跡(RMOT)を参照するには、言語参照に基づいてビデオシーケンスで特定のオブジェクトをローカライズおよび追跡することが含まれます。
ただし、既存のRMOTアプローチは、言語の説明を全体的な埋め込みとして扱い、言語表現に含まれる豊富なセマンティック情報を視覚的な特徴と効果的に統合するのに苦労することがよくあります。
この制限は、静的オブジェクト属性と空間モーション情報の両方を包括的に理解する必要がある複雑なシーンで特に明らかです。
この論文では、これらの課題に対処するマルチオブジェクト追跡(CDRMT)フレームワークを参照するための認知的解体を提案します。
人間の視覚処理システムから「What」と「Where」経路をRMOTタスクに適応させます。
具体的には、我々のフレームワークは3つの共同コンポーネントで構成されています。(1)双方向インタラクティブフュージョンモジュールは、モダリティ固有の特性を保存しながら、最初にクロスモーダル接続を確立します。
(2)この基盤の上に構築するプログレッシブセマンティック分解クエリ学習メカニズムは、補完的な情報をオブジェクトクエリに階層的に注入し、粗から微調整された意味レベルから微細な意味レベルからオブジェクトの理解を徐々に改良します。
(3)最後に、構造コンセンサス制約により、視覚的特徴と言語の説明の間の双方向の意味的一貫性が強制され、追跡されたオブジェクトが参照表現を忠実に反映するようにします。
さまざまなベンチマークデータセットでの広範な実験は、CDRMTが最先端の方法よりも大幅な改善を達成し、リファレンスキッティのHOTAスコアが6.0%、Refer-Kitti-V2で3.2%であることを示しています。
私たちのアプローチは、最先端の最先端をRMOTで進め、同時にマルチソース情報融合に関する新しい洞察を提供します。

要約(オリジナル)

As a significant application of multi-source information fusion in intelligent transportation perception systems, Referring Multi-Object Tracking (RMOT) involves localizing and tracking specific objects in video sequences based on language references. However, existing RMOT approaches often treat language descriptions as holistic embeddings and struggle to effectively integrate the rich semantic information contained in language expressions with visual features. This limitation is especially apparent in complex scenes requiring comprehensive understanding of both static object attributes and spatial motion information. In this paper, we propose a Cognitive Disentanglement for Referring Multi-Object Tracking (CDRMT) framework that addresses these challenges. It adapts the ‘what’ and ‘where’ pathways from human visual processing system to RMOT tasks. Specifically, our framework comprises three collaborative components: (1)The Bidirectional Interactive Fusion module first establishes cross-modal connections while preserving modality-specific characteristics; (2) Building upon this foundation, the Progressive Semantic-Decoupled Query Learning mechanism hierarchically injects complementary information into object queries, progressively refining object understanding from coarse to fine-grained semantic levels; (3) Finally, the Structural Consensus Constraint enforces bidirectional semantic consistency between visual features and language descriptions, ensuring that tracked objects faithfully reflect the referring expression. Extensive experiments on different benchmark datasets demonstrate that CDRMT achieves substantial improvements over state-of-the-art methods, with average gains of 6.0% in HOTA score on Refer-KITTI and 3.2% on Refer-KITTI-V2. Our approach advances the state-of-the-art in RMOT while simultaneously providing new insights into multi-source information fusion.

arxiv情報

著者 Shaofeng Liang,Runwei Guan,Wangwang Lian,Daizong Liu,Xiaolou Sun,Dongming Wu,Yutao Yue,Weiping Ding,Hui Xiong
発行日 2025-03-14 15:21:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cognitive Disentanglement for Referring Multi-Object Tracking はコメントを受け付けていません

Cloud2BIM: An open-source automatic pipeline for efficient conversion of large-scale point clouds into IFC format

要約

ビルディング情報モデリング(BIM)は、老化構造の持続可能な再構築と再生における重要な要素です。
ただし、モデルの作成は通常、レーザースキャンまたは写真測量によって提供される非構造化点クラウドデータの面倒な手動変換に依存しています。
このペーパーでは、Point CloudsのBIMモデルへの変換をIndustry Foundation Classe(IFC)標準に自動化するように設計されたCloud2Bimを紹介します。
Cloud2Bimは、実際の壁の表面に基づいて、壁とスラブのセグメンテーション、開口部の検出、部屋ゾーニングの高度なアルゴリズムを統合し、包括的で完全に自動化されたワークフローをもたらします。
既存のツールとは異なり、RANSACなどの計算およびキャリブレーション集約型の技術を回避し、非正所の幾何学をサポートし、最速の競合ソリューションの7倍高速で最大7倍の処理速度を達成する結果を提供します。
ベンチマークデータセットを使用した体系的な検証は、Cloud2Bimが正確なBIMモデルを生成するための使いやすく、効率的でスケーラブルなソリューションであり、ビル全体の広範なポイントクラウドデータセットを最小限のユーザー入力でIFC形式に変換できることを確認しています。

要約(オリジナル)

Building Information Modeling (BIM) is an essential component in the sustainable reconstruction and revitalization of ageing structures. However, model creation usually relies on laborious manual transformation of the unstructured point cloud data provided by laser scans or photogrammetry. This paper presents Cloud2BIM, an open-source software tool designed to automate the conversion of point clouds into BIM models compliant with the Industry Foundation Classes (IFC) standard. Cloud2BIM integrates advanced algorithms for wall and slab segmentation, opening detection, and room zoning based on real wall surfaces, resulting in a comprehensive and fully automated workflow. Unlike existing tools, it avoids computationally- and calibration-intensive techniques such as RANSAC, supports non-orthogonal geometries, and provides unprecedented processing speed-achieving results up to seven times faster than fastest competing solutions. Systematic validation using benchmark datasets confirms that Cloud2BIM is an easy-to-use, efficient, and scalable solution for generating accurate BIM models, capable of converting extensive point cloud datasets for entire buildings into IFC format with minimal user input.

arxiv情報

著者 Slávek Zbirovský,Václav Nežerka
発行日 2025-03-14 15:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SE | Cloud2BIM: An open-source automatic pipeline for efficient conversion of large-scale point clouds into IFC format はコメントを受け付けていません

TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

要約

生成AIの増加に伴い、テキストキャプションからの合成図は説得力のあるアプリケーションになります。
ただし、高い幾何学的精度と編集可能性を達成するには、Tikzのような言語のグラフィックプログラムとして数字を表す必要があり、整列したトレーニングデータ(つまり、キャプション付きのグラフィックプログラム)は依然として不足しています。
一方、大量の整理されていないグラフィックプログラムとキャプション付きラスター画像は、より簡単に利用できます。
これらの異なるデータソースを、画像表現を中間ブリッジとして使用して、テキスト理解からグラフィックスプログラムの生成を切り離すTikzeroを提示します。
グラフィックプログラムとキャプション付き画像に関する独立したトレーニングを可能にし、推論中にゼロショットテキスト誘導グラフィックプログラムの合成を可能にします。
私たちの方法は、キャプションに並べられたグラフィックプログラムでのみ動作できるベースラインを大幅に上回ることを示しています。
さらに、キャプションに合わせたグラフィックプログラムを補完的なトレーニング信号として活用する場合、TikzeroはGPT-4Oなどの商用システムを含むはるかに大きなモデルのパフォーマンスを一致させるか、それを超えます。
コード、データセット、および選択モデルは公開されています。

要約(オリジナル)

With the rise of generative AI, synthesizing figures from text captions becomes a compelling application. However, achieving high geometric precision and editability requires representing figures as graphics programs in languages like TikZ, and aligned training data (i.e., graphics programs with captions) remains scarce. Meanwhile, large amounts of unaligned graphics programs and captioned raster images are more readily available. We reconcile these disparate data sources by presenting TikZero, which decouples graphics program generation from text understanding by using image representations as an intermediary bridge. It enables independent training on graphics programs and captioned images and allows for zero-shot text-guided graphics program synthesis during inference. We show that our method substantially outperforms baselines that can only operate with caption-aligned graphics programs. Furthermore, when leveraging caption-aligned graphics programs as a complementary training signal, TikZero matches or exceeds the performance of much larger models, including commercial systems like GPT-4o. Our code, datasets, and select models are publicly available.

arxiv情報

著者 Jonas Belouadi,Eddy Ilg,Margret Keuper,Hideki Tanaka,Masao Utiyama,Raj Dabre,Steffen Eger,Simone Paolo Ponzetto
発行日 2025-03-14 15:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | TikZero: Zero-Shot Text-Guided Graphics Program Synthesis はコメントを受け付けていません

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

要約

多様なロボットデータセットでトレーニングされた最近のビジョン言語アクションモデルは、限られた領域内データを持つ有望な一般化機能を示しますが、コンパクトなアクションヘッドへの依存は、離散化または連続的なアクションが不均一なアクション空間への適応性を制約します。
統一されたマルチモーダル拡散プロセスを介して、変圧器アーキテクチャを活用して連続的なアクションシーケンスを直接除去するスケーラブルなフレームワークであるDITAを提示します。
DITAは、浅いネットワークを介して融合した埋め込みを除去する以前の方法から出発し、コンテキスト内の条件付けを採用します。歴史的観察からの除去されたアクションと生の視覚トークンとの間の細かい整列を可能にします。
この設計は、アクションデルタと環境ニュアンスを明示的にモデル化します。
Transformerのスケーラビリティとともに拡散アクション除去機をスケーリングすることにより、DITAは多様なカメラの視点、観察シーン、タスク、およびアクションスペースに横断的なデータセットを効果的に統合します。
このような相乗効果は、さまざまな分散に対する堅牢性を高め、長老タスクの実行の成功を促進します。
大規模なベンチマーク全体の評価は、シミュレーションにおける最先端または比較パフォーマンスを示しています。
特に、DITAは、サードパーソンカメラの入力のみを使用して、10ショットのFinetuningを通じて、環境変動と複雑な長距離タスクに対する堅牢な現実世界の適応を実現します。
このアーキテクチャは、ジェネラリストのロボット政策学習のための多目的で軽量でオープンソースのベースラインを確立しています。
プロジェクトページ:https://robodita.github.io/

要約(オリジナル)

While recent vision-language-action models trained on diverse robot datasets exhibit promising generalization capabilities with limited in-domain data, their reliance on compact action heads to predict discretized or continuous actions constrains adaptability to heterogeneous action spaces. We present Dita, a scalable framework that leverages Transformer architectures to directly denoise continuous action sequences through a unified multimodal diffusion process. Departing from prior methods that condition denoising on fused embeddings via shallow networks, Dita employs in-context conditioning — enabling fine-grained alignment between denoised actions and raw visual tokens from historical observations. This design explicitly models action deltas and environmental nuances. By scaling the diffusion action denoiser alongside the Transformer’s scalability, Dita effectively integrates cross-embodiment datasets across diverse camera perspectives, observation scenes, tasks, and action spaces. Such synergy enhances robustness against various variances and facilitates the successful execution of long-horizon tasks. Evaluations across extensive benchmarks demonstrate state-of-the-art or comparative performance in simulation. Notably, Dita achieves robust real-world adaptation to environmental variances and complex long-horizon tasks through 10-shot finetuning, using only third-person camera inputs. The architecture establishes a versatile, lightweight and open-source baseline for generalist robot policy learning. Project Page: https://robodita.github.io/

arxiv情報

著者 Zhi Hou,Tianyi Zhang,Yuwen Xiong,Haonan Duan,Hengjun Pu,Ronglei Tong,Chengyang Zhao,Xizhou Zhu,Yu Qiao,Jifeng Dai,Yuntao Chen
発行日 2025-03-14 15:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy はコメントを受け付けていません

Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models

要約

網膜の光コヒーレンス断層撮影(OCT)画像は、有病率が上昇している神経変性疾患のバイオマーカーです。
網膜OCTを使用したアルツハイマー病の早期発見は、主要な挑戦的な作業です。
この研究では、高度な深い学習技術を利用して、アルツハイマー病(AD)および健康なコントロール(CO)の被験者の網膜OCT画像を分類します。
目標は、効率的な画像分析を通じて診断機能を強化することです。
提案されたモデルでは、RAW OCT画像はImageJで前処理され、精度を評価するためにさまざまな深部学習モデルに与えられています。
最良の分類アーキテクチャはTransNetoctです。これは、他のモデルと比較して、入力OCT画像で平均精度は98.18%、5倍の交差検証でセグメント化されたOCT画像で98.91%であり、SWINトランスモデルは93.54%の精度を達成しました。
評価精度メトリックは、ADおよびCOの被験者を確実に分類するためのトランスネットクトおよびSWINトランスモデルの能力を実証し、臨床設定での診断プロセスの改善の可能性に貢献しました。

要約(オリジナル)

Retinal optical coherence tomography (OCT) images are the biomarkers for neurodegenerative diseases, which are rising in prevalence. Early detection of Alzheimer’s disease using retinal OCT is a primary challenging task. This work utilizes advanced deep learning techniques to classify retinal OCT images of subjects with Alzheimer’s disease (AD) and healthy controls (CO). The goal is to enhance diagnostic capabilities through efficient image analysis. In the proposed model, Raw OCT images have been preprocessed with ImageJ and given to various deep-learning models to evaluate the accuracy. The best classification architecture is TransNetOCT, which has an average accuracy of 98.18% for input OCT images and 98.91% for segmented OCT images for five-fold cross-validation compared to other models, and the Swin Transformer model has achieved an accuracy of 93.54%. The evaluation accuracy metric demonstrated TransNetOCT and Swin transformer models capability to classify AD and CO subjects reliably, contributing to the potential for improved diagnostic processes in clinical settings.

arxiv情報

著者 Siva Manohar Reddy Kesu,Neelam Sinha,Hariharan Ramasangu,Thomas Gregor Issac
発行日 2025-03-14 15:34:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Alzheimer’s Disease Classification Using Retinal OCT: TransnetOCT and Swin Transformer Models はコメントを受け付けていません

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models

要約

テキストからビデオへの生成は、動画データの固有の複雑さにより、重大な課題をもたらします。
生成中に、言語トークンとビジョントークンの間に追加の冗長性、突然の変動、およびドメインギャップを導入します。
これらの課題に対処するには、ビデオデータを効率的にエンコードできる効果的なビデオトークナイザーが必要であり、テキストとビジョンの間の重要なブリッジとして機能する重要なセマンティックおよび空間的情報を保存します。
VQ-Vae-2での観察と従来のアニメーションのワークフローに触発された私たちは、階層的なトークンザーを使用したテキストからビデオへの生成のためにHitvideoを提案します。
多層離散トークンフレームワークを備えた3D因果VAEを利用して、ビデオコンテンツを階層構造のコードブックにエンコードします。
高層層は、圧縮率が高いセマンティック情報をキャプチャしますが、下層層はきちんとした時空の詳細に焦点を当て、圧縮効率と再構築品質のバランスをとっています。
私たちのアプローチは、より長いビデオシーケンス(8秒、64フレーム)を効率的にエンコードし、競合的再構成の品質を維持しながら、ベースライントーナイザーと比較してピクセルあたりのビット(BPP)を約70 \%削減します。
テキストからビデオへのタスクにおける高圧縮セマンティックトークンの利点を強調しながら、圧縮と再構築の間のトレードオフを調査します。
Hitvideoは、テキストとビデオの生成タスクにおける既存のビデオトーナイザーの潜在的な制限に対処し、より高い圧縮比を目指し、言語ガイダンスの下でLLMSモデリングを簡素化し、ビデオ生成にテキストを進めるためのスケーラブルで有望なフレームワークを提供することを目指しています。
デモページ:https://ziqinzhou66.github.io/project/hitvideo。

要約(オリジナル)

Text-to-video generation poses significant challenges due to the inherent complexity of video data, which spans both temporal and spatial dimensions. It introduces additional redundancy, abrupt variations, and a domain gap between language and vision tokens while generation. Addressing these challenges requires an effective video tokenizer that can efficiently encode video data while preserving essential semantic and spatiotemporal information, serving as a critical bridge between text and vision. Inspired by the observation in VQ-VAE-2 and workflows of traditional animation, we propose HiTVideo for text-to-video generation with hierarchical tokenizers. It utilizes a 3D causal VAE with a multi-layer discrete token framework, encoding video content into hierarchically structured codebooks. Higher layers capture semantic information with higher compression, while lower layers focus on fine-grained spatiotemporal details, striking a balance between compression efficiency and reconstruction quality. Our approach efficiently encodes longer video sequences (e.g., 8 seconds, 64 frames), reducing bits per pixel (bpp) by approximately 70\% compared to baseline tokenizers, while maintaining competitive reconstruction quality. We explore the trade-offs between compression and reconstruction, while emphasizing the advantages of high-compressed semantic tokens in text-to-video tasks. HiTVideo aims to address the potential limitations of existing video tokenizers in text-to-video generation tasks, striving for higher compression ratios and simplify LLMs modeling under language guidance, offering a scalable and promising framework for advancing text to video generation. Demo page: https://ziqinzhou66.github.io/project/HiTVideo.

arxiv情報

著者 Ziqin Zhou,Yifan Yang,Yuqing Yang,Tianyu He,Houwen Peng,Kai Qiu,Qi Dai,Lili Qiu,Chong Luo,Lingqiao Liu
発行日 2025-03-14 15:36:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models はコメントを受け付けていません

Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models

要約

現在のクロスモダリティ生成モデル(GMS)は、さまざまな生成タスクで顕著な能力を示しています。
現実世界のシナリオ、クロスビジョン、ビジョン言語知覚(VLP)を含むクロスビジョン(I2I)(I2I)における視覚モダリティ入力の遍在性と情報の豊かさを考えると、タスクは大きな注目を集めています。
大規模なビジョン言語モデル(LVLMS)とI2I GMは、それぞれVLPおよびI2Iタスクを処理するために採用されています。
以前の研究では、入力画像にタイポグラフィの単語を印刷すると、LVLMSとI2I GMが大幅に誘導して、それらの単語に意味的に関連する破壊的な出力を生成することが示されています。
さらに、より洗練された形式のタイポグラフィとしての視覚プロンプトは、画像に注入されたときにVLPタスクのさまざまなアプリケーションにセキュリティリスクをもたらすことも明らかにされています。
このホワイトペーパーでは、さまざまなLVLMSおよびI2I GMのタイポグラフィ視覚迅速な促進(TVPI)によって引き起こされるパフォーマンスへの影響を包括的に調査します。
この脅威のパフォーマンスの変更と特性をよりよく観察するために、TVPIデータセットも紹介します。
広範な探求を通じて、私たちはさまざまなGMにおけるTVPIの脅威の根本的な原因の理解を深め、その潜在的な起源に関する貴重な洞察を提供します。

要約(オリジナル)

Current Cross-Modality Generation Models (GMs) demonstrate remarkable capabilities in various generative tasks. Given the ubiquity and information richness of vision modality inputs in real-world scenarios, Cross-vision, encompassing Vision-Language Perception (VLP) and Image-to-Image (I2I), tasks have attracted significant attention. Large Vision Language Models (LVLMs) and I2I GMs are employed to handle VLP and I2I tasks, respectively. Previous research indicates that printing typographic words into input images significantly induces LVLMs and I2I GMs to generate disruptive outputs semantically related to those words. Additionally, visual prompts, as a more sophisticated form of typography, are also revealed to pose security risks to various applications of VLP tasks when injected into images. In this paper, we comprehensively investigate the performance impact induced by Typographic Visual Prompt Injection (TVPI) in various LVLMs and I2I GMs. To better observe performance modifications and characteristics of this threat, we also introduce the TVPI Dataset. Through extensive explorations, we deepen the understanding of the underlying causes of the TVPI threat in various GMs and offer valuable insights into its potential origins.

arxiv情報

著者 Hao Cheng,Erjia Xiao,Yichi Wang,Kaidi Xu,Mengshu Sun,Jindong Gu,Renjing Xu
発行日 2025-03-14 15:42:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models はコメントを受け付けていません