Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation

要約

動的な3Dシーンの再構築における最近の進歩により、有望な結果が示されており、時間的一貫性が改善された高忠実度の3D新規ビュー合成を可能にします。
これらの中で、4Dガウスの飛び散(4DG)は、高忠実度の空間的および時間的変動をモデル化する能力により、魅力的なアプローチとして浮上しています。
ただし、既存の方法は、4Dガウスの静的領域への冗長な割り当てにより、かなりの計算およびメモリオーバーヘッドに悩まされており、画質も低下させる可能性があります。
この作業では、ハイブリッド3D-4Dガウススプラッティング(3D-4DGS)を紹介します。これは、ダイナミックエレメントのために4Dガウス系を予約しながら、3Dガウスの静的領域を適応的に表す新しいフレームワークです。
私たちの方法は、完全に4Dガウス表現から始まり、一時的に不変のガウス人を3Dに繰り返し変換し、パラメーターの数を大幅に削減し、計算効率を改善します。
一方、ダイナミックなガウス人は完全な4D表現を保持し、高い忠実度を備えた複雑な動きをキャプチャします。
私たちのアプローチは、視覚品質を維持または改善しながら、ベースライン4Dガウスのスプラット方法と比較して、トレーニング時間が大幅に速く達成されます。

要約(オリジナル)

Recent advancements in dynamic 3D scene reconstruction have shown promising results, enabling high-fidelity 3D novel view synthesis with improved temporal consistency. Among these, 4D Gaussian Splatting (4DGS) has emerged as an appealing approach due to its ability to model high-fidelity spatial and temporal variations. However, existing methods suffer from substantial computational and memory overhead due to the redundant allocation of 4D Gaussians to static regions, which can also degrade image quality. In this work, we introduce hybrid 3D-4D Gaussian Splatting (3D-4DGS), a novel framework that adaptively represents static regions with 3D Gaussians while reserving 4D Gaussians for dynamic elements. Our method begins with a fully 4D Gaussian representation and iteratively converts temporally invariant Gaussians into 3D, significantly reducing the number of parameters and improving computational efficiency. Meanwhile, dynamic Gaussians retain their full 4D representation, capturing complex motions with high fidelity. Our approach achieves significantly faster training times compared to baseline 4D Gaussian Splatting methods while maintaining or improving the visual quality.

arxiv情報

著者 Seungjun Oh,Younggeun Lee,Hyejin Jeon,Eunbyung Park
発行日 2025-05-19 14:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation はコメントを受け付けていません

Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

要約

拡散変圧器(DITS)は、変圧器アーキテクチャの組み込みを通じて、画像生成の領域内で顕著なパフォーマンスを実現します。
従来、DITは、高解像度の画像を処理する際にかなりの計算コストに直面するシリアル等方性グローバル情報モデリング変圧器を積み重ねて構築されます。
潜在的な空間画像生成は、伝統的に想定されているように、グローバルな情報に強い依存を示さないことを経験的に分析します。
モデルのレイヤーのほとんどは、グローバル計算における冗長性を示しています。
さらに、従来の注意メカニズムは、低周波慣性の問題を示します。
これらの問題に対処するために、\ textbf {p} seudo \ textbf {s} hifted \ textbf {w} indow \ textbf {a} ttention(PSWA)を提案します。
PSWAは、ウィンドウの注意を通じて中間のグローバルローカル情報相互作用を達成し、高周波ブリッジングブランチを使用してシフトされたウィンドウ操作をシミュレートし、適切なグローバルおよび高周波情報を補完します。
さらに、追加の計算コストなしで高次の注意の類似性をキャプチャするプログレッシブカバレッジチャネル割り当て(PCCA)戦略を提案します。
それらのすべてに基づいて、一連のpseudo \ textbf {s} hifted \ textbf {win} dow dits(\ textbf {swin dit})を提案します。
たとえば、提案されているSWIN-DIT-Lは、DIT-XL/2よりも54%$ \ uparrow $ fidの改善を達成しますが、計算は必要ありません。
https://github.com/wujiafu007/swin-dit

要約(オリジナル)

Diffusion Transformers (DiTs) achieve remarkable performance within the domain of image generation through the incorporation of the transformer architecture. Conventionally, DiTs are constructed by stacking serial isotropic global information modeling transformers, which face significant computational cost when processing high-resolution images. We empirically analyze that latent space image generation does not exhibit a strong dependence on global information as traditionally assumed. Most of the layers in the model demonstrate redundancy in global computation. In addition, conventional attention mechanisms exhibit low-frequency inertia issues. To address these issues, we propose \textbf{P}seudo \textbf{S}hifted \textbf{W}indow \textbf{A}ttention (PSWA), which fundamentally mitigates global model redundancy. PSWA achieves intermediate global-local information interaction through window attention, while employing a high-frequency bridging branch to simulate shifted window operations, supplementing appropriate global and high-frequency information. Furthermore, we propose the Progressive Coverage Channel Allocation(PCCA) strategy that captures high-order attention similarity without additional computational cost. Building upon all of them, we propose a series of Pseudo \textbf{S}hifted \textbf{Win}dow DiTs (\textbf{Swin DiT}), accompanied by extensive experiments demonstrating their superior performance. For example, our proposed Swin-DiT-L achieves a 54%$\uparrow$ FID improvement over DiT-XL/2 while requiring less computational. https://github.com/wujiafu007/Swin-DiT

arxiv情報

著者 Jiafu Wu,Yabiao Wang,Jian Li,Jinlong Peng,Yun Cao,Chengjie Wang,Jiangning Zhang
発行日 2025-05-19 15:02:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Swin DiT: Diffusion Transformer using Pseudo Shifted Windows はコメントを受け付けていません

Automatic Complementary Separation Pruning Toward Lightweight CNNs

要約

この論文では、畳み込みニューラルネットワークのための新規で完全に自動化された剪定法である自動相補的分離剪定(ACSP)を紹介します。
ACSPは、構造化された剪定と活性化ベースの剪定の両方の強度を統合し、アクティベーションを活用して最も関連性の高いコンポーネントを識別および保持しながら、ニューロンやチャネルなどのコンポーネント全体を効率的に除去できるようにします。
私たちのアプローチは、すべてのクラスペアに関して各コンポーネントの分離能力をコードするグラフ空間を構築する監視された学習タスク専用に設計されています。
補完的な選択原則を採用し、クラスタリングアルゴリズムを利用することにより、ACSPは、選択したコンポーネントが多様で補完的な分離機能を維持し、冗長性を低減し、高いネットワークパフォーマンスを維持することにより保証されます。
このメソッドは、各レイヤーのコンポーネントの最適なサブセットを自動的に決定し、膝を発見するアルゴリズムを使用して、ユーザー定義の剪定ボリュームを必要とせずにパフォーマンスを保持する最小限のサブセットを選択します。
CIFAR-10、CIFAR-100、およびImagENET-1Kなどのデータセット全体で、VGG-16、ResNet-50、MobileNet-V2を含む複数のアーキテクチャに関する広範な実験は、ACSPが他の方法と比較して競合精度を達成しながら、コンピューターコストを大幅に削減することを示しています。
この完全に自動化されたアプローチは、スケーラビリティを向上させるだけでなく、手動でプルーニングボリュームを定義する必要性を排除することにより、実際の展開にACSPを特に実用的にします。

要約(オリジナル)

In this paper, we present Automatic Complementary Separation Pruning (ACSP), a novel and fully automated pruning method for convolutional neural networks. ACSP integrates the strengths of both structured pruning and activation-based pruning, enabling the efficient removal of entire components such as neurons and channels while leveraging activations to identify and retain the most relevant components. Our approach is designed specifically for supervised learning tasks, where we construct a graph space that encodes the separation capabilities of each component with respect to all class pairs. By employing complementary selection principles and utilizing a clustering algorithm, ACSP ensures that the selected components maintain diverse and complementary separation capabilities, reducing redundancy and maintaining high network performance. The method automatically determines the optimal subset of components in each layer, utilizing a knee-finding algorithm to select the minimal subset that preserves performance without requiring user-defined pruning volumes. Extensive experiments on multiple architectures, including VGG-16, ResNet-50, and MobileNet-V2, across datasets like CIFAR-10, CIFAR-100, and ImageNet-1K, demonstrate that ACSP achieves competitive accuracy compared to other methods while significantly reducing computational costs. This fully automated approach not only enhances scalability but also makes ACSP especially practical for real-world deployment by eliminating the need for manually defining the pruning volume.

arxiv情報

著者 David Levin,Gonen Singer
発行日 2025-05-19 15:08:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Automatic Complementary Separation Pruning Toward Lightweight CNNs はコメントを受け付けていません

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

要約

グラフィカルユーザーインターフェイス(GUI)の接地、グラフィカルユーザーインターフェイス上の特定のアクションに自然言語の指示をマッピングする機能は、コンピューター使用エージェント開発における重要なボトルネックのままです。
現在のベンチマークは、ソフトウェアの常識、レイアウトの理解、微細な操作能力を必要とする現実世界の相互作用の複雑さをキャプチャすることができない、短い参照表現として接地タスクを過度に単純化します。
これらの制限に対処するために、テキストマッチング、要素認識、レイアウト理解、正確な操作など、多様なタスクタイプにわたって564の細かく注釈付きサンプルを含む包括的なベンチマークであるOsworld-Gを紹介します。
さらに、タスクのマルチパース視点デカップリングを通じて400万の例を含む最大のコンピューター使用接地データセットジェダイを合成およびリリースします。
Jediで訓練されたマルチスケールモデルは、Screenspot-V2、Screenspot-Pro、およびOsworld-Gで既存のアプローチを上回ることにより、その有効性を実証しています。
さらに、ジェダイとの接地を改善すると、複雑なコンピュータータスク上の一般的な基礎モデルのエージェント機能が直接強化され、OSWorldの5%から27%に改善することが示されています。
詳細なアブレーション研究を通じて、接地性能に貢献する重要な要因を特定し、さまざまなインターフェイス要素の特殊なデータを組み合わせることで、新しいインターフェイスに合成一般化が可能になることを確認します。
すべてのベンチマーク、データ、チェックポイント、およびコードはオープンソースで、https://osworld-grounding.github.ioで入手できます。

要約(オリジナル)

Graphical user interface (GUI) grounding, the ability to map natural language instructions to specific actions on graphical user interfaces, remains a critical bottleneck in computer use agent development. Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities. To address these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising 564 finely annotated samples across diverse task types including text matching, element recognition, layout understanding, and precise manipulation. Additionally, we synthesize and release the largest computer use grounding dataset Jedi, which contains 4 million examples through multi-perspective decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its effectiveness by outperforming existing approaches on ScreenSpot-v2, ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved grounding with Jedi directly enhances agentic capabilities of general foundation models on complex computer tasks, improving from 5% to 27% on OSWorld. Through detailed ablation studies, we identify key factors contributing to grounding performance and verify that combining specialized data for different interface elements enables compositional generalization to novel interfaces. All benchmark, data, checkpoints, and code are open-sourced and available at https://osworld-grounding.github.io.

arxiv情報

著者 Tianbao Xie,Jiaqi Deng,Xiaochuan Li,Junlin Yang,Haoyuan Wu,Jixuan Chen,Wenjing Hu,Xinyuan Wang,Yuhui Xu,Zekun Wang,Yiheng Xu,Junli Wang,Doyen Sahoo,Tao Yu,Caiming Xiong
発行日 2025-05-19 15:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis はコメントを受け付けていません

StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment

要約

データからの堅牢な表現を学習するには、多くの場合、スケールが必要であり、クリップなどの最近のゼロショットモデルの成功につながりました。
ただし、得られた堅牢性は、これらのモデルが他のダウンストリームタスク(たとえば、スケールなど)で微調整されると簡単に劣化できます。
以前の作品は、ドメインシフトのコンテキストでこの現象をしばしば解釈し、可能な限り元のドメインを保存することを目的とした微調整方法を開発します。
ただし、別のコンテキストでは、データが限られている微調整されたモデルは、背景やテクスチャなど、人間に偽の学習機能にもなりやすくなります。
この論文では、Starft(Smolious Textual Alignment Resulization)を提案します。これは、ゼロショットモデルを微調整するための新しいフレームワークであり、それらがスプリオシティを学ぶのを防ぐことで堅牢性を高めることです。
Spuriosity注入ラベルの出力分布を元のZero-Shotモデルと並べる正則化を導入し、モデルがこれらの記述から無関係な機能をさらに抽出するように誘導されないようにします。
ゼロショットグループの堅牢性とゼロショット分類の改善。
特に、Starftは、Waterbirds Group Shiftシナリオで、最悪のグループと平均精度の両方をそれぞれ14.30%と3.02%増加させます。

要約(オリジナル)

Learning robust representations from data often requires scale, which has led to the success of recent zero-shot models such as CLIP. However, the obtained robustness can easily be deteriorated when these models are fine-tuned on other downstream tasks (e.g., of smaller scales). Previous works often interpret this phenomenon in the context of domain shift, developing fine-tuning methods that aim to preserve the original domain as much as possible. However, in a different context, fine-tuned models with limited data are also prone to learning features that are spurious to humans, such as background or texture. In this paper, we propose StarFT (Spurious Textual Alignment Regularization), a novel framework for fine-tuning zero-shot models to enhance robustness by preventing them from learning spuriosity. We introduce a regularization that aligns the output distribution for spuriosity-injected labels with the original zero-shot model, ensuring that the model is not induced to extract irrelevant features further from these descriptions.We leverage recent language models to get such spuriosity-injected labels by generating alternative textual descriptions that highlight potentially confounding features.Extensive experiments validate the robust generalization of StarFT and its emerging properties: zero-shot group robustness and improved zero-shot classification. Notably, StarFT boosts both worst-group and average accuracy by 14.30% and 3.02%, respectively, in the Waterbirds group shift scenario, where other robust fine-tuning baselines show even degraded performance.

arxiv情報

著者 Younghyun Kim,Jongheon Jeong,Sangkyung Kwak,Kyungmin Lee,Juho Lee,Jinwoo Shin
発行日 2025-05-19 15:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment はコメントを受け付けていません

From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection

要約

例えば、クリップ、例えば、下流のタスクで印象的なゼロショット機能を示します。
以前の研究では、ランダムな作物などの視覚的増強技術の重要な役割を強調しており、大規模な言語モデル(LLM)によって生成された細粒クラスの説明とアライメントし、マルチビュー情報を組み込むことでゼロショットパフォーマンスを大幅に向上させます。
ただし、これらの増強の固有のランダム性は、必然的に背景アーティファクトを導入し、モデルがローカルの詳細に過度に焦点を合わせ、グローバルなセマンティック理解を損なう可能性があります。
これらの問題に対処するために、\ textbf {a} ttention- \ textbf {b} ased \ textbf {s}選挙(\ textbf {abs})方法を提案します。
さらに、LLMの説明を効果的にフィルタリングするためのソフトマッチングテクニックを導入して、より良いアラインメントを提供します。
\ textBf {abs}は、分散式の一般化とゼロショット分類タスクに関する最先端のパフォーマンスを実現します。
特に、\ textBf {abs}はトレーニングなしであり、ライバルでさえ少数のショットやテスト時間の適応方法です。
私たちのコードは、\ href {https://github.com/bit-da/abs} {\ textcolor {darkgreen} {https://github.com/bit-da/abs}で入手できます。

要約(オリジナル)

Pretrained vision-language models (VLMs), e.g., CLIP, demonstrate impressive zero-shot capabilities on downstream tasks. Prior research highlights the crucial role of visual augmentation techniques, like random cropping, in alignment with fine-grained class descriptions generated by large language models (LLMs), significantly enhancing zero-shot performance by incorporating multi-view information. However, the inherent randomness of these augmentations can inevitably introduce background artifacts and cause models to overly focus on local details, compromising global semantic understanding. To address these issues, we propose an \textbf{A}ttention-\textbf{B}ased \textbf{S}election (\textbf{ABS}) method from local details to global context, which applies attention-guided cropping in both raw images and feature space, supplement global semantic information through strategic feature selection. Additionally, we introduce a soft matching technique to effectively filter LLM descriptions for better alignment. \textbf{ABS} achieves state-of-the-art performance on out-of-distribution generalization and zero-shot classification tasks. Notably, \textbf{ABS} is training-free and even rivals few-shot and test-time adaptation methods. Our code is available at \href{https://github.com/BIT-DA/ABS}{\textcolor{darkgreen}{https://github.com/BIT-DA/ABS}}.

arxiv情報

著者 Lincan Cai,Jingxuan Kang,Shuang Li,Wenxuan Ma,Binhui Xie,Zhida Qin,Jian Liang
発行日 2025-05-19 15:15:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Local Details to Global Context: Advancing Vision-Language Models with Attention-Based Selection はコメントを受け付けていません

WriteViT: Handwritten Text Generation with Vision Transformer

要約

人間は、コンテンツをスタイルから直感的に分離することにより、単一の例から手書きスタイルを迅速に一般化できます。
ただし、マシンは、特に低データ設定では、このタスクに苦労しており、しばしば微妙な空間的および文体的な手がかりが欠けています。
このギャップに動機付けられて、さまざまなコンピュータービジョンタスクで強力なパフォーマンスを示しているモデルのファミリであるVision Transformers(VIT)を組み込んだワンショットの手書きのテキスト合成フレームワークであるWriteVitを紹介します。
WriteVitは、条件付き位置エンコーディング(CPE)によって強化されたトランスエンコーダデコーダーブロックで構築されたマルチスケールジェネレーター、および軽量VITベースの認識者を抽出するためのVITベースのライター識別子を統合します。
以前の方法は通常、CNNまたはCRNNに依存していますが、当社の設計は、ファイングレインストロークの詳細と高レベルのスタイル情報の両方をよりよくキャプチャするために、主要なコンポーネントの変圧器を活用しています。
手書きのテキスト統合は広く探求されていますが、そのベトナムへの適用 – ディクリティックと複雑なタイポグラフィが豊富な言語 – はまだ限られています。
ベトナムと英語のデータセットでの実験は、WriteVitが低リソースシナリオで強力な認識パフォーマンスを維持しながら、高品質のスタイルに一貫性のある手書きを生成することを示しています。
これらの結果は、多言語の手書きの生成と効率的なスタイルの適応のための変圧器ベースの設計の約束を強調しています。

要約(オリジナル)

Humans can quickly generalize handwriting styles from a single example by intuitively separating content from style. Machines, however, struggle with this task, especially in low-data settings, often missing subtle spatial and stylistic cues. Motivated by this gap, we introduce WriteViT, a one-shot handwritten text synthesis framework that incorporates Vision Transformers (ViT), a family of models that have shown strong performance across various computer vision tasks. WriteViT integrates a ViT-based Writer Identifier for extracting style embeddings, a multi-scale generator built with Transformer encoder-decoder blocks enhanced by conditional positional encoding (CPE), and a lightweight ViT-based recognizer. While previous methods typically rely on CNNs or CRNNs, our design leverages transformers in key components to better capture both fine-grained stroke details and higher-level style information. Although handwritten text synthesis has been widely explored, its application to Vietnamese — a language rich in diacritics and complex typography — remains limited. Experiments on Vietnamese and English datasets demonstrate that WriteViT produces high-quality, style-consistent handwriting while maintaining strong recognition performance in low-resource scenarios. These results highlight the promise of transformer-based designs for multilingual handwriting generation and efficient style adaptation.

arxiv情報

著者 Dang Hoai Nam,Huynh Tong Dang Khoa,Vo Nguyen Le Duy
発行日 2025-05-19 15:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | WriteViT: Handwritten Text Generation with Vision Transformer はコメントを受け付けていません

Captured by Captions: On Memorization and its Mitigation in CLIP Models

要約

クリップなどのマルチモーダルモデルは、画像検索やゼロショット分類などのタスクに優れている視覚的表現とテキスト表現の調整において強力なパフォーマンスを実証しています。
この成功にもかかわらず、これらのモデルがトレーニングデータ、特に暗記の役割を利用するメカニズムは不明のままです。
監督されたものと自己科学者の両方のユニモーダルモデルでは、暗記は一般化に不可欠であることが示されています。
ただし、これらの調査結果がクリップにどのように適用されるかはよく理解されていません。これは、ラベルと同様の監督信号を提供するキャプションを介して、および対照的な目的を介した自己監視学習の両方のキャプションを介して、監視された学習の両方からの要素を組み込んでいます。
このギャップを理解するために、クリップの暗記の正式な定義を提案し、それを使用してクリップモデルの暗記を定量化します。
私たちの結果は、クリップの暗記行動が監督されたパラダイムと自己監視のパラダイムの間にあることを示しています。
さらに、テキストエンコーダーは画像エンコーダよりも暗記に多くの貢献をしていることがわかり、緩和戦略がテキストドメインに焦点を当てるべきであることが示唆されています。
これらの洞察に基づいて、私たちは暗記を減らすと同時に、実用性を改善するための複数の戦略を提案します。これは、一般的に暗記を減らすことでユーティリティが減少するという伝統的な学習パラダイムのために示されていなかったものです。

要約(オリジナル)

Multi-modal models, such as CLIP, have demonstrated strong performance in aligning visual and textual representations, excelling in tasks like image retrieval and zero-shot classification. Despite this success, the mechanisms by which these models utilize training data, particularly the role of memorization, remain unclear. In uni-modal models, both supervised and self-supervised, memorization has been shown to be essential for generalization. However, it is not well understood how these findings would apply to CLIP, which incorporates elements from both supervised learning via captions that provide a supervisory signal similar to labels, and from self-supervised learning via the contrastive objective. To bridge this gap in understanding, we propose a formal definition of memorization in CLIP (CLIPMem) and use it to quantify memorization in CLIP models. Our results indicate that CLIP’s memorization behavior falls between the supervised and self-supervised paradigms, with ‘mis-captioned’ samples exhibiting highest levels of memorization. Additionally, we find that the text encoder contributes more to memorization than the image encoder, suggesting that mitigation strategies should focus on the text domain. Building on these insights, we propose multiple strategies to reduce memorization while at the same time improving utility–something that had not been shown before for traditional learning paradigms where reducing memorization typically results in utility decrease.

arxiv情報

著者 Wenhao Wang,Adam Dziedzic,Grace C. Kim,Michael Backes,Franziska Boenisch
発行日 2025-05-19 15:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Captured by Captions: On Memorization and its Mitigation in CLIP Models はコメントを受け付けていません

JetFormer: An Autoregressive Generative Model of Raw Images and Text

要約

モデリングの制約を削除し、ドメイン全体でアーキテクチャを統合することは、大規模なマルチモーダルモデルのトレーニングにおける最近の進捗の重要な要因となっています。
ただし、これらのモデルのほとんどは、モダリティ固有のエンコーダやデコーダーなど、個別にトレーニングされたコンポーネントの多くに依然として依存しています。
この作業では、画像とテキストの共同生成モデリングをさらに合理化します。
私たちは、個別に前提条件のコンポーネントに依存せずに、生データの可能性を直接最大化するようにトレーニングされ、テキストと画像の両方を理解して生成することができる自動再生デコーダーのみのトランス – ジェットフォーマーを提案します。
具体的には、正規化フローモデルを活用して、自己回帰マルチモーダルトランスと共同で訓練されたソフトトークン画像表現を取得します。
正規化フローモデルは、知覚タスク用の画像エンコーダーと、推論中の画像生成タスク用の画像デコーダーの両方として機能します。
Jetformerは、最近のVQ-VaeおよびVaeベースのベースラインと競争力のあるテキストからイメージまでの生成品質を達成します。
これらのベースラインは、知覚されたものを含む複雑な損失の混合で訓練された前提条件の画像自動エンコーダーに依存しています。
同時に、Jetformerは堅牢な画像理解機能を示します。
私たちの知る限り、Jetformerは、高忠実度の画像を生成し、強い対数尤度の境界を生成できる最初のモデルです。

要約(オリジナル)

Removing modeling constraints and unifying architectures across domains has been a key driver of the recent progress in training large multimodal models. However, most of these models still rely on many separately trained components such as modality-specific encoders and decoders. In this work, we further streamline joint generative modeling of images and text. We propose an autoregressive decoder-only transformer – JetFormer – which is trained to directly maximize the likelihood of raw data, without relying on any separately pretrained components, and can understand and generate both text and images. Specifically, we leverage a normalizing flow model to obtain a soft-token image representation that is jointly trained with an autoregressive multimodal transformer. The normalizing flow model serves as both an image encoder for perception tasks and an image decoder for image generation tasks during inference. JetFormer achieves text-to-image generation quality competitive with recent VQ-VAE- and VAE-based baselines. These baselines rely on pretrained image autoencoders, which are trained with a complex mixture of losses, including perceptual ones. At the same time, JetFormer demonstrates robust image understanding capabilities. To the best of our knowledge, JetFormer is the first model that is capable of generating high-fidelity images and producing strong log-likelihood bounds.

arxiv情報

著者 Michael Tschannen,André Susano Pinto,Alexander Kolesnikov
発行日 2025-05-19 15:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | JetFormer: An Autoregressive Generative Model of Raw Images and Text はコメントを受け付けていません

FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning

要約

大きなビジョン言語モデル(LVLMS)の急速な進歩にもかかわらず、既存のビデオキャプションベンチマークは、人間の理解との整合性を評価する際に限られたままです。
ほとんどは、ビデオごとの単一の注釈と語彙的類似性ベースのメトリックに依存しており、人間の知覚の変動とイベントの認知的重要性を捉えられません。
これらの制限は、コヒーレント、完全、および人間に合わせた説明を生成する際のモデル機能の正確な診断を妨げます。
これに対処するために、評価に合わせて調整された人間中心のベンチマークであるFiova(5インチのビデオアノテーション)を紹介します。
3,002個の実世界のビデオ(それぞれ約33.6秒)で構成され、それぞれが5つのアノテーターによって独立して注釈が付けられています。
この設計により、セマンティックの多様性と主観間契約のモデリングが可能になり、ヒューマンマシンアライメントを測定するためのより豊かな基盤を提供します。
さらに、Antator Consensusに由来する認知重みを組み込んだイベントレベルの評価メトリックであるFiova-DQをさらに提案し、イベントの関連性とセマンティックカバレッジの微細な評価を提供します。
Fiovaを活用すると、9つの代表的なLVLMSの包括的な評価を実施し、アノテーター間変動(CV)に基づいて複雑さを認識した分析フレームワークを導入します。
これにより、難易度レベル全体の一貫性のギャップが明らかになり、イベントの過小説明やテンプレートの収束などの構造的な問題を識別します。
私たちの結果は、さまざまな複雑さの下でLVLMの行動を理解するためのFiovaの診断価値を強調し、長いビデオキャプションで認知的に整合した評価の新しい基準を設定します。
ベンチマーク、注釈、メトリック、およびモデル出力は、ビデオ理解における将来の評価駆動型の研究をサポートするために公開されています。
詳細については、https://huuuuusy.github.io/fiova/をご覧ください。

要約(オリジナル)

Despite rapid progress in large vision-language models (LVLMs), existing video caption benchmarks remain limited in evaluating their alignment with human understanding. Most rely on a single annotation per video and lexical similarity-based metrics, failing to capture the variability in human perception and the cognitive importance of events. These limitations hinder accurate diagnosis of model capabilities in producing coherent, complete, and human-aligned descriptions. To address this, we introduce FIOVA (Five-In-One Video Annotations), a human-centric benchmark tailored for evaluation. It comprises 3,002 real-world videos (about 33.6s each), each annotated independently by five annotators. This design enables modeling of semantic diversity and inter-subjective agreement, offering a richer foundation for measuring human-machine alignment. We further propose FIOVA-DQ, an event-level evaluation metric that incorporates cognitive weights derived from annotator consensus, providing fine-grained assessment of event relevance and semantic coverage. Leveraging FIOVA, we conduct a comprehensive evaluation of nine representative LVLMs and introduce a complexity-aware analysis framework based on inter-annotator variation (CV). This reveals consistency gaps across difficulty levels and identifies structural issues such as event under-description and template convergence. Our results highlight FIOVA’s diagnostic value for understanding LVLM behavior under varying complexity, setting a new standard for cognitively aligned evaluation in long-video captioning. The benchmark, annotations, metric, and model outputs are publicly released to support future evaluation-driven research in video understanding. More detailed information can be found at https://huuuuusy.github.io/fiova/.

arxiv情報

著者 Shiyu Hu,Xuchen Li,Xuzhao Li,Jing Zhang,Yipei Wang,Xin Zhao,Kang Hao Cheong
発行日 2025-05-19 15:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning はコメントを受け付けていません