Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

要約

AIの安全性にとって解釈可能性と操縦性が重要であることを考えると、スパース自動エンコーダー(SAE)は、大規模な言語モデル(LLM)でそれらを強化するツールとして浮上しています。
この作業では、SAEの適用をクリップなどのビジョン言語モデル(VLM)に拡張し、視覚表現のニューロンレベルで単一態度を評価するための包括的なフレームワークを導入します。
評価が人間の認識と一致するようにするために、大規模なユーザー調査から派生したベンチマークを提案します。
私たちの実験結果は、VLMSで訓練されたSAEが個々のニューロンの単系態度を大幅に向上させることを明らかにしています。スパース性と幅広い潜伏は最も影響力のある要因です。
特に、ClipのVisionエンコーダーにSAE介入を適用すると、基礎となるモデルに変更がなく、マルチモーダルLLM出力(LLAVAなど)を直接操縦することが示されています。
これらの発見は、VLMの解釈可能性と制御の両方を強化するための監視されていないツールとしてのSAEの実用性と有効性を強調しています。
コードはhttps://github.com/explainableml/sae-for-vlmで入手できます。

要約(オリジナル)

Given that interpretability and steerability are crucial to AI safety, Sparse Autoencoders (SAEs) have emerged as a tool to enhance them in Large Language Models (LLMs). In this work, we extend the application of SAEs to Vision-Language Models (VLMs), such as CLIP, and introduce a comprehensive framework for evaluating monosemanticity at the neuron-level in vision representations. To ensure that our evaluation aligns with human perception, we propose a benchmark derived from a large-scale user study. Our experimental results reveal that SAEs trained on VLMs significantly enhance the monosemanticity of individual neurons, with sparsity and wide latents being the most influential factors. Notably, we demonstrate that applying SAE interventions on CLIP’s vision encoder directly steers multimodal LLM outputs (e.g., LLaVA), without any modifications to the underlying model. These findings emphasize the practicality and efficacy of SAEs as an unsupervised tool for enhancing both interpretability and control of VLMs. Code is available at https://github.com/ExplainableML/sae-for-vlm.

arxiv情報

著者 Mateusz Pach,Shyamgopal Karthik,Quentin Bouniot,Serge Belongie,Zeynep Akata
発行日 2025-06-06 17:18:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models はコメントを受け付けていません

Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

要約

エゴセントリック(一人称)とエクソセントリック(サードパーソン)の両方の視点から世界を認識することは、人間の認知の基本であり、動的環境の豊かで補完的な理解を可能にします。
近年、これらの二重の視点の相乗的可能性を機械が活用できるようにすることは、ビデオ理解における説得力のある研究の方向として浮上しています。
この調査では、外心部と自己中心の両​​方の視点からのビデオ理解の包括的なレビューを提供します。
まず、ドメイン全体での潜在的なコラボレーションを想定して、エゴセントリックおよびエキソセントリックな技術を統合する実用的なアプリケーションを強調することから始めます。
次に、これらのアプリケーションを実現するために重要な研究タスクを特定します。
次に、最近の進歩を体系的に整理してレビューし、3つの主要な研究方向性になりました。(1)エクソセントリックな理解を高めるためにエゴセントリックデータを活用し、(2)エキソコン状データを利用してエゴセントリック分析を改善する、(3)両方の視点を統合する共同学習フレームワーク。
各方向について、多様なタスクと関連する作業のセットを分析します。
さらに、両方の視点での研究をサポートするベンチマークデータセットについて説明し、その範囲、多様性、および適用性を評価します。
最後に、現在の作品の制限について説明し、有望な将来の研究の方向性を提案します。
両方の観点から洞察を統合することにより、私たちの目標は、ビデオ理解と人工知能の進歩を刺激し、機械を人間のような方法で世界を知覚することに近づけることです。
関連する作品のGithubリポジトリは、https://github.com/ayiyayi/awesome-egocicentric-and-exocentric-visionにあります。

要約(オリジナル)

Perceiving the world from both egocentric (first-person) and exocentric (third-person) perspectives is fundamental to human cognition, enabling rich and complementary understanding of dynamic environments. In recent years, allowing the machines to leverage the synergistic potential of these dual perspectives has emerged as a compelling research direction in video understanding. In this survey, we provide a comprehensive review of video understanding from both exocentric and egocentric viewpoints. We begin by highlighting the practical applications of integrating egocentric and exocentric techniques, envisioning their potential collaboration across domains. We then identify key research tasks to realize these applications. Next, we systematically organize and review recent advancements into three main research directions: (1) leveraging egocentric data to enhance exocentric understanding, (2) utilizing exocentric data to improve egocentric analysis, and (3) joint learning frameworks that unify both perspectives. For each direction, we analyze a diverse set of tasks and relevant works. Additionally, we discuss benchmark datasets that support research in both perspectives, evaluating their scope, diversity, and applicability. Finally, we discuss limitations in current works and propose promising future research directions. By synthesizing insights from both perspectives, our goal is to inspire advancements in video understanding and artificial intelligence, bringing machines closer to perceiving the world in a human-like manner. A GitHub repo of related works can be found at https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.

arxiv情報

著者 Yuping He,Yifei Huang,Guo Chen,Lidong Lu,Baoqi Pei,Jilan Xu,Tong Lu,Yoichi Sato
発行日 2025-06-06 17:25:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision はコメントを受け付けていません

DPCore: Dynamic Prompt Coreset for Continual Test-Time Adaptation

要約

継続的なテスト時間適応(CTTA)は、事前に訓練されたモデルを継続的に変化しないターゲットドメインに適応させることを目指しています。
既存のCTTAメソッドは、均一な期間で構造化されたドメインの変化を想定していますが、実際の環境は、さまざまな周波数と期間でドメインが再発する動的なパターンを示すことがよくあります。
さまざまなドメインで同じパラメーターを適応させる現在のアプローチは、そのような動的な条件で苦労しています – 彼らは短いドメインの露出との収束の問題、以前に学んだ知識を忘れているリスク、またはそれを無関係なドメインに誤用します。
これを改善するために、DPCOREを提案します。DPCoreは、多様なドメインの変化パターンにわたって堅牢なパフォーマンスのために設計された方法であり、計算効率を確保します。
DPCOREは、3つの重要なコンポーネントを統合します。効率的なドメインアライメントの視覚的なプロンプト適応、知識保存のためのプロンプトコアセット、および実質的に異なるドメインの新しいドメインの新しいドメインを作成しながら、既存のプロンプトをインテリジェントに調整する動的な更新メカニズム。
4つのベンチマークでの広範な実験は、DPCOREがさまざまなCTTAメソッドを一貫して上回り、構造化された設定と動的設定の両方で最先端のパフォーマンスを達成しながら、以前のアプローチと比較して99%と計算時間を64%削減することを示しています。

要約(オリジナル)

Continual Test-Time Adaptation (CTTA) seeks to adapt source pre-trained models to continually changing, unseen target domains. While existing CTTA methods assume structured domain changes with uniform durations, real-world environments often exhibit dynamic patterns where domains recur with varying frequencies and durations. Current approaches, which adapt the same parameters across different domains, struggle in such dynamic conditions-they face convergence issues with brief domain exposures, risk forgetting previously learned knowledge, or misapplying it to irrelevant domains. To remedy this, we propose DPCore, a method designed for robust performance across diverse domain change patterns while ensuring computational efficiency. DPCore integrates three key components: Visual Prompt Adaptation for efficient domain alignment, a Prompt Coreset for knowledge preservation, and a Dynamic Update mechanism that intelligently adjusts existing prompts for similar domains while creating new ones for substantially different domains. Extensive experiments on four benchmarks demonstrate that DPCore consistently outperforms various CTTA methods, achieving state-of-the-art performance in both structured and dynamic settings while reducing trainable parameters by 99% and computation time by 64% compared to previous approaches.

arxiv情報

著者 Yunbei Zhang,Akshay Mehra,Shuaicheng Niu,Jihun Hamm
発行日 2025-06-06 17:32:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DPCore: Dynamic Prompt Coreset for Continual Test-Time Adaptation はコメントを受け付けていません

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

要約

AIが人々の日常活動とより密接に統合されるようになるにつれて、日常生活で人間とシームレスに理解し、相互作用できる社会的に知的なAIがますます重要になっています。
ただし、AIの社会的推論における現在の作業はすべて、言語のみまたは言語を支配的なアプローチに依存しているため、ベンチマークおよびトレーニングモデルに依存しており、言語コミュニケーションが改善されているが、非言語的な社会的理解と闘っています。
この制限に対処するために、私たちは非言語的な社会的相互作用に富んだ新しいデータソース、Mimeビデオを活用します。
マイムは、話された言葉のないジェスチャーと動きを通して表現の芸術を指します。
YouTubeから8時間のビデオクリップを調達し、非言語的な社会的推論能力をプローブするように設計された慎重に注釈付きおよび検証された質問回答ペアを含む包括的なビデオ質問ベンチマークを開発することにより、Mimeqaと呼ばれる新しいデータセットを提供します。
Mimeqaを使用して、最先端のビデオ大手言語モデル(VLLM)を評価し、20〜30%の範囲の全体的な精度が低く、人間が86%を獲得していることがわかります。
私たちの分析は、VLLMが想像上のオブジェクトを接地できず、テキストプロンプトに依存しないことが多いことを明らかにしています。
私たちは、非言語的な人間の相互作用を解釈できる真の社会的知性を具体化するAIモデルでの将来の仕事を鼓舞したいと考えています。

要約(オリジナル)

As AI becomes more closely integrated with peoples’ daily activities, socially intelligent AI that can understand and interact seamlessly with humans in daily lives is increasingly important. However, current works in AI social reasoning all rely on language-only or language-dominant approaches to benchmark and training models, resulting in systems that are improving in verbal communication but struggle with nonverbal social understanding. To address this limitation, we tap into a novel data source rich in nonverbal social interactions — mime videos. Mimes refer to the art of expression through gesture and movement without spoken words, which presents unique challenges and opportunities in interpreting nonverbal social communication. We contribute a new dataset called MimeQA, obtained by sourcing 8 hours of videos clips from YouTube and developing a comprehensive video question-answering benchmark comprising 806 carefully annotated and verified question-answer pairs, designed to probe nonverbal social reasoning capabilities. Using MimeQA, we evaluate state-of-the-art video large language models (vLLMs) and find that they achieve low overall accuracy, ranging from 20-30%, while humans score 86%. Our analysis reveals that vLLMs often fail to ground imagined objects and over-rely on the text prompt while ignoring subtle nonverbal interactions. We hope to inspire future work in AI models that embody true social intelligence capable of interpreting non-verbal human interactions.

arxiv情報

著者 Hengzhi Li,Megan Tjandrasuwita,Yi R. Fung,Armando Solar-Lezama,Paul Pu Liang
発行日 2025-06-06 17:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models はコメントを受け付けていません

Normalizing Flows are Capable Generative Models

要約

正規化フロー(NFS)は、連続入力の尤度ベースのモデルです。
彼らは、密度の推定と生成モデリングタスクの両方で有望な結果を示していますが、近年は比較的ほとんど注目されていません。
この作業では、NFSが以前に考えられていたよりも強力であることを示しています。
Tarflow:非常にパフォーマンスの高いNFモデルを可能にするシンプルでスケーラブルなアーキテクチャを提示します。
Tarflowは、マスクされた自己回帰流(MAF)の変圧器ベースのバリアントと考えることができます。これは、画像パッチ上の自己回帰トランスブロックのスタックで構成され、レイヤー間の自己回復方向を交互にします。
Tarflowは、エンドツーエンドをトレーニングするのに簡単で、ピクセルを直接モデリングおよび生成できます。
また、サンプルの品質を改善するための3つの重要な手法を提案します。トレーニング中のガウスノイズ増強、トレーニング後の除去手順、およびクラス条件付きおよび無条件の両方の設定のための効果的なガイダンス方法です。
これらをまとめると、Tarflowは、画像の尤度推定に関する新しい最先端の結果を設定し、以前の最良の方法を大きなマージンで破り、拡散モデルに匹敵する品質と多様性のあるサンプルを、スタンドアロンNFモデルで初めて生成します。
https://github.com/apple/ml-tarflowでコードを利用できるようにします。

要約(オリジナル)

Normalizing Flows (NFs) are likelihood-based models for continuous inputs. They have demonstrated promising results on both density estimation and generative modeling tasks, but have received relatively little attention in recent years. In this work, we demonstrate that NFs are more powerful than previously believed. We present TarFlow: a simple and scalable architecture that enables highly performant NF models. TarFlow can be thought of as a Transformer-based variant of Masked Autoregressive Flows (MAFs): it consists of a stack of autoregressive Transformer blocks on image patches, alternating the autoregression direction between layers. TarFlow is straightforward to train end-to-end, and capable of directly modeling and generating pixels. We also propose three key techniques to improve sample quality: Gaussian noise augmentation during training, a post training denoising procedure, and an effective guidance method for both class-conditional and unconditional settings. Putting these together, TarFlow sets new state-of-the-art results on likelihood estimation for images, beating the previous best methods by a large margin, and generates samples with quality and diversity comparable to diffusion models, for the first time with a stand-alone NF model. We make our code available at https://github.com/apple/ml-tarflow.

arxiv情報

著者 Shuangfei Zhai,Ruixiang Zhang,Preetum Nakkiran,David Berthelot,Jiatao Gu,Huangjie Zheng,Tianrong Chen,Miguel Angel Bautista,Navdeep Jaitly,Josh Susskind
発行日 2025-06-06 17:45:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Normalizing Flows are Capable Generative Models はコメントを受け付けていません

Sketched Equivariant Imaging Regularization and Deep Internal Learning for Inverse Problems

要約

Equivariant Imaging(EI)の正則化は、地上の真実データを必要とせずに、深いイメージングネットワークの監視されていないトレーニングのための事実上の技術となっています。
EIベースの監視されていないトレーニングパラダイムが現在、高次元アプリケーションの非効率性につながる重要な計算冗長性を持っていることを観察して、加速のためにランダム化されたスケッチテクニックを活用するスケッチされたEI正規化を提案します。
スケッチされたEIの正則化を適用して、テスト時間ネットワークの適応に効率的に適用できる加速された深い内部学習フレームワークを開発します。
さらに、ネットワーク適応タスクの場合、正規化レイヤーのみを最適化することにより、EIとSketched-EIの両方を加速するためのパラメーター効率の高いアプローチを提案します。
X線CTおよびマルチコイル磁気共鳴画像再構成に関する我々の数値研究は、私たちのアプローチが、テスト時に単一入力設定とネットワーク適応で標準のEIカウンターパートよりも重要な計算加速を達成できることを示しています。

要約(オリジナル)

Equivariant Imaging (EI) regularization has become the de-facto technique for unsupervised training of deep imaging networks, without any need of ground-truth data. Observing that the EI-based unsupervised training paradigm currently has significant computational redundancy leading to inefficiency in high-dimensional applications, we propose a sketched EI regularization which leverages the randomized sketching techniques for acceleration. We apply our sketched EI regularization to develop an accelerated deep internal learning framework, which can be efficiently applied for test-time network adaptation. Additionally, for network adaptation tasks, we propose a parameter-efficient approach to accelerate both EI and Sketched-EI via optimizing only the normalization layers. Our numerical study on X-ray CT and multicoil magnetic resonance image reconstruction tasks demonstrate that our approach can achieve significant computational acceleration over standard EI counterpart in single-input setting and network adaptation at test time.

arxiv情報

著者 Guixian Xu,Jinglai Li,Junqi Tang
発行日 2025-06-06 17:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, math.OC | Sketched Equivariant Imaging Regularization and Deep Internal Learning for Inverse Problems はコメントを受け付けていません

Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks

要約

テキストが全体的な理解を導く中心的な視覚要素として機能するテキストが豊富な画像は、プレゼンテーションスライド、スキャンドキュメント、Webページのスナップショットなど、実際のアプリケーションで一般的です。
複数のテキストが豊富な画像を含むタスクは、個々の画像の内容を理解するだけでなく、複数の視覚入力にわたる相互関係と論理フローに関する推論が必要であるため、特に困難です。
これらのシナリオの重要性にもかかわらず、現在のマルチモーダル大手言語モデル(MLLMS)は、2つの重要な課題のためにそのようなタスクを処理するのに苦労しています。(1)テキストが豊富なマルチイメージシナリオの高品質の指導チューニングデータセットの希少性、および(2)画像解像度と視覚的特徴シーケンスの長さのバランスをとることの難しさ。
これらの課題に対処するために、複数のテキストが豊富な画像を含むビジョン言語タスクを処理するために調整されたMLLMであるLeopardを提案します。
まず、テキストが豊富なマルチイメージシナリオに合わせて、約100万の高品質のマルチモーダル命令調整データをキュレーションしました。
第二に、元のアスペクト比と画像の解像度に基づいて視覚シーケンス長の割り当てを動的に最適化するために、適応的な高解像度マルチイメージエンコードモジュールを提案しました。
多様な一連のベンチマークでの実験により、私たちのモデルは、テキストが豊富なマルチイメージ評価に挑戦して、Llama-3.2やQWEN2-VLなどの最先端のシステムを常に上回ることが明らかになりました。
驚くべきことに、私たちのアプローチは、わずか1.2mのトレーニングインスタンスを使用して優れたパフォーマンスを実現します。これらはすべて完全にオープンソーシングされており、大規模な社内データでトレーニングされたモデルと比較して高効率と有効性の両方を実証しています。
私たちのコードとデータは、https://github.com/tencent-ailab/leopardで入手できます。

要約(オリジナル)

Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose Leopard, an MLLM tailored for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we proposed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of images. Experiments on a diverse set of benchmarks reveal that our model consistently outperforms state-of-the-art systems, such as Llama-3.2 and Qwen2-VL, in challenging text-rich, multi-image evaluations. Remarkably, our approach achieves outstanding performance using only 1.2M training instances, all of which are fully open-sourced, demonstrating both high efficiency and effectiveness compared to models trained on large-scale in-house data. Our code and data are available at https://github.com/tencent-ailab/Leopard.

arxiv情報

著者 Mengzhao Jia,Wenhao Yu,Kaixin Ma,Tianqing Fang,Zhihan Zhang,Siru Ouyang,Hongming Zhang,Dong Yu,Meng Jiang
発行日 2025-06-06 17:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks はコメントを受け付けていません

BecomingLit: Relightable Gaussian Avatars with Hybrid Neural Shading

要約

Interactiveレートで新しい視点からレンダリングできる、信頼性の高い高解像度のヘッドアバターを再構築するための新しい方法であるBegingLitを紹介します。
したがって、顔をキャプチャするために特別に調整された新しい低コストのライトステージキャプチャセットアップを提案します。
このセットアップを使用して、さまざまな照明条件と表情の下で多数の被験者の多様なマルチビューシーケンスで構成される新しいデータセットを収集します。
新しいデータセットを活用することにより、パラメトリックヘッドモデルと式に依存するダイナミクスモジュールでアニメーション化する3Dガウスプリミティブに基づいた新しい安定したアバター表現を導入します。
神経拡散BRDFと分析的鏡面項を組み合わせて、新しいハイブリッドニューラルシェーディングアプローチを提案します。
私たちの方法は、ダイナミックライトステージの録音から解き放たれた素材を再構築し、ポイントライトと環境マップの両方でアバターをすべての周波数再採取できるようにします。
さらに、私たちのアバターは、単眼ビデオから簡単にアニメーション化して制御できます。
データセットでの広範な実験でアプローチを検証します。このアプローチでは、既存の最先端の方法を、かなりのマージンでの再生と再現の最先端の方法よりも常に上回ります。

要約(オリジナル)

We introduce BecomingLit, a novel method for reconstructing relightable, high-resolution head avatars that can be rendered from novel viewpoints at interactive rates. Therefore, we propose a new low-cost light stage capture setup, tailored specifically towards capturing faces. Using this setup, we collect a novel dataset consisting of diverse multi-view sequences of numerous subjects under varying illumination conditions and facial expressions. By leveraging our new dataset, we introduce a new relightable avatar representation based on 3D Gaussian primitives that we animate with a parametric head model and an expression-dependent dynamics module. We propose a new hybrid neural shading approach, combining a neural diffuse BRDF with an analytical specular term. Our method reconstructs disentangled materials from our dynamic light stage recordings and enables all-frequency relighting of our avatars with both point lights and environment maps. In addition, our avatars can easily be animated and controlled from monocular videos. We validate our approach in extensive experiments on our dataset, where we consistently outperform existing state-of-the-art methods in relighting and reenactment by a significant margin.

arxiv情報

著者 Jonathan Schmidt,Simon Giebenhain,Matthias Niessner
発行日 2025-06-06 17:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BecomingLit: Relightable Gaussian Avatars with Hybrid Neural Shading はコメントを受け付けていません

Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding

要約

ビジョン言語モデル(VLMS)の最近の進歩にもかかわらず、現在のベンチマークの制限のために、長型のビデオコンテンツの全体的な理解は重要な課題のままです。
多くの人が周辺の「ヘイスタックの針」の詳細に焦点を当てており、深い理解に対するコンテキストに依存しない検索を促進しています。
他の人は、モデルが答えやすいが本物の理解を反映することができない、大規模で半自動的に生成された質問(言語モデル自体によって生成されることが多い)に依存しています。
このペーパーでは、モデルがフルレングスの映画(長さ50〜170分)から重要な物語情報を理解、統合、および想起できるかどうかを評価するための新しいベンチマークであるMF $^2 $を紹介します。
MF $^2 $には、50を超えるフルレングスのオープンライセンスの映画が含まれており、それぞれが手動で構築されたクレームペアのセットとペアになります。
これらの主張は、キャラクターの動機と感情、因果チェーン、イベントの順序などのコアナラティブ要素を対象としており、人間が映画を再視聴せずに思い出すことができる記憶に残る瞬間を指します。
複数選択形式の代わりに、バイナリクレーム評価プロトコルを採用します。各ペアについて、モデルは真と虚偽のクレームの両方を正しく識別する必要があります。
これにより、回答のようなバイアスが減少し、推論のより正確な評価が可能になります。
私たちの実験は、オープンウェイトと閉じた最先端のモデルの両方が人間のパフォーマンスに大きく及ばないことを示しており、人間のタスクの相対的な容易さと、重要な物語情報を維持し、推論する優れた能力を強調しています。

要約(オリジナル)

Despite recent progress in vision-language models (VLMs), holistic understanding of long-form video content remains a significant challenge, partly due to limitations in current benchmarks. Many focus on peripheral, “needle-in-a-haystack” details, encouraging context-insensitive retrieval over deep comprehension. Others rely on large-scale, semi-automatically generated questions (often produced by language models themselves) that are easier for models to answer but fail to reflect genuine understanding. In this paper, we introduce MF$^2$, a new benchmark for evaluating whether models can comprehend, consolidate, and recall key narrative information from full-length movies (50-170 minutes long). MF$^2$ includes over 50 full-length, open-licensed movies, each paired with manually constructed sets of claim pairs — one true (fact) and one plausible but false (fib), totalling over 850 pairs. These claims target core narrative elements such as character motivations and emotions, causal chains, and event order, and refer to memorable moments that humans can recall without rewatching the movie. Instead of multiple-choice formats, we adopt a binary claim evaluation protocol: for each pair, models must correctly identify both the true and false claims. This reduces biases like answer ordering and enables a more precise assessment of reasoning. Our experiments demonstrate that both open-weight and closed state-of-the-art models fall well short of human performance, underscoring the relative ease of the task for humans and their superior ability to retain and reason over critical narrative information — an ability current VLMs lack.

arxiv情報

著者 Emmanouil Zaranis,António Farinhas,Saul Santos,Beatriz Canaverde,Miguel Moura Ramos,Aditya K Surikuchi,André Viveiros,Baohao Liao,Elena Bueno-Benito,Nithin Sivakumaran,Pavlo Vasylenko,Shoubin Yu,Sonal Sannigrahi,Wafaa Mohammed,Ben Peters,Danae Sánchez Villegas,Elias Stengel-Eskin,Giuseppe Attanasio,Jaehong Yoon,Stella Frank,Alessandro Suglia,Chrysoula Zerva,Desmond Elliott,Mariella Dimiccoli,Mohit Bansal,Oswald Lanz,Raffaella Bernardi,Raquel Fernández,Sandro Pezzelle,Vlad Niculae,André F. T. Martins
発行日 2025-06-06 17:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding はコメントを受け付けていません

STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

要約

高解像度の画像合成で強力なパフォーマンスを達成する正規化フローに基づいたスケーラブルな生成モデルであるStarflowを提示します。
スターフローのコアは、トランスオートルーリングフロー(TARFLOW)です。これは、フローを正常化する表現力と、自己回帰トランスの構造化されたモデリング機能を組み合わせています。
まず、連続分布をモデリングするためのTarflowの理論的普遍性を確立します。
この基盤に基づいて、いくつかの重要なアーキテクチャおよびアルゴリズムの革新を導入して、スケーラビリティを大幅に向上させます。(1)深い変圧器ブロックがモデルの表現能力の大部分をキャプチャし、計算上効率的でありながら実質的に有益ないくつかの浅い変圧器ブロックによって補完されます。
(2)直接的なピクセルレベルのモデリングよりも効果的であることが証明された、前処理された自動エンコーダーの潜在空間でのモデリング。
(3)サンプル品質を大幅に向上させる新しいガイダンスアルゴリズム。
重要なことに、私たちのモデルはエンドツーエンドの正規化フローのままであり、離散化なしに連続空間での正確な最尤トレーニングを可能にします。
Starflowは、クラスの条件付きおよびテキスト条件付き画像生成タスクの両方で競争力のあるパフォーマンスを実現し、サンプル品質の最先端の拡散モデルに近づきます。
私たちの知る限り、この作業は、この規模と解像度で効果的に動作する正規化フローの最初の成功したデモです。

要約(オリジナル)

We present STARFlow, a scalable generative model based on normalizing flows that achieves strong performance in high-resolution image synthesis. The core of STARFlow is Transformer Autoregressive Flow (TARFlow), which combines the expressive power of normalizing flows with the structured modeling capabilities of Autoregressive Transformers. We first establish the theoretical universality of TARFlow for modeling continuous distributions. Building on this foundation, we introduce several key architectural and algorithmic innovations to significantly enhance scalability: (1) a deep-shallow design, wherein a deep Transformer block captures most of the model representational capacity, complemented by a few shallow Transformer blocks that are computationally efficient yet substantially beneficial; (2) modeling in the latent space of pretrained autoencoders, which proves more effective than direct pixel-level modeling; and (3) a novel guidance algorithm that significantly boosts sample quality. Crucially, our model remains an end-to-end normalizing flow, enabling exact maximum likelihood training in continuous spaces without discretization. STARFlow achieves competitive performance in both class-conditional and text-conditional image generation tasks, approaching state-of-the-art diffusion models in sample quality. To our knowledge, this work is the first successful demonstration of normalizing flows operating effectively at this scale and resolution.

arxiv情報

著者 Jiatao Gu,Tianrong Chen,David Berthelot,Huangjie Zheng,Yuyang Wang,Ruixiang Zhang,Laurent Dinh,Miguel Angel Bautista,Josh Susskind,Shuangfei Zhai
発行日 2025-06-06 17:58:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis はコメントを受け付けていません