Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models

要約

マルチモーダルの大手言語モデルの最近の進歩は、視覚的な質問に応答するブレークスルーを駆り立てています。
しかし、重要なギャップは続きます。「概念化」 – 視覚的な形のバリエーション、人間の推論の基本的な能力にもかかわらず、同じ概念について認識する能力と推論です。
この課題に対処するために、AIシステムの視覚抽象化の能力を評価および改善するために設計された6つのグラフベースのタスクを備えたデータセットであるVisual Graph Arena(VGA)を紹介します。
VGAは、多様なグラフレイアウト(例えば、カマダ – カワイ対平面など)を使用して、視覚的な形式とは無関係に推論をテストします。
最先端のビジョンモデルとマルチモーダルLLMを使用した実験では、顕著な格差が明らかになりました。人間はタスク全体でほぼ完璧な精度を達成しましたが、モデルは同型検出で完全に失敗し、パス/サイクルタスクで限られた成功を示しました。
さらに、真の理解ではなく、擬似知能パターンマッチングを示唆する行動異常を特定します。
これらの調査結果は、視覚的理解のための現在のAIモデルの基本的な制限を強調しています。
表現不変の推論の課題を分離することにより、VGAは、AI視覚モデルの人間のような概念化に向けて進歩を促進するためのフレームワークを提供します。
Visual Graph Arenaは、\ href {https://vga.csail.mit.edu/} {vga.csail.mit.edu}で入手できます。

要約(オリジナル)

Recent advancements in multimodal large language models have driven breakthroughs in visual question answering. Yet, a critical gap persists, `conceptualization’-the ability to recognize and reason about the same concept despite variations in visual form, a basic ability of human reasoning. To address this challenge, we introduce the Visual Graph Arena (VGA), a dataset featuring six graph-based tasks designed to evaluate and improve AI systems’ capacity for visual abstraction. VGA uses diverse graph layouts (e.g., Kamada-Kawai vs. planar) to test reasoning independent of visual form. Experiments with state-of-the-art vision models and multimodal LLMs reveal a striking divide: humans achieved near-perfect accuracy across tasks, while models totally failed on isomorphism detection and showed limited success in path/cycle tasks. We further identify behavioral anomalies suggesting pseudo-intelligent pattern matching rather than genuine understanding. These findings underscore fundamental limitations in current AI models for visual understanding. By isolating the challenge of representation-invariant reasoning, the VGA provides a framework to drive progress toward human-like conceptualization in AI visual models. The Visual Graph Arena is available at: \href{https://vga.csail.mit.edu/}{vga.csail.mit.edu}

arxiv情報

著者 Zahra Babaiee,Peyman M. Kiasari,Daniela Rus,Radu Grosu
発行日 2025-06-06 17:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models

要約

このペーパーでは、大規模なデータとモデルの時代における信頼できるガードレールの重要な必要性に対処するVLMベースのビジョン保護手段であるLlavaguardを紹介します。
この目的のために、カスタマイズ可能な安全分類法、データの前処理、増強、トレーニングのセットアップを説明する新しいオープンフレームワークを確立します。
安全性に関するVLMセーフガードを教えるために、高品質の人間の専門家注釈を備えたマルチモーダル安全データセットを作成します。各画像には、安全評価、カテゴリ、および根拠がラベル付けされています。
また、コンテキスト固有の評価をサポートするために、高度な増強を採用しています。
0.5bから7bの範囲の結果として得られるLlavaguardモデルは、柔軟なポリシーに対する視覚コンテンツの安全コンプライアンスを評価するための汎用性の高いツールとして機能します。
包括的な実験では、Llavaguardは、最先端のセーフガードとVLMの両方を精度と柔軟に処理して、さまざまなポリシーを柔軟に処理します。
さらに、2つの実際のアプリケーションでLlavaguardのパフォーマンスを示します。つまり、大規模なデータセットアノテーションとテキストから画像モデルのモデレーションです。
データセット、モデルの重み、トレーニングコードなど、フレームワーク全体を作成します。

要約(オリジナル)

This paper introduces LlavaGuard, a suite of VLM-based vision safeguards that address the critical need for reliable guardrails in the era of large-scale data and models. To this end, we establish a novel open framework, describing a customizable safety taxonomy, data preprocessing, augmentation, and training setup. For teaching a VLM safeguard on safety, we further create a multimodal safety dataset with high-quality human expert annotations, where each image is labeled with a safety rating, category, and rationale. We also employ advanced augmentations to support context-specific assessments. The resulting LlavaGuard models, ranging from 0.5B to 7B, serve as a versatile tool for evaluating the safety compliance of visual content against flexible policies. In comprehensive experiments, LlavaGuard outperforms both state-of-the-art safeguards and VLMs in accuracy and in flexibly handling different policies. Additionally, we demonstrate LlavaGuard’s performance in two real-world applications: large-scale dataset annotation and moderation of text-to-image models. We make our entire framework, including the dataset, model weights, and training code.

arxiv情報

著者 Lukas Helff,Felix Friedrich,Manuel Brack,Kristian Kersting,Patrick Schramowski
発行日 2025-06-06 17:08:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

要約

AIの安全性にとって解釈可能性と操縦性が重要であることを考えると、スパース自動エンコーダー(SAE)は、大規模な言語モデル(LLM)でそれらを強化するツールとして浮上しています。
この作業では、SAEの適用をクリップなどのビジョン言語モデル(VLM)に拡張し、視覚表現のニューロンレベルで単一態度を評価するための包括的なフレームワークを導入します。
評価が人間の認識と一致するようにするために、大規模なユーザー調査から派生したベンチマークを提案します。
私たちの実験結果は、VLMSで訓練されたSAEが個々のニューロンの単系態度を大幅に向上させることを明らかにしています。スパース性と幅広い潜伏は最も影響力のある要因です。
特に、ClipのVisionエンコーダーにSAE介入を適用すると、基礎となるモデルに変更がなく、マルチモーダルLLM出力(LLAVAなど)を直接操縦することが示されています。
これらの発見は、VLMの解釈可能性と制御の両方を強化するための監視されていないツールとしてのSAEの実用性と有効性を強調しています。
コードはhttps://github.com/explainableml/sae-for-vlmで入手できます。

要約(オリジナル)

Given that interpretability and steerability are crucial to AI safety, Sparse Autoencoders (SAEs) have emerged as a tool to enhance them in Large Language Models (LLMs). In this work, we extend the application of SAEs to Vision-Language Models (VLMs), such as CLIP, and introduce a comprehensive framework for evaluating monosemanticity at the neuron-level in vision representations. To ensure that our evaluation aligns with human perception, we propose a benchmark derived from a large-scale user study. Our experimental results reveal that SAEs trained on VLMs significantly enhance the monosemanticity of individual neurons, with sparsity and wide latents being the most influential factors. Notably, we demonstrate that applying SAE interventions on CLIP’s vision encoder directly steers multimodal LLM outputs (e.g., LLaVA), without any modifications to the underlying model. These findings emphasize the practicality and efficacy of SAEs as an unsupervised tool for enhancing both interpretability and control of VLMs. Code is available at https://github.com/ExplainableML/sae-for-vlm.

arxiv情報

著者 Mateusz Pach,Shyamgopal Karthik,Quentin Bouniot,Serge Belongie,Zeynep Akata
発行日 2025-06-06 17:18:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

要約

エゴセントリック(一人称)とエクソセントリック(サードパーソン)の両方の視点から世界を認識することは、人間の認知の基本であり、動的環境の豊かで補完的な理解を可能にします。
近年、これらの二重の視点の相乗的可能性を機械が活用できるようにすることは、ビデオ理解における説得力のある研究の方向として浮上しています。
この調査では、外心部と自己中心の両​​方の視点からのビデオ理解の包括的なレビューを提供します。
まず、ドメイン全体での潜在的なコラボレーションを想定して、エゴセントリックおよびエキソセントリックな技術を統合する実用的なアプリケーションを強調することから始めます。
次に、これらのアプリケーションを実現するために重要な研究タスクを特定します。
次に、最近の進歩を体系的に整理してレビューし、3つの主要な研究方向性になりました。(1)エクソセントリックな理解を高めるためにエゴセントリックデータを活用し、(2)エキソコン状データを利用してエゴセントリック分析を改善する、(3)両方の視点を統合する共同学習フレームワーク。
各方向について、多様なタスクと関連する作業のセットを分析します。
さらに、両方の視点での研究をサポートするベンチマークデータセットについて説明し、その範囲、多様性、および適用性を評価します。
最後に、現在の作品の制限について説明し、有望な将来の研究の方向性を提案します。
両方の観点から洞察を統合することにより、私たちの目標は、ビデオ理解と人工知能の進歩を刺激し、機械を人間のような方法で世界を知覚することに近づけることです。
関連する作品のGithubリポジトリは、https://github.com/ayiyayi/awesome-egocicentric-and-exocentric-visionにあります。

要約(オリジナル)

Perceiving the world from both egocentric (first-person) and exocentric (third-person) perspectives is fundamental to human cognition, enabling rich and complementary understanding of dynamic environments. In recent years, allowing the machines to leverage the synergistic potential of these dual perspectives has emerged as a compelling research direction in video understanding. In this survey, we provide a comprehensive review of video understanding from both exocentric and egocentric viewpoints. We begin by highlighting the practical applications of integrating egocentric and exocentric techniques, envisioning their potential collaboration across domains. We then identify key research tasks to realize these applications. Next, we systematically organize and review recent advancements into three main research directions: (1) leveraging egocentric data to enhance exocentric understanding, (2) utilizing exocentric data to improve egocentric analysis, and (3) joint learning frameworks that unify both perspectives. For each direction, we analyze a diverse set of tasks and relevant works. Additionally, we discuss benchmark datasets that support research in both perspectives, evaluating their scope, diversity, and applicability. Finally, we discuss limitations in current works and propose promising future research directions. By synthesizing insights from both perspectives, our goal is to inspire advancements in video understanding and artificial intelligence, bringing machines closer to perceiving the world in a human-like manner. A GitHub repo of related works can be found at https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.

arxiv情報

著者 Yuping He,Yifei Huang,Guo Chen,Lidong Lu,Baoqi Pei,Jilan Xu,Tong Lu,Yoichi Sato
発行日 2025-06-06 17:25:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

DPCore: Dynamic Prompt Coreset for Continual Test-Time Adaptation

要約

継続的なテスト時間適応(CTTA)は、事前に訓練されたモデルを継続的に変化しないターゲットドメインに適応させることを目指しています。
既存のCTTAメソッドは、均一な期間で構造化されたドメインの変化を想定していますが、実際の環境は、さまざまな周波数と期間でドメインが再発する動的なパターンを示すことがよくあります。
さまざまなドメインで同じパラメーターを適応させる現在のアプローチは、そのような動的な条件で苦労しています – 彼らは短いドメインの露出との収束の問題、以前に学んだ知識を忘れているリスク、またはそれを無関係なドメインに誤用します。
これを改善するために、DPCOREを提案します。DPCoreは、多様なドメインの変化パターンにわたって堅牢なパフォーマンスのために設計された方法であり、計算効率を確保します。
DPCOREは、3つの重要なコンポーネントを統合します。効率的なドメインアライメントの視覚的なプロンプト適応、知識保存のためのプロンプトコアセット、および実質的に異なるドメインの新しいドメインの新しいドメインを作成しながら、既存のプロンプトをインテリジェントに調整する動的な更新メカニズム。
4つのベンチマークでの広範な実験は、DPCOREがさまざまなCTTAメソッドを一貫して上回り、構造化された設定と動的設定の両方で最先端のパフォーマンスを達成しながら、以前のアプローチと比較して99%と計算時間を64%削減することを示しています。

要約(オリジナル)

Continual Test-Time Adaptation (CTTA) seeks to adapt source pre-trained models to continually changing, unseen target domains. While existing CTTA methods assume structured domain changes with uniform durations, real-world environments often exhibit dynamic patterns where domains recur with varying frequencies and durations. Current approaches, which adapt the same parameters across different domains, struggle in such dynamic conditions-they face convergence issues with brief domain exposures, risk forgetting previously learned knowledge, or misapplying it to irrelevant domains. To remedy this, we propose DPCore, a method designed for robust performance across diverse domain change patterns while ensuring computational efficiency. DPCore integrates three key components: Visual Prompt Adaptation for efficient domain alignment, a Prompt Coreset for knowledge preservation, and a Dynamic Update mechanism that intelligently adjusts existing prompts for similar domains while creating new ones for substantially different domains. Extensive experiments on four benchmarks demonstrate that DPCore consistently outperforms various CTTA methods, achieving state-of-the-art performance in both structured and dynamic settings while reducing trainable parameters by 99% and computation time by 64% compared to previous approaches.

arxiv情報

著者 Yunbei Zhang,Akshay Mehra,Shuaicheng Niu,Jihun Hamm
発行日 2025-06-06 17:32:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

要約

AIが人々の日常活動とより密接に統合されるようになるにつれて、日常生活で人間とシームレスに理解し、相互作用できる社会的に知的なAIがますます重要になっています。
ただし、AIの社会的推論における現在の作業はすべて、言語のみまたは言語を支配的なアプローチに依存しているため、ベンチマークおよびトレーニングモデルに依存しており、言語コミュニケーションが改善されているが、非言語的な社会的理解と闘っています。
この制限に対処するために、私たちは非言語的な社会的相互作用に富んだ新しいデータソース、Mimeビデオを活用します。
マイムは、話された言葉のないジェスチャーと動きを通して表現の芸術を指します。
YouTubeから8時間のビデオクリップを調達し、非言語的な社会的推論能力をプローブするように設計された慎重に注釈付きおよび検証された質問回答ペアを含む包括的なビデオ質問ベンチマークを開発することにより、Mimeqaと呼ばれる新しいデータセットを提供します。
Mimeqaを使用して、最先端のビデオ大手言語モデル(VLLM)を評価し、20〜30%の範囲の全体的な精度が低く、人間が86%を獲得していることがわかります。
私たちの分析は、VLLMが想像上のオブジェクトを接地できず、テキストプロンプトに依存しないことが多いことを明らかにしています。
私たちは、非言語的な人間の相互作用を解釈できる真の社会的知性を具体化するAIモデルでの将来の仕事を鼓舞したいと考えています。

要約(オリジナル)

As AI becomes more closely integrated with peoples’ daily activities, socially intelligent AI that can understand and interact seamlessly with humans in daily lives is increasingly important. However, current works in AI social reasoning all rely on language-only or language-dominant approaches to benchmark and training models, resulting in systems that are improving in verbal communication but struggle with nonverbal social understanding. To address this limitation, we tap into a novel data source rich in nonverbal social interactions — mime videos. Mimes refer to the art of expression through gesture and movement without spoken words, which presents unique challenges and opportunities in interpreting nonverbal social communication. We contribute a new dataset called MimeQA, obtained by sourcing 8 hours of videos clips from YouTube and developing a comprehensive video question-answering benchmark comprising 806 carefully annotated and verified question-answer pairs, designed to probe nonverbal social reasoning capabilities. Using MimeQA, we evaluate state-of-the-art video large language models (vLLMs) and find that they achieve low overall accuracy, ranging from 20-30%, while humans score 86%. Our analysis reveals that vLLMs often fail to ground imagined objects and over-rely on the text prompt while ignoring subtle nonverbal interactions. We hope to inspire future work in AI models that embody true social intelligence capable of interpreting non-verbal human interactions.

arxiv情報

著者 Hengzhi Li,Megan Tjandrasuwita,Yi R. Fung,Armando Solar-Lezama,Paul Pu Liang
発行日 2025-06-06 17:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

Normalizing Flows are Capable Generative Models

要約

正規化フロー(NFS)は、連続入力の尤度ベースのモデルです。
彼らは、密度の推定と生成モデリングタスクの両方で有望な結果を示していますが、近年は比較的ほとんど注目されていません。
この作業では、NFSが以前に考えられていたよりも強力であることを示しています。
Tarflow:非常にパフォーマンスの高いNFモデルを可能にするシンプルでスケーラブルなアーキテクチャを提示します。
Tarflowは、マスクされた自己回帰流(MAF)の変圧器ベースのバリアントと考えることができます。これは、画像パッチ上の自己回帰トランスブロックのスタックで構成され、レイヤー間の自己回復方向を交互にします。
Tarflowは、エンドツーエンドをトレーニングするのに簡単で、ピクセルを直接モデリングおよび生成できます。
また、サンプルの品質を改善するための3つの重要な手法を提案します。トレーニング中のガウスノイズ増強、トレーニング後の除去手順、およびクラス条件付きおよび無条件の両方の設定のための効果的なガイダンス方法です。
これらをまとめると、Tarflowは、画像の尤度推定に関する新しい最先端の結果を設定し、以前の最良の方法を大きなマージンで破り、拡散モデルに匹敵する品質と多様性のあるサンプルを、スタンドアロンNFモデルで初めて生成します。
https://github.com/apple/ml-tarflowでコードを利用できるようにします。

要約(オリジナル)

Normalizing Flows (NFs) are likelihood-based models for continuous inputs. They have demonstrated promising results on both density estimation and generative modeling tasks, but have received relatively little attention in recent years. In this work, we demonstrate that NFs are more powerful than previously believed. We present TarFlow: a simple and scalable architecture that enables highly performant NF models. TarFlow can be thought of as a Transformer-based variant of Masked Autoregressive Flows (MAFs): it consists of a stack of autoregressive Transformer blocks on image patches, alternating the autoregression direction between layers. TarFlow is straightforward to train end-to-end, and capable of directly modeling and generating pixels. We also propose three key techniques to improve sample quality: Gaussian noise augmentation during training, a post training denoising procedure, and an effective guidance method for both class-conditional and unconditional settings. Putting these together, TarFlow sets new state-of-the-art results on likelihood estimation for images, beating the previous best methods by a large margin, and generates samples with quality and diversity comparable to diffusion models, for the first time with a stand-alone NF model. We make our code available at https://github.com/apple/ml-tarflow.

arxiv情報

著者 Shuangfei Zhai,Ruixiang Zhang,Preetum Nakkiran,David Berthelot,Jiatao Gu,Huangjie Zheng,Tianrong Chen,Miguel Angel Bautista,Navdeep Jaitly,Josh Susskind
発行日 2025-06-06 17:45:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

Sketched Equivariant Imaging Regularization and Deep Internal Learning for Inverse Problems

要約

Equivariant Imaging(EI)の正則化は、地上の真実データを必要とせずに、深いイメージングネットワークの監視されていないトレーニングのための事実上の技術となっています。
EIベースの監視されていないトレーニングパラダイムが現在、高次元アプリケーションの非効率性につながる重要な計算冗長性を持っていることを観察して、加速のためにランダム化されたスケッチテクニックを活用するスケッチされたEI正規化を提案します。
スケッチされたEIの正則化を適用して、テスト時間ネットワークの適応に効率的に適用できる加速された深い内部学習フレームワークを開発します。
さらに、ネットワーク適応タスクの場合、正規化レイヤーのみを最適化することにより、EIとSketched-EIの両方を加速するためのパラメーター効率の高いアプローチを提案します。
X線CTおよびマルチコイル磁気共鳴画像再構成に関する我々の数値研究は、私たちのアプローチが、テスト時に単一入力設定とネットワーク適応で標準のEIカウンターパートよりも重要な計算加速を達成できることを示しています。

要約(オリジナル)

Equivariant Imaging (EI) regularization has become the de-facto technique for unsupervised training of deep imaging networks, without any need of ground-truth data. Observing that the EI-based unsupervised training paradigm currently has significant computational redundancy leading to inefficiency in high-dimensional applications, we propose a sketched EI regularization which leverages the randomized sketching techniques for acceleration. We apply our sketched EI regularization to develop an accelerated deep internal learning framework, which can be efficiently applied for test-time network adaptation. Additionally, for network adaptation tasks, we propose a parameter-efficient approach to accelerate both EI and Sketched-EI via optimizing only the normalization layers. Our numerical study on X-ray CT and multicoil magnetic resonance image reconstruction tasks demonstrate that our approach can achieve significant computational acceleration over standard EI counterpart in single-input setting and network adaptation at test time.

arxiv情報

著者 Guixian Xu,Jinglai Li,Junqi Tang
発行日 2025-06-06 17:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, math.OC | コメントする

Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks

要約

テキストが全体的な理解を導く中心的な視覚要素として機能するテキストが豊富な画像は、プレゼンテーションスライド、スキャンドキュメント、Webページのスナップショットなど、実際のアプリケーションで一般的です。
複数のテキストが豊富な画像を含むタスクは、個々の画像の内容を理解するだけでなく、複数の視覚入力にわたる相互関係と論理フローに関する推論が必要であるため、特に困難です。
これらのシナリオの重要性にもかかわらず、現在のマルチモーダル大手言語モデル(MLLMS)は、2つの重要な課題のためにそのようなタスクを処理するのに苦労しています。(1)テキストが豊富なマルチイメージシナリオの高品質の指導チューニングデータセットの希少性、および(2)画像解像度と視覚的特徴シーケンスの長さのバランスをとることの難しさ。
これらの課題に対処するために、複数のテキストが豊富な画像を含むビジョン言語タスクを処理するために調整されたMLLMであるLeopardを提案します。
まず、テキストが豊富なマルチイメージシナリオに合わせて、約100万の高品質のマルチモーダル命令調整データをキュレーションしました。
第二に、元のアスペクト比と画像の解像度に基づいて視覚シーケンス長の割り当てを動的に最適化するために、適応的な高解像度マルチイメージエンコードモジュールを提案しました。
多様な一連のベンチマークでの実験により、私たちのモデルは、テキストが豊富なマルチイメージ評価に挑戦して、Llama-3.2やQWEN2-VLなどの最先端のシステムを常に上回ることが明らかになりました。
驚くべきことに、私たちのアプローチは、わずか1.2mのトレーニングインスタンスを使用して優れたパフォーマンスを実現します。これらはすべて完全にオープンソーシングされており、大規模な社内データでトレーニングされたモデルと比較して高効率と有効性の両方を実証しています。
私たちのコードとデータは、https://github.com/tencent-ailab/leopardで入手できます。

要約(オリジナル)

Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose Leopard, an MLLM tailored for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we proposed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of images. Experiments on a diverse set of benchmarks reveal that our model consistently outperforms state-of-the-art systems, such as Llama-3.2 and Qwen2-VL, in challenging text-rich, multi-image evaluations. Remarkably, our approach achieves outstanding performance using only 1.2M training instances, all of which are fully open-sourced, demonstrating both high efficiency and effectiveness compared to models trained on large-scale in-house data. Our code and data are available at https://github.com/tencent-ailab/Leopard.

arxiv情報

著者 Mengzhao Jia,Wenhao Yu,Kaixin Ma,Tianqing Fang,Zhihan Zhang,Siru Ouyang,Hongming Zhang,Dong Yu,Meng Jiang
発行日 2025-06-06 17:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

BecomingLit: Relightable Gaussian Avatars with Hybrid Neural Shading

要約

Interactiveレートで新しい視点からレンダリングできる、信頼性の高い高解像度のヘッドアバターを再構築するための新しい方法であるBegingLitを紹介します。
したがって、顔をキャプチャするために特別に調整された新しい低コストのライトステージキャプチャセットアップを提案します。
このセットアップを使用して、さまざまな照明条件と表情の下で多数の被験者の多様なマルチビューシーケンスで構成される新しいデータセットを収集します。
新しいデータセットを活用することにより、パラメトリックヘッドモデルと式に依存するダイナミクスモジュールでアニメーション化する3Dガウスプリミティブに基づいた新しい安定したアバター表現を導入します。
神経拡散BRDFと分析的鏡面項を組み合わせて、新しいハイブリッドニューラルシェーディングアプローチを提案します。
私たちの方法は、ダイナミックライトステージの録音から解き放たれた素材を再構築し、ポイントライトと環境マップの両方でアバターをすべての周波数再採取できるようにします。
さらに、私たちのアバターは、単眼ビデオから簡単にアニメーション化して制御できます。
データセットでの広範な実験でアプローチを検証します。このアプローチでは、既存の最先端の方法を、かなりのマージンでの再生と再現の最先端の方法よりも常に上回ります。

要約(オリジナル)

We introduce BecomingLit, a novel method for reconstructing relightable, high-resolution head avatars that can be rendered from novel viewpoints at interactive rates. Therefore, we propose a new low-cost light stage capture setup, tailored specifically towards capturing faces. Using this setup, we collect a novel dataset consisting of diverse multi-view sequences of numerous subjects under varying illumination conditions and facial expressions. By leveraging our new dataset, we introduce a new relightable avatar representation based on 3D Gaussian primitives that we animate with a parametric head model and an expression-dependent dynamics module. We propose a new hybrid neural shading approach, combining a neural diffuse BRDF with an analytical specular term. Our method reconstructs disentangled materials from our dynamic light stage recordings and enables all-frequency relighting of our avatars with both point lights and environment maps. In addition, our avatars can easily be animated and controlled from monocular videos. We validate our approach in extensive experiments on our dataset, where we consistently outperform existing state-of-the-art methods in relighting and reenactment by a significant margin.

arxiv情報

著者 Jonathan Schmidt,Simon Giebenhain,Matthias Niessner
発行日 2025-06-06 17:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする