JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation

要約

英語以外の言語での大規模マルチモーダル モデル (LMM) に関する研究を加速することは、より広範な人々の間でユーザー エクスペリエンスを向上させるために非常に重要です。
本稿では、日本の文化的背景に基づいて専門家レベルのタスクで LMM を評価するために設計された初の大規模な日本ベンチマークである JMMMU (Japanese MMMU) を紹介します。
包括的な文化を意識した評価を促進するために、JMMMU は 2 つの相補的なサブセットを備えています: (i) 文化に依存しない (CA) サブセット。文化に依存しない科目 (数学など) が選択され、日本語に翻訳され、1 対 1 の比較が可能になります。
英国の対応するMMMUと。
(ii) 日本の文化的背景を反映して新たに作成された主題で構成される文化固有 (CS) サブセット。
CA サブセットを使用すると、日本語で評価すると多くの LMM でパフォーマンスの低下が観察されますが、これは純粋に言語の違いに起因します。
CS サブセットを使用して、彼らの日本文化理解が不十分であることを明らかにします。
さらに、両方のサブセットを組み合わせることで、一部の LMM は CA サブセットではうまく機能するが、CS サブセットではうまく機能しないことがわかり、文化的理解の深さに欠ける浅い日本語理解が明らかになりました。
私たちは、この研究が日本語での LMM パフォーマンスの向上に役立つだけでなく、多言語 LMM 開発のための高水準で文化的に多様なベンチマークを作成するためのガイドラインとしても役立つことを願っています。
プロジェクトページはhttps://mmmu-japanese-benchmark.github.io/JMMMU/です。

要約(オリジナル)

Accelerating research on Large Multimodal Models (LMMs) in non-English languages is crucial for enhancing user experiences across broader populations. In this paper, we introduce JMMMU (Japanese MMMU), the first large-scale Japanese benchmark designed to evaluate LMMs on expert-level tasks based on the Japanese cultural context. To facilitate comprehensive culture-aware evaluation, JMMMU features two complementary subsets: (i) culture-agnostic (CA) subset, where the culture-independent subjects (e.g., Math) are selected and translated into Japanese, enabling one-to-one comparison with its English counterpart MMMU; and (ii) culture-specific (CS) subset, comprising newly crafted subjects that reflect Japanese cultural context. Using the CA subset, we observe performance drop in many LMMs when evaluated in Japanese, which is purely attributable to language variation. Using the CS subset, we reveal their inadequate Japanese cultural understanding. Further, by combining both subsets, we identify that some LMMs perform well on the CA subset but not on the CS subset, exposing a shallow understanding of the Japanese language that lacks depth in cultural understanding. We hope this work will not only help advance LMM performance in Japanese but also serve as a guideline to create high-standard, culturally diverse benchmarks for multilingual LMM development. The project page is https://mmmu-japanese-benchmark.github.io/JMMMU/.

arxiv情報

著者 Shota Onohara,Atsuyuki Miyai,Yuki Imajuku,Kazuki Egashira,Jeonghun Baek,Xiang Yue,Graham Neubig,Kiyoharu Aizawa
発行日 2024-10-22 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation はコメントを受け付けていません

SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes

要約

我々は、3D ガウス スプラッティング (3DGS) と物理ベース レンダリング (PBR) および変形フィールドを組み合わせて動的な鏡面反射シーンを再構築する新しいアプローチである SpectroMotion を紹介します。
3DGS を拡張して動的シーンをモデル化するこれまでの方法では、鏡面を正確に表現するのが困難でした。
私たちの方法は、変形中の正確な表面法線計算のための残差補正技術を導入することによってこの制限に対処し、時間変化する照明条件に適応する変形可能な環境マップによって補完されます。
シーンのジオメトリと鏡面カラー予測の両方を大幅に強化する、粗いトレーニング戦略から細かいトレーニング戦略を実装します。
私たちのモデルは、動的鏡面オブジェクトを含むシーンのビュー合成に関して従来の方法よりも優れていること、また、このモデルが、フォトリアリスティックな現実世界の動的鏡面シーンを合成できる唯一の既存の 3DGS 方法であり、複雑なレンダリングにおいて最先端の方法よりも優れていることを実証します。
ダイナミックでスペキュラーなシーン。

要約(オリジナル)

We present SpectroMotion, a novel approach that combines 3D Gaussian Splatting (3DGS) with physically-based rendering (PBR) and deformation fields to reconstruct dynamic specular scenes. Previous methods extending 3DGS to model dynamic scenes have struggled to accurately represent specular surfaces. Our method addresses this limitation by introducing a residual correction technique for accurate surface normal computation during deformation, complemented by a deformable environment map that adapts to time-varying lighting conditions. We implement a coarse-to-fine training strategy that significantly enhances both scene geometry and specular color prediction. We demonstrate that our model outperforms prior methods for view synthesis of scenes containing dynamic specular objects and that it is the only existing 3DGS method capable of synthesizing photorealistic real-world dynamic specular scenes, outperforming state-of-the-art methods in rendering complex, dynamic, and specular scenes.

arxiv情報

著者 Cheng-De Fan,Chen-Wei Chang,Yi-Ruei Liu,Jie-Ying Lee,Jiun-Long Huang,Yu-Chee Tseng,Yu-Lun Liu
発行日 2024-10-22 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes はコメントを受け付けていません

Altogether: Image Captioning via Re-aligning Alt-text

要約

このペーパーでは、画像キャプションの品質を向上させるための合成データの作成に焦点を当てます。
既存の作品には通常 2 つの欠点があります。
第一に、既存の代替テキストのメタデータを無視して、画像にキャプションを最初から付けます。第二に、キャプション作成者のトレーニング データ (GPT など) が不明な場合、透明性が欠如します。
この論文では、画像に関連付けられた既存の代替テキストを編集して再配置するという重要なアイデアに基づいた原則的なアプローチを研究します。
トレーニング データを生成するには、人間によるアノテーションを実行します。アノテーターは既存の代替テキストから開始し、それを複数回に分けて画像コンテンツに再配置し、その結果、豊富な視覚的コンセプトを備えたキャプションを構築します。
これは、画像とアノテーターの知識のみに基づいて人間によるアノテーションを 1 回限りの記述タスクとして実行する従来の研究とは異なります。
このデータに基づいてキャプショナをトレーニングし、代替テキストを大規模に再配置するプロセスを一般化します。
私たちの結果は、Altogether アプローチがより豊富な画像キャプションをもたらし、テキストから画像への生成やゼロショット画像分類タスクも改善することを示しています。

要約(オリジナル)

This paper focuses on creating synthetic data to improve the quality of image captions. Existing works typically have two shortcomings. First, they caption images from scratch, ignoring existing alt-text metadata, and second, lack transparency if the captioners’ training data (e.g. GPT) is unknown. In this paper, we study a principled approach Altogether based on the key idea to edit and re-align existing alt-texts associated with the images. To generate training data, we perform human annotation where annotators start with the existing alt-text and re-align it to the image content in multiple rounds, consequently constructing captions with rich visual concepts. This differs from prior work that carries out human annotation as a one-time description task solely based on images and annotator knowledge. We train a captioner on this data that generalizes the process of re-aligning alt-texts at scale. Our results show our Altogether approach leads to richer image captions that also improve text-to-image generation and zero-shot image classification tasks.

arxiv情報

著者 Hu Xu,Po-Yao Huang,Xiaoqing Ellen Tan,Ching-Feng Yeh,Jacob Kahn,Christine Jou,Gargi Ghosh,Omer Levy,Luke Zettlemoyer,Wen-tau Yih,Shang-Wen Li,Saining Xie,Christoph Feichtenhofer
発行日 2024-10-22 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Altogether: Image Captioning via Re-aligning Alt-text はコメントを受け付けていません

ExDBN: Exact learning of Dynamic Bayesian Networks

要約

データからの因果学習は近年大きな注目を集めています。
因果関係を捉える方法の 1 つは、ベイジアン ネットワークを利用することです。
そこでは、確率変数が頂点によって表され、各エッジに関連付けられた重みがそれらの間の因果関係の強さを表す、重み付き有向非巡回グラフが復元されます。
この概念は、構造方程式モデルによって捕捉できる過去のデータへの依存性を導入することで動的効果を捕捉するように拡張されており、このモデルはスコアベースの学習アプローチを定式化するために今回の貢献で利用されています。
混合整数二次プログラムが定式化され、アルゴリズムによる解決策が提案されます。この解決策では、いわゆるブランチ アンド カット (「遅延制約」) 方法を利用することで、指数関数的に多くの非循環性制約の事前生成が回避されます。
新しいアプローチと最先端のアプローチを比較すると、提案されたアプローチが最大 25 の時系列の中小規模の合成インスタンスに適用された場合に優れた結果が得られることがわかります。
最後に、この方法が直接適用されるバイオサイエンスと金融における 2 つの興味深いアプリケーションは、小規模なインスタンスを処理できる高精度でグローバルに収束するソルバーを開発する機会をさらに強調します。

要約(オリジナル)

Causal learning from data has received much attention in recent years. One way of capturing causal relationships is by utilizing Bayesian networks. There, one recovers a weighted directed acyclic graph, in which random variables are represented by vertices, and the weights associated with each edge represent the strengths of the causal relationships between them. This concept is extended to capture dynamic effects by introducing a dependency on past data, which may be captured by the structural equation model, which is utilized in the present contribution to formulate a score-based learning approach. A mixed-integer quadratic program is formulated and an algorithmic solution proposed, in which the pre-generation of exponentially many acyclicity constraints is avoided by utilizing the so-called branch-and-cut (‘lazy constraint’) method. Comparing the novel approach to the state of the art, we show that the proposed approach turns out to produce excellent results when applied to small and medium-sized synthetic instances of up to 25 time-series. Lastly, two interesting applications in bio-science and finance, to which the method is directly applied, further stress the opportunities in developing highly accurate, globally convergent solvers that can handle modest instances.

arxiv情報

著者 Pavel Rytir,Ales Wodecki,Georgios Korpas,Jakub Marecek
発行日 2024-10-22 12:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | ExDBN: Exact learning of Dynamic Bayesian Networks はコメントを受け付けていません

CartesianMoE: Boosting Knowledge Sharing among Experts via Cartesian Product Routing in Mixture-of-Experts

要約

大規模言語モデル (LLM) は、あらゆる種類の下流タスクで優れたパフォーマンスを発揮するため、最近コミュニティから大きな注目を集めています。
よく知られているスケーリングの法則によれば、高密度 LLM をスケールアップすると、その機能が強化されますが、計算の複雑さも大幅に増加します。
Mixture-of-Experts (MoE) モデルは、トレーニングや推論のコストを大幅に増加させることなくモデルのサイズを拡大できるようにすることで、この問題に対処します。
しかし、MoE モデルは専門家間の知識共有に関して課題に直面しており、そのパフォーマンスが何らかの形で配線精度に影響を受けやすくなっています。
これに対処するために、以前の作品では共有エキスパートを導入し、その出力を $K$ ルートの上位エキスパートの出力と「追加」方式で組み合わせました。
この論文では、データ間の共有知識を学習するための集団行列因数分解にヒントを得て、より「掛け算」に近い方法で専門家間のより効果的な知識共有を実装する CartesianMoE を提案します。
広範な実験結果は、CartesianMoE が、複雑さとダウンストリーム タスクのパフォーマンスの両方の点で、LLM を構築するための以前の MoE モデルよりも優れていることを示しています。
また、CartesianMoE がより優れたエキスパート ルーティングの堅牢性を実現していることもわかりました。

要約(オリジナル)

Large language models (LLM) have been attracting much attention from the community recently, due to their remarkable performance in all kinds of downstream tasks. According to the well-known scaling law, scaling up a dense LLM enhances its capabilities, but also significantly increases the computational complexity. Mixture-of-Experts (MoE) models address that by allowing the model size to grow without substantially raising training or inference costs. Yet MoE models face challenges regarding knowledge sharing among experts, making their performance somehow sensitive to routing accuracy. To tackle that, previous works introduced shared experts and combined their outputs with those of the top $K$ routed experts in an “addition” manner. In this paper, inspired by collective matrix factorization to learn shared knowledge among data, we propose CartesianMoE, which implements more effective knowledge sharing among experts in more like a “multiplication” manner. Extensive experimental results indicate that CartesianMoE outperforms previous MoE models for building LLMs, in terms of both perplexity and downstream task performance. And we also find that CartesianMoE achieves better expert routing robustness.

arxiv情報

著者 Zhenpeng Su,Xing Wu,Zijia Lin,Yizhe Xiong,Minxuan Lv,Guangyuan Ma,Hui Chen,Songlin Hu,Guiguang Ding
発行日 2024-10-22 09:37:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | CartesianMoE: Boosting Knowledge Sharing among Experts via Cartesian Product Routing in Mixture-of-Experts はコメントを受け付けていません

Language Model Alignment in Multilingual Trolley Problems

要約

私たちは、多言語トロリー問題における大規模言語モデル (LLM) と人間の好みとの道徳的整合性を評価します。
200 か国以上で 4,000 万を超える人間の判断を収集するモラル マシン実験を基に、私たちは MultiTP と呼ばれる 100 以上の言語で道徳的ジレンマのビネットをまとめたクロスリンガル コーパスを開発しました。
このデータセットにより、多様な言語コンテキストにおける LLM の意思決定プロセスの評価が可能になります。
私たちの分析では、19 の異なる LLM と人間の判断との整合性を調査し、種、性別、フィットネス、ステータス、年齢、関与する命の数という 6 つの道徳的側面にわたる好みを捉えています。
これらの好みを言語話者の人口統計的分布と関連付け、さまざまなプロンプト言い換えに対する LLM の反応の一貫性を調べることにより、私たちの調査結果は、LLM の言語を超えた倫理的バイアスとそれらの交差点についての洞察を提供します。
私たちは、言語間での整合性に大きな差異があることを発見し、AI システムにおける統一的な道徳的推論の仮定に疑問を投げかけ、AI 倫理に多様な視点を組み込むことの重要性を強調しました。
この結果は、世界中で公正かつ公平な AI 相互作用を確保するために、責任ある AI 研究における多言語の側面の統合に関するさらなる研究の必要性を強調しています。
私たちのコードとデータは https://github.com/causalNLP/moralmachine にあります。

要約(オリジナル)

We evaluate the moral alignment of large language models (LLMs) with human preferences in multilingual trolley problems. Building on the Moral Machine experiment, which captures over 40 million human judgments across 200+ countries, we develop a cross-lingual corpus of moral dilemma vignettes in over 100 languages called MultiTP. This dataset enables the assessment of LLMs’ decision-making processes in diverse linguistic contexts. Our analysis explores the alignment of 19 different LLMs with human judgments, capturing preferences across six moral dimensions: species, gender, fitness, status, age, and the number of lives involved. By correlating these preferences with the demographic distribution of language speakers and examining the consistency of LLM responses to various prompt paraphrasings, our findings provide insights into cross-lingual and ethical biases of LLMs and their intersection. We discover significant variance in alignment across languages, challenging the assumption of uniform moral reasoning in AI systems and highlighting the importance of incorporating diverse perspectives in AI ethics. The results underscore the need for further research on the integration of multilingual dimensions in responsible AI research to ensure fair and equitable AI interactions worldwide. Our code and data are at https://github.com/causalNLP/moralmachine

arxiv情報

著者 Zhijing Jin,Max Kleiman-Weiner,Giorgio Piatti,Sydney Levine,Jiarui Liu,Fernando Gonzalez,Francesco Ortu,András Strausz,Mrinmaya Sachan,Rada Mihalcea,Yejin Choi,Bernhard Schölkopf
発行日 2024-10-22 06:48:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Language Model Alignment in Multilingual Trolley Problems はコメントを受け付けていません

On-Device LLMs for SMEs: Challenges and Opportunities

要約

このペーパーでは、ハードウェアとソフトウェアの両方の観点に焦点を当て、中小企業 (SME) のコンテキスト内で大規模言語モデル (LLM) をデバイス上に展開するためのインフラストラクチャ要件を体系的にレビューします。
ハードウェアの観点から、GPU や TPU などのプロセッシング ユニットの利用、効率的なメモリとストレージ ソリューション、効果的な導入戦略について説明し、中小企業環境に特有の限られた計算リソースの課題に対処します。
ソフトウェアの観点から、フレームワークの互換性、オペレーティング システムの最適化、リソースに制約のある環境に合わせた特殊なライブラリの使用について調査します。
このレビューは、まずデバイス上に LLM を導入する際に中小企業が直面する特有の課題を特定し、次にハードウェアの革新とソフトウェアの適応の両方がこれらの障害を克服するために提供する機会を探ることを目的として構成されています。
このような構造化されたレビューは実践的な洞察を提供し、LLM を統合する際の中小企業の技術的回復力を強化することでコミュニティに大きく貢献します。

要約(オリジナル)

This paper presents a systematic review of the infrastructure requirements for deploying Large Language Models (LLMs) on-device within the context of small and medium-sized enterprises (SMEs), focusing on both hardware and software perspectives. From the hardware viewpoint, we discuss the utilization of processing units like GPUs and TPUs, efficient memory and storage solutions, and strategies for effective deployment, addressing the challenges of limited computational resources typical in SME settings. From the software perspective, we explore framework compatibility, operating system optimization, and the use of specialized libraries tailored for resource-constrained environments. The review is structured to first identify the unique challenges faced by SMEs in deploying LLMs on-device, followed by an exploration of the opportunities that both hardware innovations and software adaptations offer to overcome these obstacles. Such a structured review provides practical insights, contributing significantly to the community by enhancing the technological resilience of SMEs in integrating LLMs.

arxiv情報

著者 Jeremy Stephen Gabriel Yee,Pai Chet Ng,Zhengkui Wang,Ian McLoughlin,Aik Beng Ng,Simon See
発行日 2024-10-22 13:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CL, I.2 | On-Device LLMs for SMEs: Challenges and Opportunities はコメントを受け付けていません

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

要約

マルチモーダル大規模言語モデル (MLLM) は、幅広い領域にわたる視覚言語タスクにおいて優れたパフォーマンスを実証しています。
ただし、モデルの規模が大きく、それに伴う計算コストが高いため、消費者グレードの GPU やエッジ デバイスで MLLM をトレーニングおよび展開する場合に大きな課題が生じ、その広範なアプリケーションが妨げられています。
この作業では、1B から 4B までのパラメータを持つ一連の MLLM である Mini-InternVL を紹介します。これは、わずか 5% のパラメータで 90% のパフォーマンスを達成します。
この効率と有効性の大幅な向上により、モデルがよりアクセスしやすくなり、現実世界のさまざまなシナリオに適用できるようになります。
当社モデルの導入をさらに促進するために、当社は Mini-InternVL 用の統合適応フレームワークを開発します。これにより、当社のモデルは、自動運転、医療画像、リモート センシングなどの下流タスクで特殊なモデルを転送し、それを上回るパフォーマンスを発揮できるようになります。
私たちは、この研究が効率的かつ効果的な MLLM の開発を進めるための貴重な洞察とリソースを提供できると信じています。
コードは https://github.com/OpenGVLab/InternVL で入手できます。

要約(オリジナル)

Multimodal large language models (MLLMs) have demonstrated impressive performance in vision-language tasks across a broad spectrum of domains. However, the large model scale and associated high computational costs pose significant challenges for training and deploying MLLMs on consumer-grade GPUs or edge devices, thereby hindering their widespread application. In this work, we introduce Mini-InternVL, a series of MLLMs with parameters ranging from 1B to 4B, which achieves 90% of the performance with only 5% of the parameters. This significant improvement in efficiency and effectiveness makes our models more accessible and applicable in various real-world scenarios. To further promote the adoption of our models, we develop a unified adaptation framework for Mini-InternVL, which enables our models to transfer and outperform specialized models in downstream tasks, including autonomous driving, medical images, and remote sensing. We believe that our study can provide valuable insights and resources to advance the development of efficient and effective MLLMs. Code is available at https://github.com/OpenGVLab/InternVL.

arxiv情報

著者 Zhangwei Gao,Zhe Chen,Erfei Cui,Yiming Ren,Weiyun Wang,Jinguo Zhu,Hao Tian,Shenglong Ye,Junjun He,Xizhou Zhu,Lewei Lu,Tong Lu,Yu Qiao,Jifeng Dai,Wenhai Wang
発行日 2024-10-22 08:09:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance はコメントを受け付けていません

LASER: Script Execution by Autonomous Agents for On-demand Traffic Simulation

要約

自動運転システム (ADS) では、効果的なトレーニングとテストのために安全性が重要な多様な交通シナリオが必要ですが、既存のデータ生成方法では柔軟性と拡張性を提供するのが困難です。
私たちは、大規模言語モデル (LLM) を利用して自然言語入力に基づいて交通シミュレーションを実行する新しいフレームワークである LASER を提案します。
このフレームワークは 2 つの段階で動作します。最初にユーザーが提供した記述からスクリプトを生成し、次に自律エージェントを使用してリアルタイムでスクリプトを実行します。
CARLA シミュレーターで検証された LASER は、複雑なオンデマンド運転シナリオの生成に成功し、ADS トレーニングとテスト データ生成を大幅に改善しました。

要約(オリジナル)

Autonomous Driving Systems (ADS) require diverse and safety-critical traffic scenarios for effective training and testing, but the existing data generation methods struggle to provide flexibility and scalability. We propose LASER, a novel frame-work that leverage large language models (LLMs) to conduct traffic simulations based on natural language inputs. The framework operates in two stages: it first generates scripts from user-provided descriptions and then executes them using autonomous agents in real time. Validated in the CARLA simulator, LASER successfully generates complex, on-demand driving scenarios, significantly improving ADS training and testing data generation.

arxiv情報

著者 Hao Gao,Jingyue Wang,Wenyang Fang,Jingwei Xu,Yunpeng Huang,Taolue Chen,Xiaoxing Ma
発行日 2024-10-22 07:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | LASER: Script Execution by Autonomous Agents for On-demand Traffic Simulation はコメントを受け付けていません

Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models

要約

逆ビデオ問題を解決するために画像モデルを単純に使用すると、生成されたビデオのちらつき、テクスチャの固着、および時間的不一致が発生することがよくあります。
これらの問題に取り組むために、この論文では、フレームを 2D 空間の連続関数と見なし、ビデオを異なるフレーム間の一連の連続ワーピング変換と見なします。
この観点により、関数空間拡散モデルを画像上でのみトレーニングし、それらを利用して時間的に相関する逆問題を解決することができます。
関数空間拡散モデルは、基礎となる空間変換に関して等変である必要があります。
時間的な一貫性を確保するために、(自己) 等変ソリューションに向けた単純な事後テスト時のガイダンスを導入します。
私たちの方法では、Stable Diffusion XL などの最先端の潜在拡散モデルを導入してビデオ逆問題を解決できます。
私たちは、ビデオ修復と $8\times$ のビデオ超解像度に対する私たちの手法の有効性を実証し、ノイズ変換に基づく既存の手法を上回ります。
生成されたビデオ結果は https://giannisdaras.github.io/warped_diffusion.github.io/ から提供されます。

要約(オリジナル)

Using image models naively for solving inverse video problems often suffers from flickering, texture-sticking, and temporal inconsistency in generated videos. To tackle these problems, in this paper, we view frames as continuous functions in the 2D space, and videos as a sequence of continuous warping transformations between different frames. This perspective allows us to train function space diffusion models only on images and utilize them to solve temporally correlated inverse problems. The function space diffusion models need to be equivariant with respect to the underlying spatial transformations. To ensure temporal consistency, we introduce a simple post-hoc test-time guidance towards (self)-equivariant solutions. Our method allows us to deploy state-of-the-art latent diffusion models such as Stable Diffusion XL to solve video inverse problems. We demonstrate the effectiveness of our method for video inpainting and $8\times$ video super-resolution, outperforming existing techniques based on noise transformations. We provide generated video results: https://giannisdaras.github.io/warped_diffusion.github.io/.

arxiv情報

著者 Giannis Daras,Weili Nie,Karsten Kreis,Alex Dimakis,Morteza Mardani,Nikola Borislavov Kovachki,Arash Vahdat
発行日 2024-10-22 03:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models はコメントを受け付けていません