Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions

要約

マルチモーダル大規模言語モデル (MLLM) における幻覚は、実際の応用を妨げます。
これに対処するために、我々は拡大鏡プロンプト (MagPrompt) を提案します。これは、非常に簡単な指示で MLLM の幻覚に対処するためのシンプルかつ効果的な方法です。
MagPrompt は、次の 2 つの重要な原則に基づいており、さまざまな効果的なプロンプトの設計をガイドし、堅牢性を実証しています。 (1) MLLM は画像にもっと重点を置く必要があります。
(2) 画像とモデルの内部知識の間に矛盾がある場合、MLLM は画像を優先する必要があります。
MagPrompt はトレーニング不要で、GPT-4o や Gemini-pro などのオープンソースおよびクローズドソース モデルに適用できます。
これは多くのデータセットで良好なパフォーマンスを発揮し、その有効性は VCD のようなより複雑な方法と同等かそれ以上です。
さらに、当社の即時設計原則と実験分析は、マルチモーダル幻覚に関する貴重な洞察を提供します。

要約(オリジナル)

Hallucinations in multimodal large language models (MLLMs) hinder their practical applications. To address this, we propose a Magnifier Prompt (MagPrompt), a simple yet effective method to tackle hallucinations in MLLMs via extremely simple instructions. MagPrompt is based on the following two key principles, which guide the design of various effective prompts, demonstrating robustness: (1) MLLMs should focus more on the image. (2) When there are conflicts between the image and the model’s inner knowledge, MLLMs should prioritize the image. MagPrompt is training-free and can be applied to open-source and closed-source models, such as GPT-4o and Gemini-pro. It performs well across many datasets and its effectiveness is comparable or even better than more complex methods like VCD. Furthermore, our prompt design principles and experimental analyses provide valuable insights into multimodal hallucination.

arxiv情報

著者 Yuhan Fu,Ruobing Xie,Jiazhen Liu,Bangxiang Lan,Xingwu Sun,Zhanhui Kang,Xirong Li
発行日 2024-10-15 15:39:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions はコメントを受け付けていません

It’s Just Another Day: Unique Video Captioning by Discriminative Prompting

要約

長いビデオには、繰り返しのアクション、イベント、ショットが多数含まれています。
これらの繰り返しには同一のキャプションが付けられることが多く、テキスト検索を使用して目的のクリップを正確に取得することが困難になります。
この論文では、一意のキャプションの問題を定式化します。同じキャプションを持つ複数のクリップがある場合、クリップごとにそれを一意に識別する新しいキャプションを生成します。
我々は、同一のキャプションが付けられたクリップを分離できるプロパティを予測し、それを使用して一意のキャプションを生成する、識別プロンプティング (CDP) によるキャプションを提案します。
繰り返しのアクションが一般的である自己中心的な映像とタイムループ映画に基づいた、ユニークなキャプションのための 2 つのベンチマークを紹介します。
CDP によって生成されたキャプションにより、テキストからビデオへの R@1 が自己中心的なビデオでは 15%、タイムループ映画では 10% 向上することを示します。

要約(オリジナル)

Long videos contain many repeating actions, events and shots. These repetitions are frequently given identical captions, which makes it difficult to retrieve the exact desired clip using a text search. In this paper, we formulate the problem of unique captioning: Given multiple clips with the same caption, we generate a new caption for each clip that uniquely identifies it. We propose Captioning by Discriminative Prompting (CDP), which predicts a property that can separate identically captioned clips, and use it to generate unique captions. We introduce two benchmarks for unique captioning, based on egocentric footage and timeloop movies – where repeating actions are common. We demonstrate that captions generated by CDP improve text-to-video R@1 by 15% for egocentric videos and 10% in timeloop movies.

arxiv情報

著者 Toby Perrett,Tengda Han,Dima Damen,Andrew Zisserman
発行日 2024-10-15 15:41:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | It’s Just Another Day: Unique Video Captioning by Discriminative Prompting はコメントを受け付けていません

Robotic Arm Platform for Multi-View Image Acquisition and 3D Reconstruction in Minimally Invasive Surgery

要約

低侵襲手術 (MIS) は、回復時間の短縮や患者の外傷の最小化などの大きな利点をもたらしますが、視認性とアクセスに課題があり、正確な 3D 再構成が手術の計画とナビゲーションにおける重要なツールとなっています。
この研究では、MIS 設定における効率的なマルチビュー画像取得と正確な 3D 再構成のためのロボット アーム プラットフォームを紹介します。
私たちは、腹腔鏡をロボットアームに適合させ、さまざまな照明条件(手術室と腹腔鏡)および軌道(球状と腹腔鏡)にわたっていくつかのヒツジ臓器の体外画像を撮影しました。
最近リリースされた学習ベースの特徴マッチャーを COLMAP と組み合わせて使用​​し、再構成を作成しました。
定量的評価のために、再構成は高精度レーザースキャンに対して評価されました。
私たちの結果は、現実的な MIS 照明と軌道の下では再構成が最も困難になる一方、パイプラインの多くのバージョンは平均 1.05 mm の二乗平均平方根誤差と 0.82 mm の面取り距離でサブミリメートルに近い精度を達成していることを示しています。
手術室の照明と球状の軌道を使用すると、最良の再構成結果が得られます。
当社のロボット プラットフォームは、MIS 環境での 3D 生成のための、制御された反復可能なマルチビュー データ収集のためのツールを提供します。これが、学習ベースのモデルをトレーニングするための新しいデータセットにつながることを期待しています。

要約(オリジナル)

Minimally invasive surgery (MIS) offers significant benefits such as reduced recovery time and minimised patient trauma, but poses challenges in visibility and access, making accurate 3D reconstruction a significant tool in surgical planning and navigation. This work introduces a robotic arm platform for efficient multi-view image acquisition and precise 3D reconstruction in MIS settings. We adapted a laparoscope to a robotic arm and captured ex-vivo images of several ovine organs across varying lighting conditions (operating room and laparoscopic) and trajectories (spherical and laparoscopic). We employed recently released learning-based feature matchers combined with COLMAP to produce our reconstructions. The reconstructions were evaluated against high-precision laser scans for quantitative evaluation. Our results show that whilst reconstructions suffer most under realistic MIS lighting and trajectory, many versions of our pipeline achieve close to sub-millimetre accuracy with an average of 1.05 mm Root Mean Squared Error and 0.82 mm Chamfer distance. Our best reconstruction results occur with operating room lighting and spherical trajectories. Our robotic platform provides a tool for controlled, repeatable multi-view data acquisition for 3D generation in MIS environments which we hope leads to new datasets for training learning-based models.

arxiv情報

著者 Alexander Saikia,Chiara Di Vece,Sierra Bonilla,Chloe He,Morenike Magbagbeola,Laurent Mennillo,Tobias Czempiel,Sophia Bano,Danail Stoyanov
発行日 2024-10-15 15:42:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Robotic Arm Platform for Multi-View Image Acquisition and 3D Reconstruction in Minimally Invasive Surgery はコメントを受け付けていません

LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations

要約

対照的インスタンス識別手法は、画像分類や物体検出などの下流タスクにおいて教師あり学習よりも優れたパフォーマンスを発揮します。
ただし、これらの方法は表現学習中のデータ拡張に大きく依存しているため、慎重に実装しないと次善の結果が得られる可能性があります。
対照学習における一般的な拡張手法は、ランダムなトリミングとそれに続くサイズ変更です。
これにより、2 つのランダムなクロップに異なる意味論的なコンテンツが含まれる場合、表現学習の品質が低下する可能性があります。
この問題に取り組むために、新しいインスタンス識別アプローチと適応損失関数を採用したフレームワークである LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations) を導入します。
この方法は、表現学習中にさまざまなオブジェクト部分をマッピングすることによって引き起こされる重要な意味論的特徴の損失を防ぎます。
私たちの実験は、LeOCLR がさまざまなデータセットにわたって表現学習を一貫して向上させ、ベースライン モデルを上回るパフォーマンスを示していることを示しています。
たとえば、LeOCLR は、線形評価において ImageNet-1K 上で MoCo-v2 を 5.1% 上回り、転移学習および物体検出タスクにおいては他のいくつかの方法よりも優れています。

要約(オリジナル)

Contrastive instance discrimination methods outperform supervised learning in downstream tasks such as image classification and object detection. However, these methods rely heavily on data augmentation during representation learning, which can lead to suboptimal results if not implemented carefully. A common augmentation technique in contrastive learning is random cropping followed by resizing. This can degrade the quality of representation learning when the two random crops contain distinct semantic content. To tackle this issue, we introduce LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations), a framework that employs a novel instance discrimination approach and an adapted loss function. This method prevents the loss of important semantic features caused by mapping different object parts during representation learning. Our experiments demonstrate that LeOCLR consistently improves representation learning across various datasets, outperforming baseline models. For instance, LeOCLR surpasses MoCo-v2 by 5.1% on ImageNet-1K in linear evaluation and outperforms several other methods on transfer learning and object detection tasks.

arxiv情報

著者 Mohammad Alkhalefi,Georgios Leontidis,Mingjun Zhong
発行日 2024-10-15 15:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations はコメントを受け付けていません

RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation

要約

Segment Anything (SAM) の出現により、特に画像編集タスクやデータ アノテーションの高速化のコンテキストにおいて、インタラクティブ セグメンテーションの分野における研究への関心が高まりました。
一般的なセマンティック セグメンテーションとは異なり、インタラクティブ セグメンテーション手法では、ユーザーがプロンプト (クリックなど) を通じて出力に直接影響を与えることができます。
ただし、現実世界のインタラクティブ セグメンテーション シナリオにおけるクリック パターンは、ほとんど解明されていないままです。
ほとんどの方法は、ユーザーが最大のエラー領域の中心をクリックするという想定に基づいています。
それにもかかわらず、最近の研究は、これが常に当てはまるわけではないことを示しています。
したがって、ベースライン ベンチマークのメトリクスが高いにもかかわらず、実際の展開ではメソッドのパフォーマンスが低下する可能性があります。
実際のユーザーのクリックを正確にシミュレートするために、インタラクティブ セグメンテーション シナリオにおけるクリック パターンに関する大規模なクラウドソーシング調査を実施し、475,000 件の実際のユーザー クリックを収集しました。
顕著性タスクからのアイデアに基づいて、実際のユーザー入力に非常に近いクリックのサンプリングを可能にするクリック可能性モデルを開発します。
私たちのモデルとデータセットを使用して、現実的なクリックに関する既存のインタラクティブ セグメンテーション手法を包括的に比較するための RClicks ベンチマークを提案します。
具体的には、メソッドの平均品質だけでなく、あらゆる点での堅牢性も評価します。
パターンをクリックします。
私たちのベンチマークによると、実際の使用状況では、インタラクティブ セグメンテーション モデルのパフォーマンスはベースライン ベンチマークで報告されているよりも悪くなる可能性があり、ほとんどの手法は堅牢ではありません。
私たちは、RClicks が、実際のケースで最高のユーザー エクスペリエンスを提供するインタラクティブなセグメンテーション手法の作成に向けた重要な一歩であると信じています。

要約(オリジナル)

The emergence of Segment Anything (SAM) sparked research interest in the field of interactive segmentation, especially in the context of image editing tasks and speeding up data annotation. Unlike common semantic segmentation, interactive segmentation methods allow users to directly influence their output through prompts (e.g. clicks). However, click patterns in real-world interactive segmentation scenarios remain largely unexplored. Most methods rely on the assumption that users would click in the center of the largest erroneous area. Nevertheless, recent studies show that this is not always the case. Thus, methods may have poor performance in real-world deployment despite high metrics in a baseline benchmark. To accurately simulate real-user clicks, we conducted a large crowdsourcing study of click patterns in an interactive segmentation scenario and collected 475K real-user clicks. Drawing on ideas from saliency tasks, we develop a clickability model that enables sampling clicks, which closely resemble actual user inputs. Using our model and dataset, we propose RClicks benchmark for a comprehensive comparison of existing interactive segmentation methods on realistic clicks. Specifically, we evaluate not only the average quality of methods, but also the robustness w.r.t. click patterns. According to our benchmark, in real-world usage interactive segmentation models may perform worse than it has been reported in the baseline benchmark, and most of the methods are not robust. We believe that RClicks is a significant step towards creating interactive segmentation methods that provide the best user experience in real-world cases.

arxiv情報

著者 Anton Antonov,Andrey Moskalenko,Denis Shepelev,Alexander Krapukhin,Konstantin Soshin,Anton Konushin,Vlad Shakhuro
発行日 2024-10-15 15:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, I.4.6 | RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation はコメントを受け付けていません

MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images

要約

この論文では、テキスト情報に基づいて高品質の 3D 肺 CT 画像を生成する革新的な方法論を紹介します。
医療画像処理では拡散ベースの生成モデルの使用が増えていますが、現在の最先端のアプローチは低解像度の出力に限定されており、放射線医学レポートの豊富な情報が十分に活用されていません。
放射線医学レポートは、追加のガイダンスを提供し、画像の合成に対するきめ細かい制御を提供することで、生成プロセスを強化できます。
それにもかかわらず、テキストガイドによる生成を高解像度の 3D 画像に拡張すると、メモリと解剖学的詳細の保存に重大な課題が生じます。
メモリの問題に対処するために、修正された UNet アーキテクチャを使用する階層スキームを導入します。
まず、テキストに基づいて条件付けされた低解像度画像を合成し、完全な体積データを生成する後続のジェネレーターの基礎として機能します。
生成されたサンプルの解剖学的妥当性を確保するために、CT 画像と組み合わせて血管、気道、小葉のセグメンテーション マスクを生成することで、さらなるガイダンスを提供します。
このモデルは、テキスト入力とセグメンテーション タスクを使用して合成画像を生成する機能を示します。
比較評価の結果は、私たちのアプローチが、特に亀裂線、気道、血管構造などの重要な解剖学的特徴を正確に保持する点で、GAN および拡散技術に基づく最先端のモデルと比較して優れたパフォーマンスを示すことを示しています。
このイノベーションは新たな可能性をもたらします。
この研究は、(1) テキストプロンプトと解剖学的コンポーネントに基づいて画像を作成する方法の開発、および (2) 解剖学的要素に基づいて条件付けされた新しい画像を生成する機能の 2 つの主な目的に焦点を当てています。
画像生成の進歩は、多くの下流タスクを強化するために適用できます。

要約(オリジナル)

This paper introduces an innovative methodology for producing high-quality 3D lung CT images guided by textual information. While diffusion-based generative models are increasingly used in medical imaging, current state-of-the-art approaches are limited to low-resolution outputs and underutilize radiology reports’ abundant information. The radiology reports can enhance the generation process by providing additional guidance and offering fine-grained control over the synthesis of images. Nevertheless, expanding text-guided generation to high-resolution 3D images poses significant memory and anatomical detail-preserving challenges. Addressing the memory issue, we introduce a hierarchical scheme that uses a modified UNet architecture. We start by synthesizing low-resolution images conditioned on the text, serving as a foundation for subsequent generators for complete volumetric data. To ensure the anatomical plausibility of the generated samples, we provide further guidance by generating vascular, airway, and lobular segmentation masks in conjunction with the CT images. The model demonstrates the capability to use textual input and segmentation tasks to generate synthesized images. The results of comparative assessments indicate that our approach exhibits superior performance compared to the most advanced models based on GAN and diffusion techniques, especially in accurately retaining crucial anatomical features such as fissure lines, airways, and vascular structures. This innovation introduces novel possibilities. This study focuses on two main objectives: (1) the development of a method for creating images based on textual prompts and anatomical components, and (2) the capability to generate new images conditioning on anatomical elements. The advancements in image generation can be applied to enhance numerous downstream tasks.

arxiv情報

著者 Yanwu Xu,Li Sun,Wei Peng,Shuyue Jia,Katelyn Morrison,Adam Perer,Afrooz Zandifar,Shyam Visweswaran,Motahhare Eslami,Kayhan Batmanghelich
発行日 2024-10-15 15:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images はコメントを受け付けていません

Learning Truncated Causal History Model for Video Restoration

要約

ビデオ復元に対する重要な課題の 1 つは、動きによって支配されるビデオ フレームの遷移ダイナミクスをモデル化することです。
この研究では、効率的かつ高パフォーマンスのビデオ復元のために、切り捨てられた因果関係履歴モデルを学習する TURTLE を提案します。
一連のコンテキストフレームを並行して処理する従来の方法とは異なり、TURTLE は、入力フレームの潜在表現の切り詰められた履歴を、進化する履歴状態に保存して要約することで効率を高めます。
これは、フレーム間の動きと位置合わせを暗黙的に考慮する、高度な類似性に基づく検索メカニズムによって実現されます。
TURTLE の因果設計により、状態が記憶された履歴特徴による推論の反復が可能になると同時に、切り詰められたビデオ クリップをサンプリングすることで並列トレーニングが可能になります。
ビデオの除雪、夜間ビデオのディレイン、ビデオの雨滴と雨筋の除去、ビデオの超解像度、現実世界および合成ビデオのブレ除去、ブラインドなど、多数のビデオ修復ベンチマーク タスクに関する新しい最先端の結果を報告します。
これらすべてのタスクにおいて既存の最適なコンテキスト手法と比較して、計算コストを削減しながらビデオのノイズを除去します。

要約(オリジナル)

One key challenge to video restoration is to model the transition dynamics of video frames governed by motion. In this work, we propose TURTLE to learn the truncated causal history model for efficient and high-performing video restoration. Unlike traditional methods that process a range of contextual frames in parallel, TURTLE enhances efficiency by storing and summarizing a truncated history of the input frame latent representation into an evolving historical state. This is achieved through a sophisticated similarity-based retrieval mechanism that implicitly accounts for inter-frame motion and alignment. The causal design in TURTLE enables recurrence in inference through state-memorized historical features while allowing parallel training by sampling truncated video clips. We report new state-of-the-art results on a multitude of video restoration benchmark tasks, including video desnowing, nighttime video deraining, video raindrops and rain streak removal, video super-resolution, real-world and synthetic video deblurring, and blind video denoising while reducing the computational cost compared to existing best contextual methods on all these tasks.

arxiv情報

著者 Amirhosein Ghasemabadi,Muhammad Kamran Janjua,Mohammad Salameh,Di Niu
発行日 2024-10-15 15:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Learning Truncated Causal History Model for Video Restoration はコメントを受け付けていません

YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection

要約

無人航空機 (UAV) から絶縁体欠陥を特定するための既存の検出方法は、複雑な背景シーンや小さな物体に対処するのが難しく、最適とは言えない精度と多数の誤検知が発生します。
この論文では、ローカル アテンション モデリングの概念を使用して、この問題に対処するための新しいアテンション ベースの基盤アーキテクチャである YOLO-ELA を提案します。
Efficient Local Attendance (ELA) ブロックが 1 段階 YOLOv8 アーキテクチャのネック部分に追加され、モデルの注意が背景の特徴から欠陥のある絶縁体の特徴に移されました。
SCYLLA Intersection-Over-Union (SIoU) 基準関数を使用して、検出損失を削減し、モデルの収束を加速し、小さな絶縁体欠陥に対するモデルの感度を高め、より高い真陽性結果をもたらしました。
データセットが限られているため、データ拡張技術を利用してデータセットの多様性を高めました。
さらに、転移学習戦略を活用してモデルのパフォーマンスを向上させました。
高解像度 UAV 画像の実験結果は、私たちの方法が 96.9% mAP0.5 の最先端のパフォーマンスと 74.63 フレーム/秒のリアルタイム検出速度を達成し、ベースライン モデルを上回るパフォーマンスを示していることを示しています。
これは、物体検出タスクにおける注意ベースの畳み込みニューラル ネットワーク (CNN) の有効性をさらに示しています。

要約(オリジナル)

Existing detection methods for insulator defect identification from unmanned aerial vehicles (UAV) struggle with complex background scenes and small objects, leading to suboptimal accuracy and a high number of false positives detection. Using the concept of local attention modeling, this paper proposes a new attention-based foundation architecture, YOLO-ELA, to address this issue. The Efficient Local Attention (ELA) blocks were added into the neck part of the one-stage YOLOv8 architecture to shift the model’s attention from background features towards features of insulators with defects. The SCYLLA Intersection-Over-Union (SIoU) criterion function was used to reduce detection loss, accelerate model convergence, and increase the model’s sensitivity towards small insulator defects, yielding higher true positive outcomes. Due to a limited dataset, data augmentation techniques were utilized to increase the diversity of the dataset. In addition, we leveraged the transfer learning strategy to improve the model’s performance. Experimental results on high-resolution UAV images show that our method achieved a state-of-the-art performance of 96.9% mAP0.5 and a real-time detection speed of 74.63 frames per second, outperforming the baseline model. This further demonstrates the effectiveness of attention-based convolutional neural networks (CNN) in object detection tasks.

arxiv情報

著者 Olalekan Akindele,Joshua Atolagbe
発行日 2024-10-15 16:00:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection はコメントを受け付けていません

MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes

要約

トーキングフェイス生成 (TFG) は、ターゲット ID の顔をアニメーション化して、リアルなトーキングビデオを作成することを目的としています。
パーソナライズされた TFG は、合成結果の知覚的な同一性の類似性 (外観と話し方の観点から) を強調するバリアントです。
これまでの研究では通常、各アイデンティティの個別の神経放射フィールド (NeRF) を学習してその静的情報と動的情報を暗黙的に保存することでこの問題を解決していましたが、アイデンティティごと、トレーニングごとのフレームワークと、
限られたトレーニングデータ。
この目的を達成するために、私たちは、NeRF ベースの個人に依存しない汎用モデルからの豊富な知識を活用して、パーソナライズされた TFG の効率と堅牢性を向上させる最初の試みである MimicTalk を提案します。
具体的には、(1) まずベースモデルとして人物に依存しない 3D TFG モデルを考案し、それを特定のアイデンティティに適応させることを提案します。
(2) モデルがパーソナライズされた静的な外観と顔の動的な特徴を学習できるようにする静的-動的-ハイブリッド適応パイプラインを提案します。
(3)パーソナライズされた会話スタイルの顔の動きを生成するために、明示的なスタイル表現による情報損失なしに、参照ビデオで提供される暗黙的な会話スタイルを模倣する、コンテキスト内の様式化された音声から動きへのモデルを提案します。
目に見えないアイデンティティへの適応プロセスは 15 分で実行でき、これは以前の個人依存の方法より 47 倍高速です。
実験の結果、MimicTalk はビデオ品質、効率、表現力に関して以前の基準を上回っていることが示されています。
ソース コードとビデオ サンプルは https://mimictalk.github.io で入手できます。

要約(オリジナル)

Talking face generation (TFG) aims to animate a target identity’s face to create realistic talking videos. Personalized TFG is a variant that emphasizes the perceptual identity similarity of the synthesized result (from the perspective of appearance and talking style). While previous works typically solve this problem by learning an individual neural radiance field (NeRF) for each identity to implicitly store its static and dynamic information, we find it inefficient and non-generalized due to the per-identity-per-training framework and the limited training data. To this end, we propose MimicTalk, the first attempt that exploits the rich knowledge from a NeRF-based person-agnostic generic model for improving the efficiency and robustness of personalized TFG. To be specific, (1) we first come up with a person-agnostic 3D TFG model as the base model and propose to adapt it into a specific identity; (2) we propose a static-dynamic-hybrid adaptation pipeline to help the model learn the personalized static appearance and facial dynamic features; (3) To generate the facial motion of the personalized talking style, we propose an in-context stylized audio-to-motion model that mimics the implicit talking style provided in the reference video without information loss by an explicit style representation. The adaptation process to an unseen identity can be performed in 15 minutes, which is 47 times faster than previous person-dependent methods. Experiments show that our MimicTalk surpasses previous baselines regarding video quality, efficiency, and expressiveness. Source code and video samples are available at https://mimictalk.github.io .

arxiv情報

著者 Zhenhui Ye,Tianyun Zhong,Yi Ren,Ziyue Jiang,Jiawei Huang,Rongjie Huang,Jinglin Liu,Jinzheng He,Chen Zhang,Zehan Wang,Xize Chen,Xiang Yin,Zhou Zhao
発行日 2024-10-15 16:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes はコメントを受け付けていません

Patch-Based Diffusion Models Beat Whole-Image Models for Mismatched Distribution Inverse Problems

要約

拡散モデルは、強力な画像事前分布を学習できるため、逆問題の解決において優れた成功を収めてきましたが、既存のアプローチでは、テスト データセットと同じ分布に由来する画像の大規模なトレーニング データセットが必要です。
トレーニング分布とテスト分布が一致しない場合、事前分布が正しくないため、再構成された画像にアーティファクトや幻覚が発生する可能性があります。
この研究では、既知のトレーニング配布が最初に提供される場合の配布外 (OOD) 問題を系統的に研究します。
まず、未知のテスト分布から取得された単一の測定値のみが利用可能な設定を検討します。
次に、テスト分布に属するデータの非常に小さなサンプルが利用可能な設定を研究します。そして、私たちの目標は依然としてテスト分布から得られた測定値から画像を再構築することです。
どちらの設定でも、パッチのみから画像分布を学習するパッチベースの拡散事前処理を使用します。
さらに、最初の設定には、ネットワーク出力が測定との一貫性を維持するのに役立つ自己監視損失が含まれています。
広範な実験により、どちらの設定でも、パッチベースの手法は画像全体モデルを上回る高品質の画像再構成を取得でき、大規模な分布内トレーニング データセットにアクセスできる手法と競合できることが示されています。
さらに、全体画像モデルが記憶や過学習を起こしやすく、再構成時にアーティファクトが発生する一方で、パッチベースのモデルがこれらの問題を解決できることを示します。

要約(オリジナル)

Diffusion models have achieved excellent success in solving inverse problems due to their ability to learn strong image priors, but existing approaches require a large training dataset of images that should come from the same distribution as the test dataset. When the training and test distributions are mismatched, artifacts and hallucinations can occur in reconstructed images due to the incorrect priors. In this work, we systematically study out of distribution (OOD) problems where a known training distribution is first provided. We first study the setting where only a single measurement obtained from the unknown test distribution is available. Next we study the setting where a very small sample of data belonging to the test distribution is available, and our goal is still to reconstruct an image from a measurement that came from the test distribution. In both settings, we use a patch-based diffusion prior that learns the image distribution solely from patches. Furthermore, in the first setting, we include a self-supervised loss that helps the network output maintain consistency with the measurement. Extensive experiments show that in both settings, the patch-based method can obtain high quality image reconstructions that can outperform whole-image models and can compete with methods that have access to large in-distribution training datasets. Furthermore, we show how whole-image models are prone to memorization and overfitting, leading to artifacts in the reconstructions, while a patch-based model can resolve these issues.

arxiv情報

著者 Jason Hu,Bowen Song,Jeffrey A. Fessler,Liyue Shen
発行日 2024-10-15 16:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Patch-Based Diffusion Models Beat Whole-Image Models for Mismatched Distribution Inverse Problems はコメントを受け付けていません