pySLAM: An Open-Source, Modular, and Extensible Framework for SLAM

要約

Pyslamは、視覚的なスラムのオープンソースPythonフレームワークであり、単眼、ステレオ、RGB-Dカメラをサポートしています。
クラシックと最新のローカル機能の両方を統合するための柔軟なインターフェイスを提供し、さまざまなスラムタスクに適応できます。
フレームワークには、異なるループ閉鎖方法、体積再構成パイプライン、および深度予測モデルのサポートが含まれます。
さらに、視覚的な臭気とスラムアプリケーションのための一連のツールを提供します。
初心者と経験豊富な研究者の両方のために設計されたPyslamは、コミュニティの貢献を奨励し、ビジュアルスラムの分野での共同開発を促進します。

要約(オリジナル)

pySLAM is an open-source Python framework for Visual SLAM, supporting monocular, stereo, and RGB-D cameras. It provides a flexible interface for integrating both classical and modern local features, making it adaptable to various SLAM tasks. The framework includes different loop closure methods, a volumetric reconstruction pipeline, and support for depth prediction models. Additionally, it offers a suite of tools for visual odometry and SLAM applications. Designed for both beginners and experienced researchers, pySLAM encourages community contributions, fostering collaborative development in the field of Visual SLAM.

arxiv情報

著者 Luigi Freda
発行日 2025-02-17 16:05:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | pySLAM: An Open-Source, Modular, and Extensible Framework for SLAM はコメントを受け付けていません

Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023

要約

SCICAPデータセットが2021年に開始されて以来、研究コミュニティは学術記事の科学者のキャプションを生成することに大きな進歩を遂げてきました。
2023年、最初のSCICAPチャレンジが行われ、グローバルチームが拡張されたSCICAPデータセットを使用して、さまざまな学術分野で多様なフィギュアタイプをキャプションするためのモデルを開発するよう招待しました。
同時に、テキスト生成モデルは迅速に進歩し、さまざまなビジョンと言語のタスクで印象的な機能を示した多くの強力な事前訓練を受けた大規模マルチモーダルモデル(LMM)が出現しました。
このペーパーでは、最初のScicap Challengeの概要を示し、データ上のさまざまなモデルのパフォーマンスを詳細に説明し、Fields Stateのスナップショットをキャプチャします。
プロの編集者は、他のすべてのモデルや著者が書いた元のキャプションよりもGPT-4Vによって生成されたフィギュアキャプションを圧倒的に好むことがわかりました。
この重要な発見に続いて、この質問に答えるために詳細な分析を実施しました。高度なLMMSは、科学者のキャプションを生成するタスクを解決しましたか?

要約(オリジナル)

Since the SCICAP datasets launch in 2021, the research community has made significant progress in generating captions for scientific figures in scholarly articles. In 2023, the first SCICAP Challenge took place, inviting global teams to use an expanded SCICAP dataset to develop models for captioning diverse figure types across various academic fields. At the same time, text generation models advanced quickly, with many powerful pre-trained large multimodal models (LMMs) emerging that showed impressive capabilities in various vision-and-language tasks. This paper presents an overview of the first SCICAP Challenge and details the performance of various models on its data, capturing a snapshot of the fields state. We found that professional editors overwhelmingly preferred figure captions generated by GPT-4V over those from all other models and even the original captions written by authors. Following this key finding, we conducted detailed analyses to answer this question: Have advanced LMMs solved the task of generating captions for scientific figures?

arxiv情報

著者 Ting-Yao E. Hsu,Yi-Li Hsu,Shaurya Rohatgi,Chieh-Yang Huang,Ho Yin Sam Ng,Ryan Rossi,Sungchul Kim,Tong Yu,Lun-Wei Ku,C. Lee Giles,Ting-Hao K. Huang
発行日 2025-02-17 16:11:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023 はコメントを受け付けていません

Learning Generalizable Prompt for CLIP with Class Similarity Knowledge

要約

Vision-Language Models(VLMS)では、迅速なチューニングにより、モデルを下流タスクに適応させる効果が示されています。
しかし、迅速な調整中にターゲットを絞ったクラスに過剰にでもきつける傾向があるため、目に見えないクラスに一般化するために、学んだプロンプトは一般化するのに苦労しています。
障害のケースを調べると、学習されたプロンプトは、目に見えないクラスのセマンティクスを混乱させ、クラス間の誤ったセマンティック関係を持つテキスト埋め込みを生成することが観察されました。
これに対処するために、類似性アラインメント正規化(SAR)を提案します。これにより、手作りのプロンプトがキャプチャされたクラス間のセマンティック関係を維持するための学習可能なプロンプトを正規化します。
具体的には、最初にCHATGPT-4Oを使用してベースクラスに関連する新しいクラスを取得し、迅速な調整中に潜在的な目に見えないクラスとしてそれらを利用します。
次に、ベースクラスと新しいクラスの両方をターゲットにすることにより、SARは、手作りのプロンプトからの類似性の関係を持つ学習可能なプロンプトによって生成されるテキスト埋め込み間の類似性の関係を調整します。
既存の迅速な調整方法にSARを適用する広範な実験は、目に見えないクラスへの一般化を改善する上でその有効性を示しています。

要約(オリジナル)

In vision-language models (VLMs), prompt tuning has shown its effectiveness in adapting models to downstream tasks. However, learned prompts struggle to generalize to unseen classes, as they tend to overfit to the classes that are targeted during prompt tuning. Examining failure cases, we observed that learned prompts disrupt the semantics of unseen classes, generating text embeddings with incorrect semantic relationships among classes. To address this, we propose Similarity Alignment Regularization (SAR), which regularizes learnable prompts to preserve the semantic relationships among classes captured by hand-crafted prompts. Specifically, we first obtain novel classes related to base classes using ChatGPT-4o and utilize them as potential unseen classes during prompt tuning. Then, by targeting both base and novel classes, SAR aligns the similarity relationships among text embeddings generated by learnable prompts with the similarity relationships from hand-crafted prompts. Extensive experiments applying SAR to existing prompt tuning methods demonstrate its effectiveness in improving generalization to unseen classes.

arxiv情報

著者 Sehun Jung,Hyang-won Lee
発行日 2025-02-17 16:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Learning Generalizable Prompt for CLIP with Class Similarity Knowledge はコメントを受け付けていません

Robust 6DoF Pose Tracking Considering Contour and Interior Correspondence Uncertainty for AR Assembly Guidance

要約

拡張現実アセンブリガイダンスは、インテリジェントな製造および医療用途に不可欠であり、操作されたオブジェクトの6DOFポーズの継続的な測定が必要です。
現在の追跡方法は精度と効率性に大きな進歩を遂げていますが、散らかった背景、回転的に対称的なオブジェクト、およびノイズの多いシーケンスを扱うとき、彼らは依然として堅牢性の課題に直面しています。
この論文では、最初に、エラーが発生しやすい輪郭の対応に対処し、ノイズ許容度を向上させる堅牢な輪郭ベースのポーズ追跡方法を提案します。
ファン型の検索戦略を利用して対応を改良し、局所的な輪郭の形状とノイズの不確実性を混合確率分布としてモデル化し、非常に堅牢な輪郭エネルギー機能をもたらします。
第二に、CPUのみの戦略を導入して、回転的に対称的なオブジェクトをより適切に追跡し、まばらな内部の対応を調査することにより局所ミニマを克服する輪郭ベースの方法を支援します。
これは、オフラインでスパースビューポイントテンプレートからインテリアポイントを事前にサンプリングし、DISオプティカルフローアルゴリズムを使用して追跡中に通信を計算することによって達成されます。
最後に、輪郭情報と内部情報を融合するために統一されたエネルギー関数を策定します。これは、再重み付けされた最小二乗アルゴリズムを使用して溶媒がかかります。
パブリックデータセットと実際のシナリオでの実験は、この方法が最先端の単眼追跡方法を大幅に上回り、CPUのみを使用して100以上のFPSを達成できることを示しています。

要約(オリジナル)

Augmented reality assembly guidance is essential for intelligent manufacturing and medical applications, requiring continuous measurement of the 6DoF poses of manipulated objects. Although current tracking methods have made significant advancements in accuracy and efficiency, they still face challenges in robustness when dealing with cluttered backgrounds, rotationally symmetric objects, and noisy sequences. In this paper, we first propose a robust contour-based pose tracking method that addresses error-prone contour correspondences and improves noise tolerance. It utilizes a fan-shaped search strategy to refine correspondences and models local contour shape and noise uncertainty as mixed probability distribution, resulting in a highly robust contour energy function. Secondly, we introduce a CPU-only strategy to better track rotationally symmetric objects and assist the contour-based method in overcoming local minima by exploring sparse interior correspondences. This is achieved by pre-sampling interior points from sparse viewpoint templates offline and using the DIS optical flow algorithm to compute their correspondences during tracking. Finally, we formulate a unified energy function to fuse contour and interior information, which is solvable using a re-weighted least squares algorithm. Experiments on public datasets and real scenarios demonstrate that our method significantly outperforms state-of-the-art monocular tracking methods and can achieve more than 100 FPS using only a CPU.

arxiv情報

著者 Jixiang Chen,Jing Chen,Kai Liu,Haochen Chang,Shanfeng Fu,Jian Yang
発行日 2025-02-17 16:18:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Robust 6DoF Pose Tracking Considering Contour and Interior Correspondence Uncertainty for AR Assembly Guidance はコメントを受け付けていません

Image Inversion: A Survey from GANs to Diffusion and Beyond

要約

画像の反転は、生成モデルの基本的なタスクであり、編集、復元、スタイルの転送などのダウンストリームアプリケーションを有効にするために、画像を潜在的な表現に戻すことを目指しています。
このホワイトペーパーでは、画像反転技術の最新の進歩の包括的なレビューを提供し、2つの主要なパラダイムに焦点を当てています。生成敵対的ネットワーク(GAN)反転と拡散モデルの反転です。
これらの手法の最適化方法に基づいて分類します。
GANの反転については、既存の方法をエンコーダーベースのアプローチ、潜在的な最適化アプローチ、およびハイブリッドアプローチに体系的に分類し、理論的基盤、技術革新、実用的なトレードオフを分析します。
拡散モデルの反転については、トレーニングのない戦略、微調整方法、および追加の訓練可能なモジュールの設計を探り、独自の利点と制限を強調します。
さらに、画像タスクを超えたいくつかの一般的なダウンストリームアプリケーションと新たなアプリケーションについて説明し、現在の課題と将来の研究の方向性を特定します。
最新の開発を統合することにより、このペーパーは、研究者と実務家に貴重な参照リソースを提供し、画像の反転の分野でのさらなる進歩を促進することを目的としています。
https://github.com/ryanchenyn/imageinversionの最新作品を追跡します

要約(オリジナル)

Image inversion is a fundamental task in generative models, aiming to map images back to their latent representations to enable downstream applications such as editing, restoration, and style transfer. This paper provides a comprehensive review of the latest advancements in image inversion techniques, focusing on two main paradigms: Generative Adversarial Network (GAN) inversion and diffusion model inversion. We categorize these techniques based on their optimization methods. For GAN inversion, we systematically classify existing methods into encoder-based approaches, latent optimization approaches, and hybrid approaches, analyzing their theoretical foundations, technical innovations, and practical trade-offs. For diffusion model inversion, we explore training-free strategies, fine-tuning methods, and the design of additional trainable modules, highlighting their unique advantages and limitations. Additionally, we discuss several popular downstream applications and emerging applications beyond image tasks, identifying current challenges and future research directions. By synthesizing the latest developments, this paper aims to provide researchers and practitioners with a valuable reference resource, promoting further advancements in the field of image inversion. We keep track of the latest works at https://github.com/RyanChenYN/ImageInversion

arxiv情報

著者 Yinan Chen,Jiangning Zhang,Yali Bi,Xiaobin Hu,Teng Hu,Zhucun Xue,Ran Yi,Yong Liu,Ying Tai
発行日 2025-02-17 16:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Image Inversion: A Survey from GANs to Diffusion and Beyond はコメントを受け付けていません

Characterizing Photorealism and Artifacts in Diffusion Model-Generated Images

要約

拡散モデルで生成された画像は、本物の写真と区別できないように見える場合がありますが、これらの画像には多くの場合、AIが生成された起源を明らかにするアーティファクトと虚偽性が含まれています。
フォトリアリスティックなAIに生成された画像によってもたらされるメディアへの国民の信頼への課題を考えると、450の拡散モデル生成画像と149の実際の画像でヒト検出精度を測定する大規模な実験を実施しました。
50,444人の参加者から749,828の観測と34,675のコメントを収集することに基づいて、画像のシーンの複雑さ、画像内のアーティファクトタイプ、画像の表示時間、およびAIに生成された画像の人間のキュレーションはすべて、人々がどれほど正確に際立っているかで重要な役割を果たします。
AIに生成された画像からのリアル。
さらに、拡散モデルによって生成された画像にしばしば表示されるアーティファクトを特徴付ける分類法を提案します。
私たちの経験的観察と分類法は、2024年にフォトリアリスティックな画像を生成するための拡散モデルの能力と制限に関する微妙な洞察を提供します。

要約(オリジナル)

Diffusion model-generated images can appear indistinguishable from authentic photographs, but these images often contain artifacts and implausibilities that reveal their AI-generated provenance. Given the challenge to public trust in media posed by photorealistic AI-generated images, we conducted a large-scale experiment measuring human detection accuracy on 450 diffusion-model generated images and 149 real images. Based on collecting 749,828 observations and 34,675 comments from 50,444 participants, we find that scene complexity of an image, artifact types within an image, display time of an image, and human curation of AI-generated images all play significant roles in how accurately people distinguish real from AI-generated images. Additionally, we propose a taxonomy characterizing artifacts often appearing in images generated by diffusion models. Our empirical observations and taxonomy offer nuanced insights into the capabilities and limitations of diffusion models to generate photorealistic images in 2024.

arxiv情報

著者 Negar Kamali,Karyn Nakamura,Aakriti Kumar,Angelos Chatzimparmpas,Jessica Hullman,Matthew Groh
発行日 2025-02-17 16:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | Characterizing Photorealism and Artifacts in Diffusion Model-Generated Images はコメントを受け付けていません

On the Logic Elements Associated with Round-Off Errors and Gaussian Blur in Image Registration: A Simple Case of Commingling

要約

個別の画像登録は、ぼやけとノイズによって破損したサンプルから信号を再構築する戦略となります。
ガウスまたはガウスの混合物であるぼかしの影響を受ける1次元空間的に制限された区分的定数関数の超解像度と個別の画像登録を調べます。
以前のアプローチは、最適化の問題として信号回復の問題に対処します。
私たちは、ぼかしが少ないレジームに焦点を当て、ぼやけ、サンプリング、および量子化の操作はコンピュータープログラムの操作とは異なり、ロジックの種類で研究できる抽象化を持っていることを示唆しています。
不連続ポイント間の最小距離がサンプリング間隔の1.5ドルと2倍の間の間にある場合、「commingling」と呼ばれる不連続ポイント間の干渉のタイプの最も単純な形式に遭遇することができます。
しばしば信号振幅の正しい回復をもたらす同じ信号のサンプルの。
また、不連続ポイント間の距離の境界を推定する方法についても説明します。

要約(オリジナル)

Discrete image registration can be a strategy to reconstruct signals from samples corrupted by blur and noise. We examine superresolution and discrete image registration for one-dimensional spatially-limited piecewise constant functions which are subject to blur which is Gaussian or a mixture of Gaussians as well as to round-off errors. Previous approaches address the signal recovery problem as an optimization problem. We focus on a regime with low blur and suggest that the operations of blur, sampling, and quantization are not unlike the operation of a computer program and have an abstraction that can be studied with a type of logic. When the minimum distance between discontinuity points is between $1.5$ and 2 times the sampling interval, we can encounter the simplest form of a type of interference between discontinuity points that we call “commingling.” We describe a way to reason about two sets of samples of the same signal that will often result in the correct recovery of signal amplitudes. We also discuss ways to estimate bounds on the distances between discontinuity points.

arxiv情報

著者 Serap A. Savari
発行日 2025-02-17 16:33:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | On the Logic Elements Associated with Round-Off Errors and Gaussian Blur in Image Registration: A Simple Case of Commingling はコメントを受け付けていません

MultiFlow: A unified deep learning framework for multi-vessel classification, segmentation and clustering of phase-contrast MRI validated on a multi-site single ventricle patient cohort

要約

この研究では、ヴェロシティエンコード位相コントラスト磁気共鳴画像データの分類とセグメンテーションのための統一されたディープラーニング(DL)フレームワーク、MultiFlowSeg、および流量表現型の時間的クラスタリングのためのMultiFlowDTCを提示します。
Fontan手順患者の力登録に適用されたMultiFlowSegは、Aorta、SVC、およびIVCで100%の分類精度を達成し、LPAおよびRPAで94%を達成しました。
0.91(IQR:0.86-0.93)のサイコロスコアの中央値で堅牢なセグメンテーションを実証しました。
自動化されたパイプラインはレジストリデータを処理し、不十分な画像品質やデキストラカルディアなどの課題にもかかわらず、高いセグメンテーションの成功を達成しました。
一時的なクラスタリングでは、排出率、運動耐性、肝疾患、死亡率など、臨床結果に大きな違いがある5つの異なる患者サブグループが特定されました。
これらの結果は、CHD予後とパーソナライズされたケアを改善するためのDLと時変フローデータを組み合わせる可能性を示しています。

要約(オリジナル)

This study presents a unified deep learning (DL) framework, MultiFlowSeg, for classification and segmentation of velocity-encoded phase-contrast magnetic resonance imaging data, and MultiFlowDTC for temporal clustering of flow phenotypes. Applied to the FORCE registry of Fontan procedure patients, MultiFlowSeg achieved 100% classification accuracy for the aorta, SVC, and IVC, and 94% for the LPA and RPA. It demonstrated robust segmentation with a median Dice score of 0.91 (IQR: 0.86-0.93). The automated pipeline processed registry data, achieving high segmentation success despite challenges like poor image quality and dextrocardia. Temporal clustering identified five distinct patient subgroups, with significant differences in clinical outcomes, including ejection fraction, exercise tolerance, liver disease, and mortality. These results demonstrate the potential of combining DL and time-varying flow data for improved CHD prognosis and personalized care.

arxiv情報

著者 Tina Yao,Nicole St. Clair,Gabriel F. Miller,FORCE Investigators,Jennifer A. Steeden,Rahul H. Rathod,Vivek Muthurangu
発行日 2025-02-17 16:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MultiFlow: A unified deep learning framework for multi-vessel classification, segmentation and clustering of phase-contrast MRI validated on a multi-site single ventricle patient cohort はコメントを受け付けていません

ConsistentDreamer: View-Consistent Meshes Through Balanced Multi-View Gaussian Optimization

要約

拡散モデルの最近の進歩により、3D生成が大幅に改善され、具体化されたAIシミュレーションのために画像から生成された資産の使用が可能になりました。
ただし、イメージから3Dの問題の1対多くの性質は、一貫性のないコンテンツとビュー全体の品質のために使用を制限します。
以前のモデルは、ビューコンディショニングされた拡散前のビューをサンプリングすることにより、3Dモデルを最適化しますが、拡散モデルはビューの一貫性を保証することはできません。
代わりに、一貫性のあるドリーマーを提示します。ここでは、最初に一連の固定マルチビューの事前画像を生成し、スコア蒸留サンプリング(SDS)損失を介して別の拡散モデルでそれらの間にランダムビューをサンプリングします。
それにより、SDSの損失によって導かれたビュー間の矛盾を制限し、一貫した粗い形状を確保します。
各反復では、生成されたマルチビューの事前画像を使用して、高度なデテール再構成も使用します。
粗い形状と微細なディテールの最適化のバランスをとるために、各反復で自動的に更新された同性的な不確実性に基づいて、動的なタスク依存の重みを導入します。
さらに、メッシュ抽出のために表面を改良するために、不透明度、深さの歪み、および通常のアライメント損失を採用しています。
私たちの方法は、最先端と比較して、一貫性と視覚的品質をよりよく見ることができます。

要約(オリジナル)

Recent advances in diffusion models have significantly improved 3D generation, enabling the use of assets generated from an image for embodied AI simulations. However, the one-to-many nature of the image-to-3D problem limits their use due to inconsistent content and quality across views. Previous models optimize a 3D model by sampling views from a view-conditioned diffusion prior, but diffusion models cannot guarantee view consistency. Instead, we present ConsistentDreamer, where we first generate a set of fixed multi-view prior images and sample random views between them with another diffusion model through a score distillation sampling (SDS) loss. Thereby, we limit the discrepancies between the views guided by the SDS loss and ensure a consistent rough shape. In each iteration, we also use our generated multi-view prior images for fine-detail reconstruction. To balance between the rough shape and the fine-detail optimizations, we introduce dynamic task-dependent weights based on homoscedastic uncertainty, updated automatically in each iteration. Additionally, we employ opacity, depth distortion, and normal alignment losses to refine the surface for mesh extraction. Our method ensures better view consistency and visual quality compared to the state-of-the-art.

arxiv情報

著者 Onat Şahin,Mohammad Altillawi,George Eskandar,Carlos Carbone,Ziyuan Liu
発行日 2025-02-17 16:37:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ConsistentDreamer: View-Consistent Meshes Through Balanced Multi-View Gaussian Optimization はコメントを受け付けていません

NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing

要約

視覚音声認識(VSR)の最近の進歩は、唇からスピーチの合成の進歩を促進しました。これにより、事前に訓練されたVSRモデルは、貴重なセマンティック情報を提供することにより、合成された音声の明瞭度を高めます。
擬似VSRと擬似テキストへの物語(TTS)を組み合わせたCascade Frameworksによって達成される成功または転写されたテキストを暗黙的に利用すると、VSRモデルを活用することの利点を強調します。
ただし、これらの方法は通常、中間表現としてメルスペクトルグラムに依存しており、重要なボトルネックを導入する可能性があります。本質的にエラーが発生しやすい唇からスピーチマッピングから生成された合成メルスペクトルグラムの間のドメインギャップと、使用された実際のメルセプログラムから生成されます。
ボコーダーをトレーニングする。
この不一致は、必然的に合成品質を低下させます。
このギャップを橋渡しするために、自然な唇からスピーチ(naturall2s)を提案します。これは、微分誘導性バイアスと微分可能な音声生成成分を統合するエンドツーエンドのフレームワークです。
具体的には、合成された音声の韻律変動をキャプチャするために、基本周波数(F0)予測因子を導入します。
予測されたF0は、微分可能なデジタル信号処理(DDSP)シンセサイザーを駆動して、その後の音声合成の事前の情報として機能する粗い信号を生成します。
さらに、補助入力として参照スピーカーの埋め込みに依存する代わりに、スピーカーの特性を明示的にモデル化することなく、スピーカーの類似性で満足のいくパフォーマンスを実現します。
客観的評価と主観的評価の両方の結果は、Naturall2が最先端の方法と比較した場合、合成された音声の品質を効果的に向上させることができることを示しています。
デモページには、https://yifan-liang.github.io/naturall2s/にアクセスできます。

要約(オリジナル)

Recent advancements in visual speech recognition (VSR) have promoted progress in lip-to-speech synthesis, where pre-trained VSR models enhance the intelligibility of synthesized speech by providing valuable semantic information. The success achieved by cascade frameworks, which combine pseudo-VSR with pseudo-text-to-speech (TTS) or implicitly utilize the transcribed text, highlights the benefits of leveraging VSR models. However, these methods typically rely on mel-spectrograms as an intermediate representation, which may introduce a key bottleneck: the domain gap between synthetic mel-spectrograms, generated from inherently error-prone lip-to-speech mappings, and real mel-spectrograms used to train vocoders. This mismatch inevitably degrades synthesis quality. To bridge this gap, we propose Natural Lip-to-Speech (NaturalL2S), an end-to-end framework integrating acoustic inductive biases with differentiable speech generation components. Specifically, we introduce a fundamental frequency (F0) predictor to capture prosodic variations in synthesized speech. The predicted F0 then drives a Differentiable Digital Signal Processing (DDSP) synthesizer to generate a coarse signal which serves as prior information for subsequent speech synthesis. Additionally, instead of relying on a reference speaker embedding as an auxiliary input, our approach achieves satisfactory performance on speaker similarity without explicitly modelling speaker characteristics. Both objective and subjective evaluation results demonstrate that NaturalL2S can effectively enhance the quality of the synthesized speech when compared to state-of-the-art methods. Our demonstration page is accessible at https://yifan-liang.github.io/NaturalL2S/.

arxiv情報

著者 Yifan Liang,Fangkun Liu,Andong Li,Xiaodong Li,Chengshi Zheng
発行日 2025-02-17 16:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing はコメントを受け付けていません