CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

要約

人間は、常識的な知識をコードする内部の世界モデルを開発し、世界がどのように機能するかを伝え、行動の結果を予測することができます。
この概念は、最近の予備作業で汎用の機械学習モデルを確立するための有望な方向として浮上しています。
この論文では、X線撮影画像の自立した世界モデルに向けた最初の努力であるChexworldを紹介します。
具体的には、私たちの研究は、1)局所組織(例えば、アーキテクチャ、形状、テクスチャなど)のきめ細かい特性を記述する局所解剖学的構造に不可欠な医療知識の3つの側面を同時にモデル化する統一されたフレームワークを開発します。
2)人体のグローバルな組織を説明するグローバルな解剖学的レイアウト(例:臓器や骨格のレイアウト)。
3)Chexworldがレントゲン写真の異なる外観ドメインにまたがる遷移をモデル化することを奨励するドメインのバリエーション(たとえば、さまざまな病院、デバイス、または患者からレントゲン写真を収集することによって引き起こされる透明度、コントラスト、および露出が変化します)。
経験的には、調整された定性的および定量的分析を設計し、Chexworldがこれらの3つの医学知識の次元を首尾よく捉えていることを明らかにします。
さらに、8つの医療画像分類とセグメンテーションベンチマークにわたるトランスファーラーニング実験は、Chexworldが既存のSSLメソッドと大規模な医療基盤モデルを大幅に上回ることを示しています。
Code&Pre-Trainedモデルは、https://github.com/leaplabthu/chexworldで入手できます。

要約(オリジナル)

Humans can develop internal world models that encode common sense knowledge, telling them how the world works and predicting the consequences of their actions. This concept has emerged as a promising direction for establishing general-purpose machine-learning models in recent preliminary works, e.g., for visual representation learning. In this paper, we present CheXWorld, the first effort towards a self-supervised world model for radiographic images. Specifically, our work develops a unified framework that simultaneously models three aspects of medical knowledge essential for qualified radiologists, including 1) local anatomical structures describing the fine-grained characteristics of local tissues (e.g., architectures, shapes, and textures); 2) global anatomical layouts describing the global organization of the human body (e.g., layouts of organs and skeletons); and 3) domain variations that encourage CheXWorld to model the transitions across different appearance domains of radiographs (e.g., varying clarity, contrast, and exposure caused by collecting radiographs from different hospitals, devices, or patients). Empirically, we design tailored qualitative and quantitative analyses, revealing that CheXWorld successfully captures these three dimensions of medical knowledge. Furthermore, transfer learning experiments across eight medical image classification and segmentation benchmarks showcase that CheXWorld significantly outperforms existing SSL methods and large-scale medical foundation models. Code & pre-trained models are available at https://github.com/LeapLabTHU/CheXWorld.

arxiv情報

著者 Yang Yue,Yulin Wang,Chenxin Tao,Pan Liu,Shiji Song,Gao Huang
発行日 2025-04-18 17:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning はコメントを受け付けていません

Outlier-Robust Multi-Model Fitting on Quantum Annealers

要約

マルチモデルフィッティング(MMF)は、特にその組み合わせの性質により、コンピュータービジョンに大きな課題を提示します。
量子コンピューティングの最近の進歩は、NPハードの問題に対処するための見込みを提供しますが、モデルフィッティングのための既存の量子ベースのアプローチは単一のモデルに限定されるか、外れ値のないデータセット内のマルチモデルシナリオを検討します。
このホワイトペーパーでは、外れ値を効果的に処理するように設計された堅牢な量子マルチモデルフィッティング(R-QUMF)アルゴリズムを紹介します。
私たちの方法は、MMFタスクに固有の組み合わせの課題に取り組むために量子ハードウェアの本質的な機能を活用しており、モデルの正確な数の事前知識を必要とせず、それによってその実用的な適用性を高めます。
問題を断熱量子コンピューター(AQC)の最大セットカバレッジタスクとして策定することにより、R-QUMFは既存の量子技術を上回り、さまざまな合成および実世界の3Dデータセットで優れたパフォーマンスを実証します。
私たちの調査結果は、特に騒々しいデータを備えた現実世界のシナリオで、MMFの複雑さに対処する量子コンピューティングの可能性を強調しています。

要約(オリジナル)

Multi-model fitting (MMF) presents a significant challenge in Computer Vision, particularly due to its combinatorial nature. While recent advancements in quantum computing offer promise for addressing NP-hard problems, existing quantum-based approaches for model fitting are either limited to a single model or consider multi-model scenarios within outlier-free datasets. This paper introduces a novel approach, the robust quantum multi-model fitting (R-QuMF) algorithm, designed to handle outliers effectively. Our method leverages the intrinsic capabilities of quantum hardware to tackle combinatorial challenges inherent in MMF tasks, and it does not require prior knowledge of the exact number of models, thereby enhancing its practical applicability. By formulating the problem as a maximum set coverage task for adiabatic quantum computers (AQC), R-QuMF outperforms existing quantum techniques, demonstrating superior performance across various synthetic and real-world 3D datasets. Our findings underscore the potential of quantum computing in addressing the complexities of MMF, especially in real-world scenarios with noisy and outlier-prone data.

arxiv情報

著者 Saurabh Pandey,Luca Magri,Federica Arrigoni,Vladislav Golyanik
発行日 2025-04-18 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Outlier-Robust Multi-Model Fitting on Quantum Annealers はコメントを受け付けていません

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

要約

検証可能な報酬(RLVR)による強化学習は最近、特に数学やプログラミングタスクにおいてLLMの推論能力を高めることに顕著な成功を実証しました。
RLVRにより、LLMが継続的に自己改善できるようになり、対応するベースモデルの容量を超える新しい推論能力を獲得できると広く信じられています。
ただし、この研究では、\ textIT {k}の大きな値でpass@\ textit {k}メトリックを測定して、幅広いモデルファミリとベンチマークにわたるモデルの推論能力境界を調査することにより、この仮定を批判的に再検討します。
驚くべきことに、RLは\ empond {not}を実行します。実際、根本的に新しい推論パターンを引き出します。
RLトレーニングモデルは、$ k $(\ eg、$ k $ = 1)の小さい値でベースモデルよりも優れていますが、ベースモデルは、$ k $値の大規模な$ k $値のrlの対応物と比較して、同等またはそれ以上のパス@$ k $スコアを達成できます。
RLトレーニングモデルによって生成された推論パスは、基本モデルのサンプリング分布にすでに含まれており、RLトレーニングモデルに現れるほとんどの推論能力が基本モデルによってすでに取得されていることを示唆しています。
さらなる分析により、RLトレーニングは、報酬をもたらす可能性が高いパスにモデルの出力分布をバイアスすることにより、パフォーマンスを向上させるため、正しい応答をより効率的にサンプリングすることが示されています。
しかし、これにより、ベースモデルと比較して、より狭い推論能力境界がもたらされます。
RLVRでトレーニングされた視覚的推論タスクでも同様の結果が観察されます。
さらに、蒸留により、RLVRとは異なるモデルに新しい知識を真に導入できることがわかります。
これらの調査結果は、LLMの推論能力を進める際のRLVRの重要な制限を強調しているため、LLMSの推論におけるRLトレーニングの影響とより良いパラダイムの必要性を根本的に再考する必要があります。
プロジェクトページ:https://limit-of-rlvr.github.io

要約(オリジナル)

Reinforcement Learning with Verifiable Rewards (RLVR) has recently demonstrated notable success in enhancing the reasoning capabilities of LLMs, particularly in mathematics and programming tasks. It is widely believed that RLVR enables LLMs to continuously self-improve, thus acquiring novel reasoning abilities that exceed corresponding base models’ capacity. In this study, however, we critically re-examines this assumption by measuring the pass@\textit{k} metric with large values of \textit{k} to explore the reasoning capability boundary of the models across a wide range of model families and benchmarks. Surprisingly, the RL does \emph{not}, in fact, elicit fundamentally new reasoning patterns. While RL-trained models outperform their base models at smaller values of $k$ (\eg, $k$=1), base models can achieve a comparable or even higher pass@$k$ score compared to their RL counterparts at large $k$ values. The reasoning paths generated by RL-trained models are already included in the base models’ sampling distribution, suggesting that most reasoning abilities manifested in RL-trained models are already obtained by base models. Further analysis shows that RL training boosts the performance by biasing the model’s output distribution toward paths that are more likely to yield rewards, therefore sampling correct responses more efficiently. But this also results in a narrower reasoning capability boundary compared to base models. Similar results are observed in visual reasoning tasks trained with RLVR. Moreover, we find that distillation can genuinely introduce new knowledge into the model, different from RLVR. These findings underscore a critical limitation of RLVR in advancing LLM reasoning abilities which requires us to fundamentally rethink the impact of RL training in reasoning LLMs and the need of a better paradigm. Project Page: https://limit-of-RLVR.github.io

arxiv情報

著者 Yang Yue,Zhiqi Chen,Rui Lu,Andrew Zhao,Zhaokai Wang,Yang Yue,Shiji Song,Gao Huang
発行日 2025-04-18 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? はコメントを受け付けていません

Transferrable Surrogates in Expressive Neural Architecture Search Spaces

要約

ニューラルアーキテクチャ検索(NAS)は、そのようなスペースを効果的に検索するためのアーキテクチャの効率的な評価の必要性と、建築的革新を可能にする表現力豊かな幅広い検索スペースの探索のバランスをとる際の課題に直面しています。
コンテキストのない文法に基づいて、非常に表現力のあるNAS検索スペースでの検索を改善するための代理モデルトレーニングを調査します。
i)ゼロコストプロキシメトリックとニューラルグラフ機能(GRAF)を使用してトレーニングされたサロゲートモデルは、既製のLMを微調整することにより、データセット内および超過の両方でアーキテクチャのパフォーマンスのための高い予測力があることを示します。
さらに、膨大なスピードアップの検索目標として直接使用できます。

要約(オリジナル)

Neural architecture search (NAS) faces a challenge in balancing the exploration of expressive, broad search spaces that enable architectural innovation with the need for efficient evaluation of architectures to effectively search such spaces. We investigate surrogate model training for improving search in highly expressive NAS search spaces based on context-free grammars. We show that i) surrogate models trained either using zero-cost-proxy metrics and neural graph features (GRAF) or by fine-tuning an off-the-shelf LM have high predictive power for the performance of architectures both within and across datasets, ii) these surrogates can be used to filter out bad architectures when searching on novel datasets, thereby significantly speeding up search and achieving better final performances, and iii) the surrogates can be further used directly as the search objective for huge speed-ups.

arxiv情報

著者 Shiwen Qin,Gabriela Kadlecová,Martin Pilát,Shay B. Cohen,Roman Neruda,Elliot J. Crowley,Jovita Lukasik,Linus Ericsson
発行日 2025-04-18 17:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Transferrable Surrogates in Expressive Neural Architecture Search Spaces はコメントを受け付けていません

ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos

要約

人間中心の3D世界の認識において、単一の単眼内の野生のビデオフィギュアからフォトリアリスティックなシーンと人間の再建を作成します。
最近のニューラルレンダリングの進歩により、全体的な人間のシーンの再構成が可能になりましたが、事前に調整されたカメラと人間のポーズ、およびトレーニング時間の日数が必要です。
この作業では、カメラトラッキング、人間のポーズ推定、人間のシーンの再構成をオンラインで実行するという新しい統一フレームワークを紹介します。
3Dガウスのスプラットティングは、人間とシーンのガウスプリミティブを効率的に学習するために利用されており、再構築ベースのカメラ追跡と人間のポーズ推定モジュールは、ホリスティックな理解と効果的なポーズと外観の解体を可能にするように設計されています。
具体的には、人間の変形モジュールを設計して、詳細を再構築し、分散型ポーズの一般化可能性を忠実に強化します。
人間とシーンの間の空間的相関を正確に学ぶことを目指して、閉塞性のヒトシルエットレンダリングと単眼の幾何学的前症を紹介し、再構築品質をさらに向上させます。
EMDBおよびNeumanデータセットでの実験は、カメラの追跡、人間のポーズ推定、新しいビューの合成、ランタイムの既存の方法で優れたパフォーマンスまたは標準性能を示しています。
プロジェクトページはhttps://eth-ait.github.io/odhsrにあります。

要約(オリジナル)

Creating a photorealistic scene and human reconstruction from a single monocular in-the-wild video figures prominently in the perception of a human-centric 3D world. Recent neural rendering advances have enabled holistic human-scene reconstruction but require pre-calibrated camera and human poses, and days of training time. In this work, we introduce a novel unified framework that simultaneously performs camera tracking, human pose estimation and human-scene reconstruction in an online fashion. 3D Gaussian Splatting is utilized to learn Gaussian primitives for humans and scenes efficiently, and reconstruction-based camera tracking and human pose estimation modules are designed to enable holistic understanding and effective disentanglement of pose and appearance. Specifically, we design a human deformation module to reconstruct the details and enhance generalizability to out-of-distribution poses faithfully. Aiming to learn the spatial correlation between human and scene accurately, we introduce occlusion-aware human silhouette rendering and monocular geometric priors, which further improve reconstruction quality. Experiments on the EMDB and NeuMan datasets demonstrate superior or on-par performance with existing methods in camera tracking, human pose estimation, novel view synthesis and runtime. Our project page is at https://eth-ait.github.io/ODHSR.

arxiv情報

著者 Zetong Zhang,Manuel Kaufmann,Lixin Xue,Jie Song,Martin R. Oswald
発行日 2025-04-18 17:00:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.5 | ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos はコメントを受け付けていません

Force and Speed in a Soft Stewart Platform

要約

多くのソフトロボットは、高速で大きな変位で動的な動きを生成するのに苦労しています。
私たちは、手渡されたせん断補助(HSA)アクチュエータを使用して、平行6度(DOF)スチュワートgoughメカニズムを開発します。
ソフトアクチュエーターを使用することにより、3分の1のメカトロニクスコンポーネントを剛性のあるスチュワートプラットフォームと同じように使用することができ、2kgの動作ペイロードと16Hzを超えるオープンループ帯域幅を保持することができます。
プラットフォームは、比例積分微分(PID)コントローラーを使用してボールとスライドパックを制御する際に、正確なトレースと動的妨害の拒絶の両方が可能であることを示します。
マシンラーニングベースの運動学モデルを開発し、各翻訳方向に約10cm、各方向で28度の機能的なワークスペースを実証します。
この6DOFデバイスには、ソフトメカニズムの利点をキャプチャしながら、剛性コンポーネント(パワー、速度、総ワークスペース)に関連する多くの特性があります。

要約(オリジナル)

Many soft robots struggle to produce dynamic motions with fast, large displacements. We develop a parallel 6 degree-of-freedom (DoF) Stewart-Gough mechanism using Handed Shearing Auxetic (HSA) actuators. By using soft actuators, we are able to use one third as many mechatronic components as a rigid Stewart platform, while retaining a working payload of 2kg and an open-loop bandwidth greater than 16Hz. We show that the platform is capable of both precise tracing and dynamic disturbance rejection when controlling a ball and sliding puck using a Proportional Integral Derivative (PID) controller. We develop a machine-learning-based kinematics model and demonstrate a functional workspace of roughly 10cm in each translation direction and 28 degrees in each orientation. This 6DoF device has many of the characteristics associated with rigid components – power, speed, and total workspace – while capturing the advantages of soft mechanisms.

arxiv情報

著者 Jake Ketchum,James Avtges,Millicent Schlafly,Helena Young,Taekyoung Kim,Ryan L. Truby,Todd D. Murphey
発行日 2025-04-18 15:12:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Force and Speed in a Soft Stewart Platform はコメントを受け付けていません

Towards Cardiac MRI Foundation Models: Comprehensive Visual-Tabular Representations for Whole-Heart Assessment and Beyond

要約

心臓磁気共鳴画像法は、非侵襲的心臓評価のゴールドスタンダードであり、心臓の解剖学と生理学の豊富な時空間的見解を提供します。
人口統計、代謝、ライフスタイルなどの患者レベルの健康要因は、心血管の健康と疾患のリスクに実質的に影響を与えることが知られていますが、CMRだけでは非難のままです。
心臓の健康を全体的に理解し、個人の疾患リスクの可能な限り最良の解釈を可能にするためには、CMRと患者レベルの要因を統合されたフレームワーク内で共同で搾取する必要があります。
最近のマルチモーダルアプローチはこのギャップを埋め始めていますが、彼らはしばしば限られた時空間データに依存し、孤立した臨床タスクに焦点を当てているため、心臓の健康評価のための包括的な表現の開発を妨げます。
これらの制限を克服するために、ヴィタを導入します。これは、心臓の包括的な表現と個々の疾患リスクの正確な解釈を提供する基礎モデルへの一歩です。
VITAは、42,000人の英国のBiobank参加者からのデータを活用して、3D+T Cineスタックを短軸と長軸ビューから統合し、心周期を完全に獲得できるようにします。
これらのイメージングデータは、詳細な表形式の患者レベルの要因と融合し、コンテキストを意識した洞察を可能にします。
このマルチモーダルパラダイムは、単一の統合フレームワーク内の心臓および代謝疾患の心臓の特徴の予測、セグメンテーション、および分類を含む、幅広い下流タスクをサポートしています。
豊富なイメージングの特徴と患者のコンテキストを橋渡しする共有潜在表現を学ぶことにより、VITAは、心臓の健康に関する普遍的な患者固有の理解に向けて、従来のタスク固有のモデルを超えて動き、心臓分析における臨床的有用性とスケーラビリティを前進させる可能性を強調します。

要約(オリジナル)

Cardiac magnetic resonance imaging is the gold standard for non-invasive cardiac assessment, offering rich spatio-temporal views of the cardiac anatomy and physiology. Patient-level health factors, such as demographics, metabolic, and lifestyle, are known to substantially influence cardiovascular health and disease risk, yet remain uncaptured by CMR alone. To holistically understand cardiac health and to enable the best possible interpretation of an individual’s disease risk, CMR and patient-level factors must be jointly exploited within an integrated framework. Recent multi-modal approaches have begun to bridge this gap, yet they often rely on limited spatio-temporal data and focus on isolated clinical tasks, thereby hindering the development of a comprehensive representation for cardiac health evaluation. To overcome these limitations, we introduce ViTa, a step toward foundation models that delivers a comprehensive representation of the heart and a precise interpretation of individual disease risk. Leveraging data from 42,000 UK Biobank participants, ViTa integrates 3D+T cine stacks from short-axis and long-axis views, enabling a complete capture of the cardiac cycle. These imaging data are then fused with detailed tabular patient-level factors, enabling context-aware insights. This multi-modal paradigm supports a wide spectrum of downstream tasks, including cardiac phenotype and physiological feature prediction, segmentation, and classification of cardiac and metabolic diseases within a single unified framework. By learning a shared latent representation that bridges rich imaging features and patient context, ViTa moves beyond traditional, task-specific models toward a universal, patient-specific understanding of cardiac health, highlighting its potential to advance clinical utility and scalability in cardiac analysis.

arxiv情報

著者 Yundi Zhang,Paul Hager,Che Liu,Suprosanna Shit,Chen Chen,Daniel Rueckert,Jiazhen Pan
発行日 2025-04-18 09:26:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Towards Cardiac MRI Foundation Models: Comprehensive Visual-Tabular Representations for Whole-Heart Assessment and Beyond はコメントを受け付けていません

SkyReels-V2: Infinite-length Film Generative Model

要約

ビデオ生成の最近の進歩は、拡散モデルと自己回帰フレームワークによって推進されていますが、迅速なアドヒアランス、視覚品質、モーションダイナミクス、および持続時間の調和に重大な課題が続いています。動きのダイナミクスの妥協は、一時的な視覚品質を強化し、制約されたビデオ持続時間(5〜10秒)を強化して解決策を優先し、障害のあるGrimcationを解釈することを妨げているショットアウェアの世代を解釈します。
ショットの構成、俳優の表現、カメラの動き。
これらの絡み合った制限は、現実的な長型の統合とプロの映画スタイルの世代を妨げます。
これらの制限に対処するために、マルチモーダルラージランゲージモデル(MLLM)、マルチステージの事前トレーニング、補強学習、および拡散強制フレームワークを相乗的にする無限の長さのフィルム生成モデルであるSkyreels-V2を提案します。
まず、マルチモーダルLLMとサブ専門モデルによる詳細なショット言語を組み合わせたビデオの包括的な構造表現を設計します。
その後、人間の注釈を支援し、Skycaptioner-V1という名前の統一ビデオキャプションを訓練して、ビデオデータを効率的にラベル付けします。
第二に、基本的なビデオ生成のためにプログレッシブ解像度の事前化を確立し、続いてトレーニング後の4段階の拡張を続けます。
人間と合成の歪みデータを使用したモーション固有の強化学習(RL)トレーニングは、動的アーティファクトに対処します。
非脱落ノイズスケジュールを使用した当社の拡散強制フレームワークにより、効率的な検索スペースで長距離合成が可能になります。
最終的な高品質のSFTは、視覚的な忠実度を改良します。
すべてのコードとモデルは、https://github.com/skyworkai/skyreels-v2で入手できます。

要約(オリジナル)

Recent advances in video generation have been driven by diffusion models and autoregressive frameworks, yet critical challenges persist in harmonizing prompt adherence, visual quality, motion dynamics, and duration: compromises in motion dynamics to enhance temporal visual quality, constrained video duration (5-10 seconds) to prioritize resolution, and inadequate shot-aware generation stemming from general-purpose MLLMs’ inability to interpret cinematic grammar, such as shot composition, actor expressions, and camera motions. These intertwined limitations hinder realistic long-form synthesis and professional film-style generation. To address these limitations, we propose SkyReels-V2, an Infinite-length Film Generative Model, that synergizes Multi-modal Large Language Model (MLLM), Multi-stage Pretraining, Reinforcement Learning, and Diffusion Forcing Framework. Firstly, we design a comprehensive structural representation of video that combines the general descriptions by the Multi-modal LLM and the detailed shot language by sub-expert models. Aided with human annotation, we then train a unified Video Captioner, named SkyCaptioner-V1, to efficiently label the video data. Secondly, we establish progressive-resolution pretraining for the fundamental video generation, followed by a four-stage post-training enhancement: Initial concept-balanced Supervised Fine-Tuning (SFT) improves baseline quality; Motion-specific Reinforcement Learning (RL) training with human-annotated and synthetic distortion data addresses dynamic artifacts; Our diffusion forcing framework with non-decreasing noise schedules enables long-video synthesis in an efficient search space; Final high-quality SFT refines visual fidelity. All the code and models are available at https://github.com/SkyworkAI/SkyReels-V2.

arxiv情報

著者 Guibin Chen,Dixuan Lin,Jiangping Yang,Chunze Lin,Juncheng Zhu,Mingyuan Fan,Hao Zhang,Sheng Chen,Zheng Chen,Chengchen Ma,Weiming Xiong,Wei Wang,Nuo Pang,Kang Kang,Zhiheng Xu,Yuzhe Jin,Yupeng Liang,Yubing Song,Peng Zhao,Boyuan Xu,Di Qiu,Debang Li,Zhengcong Fei,Yang Li,Yahui Zhou
発行日 2025-04-18 09:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SkyReels-V2: Infinite-length Film Generative Model はコメントを受け付けていません

EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting

要約

人間のスピーチは、情報の単なる転送を超えています。
それは感情の深いやり取りと個人間のつながりです。
テキストからスピーチ(TTS)モデルは大きな進歩を遂げましたが、生成された音声で感情的な表現を制御する際の課題に依然として課題に直面しています。
この作業では、大規模な言語モデル(LLMS)を活用してきめ細かいフリースタイルの自然言語感情制御を可能にする新しい感情に翻訳可能なTTSモデル、およびモデル出力の音素トークンと音声トークンを並行してコンテンツの一貫性を強化するために並行して並行して音声を上げるバリアントデザインを可能にするemovoiceを提案します。
また、表現力豊かな音声と自然言語の説明を含むきめの細かい感情ラベルを特徴とする高品質の40時間の英語感情データセットであるEmovoice-DBを紹介します。
Emovoiceは、合成トレーニングデータのみを使用してEnglish Emovoice-DBテストセット、および社内データを使用して中国のSECAPテストセットで最先端のパフォーマンスを実現します。
さらに、既存の感情評価メトリックの信頼性と、人間の知覚好みとの整合性を調査し、SOTAマルチモーダルLLMS GPT-4O-AudioおよびGeminiを使用して感情的な発言を評価します。
デモサンプルはhttps://anonymous.4open.science/r/emovoice-df55で入手できます。
データセット、コード、およびチェックポイントがリリースされます。

要約(オリジナル)

Human speech goes beyond the mere transfer of information; it is a profound exchange of emotions and a connection between individuals. While Text-to-Speech (TTS) models have made huge progress, they still face challenges in controlling the emotional expression in the generated speech. In this work, we propose EmoVoice, a novel emotion-controllable TTS model that exploits large language models (LLMs) to enable fine-grained freestyle natural language emotion control, and a phoneme boost variant design that makes the model output phoneme tokens and audio tokens in parallel to enhance content consistency, inspired by chain-of-thought (CoT) and chain-of-modality (CoM) techniques. Besides, we introduce EmoVoice-DB, a high-quality 40-hour English emotion dataset featuring expressive speech and fine-grained emotion labels with natural language descriptions. EmoVoice achieves state-of-the-art performance on the English EmoVoice-DB test set using only synthetic training data, and on the Chinese Secap test set using our in-house data. We further investigate the reliability of existing emotion evaluation metrics and their alignment with human perceptual preferences, and explore using SOTA multimodal LLMs GPT-4o-audio and Gemini to assess emotional speech. Demo samples are available at https://anonymous.4open.science/r/EmoVoice-DF55. Dataset, code, and checkpoints will be released.

arxiv情報

著者 Guanrou Yang,Chen Yang,Qian Chen,Ziyang Ma,Wenxi Chen,Wen Wang,Tianrui Wang,Yifan Yang,Zhikang Niu,Wenrui Liu,Fan Yu,Zhihao Du,Zhifu Gao,ShiLiang Zhang,Xie Chen
発行日 2025-04-18 08:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS | EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting はコメントを受け付けていません

Event-Enhanced Blurry Video Super-Resolution

要約

この論文では、低解像度(LR)とぼやけた入力から高解像度(HR)ビデオの生成を目指して、ぼやけたビデオスーパー解像度(BVSR)のタスクに取り組みます。
現在のBVSRメソッドは、多くの場合、高解像度で鋭い詳細を復元できないため、デコンボリューションのためのモーション情報が不十分であるため、LRフレームの高周波の詳細がないため、顕著なアーティファクトとジッターが発生します。
これらの課題に対処するために、イベントシグナルをBVSRに導入し、新しいイベント強化ネットワークであるEV-DEBLURVSRを提案します。
フレームとイベントから情報を効果的に融合させるために、機能を除去するために、フレーム内イベントからモーション情報をレバレバリングする相互の機能を導入し、フレームからグローバルシーンコンテキストを使用してイベント機能を強化します。
さらに、時間的一貫性を高めるために、変形可能なアライメントプロセスのモーション推定を改善するために、フレーム間イベントと光学フローからの相補的なモーション情報を完全に活用するハイブリッド変形可能なアライメントモジュールを提案します。
広範な評価は、EV-Deblurvsrが合成データセットと現実世界の両方のデータセットで新しい最先端のパフォーマンスを確立することを示しています。
特に、実際のデータでは、私たちの方法は+2.59 dBの精度が高く、最近のBVSRベースラインFMA-NETよりも高速です。
コード:https://github.com/dachunkai/ev-deblurvsr。

要約(オリジナル)

In this paper, we tackle the task of blurry video super-resolution (BVSR), aiming to generate high-resolution (HR) videos from low-resolution (LR) and blurry inputs. Current BVSR methods often fail to restore sharp details at high resolutions, resulting in noticeable artifacts and jitter due to insufficient motion information for deconvolution and the lack of high-frequency details in LR frames. To address these challenges, we introduce event signals into BVSR and propose a novel event-enhanced network, Ev-DeblurVSR. To effectively fuse information from frames and events for feature deblurring, we introduce a reciprocal feature deblurring module that leverages motion information from intra-frame events to deblur frame features while reciprocally using global scene context from the frames to enhance event features. Furthermore, to enhance temporal consistency, we propose a hybrid deformable alignment module that fully exploits the complementary motion information from inter-frame events and optical flow to improve motion estimation in the deformable alignment process. Extensive evaluations demonstrate that Ev-DeblurVSR establishes a new state-of-the-art performance on both synthetic and real-world datasets. Notably, on real data, our method is +2.59 dB more accurate and 7.28$\times$ faster than the recent best BVSR baseline FMA-Net. Code: https://github.com/DachunKai/Ev-DeblurVSR.

arxiv情報

著者 Dachun Kai,Yueyi Zhang,Jin Wang,Zeyu Xiao,Zhiwei Xiong,Xiaoyan Sun
発行日 2025-04-18 02:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Event-Enhanced Blurry Video Super-Resolution はコメントを受け付けていません