NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing

要約

視覚音声認識(VSR)の最近の進歩は、唇からスピーチの合成の進歩を促進しました。これにより、事前に訓練されたVSRモデルは、貴重なセマンティック情報を提供することにより、合成された音声の明瞭度を高めます。
擬似VSRと擬似テキストへの物語(TTS)を組み合わせたCascade Frameworksによって達成される成功または転写されたテキストを暗黙的に利用すると、VSRモデルを活用することの利点を強調します。
ただし、これらの方法は通常、中間表現としてメルスペクトルグラムに依存しており、重要なボトルネックを導入する可能性があります。本質的にエラーが発生しやすい唇からスピーチマッピングから生成された合成メルスペクトルグラムの間のドメインギャップと、使用された実際のメルセプログラムから生成されます。
ボコーダーをトレーニングする。
この不一致は、必然的に合成品質を低下させます。
このギャップを橋渡しするために、自然な唇からスピーチ(naturall2s)を提案します。これは、微分誘導性バイアスと微分可能な音声生成成分を統合するエンドツーエンドのフレームワークです。
具体的には、合成された音声の韻律変動をキャプチャするために、基本周波数(F0)予測因子を導入します。
予測されたF0は、微分可能なデジタル信号処理(DDSP)シンセサイザーを駆動して、その後の音声合成の事前の情報として機能する粗い信号を生成します。
さらに、補助入力として参照スピーカーの埋め込みに依存する代わりに、スピーカーの特性を明示的にモデル化することなく、スピーカーの類似性で満足のいくパフォーマンスを実現します。
客観的評価と主観的評価の両方の結果は、Naturall2が最先端の方法と比較した場合、合成された音声の品質を効果的に向上させることができることを示しています。
デモページには、https://yifan-liang.github.io/naturall2s/にアクセスできます。

要約(オリジナル)

Recent advancements in visual speech recognition (VSR) have promoted progress in lip-to-speech synthesis, where pre-trained VSR models enhance the intelligibility of synthesized speech by providing valuable semantic information. The success achieved by cascade frameworks, which combine pseudo-VSR with pseudo-text-to-speech (TTS) or implicitly utilize the transcribed text, highlights the benefits of leveraging VSR models. However, these methods typically rely on mel-spectrograms as an intermediate representation, which may introduce a key bottleneck: the domain gap between synthetic mel-spectrograms, generated from inherently error-prone lip-to-speech mappings, and real mel-spectrograms used to train vocoders. This mismatch inevitably degrades synthesis quality. To bridge this gap, we propose Natural Lip-to-Speech (NaturalL2S), an end-to-end framework integrating acoustic inductive biases with differentiable speech generation components. Specifically, we introduce a fundamental frequency (F0) predictor to capture prosodic variations in synthesized speech. The predicted F0 then drives a Differentiable Digital Signal Processing (DDSP) synthesizer to generate a coarse signal which serves as prior information for subsequent speech synthesis. Additionally, instead of relying on a reference speaker embedding as an auxiliary input, our approach achieves satisfactory performance on speaker similarity without explicitly modelling speaker characteristics. Both objective and subjective evaluation results demonstrate that NaturalL2S can effectively enhance the quality of the synthesized speech when compared to state-of-the-art methods. Our demonstration page is accessible at https://yifan-liang.github.io/NaturalL2S/.

arxiv情報

著者 Yifan Liang,Fangkun Liu,Andong Li,Xiaodong Li,Chengshi Zheng
発行日 2025-02-17 16:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing はコメントを受け付けていません

Predicting Next-Day Wildfire Spread with Time Series and Attention

要約

最近の研究では、影響力のある環境共変量の現在の火災と地理空間ラスターなど、植生、トポグラフィ、気候、気候の翌日の野火の拡散を正確に予測する深いニューラルネットワーク(DNN)の可能性が実証されています。
この作業では、翌日の山火事の予測のために、Swinunetと呼ばれる最近の変圧器ベースのモデルを調査します。
Swinベースのモデルは、歴史的な山火事イベントの大規模なパブリックベンチマークデータセットであるWildfiresPreadts(WFTS)に関するいくつかの現在の最先端モデルに対してベンチマークされています。
次の2つの火災予測シナリオを検討します。モデルに(i)前日のデータの入力、または(ii)5日間のデータの入力が与えられた場合。
適切な変更により、Swinunetは、1日と複数日のシナリオの両方で、翌日の予測で最先端の精度を達成することがわかります。
Swinunetの成功は、Imagenetの事前に訓練された重量を利用することに大きく依存しています。
以前の作業と一致して、複数日入力を備えたモデルは、常に1日の入力を備えたモデルよりも優れていることがわかりました。

要約(オリジナル)

Recent research has demonstrated the potential of deep neural networks (DNNs) to accurately predict next-day wildfire spread, based upon the current extent of a fire and geospatial rasters of influential environmental covariates e.g., vegetation, topography, climate, and weather. In this work, we investigate a recent transformer-based model, termed the SwinUnet, for next-day wildfire prediction. We benchmark Swin-based models against several current state-of-the-art models on WildfireSpreadTS (WFTS), a large public benchmark dataset of historical wildfire events. We consider two next-day fire prediction scenarios: when the model is given input of (i) a single previous day of data, or (ii) five previous days of data. We find that, with the proper modifications, SwinUnet achieves state-of-the-art accuracy on next-day prediction for both the single-day and multi-day scenarios. SwinUnet’s success depends heavily upon utilizing pre-trained weights from ImageNet. Consistent with prior work, we also found that models with multi-day-input always outperformed models with single-day input.

arxiv情報

著者 Saad Lahrichi,Jesse Johnson,Jordan Malof
発行日 2025-02-17 16:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Predicting Next-Day Wildfire Spread with Time Series and Attention はコメントを受け付けていません

Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models

要約

実際のシナリオでは、モデルが未知のターゲット分布に適応または一般化する必要があるため、ドメインの適応と一般化を達成することは重要な課題をもたらします。
これらの機能を目に見えないマルチモーダル分布、つまりマルチモーダルドメインの適応と一般化に拡張することは、異なるモダリティの明確な特性のためにさらに困難です。
アクション認識からセマンティックセグメンテーションに至るまで、アプリケーションが長年にわたって大幅に進歩してきました。
さらに、Clipなどの大規模な事前訓練を受けたマルチモーダルファンデーションモデルの最近の出現により、これらのモデルを活用して適応と一般化のパフォーマンスを強化したり、ダウンストリームタスクに適応させたりしています。
この調査では、従来のアプローチから基礎モデルへの最近の進歩に関する最初の包括的なレビューを提供し、次のことをカバーしています。(1)マルチモーダルドメイン適応。
(2)マルチモーダルテスト時間適応。
(3)マルチモーダルドメイン一般化。
(4)マルチモーダルファンデーションモデルの助けを借りて、ドメインの適応と一般化。
(5)マルチモーダルファンデーションモデルの適応。
各トピックについて、問題を正式に定義し、既存の方法を徹底的に確認します。
さらに、関連するデータセットとアプリケーションを分析し、オープンな課題と潜在的な将来の研究の方向性を強調します。
https://github.com/donghao51/awesome-multimodal-adaptationで最新の文献を含むアクティブなリポジトリを維持しています。

要約(オリジナル)

In real-world scenarios, achieving domain adaptation and generalization poses significant challenges, as models must adapt to or generalize across unknown target distributions. Extending these capabilities to unseen multimodal distributions, i.e., multimodal domain adaptation and generalization, is even more challenging due to the distinct characteristics of different modalities. Significant progress has been made over the years, with applications ranging from action recognition to semantic segmentation. Besides, the recent advent of large-scale pre-trained multimodal foundation models, such as CLIP, has inspired works leveraging these models to enhance adaptation and generalization performances or adapting them to downstream tasks. This survey provides the first comprehensive review of recent advances from traditional approaches to foundation models, covering: (1) Multimodal domain adaptation; (2) Multimodal test-time adaptation; (3) Multimodal domain generalization; (4) Domain adaptation and generalization with the help of multimodal foundation models; and (5) Adaptation of multimodal foundation models. For each topic, we formally define the problem and thoroughly review existing methods. Additionally, we analyze relevant datasets and applications, highlighting open challenges and potential future research directions. We maintain an active repository that contains up-to-date literature at https://github.com/donghao51/Awesome-Multimodal-Adaptation.

arxiv情報

著者 Hao Dong,Moru Liu,Kaiyang Zhou,Eleni Chatzi,Juho Kannala,Cyrill Stachniss,Olga Fink
発行日 2025-02-17 16:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models はコメントを受け付けていません

Enhancing Transparent Object Pose Estimation: A Fusion of GDR-Net and Edge Detection

要約

透明なオブジェクトのオブジェクトのポーズ推定は、照明、背景、および反射の大きな影響により、ロボット視野の分野では困難なタスクのままです。
ただし、クリアオブジェクトのエッジは最もコントラストが最も高く、安定した顕著な特徴につながります。
オブジェクト検出とオブジェクトのポーズ推定のタスクの前処理ステップにエッジ検出を組み込むことにより、新しいアプローチを提案します。
透明なオブジェクトに対するエッジ検出器の効果を調査するために実験を行いました。
最先端の6Dオブジェクトポーズ推定パイプラインGDR-NETとオブジェクト検出器Yoloxのパフォーマンスを調べます。
-nested Edges(hed))。
BOPチャレンジによって提案されたパラメーターを使用して、物理ベースのレンダリングされたデータセットTrans6D-32 Kの透明オブジェクトを評価します。
私たちの結果は、前処理としてエッジ検出を適用すると、特定のオブジェクトのパフォーマンスが向上することを示しています。

要約(オリジナル)

Object pose estimation of transparent objects remains a challenging task in the field of robot vision due to the immense influence of lighting, background, and reflections. However, the edges of clear objects have the highest contrast, which leads to stable and prominent features. We propose a novel approach by incorporating edge detection in a pre-processing step for the tasks of object detection and object pose estimation. We conducted experiments to investigate the effect of edge detectors on transparent objects. We examine the performance of the state-of-the-art 6D object pose estimation pipeline GDR-Net and the object detector YOLOX when applying different edge detectors as pre-processing steps (i.e., Canny edge detection with and without color information, and holistically-nested edges (HED)). We evaluate the physically-based rendered dataset Trans6D-32 K of transparent objects with parameters proposed by the BOP Challenge. Our results indicate that applying edge detection as a pre-processing enhances performance for certain objects.

arxiv情報

著者 Tessa Pulli,Peter Hönig,Stefan Thalhammer,Matthias Hirschmanner,Markus Vincze
発行日 2025-02-17 16:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Transparent Object Pose Estimation: A Fusion of GDR-Net and Edge Detection はコメントを受け付けていません

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

要約

統一された自己回帰パラダイム内に医学的視覚的理解と生成能力を統合する強力な医療大規模視覚モデル(MED-LVLM)であるHealthGptを提示します。
私たちのブートストラップ哲学は、不均一な理解と生成の知識を事前に訓練された大手言語モデル(LLM)に徐々に適応させることです。
これは、カスタマイズされた階層的視覚知覚アプローチと3段階の学習戦略によって補完される、新しい不均一な低ランク適応(H-LORA)技術によって達成されます。
HealthGPTを効果的に学ぶために、VL-Healthと呼ばれる包括的な医療ドメイン固有の理解と生成データセットを考案します。
実験結果は、医療視覚統一タスクにおけるHealthGPTの並外れたパフォーマンスとスケーラビリティを示しています。
当社のプロジェクトは、https://github.com/dcdmllm/healthgptでアクセスできます。

要約(オリジナル)

We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

arxiv情報

著者 Tianwei Lin,Wenqiao Zhang,Sijing Li,Yuqian Yuan,Binhe Yu,Haoyuan Li,Wanggui He,Hao Jiang,Mengze Li,Xiaohui Song,Siliang Tang,Jun Xiao,Hui Lin,Yueting Zhuang,Beng Chin Ooi
発行日 2025-02-17 17:17:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation はコメントを受け付けていません

Understanding Figurative Meaning through Explainable Visual Entailment

要約

大規模なビジョン言語モデル(VLM)は、視覚的な質問や視覚的誘惑など、画像やテキストの文字通りの意味を細かく理解する必要があるタスクの強力な能力を実証しています。
ただし、メタファーやユーモアなどの比fig的な意味を含む画像とキャプションを提示した場合、これらのモデルの機能についてはほとんど探求されていません。
このギャップを埋めるために、モデルが画像(前提)にキャプション(仮説)を伴い、テキストの説明で予測ラベルを正当化するかどうかをモデルが予測する必要がある、説明可能な視覚的密接なタスクとして、比ur的な意味の理解をフレーミングする新しいタスクを提案します。

比ur的な現象は、画像、キャプション、またはその両方に存在する可能性があります。
Human-AI-AIコラボレーションアプローチを使用して、6,027 {画像、キャプション、ラベル、説明} 5つの多様な比ur的現象を含む添付の専門家で検証されたデータセットV-Fluteを構築します。
自動評価を通じて、VLMは、特に画像に存在する場合、文字通りから比fig的な意味に一般化するのに苦労していることがわかります。
さらに、人間の評価を介してモデルのクラス全体で、VLMの推論(幻覚と不完全または不健全な推論)の一般的なタイプのエラーを特定します。

要約(オリジナル)

Large Vision-Language Models (VLMs) have demonstrated strong capabilities in tasks requiring a fine-grained understanding of literal meaning in images and text, such as visual question-answering or visual entailment. However, there has been little exploration of the capabilities of these models when presented with images and captions containing figurative meaning, such as metaphors or humor. To close this gap, we propose a new task framing the figurative meaning understanding problem as an explainable visual entailment task, where the model has to predict whether the image (premise) entails a caption (hypothesis) and justify the predicted label with a textual explanation. The figurative phenomena can be present in the image, in the caption, or both. Using a human-AI collaboration approach, we build the accompanying expert-verified dataset V-FLUTE, containing 6,027 {image, caption, label, explanation} instances spanning five diverse figurative phenomena: metaphors, similes, idioms, sarcasm, and humor. Through automatic evaluation, we find that VLMs struggle to generalize from literal to figurative meaning, particularly when it is present in images. Further, we identify common types of errors in VLM reasoning (hallucination and incomplete or unsound reasoning) across classes of models via human evaluation.

arxiv情報

著者 Arkadiy Saakyan,Shreyas Kulkarni,Tuhin Chakrabarty,Smaranda Muresan
発行日 2025-02-17 17:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Understanding Figurative Meaning through Explainable Visual Entailment はコメントを受け付けていません

Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations

要約

霊長類の腹側視覚河川の機能的役割の研究は、伝統的にオブジェクトの分類に焦点を当てており、多くの場合、多くの事前の証拠にもかかわらず、オブジェクトの位置やポーズなどの「空間的」潜在体を推定する上での役割を無視しています。
ほとんどの主要な腹部流れモデルは、オブジェクトの分類のためのネットワークを最適化することによって導き出されます。これは、腹側の流れがそのような目的の下でも導出されていることを意味するようです。
ここでは、別の仮説を探ります。腹側の流れは、空間的潜伏物質を推定するために最適化される可能性がありますか?
そして、密接に関連する質問:分類と比較して、空間的潜在推定から表現が学習された場合は、どの程度異なっていますか?
これらの質問をするために、3Dグラフィックエンジンによって生成された合成画像データセットを活用し、訓練された畳み込みニューラルネットワーク(CNN)をレバレバルして、空間とカテゴリの潜在性の異なる組み合わせを推定しました。
数百のカテゴリでトレーニングされたカテゴリに匹敵する神経アライメントスコアを達成するために、わずかな空間的潜伏物のみを推定するように訓練されたモデルが、モデルの空間的潜在性パフォーマンスは、その神経アラインメントと強く相関することがわかりました。
空間的潜在モデルとカテゴリトレーニングを受けたモデルは、特に初期および中間層で、非常に類似していますが、同一ではありませんが、同一ではありません。
この収束は、トレーニングデータの非ターゲット潜在的変動によって部分的に駆動されるという証拠を提供します。これにより、これらの非ターゲット潜在性の表現の暗黙の学習が促進されます。
まとめると、これらの結果は、空間的潜伏物質などの多くのトレーニング目標が、腹部の流れに類似したモデルに沿った同様のモデルにつながる可能性があることを示唆しています。
したがって、腹側流がオブジェクトの分類のみに最適化されていると想定してはなりません。
フィールドとして、モデルを脳と脳と比較するという尺度を削減して、腹側流の機能的役割をよりよく理解する必要があります。

要約(オリジナル)

Studies of the functional role of the primate ventral visual stream have traditionally focused on object categorization, often ignoring — despite much prior evidence — its role in estimating ‘spatial’ latents such as object position and pose. Most leading ventral stream models are derived by optimizing networks for object categorization, which seems to imply that the ventral stream is also derived under such an objective. Here, we explore an alternative hypothesis: Might the ventral stream be optimized for estimating spatial latents? And a closely related question: How different — if at all — are representations learned from spatial latent estimation compared to categorization? To ask these questions, we leveraged synthetic image datasets generated by a 3D graphic engine and trained convolutional neural networks (CNNs) to estimate different combinations of spatial and category latents. We found that models trained to estimate just a few spatial latents achieve neural alignment scores comparable to those trained on hundreds of categories, and the spatial latent performance of models strongly correlates with their neural alignment. Spatial latent and category-trained models have very similar — but not identical — internal representations, especially in their early and middle layers. We provide evidence that this convergence is partly driven by non-target latent variability in the training data, which facilitates the implicit learning of representations of those non-target latents. Taken together, these results suggest that many training objectives, such as spatial latents, can lead to similar models aligned neurally with the ventral stream. Thus, one should not assume that the ventral stream is optimized for object categorization only. As a field, we need to continue to sharpen our measures of comparing models to brains to better understand the functional roles of the ventral stream.

arxiv情報

著者 Yudi Xie,Weichen Huang,Esther Alter,Jeremy Schwartz,Joshua B. Tenenbaum,James J. DiCarlo
発行日 2025-02-17 17:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC | Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations はコメントを受け付けていません

HumanGif: Single-View Human Diffusion with Generative Prior

要約

以前のシングルビューベースの3Dヒューマン再構成方法は、新しいビューの合成に大きな進歩を遂げましたが、単一の画像入力からのアニメーション可能なアバターのビューは整合性とポーズ親和性の両方の結果を合成することは依然として課題です。
2Dキャラクターアニメーションの成功に動機付けられ、生成事前のシングルビューヒト拡散モデルである humangif を提案します。
具体的には、シングルビューベースの3D人間の新規ビューを策定し、合成をシングル条件付けされたヒト拡散プロセスとして策定し、基礎拡散モデルから生成前の事前を利用します。
細かく一貫した新規ビューとポーズ合成を確保するために、HumangifにヒトNERFモジュールを導入して、入力画像から空間的に整列した機能を学習し、相対的なカメラと人間のポーズ変換を暗黙的にキャプチャします。
さらに、最適化中に画像レベルの損失を導入して、拡散モデルの潜在スペースと画像スペースのギャップを埋めることができます。
RenderPeopleおよびDNAレンダリングデータセットに関する広範な実験は、Humangifが新しいビューとポーズ統合の一般化を改善し、最高の知覚パフォーマンスを達成することを示しています。

要約(オリジナル)

While previous single-view-based 3D human reconstruction methods made significant progress in novel view synthesis, it remains a challenge to synthesize both view-consistent and pose-consistent results for animatable human avatars from a single image input. Motivated by the success of 2D character animation, we propose HumanGif, a single-view human diffusion model with generative prior. Specifically, we formulate the single-view-based 3D human novel view and pose synthesis as a single-view-conditioned human diffusion process, utilizing generative priors from foundational diffusion models. To ensure fine-grained and consistent novel view and pose synthesis, we introduce a Human NeRF module in HumanGif to learn spatially aligned features from the input image, implicitly capturing the relative camera and human pose transformation. Furthermore, we introduce an image-level loss during optimization to bridge the gap between latent and image spaces in diffusion models. Extensive experiments on RenderPeople and DNA-Rendering datasets demonstrate that HumanGif achieves the best perceptual performance, with better generalizability for novel view and pose synthesis.

arxiv情報

著者 Shoukang Hu,Takuya Narihira,Kazumi Fukuda,Ryosuke Sawata,Takashi Shibuya,Yuki Mitsufuji
発行日 2025-02-17 17:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HumanGif: Single-View Human Diffusion with Generative Prior はコメントを受け付けていません

Unhackable Temporal Rewarding for Scalable Video MLLMs

要約

優れたビデオ処理MLLMを追求するために、私たちは困惑するパラドックスに遭遇しました:「反スケーリング法」では、より多くのデータとより大きなモデルがパフォーマンスを悪化させます。
この研究では、犯人がマスクされていません:「時間的ハッキング」は、特定のフレームに固定してショートカットされ、完全なビデオの物語が欠けている現象です。
この作業では、一時的なハッキングの包括的な理論を体系的に確立し、強化学習の観点からそれを定義し、時間的困惑(TPL)スコアを導入してこの不整合を評価し、不可解な時間的やりがいのある(UTR)フレームワークを提案して、時間的ハッキングを軽減する

理論的および経験的には、TPLは、フレームの活性化パターンと強く相関して、時間モデリングの品質の信頼できる指標であることが証明されています。
広範な実験により、UTRは一時的なハッキングに対抗するだけでなく、ビデオ理解能力を大幅に高めることが明らかになりました。
この作業は、ビデオシステムを進歩させるだけでなく、プロキシ報酬をMLLM開発における真の目的と整合することの重要な重要性を明らかにしています。

要約(オリジナル)

In the pursuit of superior video-processing MLLMs, we have encountered a perplexing paradox: the ‘anti-scaling law’, where more data and larger models lead to worse performance. This study unmasks the culprit: ‘temporal hacking’, a phenomenon where models shortcut by fixating on select frames, missing the full video narrative. In this work, we systematically establish a comprehensive theory of temporal hacking, defining it from a reinforcement learning perspective, introducing the Temporal Perplexity (TPL) score to assess this misalignment, and proposing the Unhackable Temporal Rewarding (UTR) framework to mitigate the temporal hacking. Both theoretically and empirically, TPL proves to be a reliable indicator of temporal modeling quality, correlating strongly with frame activation patterns. Extensive experiments reveal that UTR not only counters temporal hacking but significantly elevates video comprehension capabilities. This work not only advances video-AI systems but also illuminates the critical importance of aligning proxy rewards with true objectives in MLLM development.

arxiv情報

著者 En Yu,Kangheng Lin,Liang Zhao,Yana Wei,Zining Zhu,Haoran Wei,Jianjian Sun,Zheng Ge,Xiangyu Zhang,Jingyu Wang,Wenbing Tao
発行日 2025-02-17 17:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Unhackable Temporal Rewarding for Scalable Video MLLMs はコメントを受け付けていません

CLEAR: Character Unlearning in Textual and Visual Modalities

要約

Machine Ulderning(MU)は、深い学習モデルからプライベートまたは危険な情報を削除するために重要です。
MUはUnimodal(テキストまたはビジョン)設定で大幅に進歩していますが、マルチモーダル解除(MMU)は、クロスモーダルデータ除去を評価するためのオープンベンチマークがないため、既に既に採用されていないままです。
このギャップに対処するために、MMU専用に設計された最初のオープンソースベンチマークであるClearを紹介します。
Clearには、対応する質問回答ペアにリンクされた200の架空の個人と3,700の画像が含まれており、モダリティ全体で徹底的な評価が可能になります。
4つの評価セットで11のMUメソッド(スクラブ、勾配上昇、DPOなど)の包括的な分析を実施し、両方のモダリティを共同で育成することを実証します。
データセットはhttps://huggingface.co/datasets/therem/clearで入手できます

要約(オリジナル)

Machine Unlearning (MU) is critical for removing private or hazardous information from deep learning models. While MU has advanced significantly in unimodal (text or vision) settings, multimodal unlearning (MMU) remains underexplored due to the lack of open benchmarks for evaluating cross-modal data removal. To address this gap, we introduce CLEAR, the first open-source benchmark designed specifically for MMU. CLEAR contains 200 fictitious individuals and 3,700 images linked with corresponding question-answer pairs, enabling a thorough evaluation across modalities. We conduct a comprehensive analysis of 11 MU methods (e.g., SCRUB, gradient ascent, DPO) across four evaluation sets, demonstrating that jointly unlearning both modalities outperforms single-modality approaches. The dataset is available at https://huggingface.co/datasets/therem/CLEAR

arxiv情報

著者 Alexey Dontsov,Dmitrii Korzh,Alexey Zhavoronkin,Boris Mikheev,Denis Bobkov,Aibek Alanov,Oleg Y. Rogov,Ivan Oseledets,Elena Tutubalina
発行日 2025-02-17 18:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | CLEAR: Character Unlearning in Textual and Visual Modalities はコメントを受け付けていません