Understanding Figurative Meaning through Explainable Visual Entailment

要約

大規模なビジョン言語モデル(VLM)は、視覚的な質問や視覚的誘惑など、画像やテキストの文字通りの意味を細かく理解する必要があるタスクの強力な能力を実証しています。
ただし、メタファーやユーモアなどの比fig的な意味を含む画像とキャプションを提示した場合、これらのモデルの機能についてはほとんど探求されていません。
このギャップを埋めるために、モデルが画像(前提)にキャプション(仮説)を伴い、テキストの説明で予測ラベルを正当化するかどうかをモデルが予測する必要がある、説明可能な視覚的密接なタスクとして、比ur的な意味の理解をフレーミングする新しいタスクを提案します。

比ur的な現象は、画像、キャプション、またはその両方に存在する可能性があります。
Human-AI-AIコラボレーションアプローチを使用して、6,027 {画像、キャプション、ラベル、説明} 5つの多様な比ur的現象を含む添付の専門家で検証されたデータセットV-Fluteを構築します。
自動評価を通じて、VLMは、特に画像に存在する場合、文字通りから比fig的な意味に一般化するのに苦労していることがわかります。
さらに、人間の評価を介してモデルのクラス全体で、VLMの推論(幻覚と不完全または不健全な推論)の一般的なタイプのエラーを特定します。

要約(オリジナル)

Large Vision-Language Models (VLMs) have demonstrated strong capabilities in tasks requiring a fine-grained understanding of literal meaning in images and text, such as visual question-answering or visual entailment. However, there has been little exploration of the capabilities of these models when presented with images and captions containing figurative meaning, such as metaphors or humor. To close this gap, we propose a new task framing the figurative meaning understanding problem as an explainable visual entailment task, where the model has to predict whether the image (premise) entails a caption (hypothesis) and justify the predicted label with a textual explanation. The figurative phenomena can be present in the image, in the caption, or both. Using a human-AI collaboration approach, we build the accompanying expert-verified dataset V-FLUTE, containing 6,027 {image, caption, label, explanation} instances spanning five diverse figurative phenomena: metaphors, similes, idioms, sarcasm, and humor. Through automatic evaluation, we find that VLMs struggle to generalize from literal to figurative meaning, particularly when it is present in images. Further, we identify common types of errors in VLM reasoning (hallucination and incomplete or unsound reasoning) across classes of models via human evaluation.

arxiv情報

著者 Arkadiy Saakyan,Shreyas Kulkarni,Tuhin Chakrabarty,Smaranda Muresan
発行日 2025-02-17 17:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Understanding Figurative Meaning through Explainable Visual Entailment はコメントを受け付けていません

Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations

要約

霊長類の腹側視覚河川の機能的役割の研究は、伝統的にオブジェクトの分類に焦点を当てており、多くの場合、多くの事前の証拠にもかかわらず、オブジェクトの位置やポーズなどの「空間的」潜在体を推定する上での役割を無視しています。
ほとんどの主要な腹部流れモデルは、オブジェクトの分類のためのネットワークを最適化することによって導き出されます。これは、腹側の流れがそのような目的の下でも導出されていることを意味するようです。
ここでは、別の仮説を探ります。腹側の流れは、空間的潜伏物質を推定するために最適化される可能性がありますか?
そして、密接に関連する質問:分類と比較して、空間的潜在推定から表現が学習された場合は、どの程度異なっていますか?
これらの質問をするために、3Dグラフィックエンジンによって生成された合成画像データセットを活用し、訓練された畳み込みニューラルネットワーク(CNN)をレバレバルして、空間とカテゴリの潜在性の異なる組み合わせを推定しました。
数百のカテゴリでトレーニングされたカテゴリに匹敵する神経アライメントスコアを達成するために、わずかな空間的潜伏物のみを推定するように訓練されたモデルが、モデルの空間的潜在性パフォーマンスは、その神経アラインメントと強く相関することがわかりました。
空間的潜在モデルとカテゴリトレーニングを受けたモデルは、特に初期および中間層で、非常に類似していますが、同一ではありませんが、同一ではありません。
この収束は、トレーニングデータの非ターゲット潜在的変動によって部分的に駆動されるという証拠を提供します。これにより、これらの非ターゲット潜在性の表現の暗黙の学習が促進されます。
まとめると、これらの結果は、空間的潜伏物質などの多くのトレーニング目標が、腹部の流れに類似したモデルに沿った同様のモデルにつながる可能性があることを示唆しています。
したがって、腹側流がオブジェクトの分類のみに最適化されていると想定してはなりません。
フィールドとして、モデルを脳と脳と比較するという尺度を削減して、腹側流の機能的役割をよりよく理解する必要があります。

要約(オリジナル)

Studies of the functional role of the primate ventral visual stream have traditionally focused on object categorization, often ignoring — despite much prior evidence — its role in estimating ‘spatial’ latents such as object position and pose. Most leading ventral stream models are derived by optimizing networks for object categorization, which seems to imply that the ventral stream is also derived under such an objective. Here, we explore an alternative hypothesis: Might the ventral stream be optimized for estimating spatial latents? And a closely related question: How different — if at all — are representations learned from spatial latent estimation compared to categorization? To ask these questions, we leveraged synthetic image datasets generated by a 3D graphic engine and trained convolutional neural networks (CNNs) to estimate different combinations of spatial and category latents. We found that models trained to estimate just a few spatial latents achieve neural alignment scores comparable to those trained on hundreds of categories, and the spatial latent performance of models strongly correlates with their neural alignment. Spatial latent and category-trained models have very similar — but not identical — internal representations, especially in their early and middle layers. We provide evidence that this convergence is partly driven by non-target latent variability in the training data, which facilitates the implicit learning of representations of those non-target latents. Taken together, these results suggest that many training objectives, such as spatial latents, can lead to similar models aligned neurally with the ventral stream. Thus, one should not assume that the ventral stream is optimized for object categorization only. As a field, we need to continue to sharpen our measures of comparing models to brains to better understand the functional roles of the ventral stream.

arxiv情報

著者 Yudi Xie,Weichen Huang,Esther Alter,Jeremy Schwartz,Joshua B. Tenenbaum,James J. DiCarlo
発行日 2025-02-17 17:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC | Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations はコメントを受け付けていません

HumanGif: Single-View Human Diffusion with Generative Prior

要約

以前のシングルビューベースの3Dヒューマン再構成方法は、新しいビューの合成に大きな進歩を遂げましたが、単一の画像入力からのアニメーション可能なアバターのビューは整合性とポーズ親和性の両方の結果を合成することは依然として課題です。
2Dキャラクターアニメーションの成功に動機付けられ、生成事前のシングルビューヒト拡散モデルである humangif を提案します。
具体的には、シングルビューベースの3D人間の新規ビューを策定し、合成をシングル条件付けされたヒト拡散プロセスとして策定し、基礎拡散モデルから生成前の事前を利用します。
細かく一貫した新規ビューとポーズ合成を確保するために、HumangifにヒトNERFモジュールを導入して、入力画像から空間的に整列した機能を学習し、相対的なカメラと人間のポーズ変換を暗黙的にキャプチャします。
さらに、最適化中に画像レベルの損失を導入して、拡散モデルの潜在スペースと画像スペースのギャップを埋めることができます。
RenderPeopleおよびDNAレンダリングデータセットに関する広範な実験は、Humangifが新しいビューとポーズ統合の一般化を改善し、最高の知覚パフォーマンスを達成することを示しています。

要約(オリジナル)

While previous single-view-based 3D human reconstruction methods made significant progress in novel view synthesis, it remains a challenge to synthesize both view-consistent and pose-consistent results for animatable human avatars from a single image input. Motivated by the success of 2D character animation, we propose HumanGif, a single-view human diffusion model with generative prior. Specifically, we formulate the single-view-based 3D human novel view and pose synthesis as a single-view-conditioned human diffusion process, utilizing generative priors from foundational diffusion models. To ensure fine-grained and consistent novel view and pose synthesis, we introduce a Human NeRF module in HumanGif to learn spatially aligned features from the input image, implicitly capturing the relative camera and human pose transformation. Furthermore, we introduce an image-level loss during optimization to bridge the gap between latent and image spaces in diffusion models. Extensive experiments on RenderPeople and DNA-Rendering datasets demonstrate that HumanGif achieves the best perceptual performance, with better generalizability for novel view and pose synthesis.

arxiv情報

著者 Shoukang Hu,Takuya Narihira,Kazumi Fukuda,Ryosuke Sawata,Takashi Shibuya,Yuki Mitsufuji
発行日 2025-02-17 17:55:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HumanGif: Single-View Human Diffusion with Generative Prior はコメントを受け付けていません

Unhackable Temporal Rewarding for Scalable Video MLLMs

要約

優れたビデオ処理MLLMを追求するために、私たちは困惑するパラドックスに遭遇しました:「反スケーリング法」では、より多くのデータとより大きなモデルがパフォーマンスを悪化させます。
この研究では、犯人がマスクされていません:「時間的ハッキング」は、特定のフレームに固定してショートカットされ、完全なビデオの物語が欠けている現象です。
この作業では、一時的なハッキングの包括的な理論を体系的に確立し、強化学習の観点からそれを定義し、時間的困惑(TPL)スコアを導入してこの不整合を評価し、不可解な時間的やりがいのある(UTR)フレームワークを提案して、時間的ハッキングを軽減する

理論的および経験的には、TPLは、フレームの活性化パターンと強く相関して、時間モデリングの品質の信頼できる指標であることが証明されています。
広範な実験により、UTRは一時的なハッキングに対抗するだけでなく、ビデオ理解能力を大幅に高めることが明らかになりました。
この作業は、ビデオシステムを進歩させるだけでなく、プロキシ報酬をMLLM開発における真の目的と整合することの重要な重要性を明らかにしています。

要約(オリジナル)

In the pursuit of superior video-processing MLLMs, we have encountered a perplexing paradox: the ‘anti-scaling law’, where more data and larger models lead to worse performance. This study unmasks the culprit: ‘temporal hacking’, a phenomenon where models shortcut by fixating on select frames, missing the full video narrative. In this work, we systematically establish a comprehensive theory of temporal hacking, defining it from a reinforcement learning perspective, introducing the Temporal Perplexity (TPL) score to assess this misalignment, and proposing the Unhackable Temporal Rewarding (UTR) framework to mitigate the temporal hacking. Both theoretically and empirically, TPL proves to be a reliable indicator of temporal modeling quality, correlating strongly with frame activation patterns. Extensive experiments reveal that UTR not only counters temporal hacking but significantly elevates video comprehension capabilities. This work not only advances video-AI systems but also illuminates the critical importance of aligning proxy rewards with true objectives in MLLM development.

arxiv情報

著者 En Yu,Kangheng Lin,Liang Zhao,Yana Wei,Zining Zhu,Haoran Wei,Jianjian Sun,Zheng Ge,Xiangyu Zhang,Jingyu Wang,Wenbing Tao
発行日 2025-02-17 17:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Unhackable Temporal Rewarding for Scalable Video MLLMs はコメントを受け付けていません

CLEAR: Character Unlearning in Textual and Visual Modalities

要約

Machine Ulderning(MU)は、深い学習モデルからプライベートまたは危険な情報を削除するために重要です。
MUはUnimodal(テキストまたはビジョン)設定で大幅に進歩していますが、マルチモーダル解除(MMU)は、クロスモーダルデータ除去を評価するためのオープンベンチマークがないため、既に既に採用されていないままです。
このギャップに対処するために、MMU専用に設計された最初のオープンソースベンチマークであるClearを紹介します。
Clearには、対応する質問回答ペアにリンクされた200の架空の個人と3,700の画像が含まれており、モダリティ全体で徹底的な評価が可能になります。
4つの評価セットで11のMUメソッド(スクラブ、勾配上昇、DPOなど)の包括的な分析を実施し、両方のモダリティを共同で育成することを実証します。
データセットはhttps://huggingface.co/datasets/therem/clearで入手できます

要約(オリジナル)

Machine Unlearning (MU) is critical for removing private or hazardous information from deep learning models. While MU has advanced significantly in unimodal (text or vision) settings, multimodal unlearning (MMU) remains underexplored due to the lack of open benchmarks for evaluating cross-modal data removal. To address this gap, we introduce CLEAR, the first open-source benchmark designed specifically for MMU. CLEAR contains 200 fictitious individuals and 3,700 images linked with corresponding question-answer pairs, enabling a thorough evaluation across modalities. We conduct a comprehensive analysis of 11 MU methods (e.g., SCRUB, gradient ascent, DPO) across four evaluation sets, demonstrating that jointly unlearning both modalities outperforms single-modality approaches. The dataset is available at https://huggingface.co/datasets/therem/CLEAR

arxiv情報

著者 Alexey Dontsov,Dmitrii Korzh,Alexey Zhavoronkin,Boris Mikheev,Denis Bobkov,Aibek Alanov,Oleg Y. Rogov,Ivan Oseledets,Elena Tutubalina
発行日 2025-02-17 18:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | CLEAR: Character Unlearning in Textual and Visual Modalities はコメントを受け付けていません

Descriminative-Generative Custom Tokens for Vision-Language Models

要約

このペーパーでは、ビジョン言語モデル(VLM)で新しい概念を表すためにカスタムトークンを学習する可能性を探ります。
私たちの目的は、新しい入力クエリを形成するために単語でよく構成しながら、差別的タスクと生成タスクの両方に効果的なトークンを学ぶことです。
ターゲットの概念は、テキストを使用して説明されている画像の小さなセットと親の概念の観点から指定されています。
クリップテキスト機能を操作し、テキストの反転損失と分類損失の組み合わせを使用して、学習されたトークンのテキスト機能がクリップ埋め込みスペースのコンセプトの画像機能と一致するようにすることを提案します。
指定されたスーパークラスに適した属性については、トークンに及ぶ低次元サブスペースに学習されたトークンを制限します。
これらの変更は、新しいシーンを生成するために、自然言語で学んだトークンの構成の品質を改善します。
さらに、学習したカスタムトークンを使用してテキストから画像への検索タスクのクエリを形成できることを示し、また、希望の概念が忠実にエンコードされるように、複合クエリを視覚化できる重要な利点もあることを示します。
これに基づいて、検索意図に合わせてクエリが推論時間に変更される生成支援画像検索の方法を紹介します。
DeepFashion2データセットでは、この方法により、関連するベースラインよりも平均相互検索(MRR)が7%改善されます。

要約(オリジナル)

This paper explores the possibility of learning custom tokens for representing new concepts in Vision-Language Models (VLMs). Our aim is to learn tokens that can be effective for both discriminative and generative tasks while composing well with words to form new input queries. The targeted concept is specified in terms of a small set of images and a parent concept described using text. We operate on CLIP text features and propose to use a combination of a textual inversion loss and a classification loss to ensure that text features of the learned token are aligned with image features of the concept in the CLIP embedding space. We restrict the learned token to a low-dimensional subspace spanned by tokens for attributes that are appropriate for the given super-class. These modifications improve the quality of compositions of the learned token with natural language for generating new scenes. Further, we show that learned custom tokens can be used to form queries for text-to-image retrieval task, and also have the important benefit that composite queries can be visualized to ensure that the desired concept is faithfully encoded. Based on this, we introduce the method of Generation Aided Image Retrieval, where the query is modified at inference time to better suit the search intent. On the DeepFashion2 dataset, our method improves Mean Reciprocal Retrieval (MRR) over relevant baselines by 7%.

arxiv情報

著者 Pramuditha Perera,Matthew Trager,Luca Zancato,Alessandro Achille,Stefano Soatto
発行日 2025-02-17 18:13:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Descriminative-Generative Custom Tokens for Vision-Language Models はコメントを受け付けていません

Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications

要約

このホワイトペーパーでは、生成セマンティックコミュニケーションズ(GENSC)のクロスモーダルコンテキスト情報を活用するための統一されたフレームワークであるToken Communications(Tokcom)を紹介します。
Tokcomは新しいパラダイムであり、最近の生成基盤モデルとマルチモーダル大手言語モデル(GFM/MLLMS)の成功に動機付けられており、通信ユニットがトークンであり、トランスミッターとレシーバーでの効率的な変圧器ベースのトークン処理を可能にします。
この論文では、GENSCのコンテキストを活用する潜在的な機会と課題を紹介し、GFM/MLLMSベースのトークン処理をセマンティック通信システムに統合してクロスモーダルコンテキストを効果的に活用し、さまざまなレイヤーで効率的なTokcomの重要な原則を提示します
将来のワイヤレスネットワーク。
画像のGENSCセットアップで対応するTokcomの利点を示し、クロスモーダルコンテキスト情報を活用して、セマンティック/知覚品質の無視できる損失で帯域幅の効率を70.8%増加させます。
最後に、将来のワイヤレスネットワークでのTokcomの採用を促進するために、潜在的な研究方向が特定されています。

要約(オリジナル)

In this paper, we introduce token communications (TokCom), a unified framework to leverage cross-modal context information in generative semantic communications (GenSC). TokCom is a new paradigm, motivated by the recent success of generative foundation models and multimodal large language models (GFM/MLLMs), where the communication units are tokens, enabling efficient transformer-based token processing at the transmitter and receiver. In this paper, we introduce the potential opportunities and challenges of leveraging context in GenSC, explore how to integrate GFM/MLLMs-based token processing into semantic communication systems to leverage cross-modal context effectively, present the key principles for efficient TokCom at various layers in future wireless networks. We demonstrate the corresponding TokCom benefits in a GenSC setup for image, leveraging cross-modal context information, which increases the bandwidth efficiency by 70.8% with negligible loss of semantic/perceptual quality. Finally, the potential research directions are identified to facilitate adoption of TokCom in future wireless networks.

arxiv情報

著者 Li Qiao,Mahdi Boloursaz Mashhadi,Zhen Gao,Rahim Tafazolli,Mehdi Bennis,Dusit Niyato
発行日 2025-02-17 18:14:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, cs.MM, eess.SP, math.IT | Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications はコメントを受け付けていません

Generation and Detection of Sign Language Deepfakes – A Linguistic and Visual Analysis

要約

この研究では、上半身世代、特に聴覚障害者とハードの聴覚(DHOH)コミュニティの手話のためのディープファーテクノロジーの肯定的な応用を探ります。
手話の複雑さと専門家の希少性を考えると、生成されたビデオは正確さのために手話の専門家によって吟味されます。
コンピュータービジョンと自然言語処理モデルを使用して、その技術的および視覚的信頼性を評価して、信頼できるディープファークデータセットを構築します。
見られた個人と目に見えない個人の両方をフィーチャーした1200を超えるビデオで構成されるデータセットは、脆弱な個人をターゲットにしたディープファークビデオを検出するためにも使用されます。
専門家の注釈は、生成されたビデオが実際の手話コンテンツに匹敵することを確認しています。
テキストの類似性スコアと通訳評価を使用した言語分析は、生成されたビデオの解釈が本物の手話と少なくとも90%類似していることを示しています。
視覚分析は、新しい主題であっても、説得力のある現実的なディープフェイクを生み出すことができることを示しています。
ポーズ/スタイルの転送モデルを使用して、細部に細心の注意を払い、手の動きが正確であり、運転ビデオと一致するようにします。
また、機械学習アルゴリズムを適用して、このデータセットでディープフェイク検出のベースラインを確立し、不正な手話ビデオの検出に貢献しています。

要約(オリジナル)

This research explores the positive application of deepfake technology for upper body generation, specifically sign language for the Deaf and Hard of Hearing (DHoH) community. Given the complexity of sign language and the scarcity of experts, the generated videos are vetted by a sign language expert for accuracy. We construct a reliable deepfake dataset, evaluating its technical and visual credibility using computer vision and natural language processing models. The dataset, consisting of over 1200 videos featuring both seen and unseen individuals, is also used to detect deepfake videos targeting vulnerable individuals. Expert annotations confirm that the generated videos are comparable to real sign language content. Linguistic analysis, using textual similarity scores and interpreter evaluations, shows that the interpretation of generated videos is at least 90% similar to authentic sign language. Visual analysis demonstrates that convincingly realistic deepfakes can be produced, even for new subjects. Using a pose/style transfer model, we pay close attention to detail, ensuring hand movements are accurate and align with the driving video. We also apply machine learning algorithms to establish a baseline for deepfake detection on this dataset, contributing to the detection of fraudulent sign language videos.

arxiv情報

著者 Shahzeb Naeem,Muhammad Riyyan Khan,Usman Tariq,Abhinav Dhall,Carlos Ivan Colon,Hasan Al-Nashash
発行日 2025-02-17 18:22:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Generation and Detection of Sign Language Deepfakes – A Linguistic and Visual Analysis はコメントを受け付けていません

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

要約

このペーパーでは、脚のあるロボットでのビジョンと言語のナビゲーションの問題を解決することを提案します。これは、人間が指揮する柔軟な方法を提供するだけでなく、ロボットがより挑戦的で乱雑なシーンをナビゲートできるようにすることもできます。
ただし、人間の言語の指示を低レベルの脚の関節アクションにずっと翻訳することは自明ではありません。
Navilaを提案します。Vavilaは、移動スキルを備えたビジョン言語アクションモデル(VLA)を統合する2レベルのフレームワークです。
VLAからの低レベルのアクションを直接予測する代わりに、Navilaは最初に言語の形で空間情報を使用して中レベルのアクションを生成します(例:「75cmの前進」)。

Navilaは、既存のベンチマークで以前のアプローチを大幅に改善します。
Isaaclabを使用した新しく開発されたベンチマークでは、同じ利点が実証されており、よりリアルなシーン、低レベルのコントロール、現実世界のロボット実験を備えています。
https://navila-bot.github.io/でより多くの結果を示します

要約(オリジナル)

This paper proposes to solve the problem of Vision-and-Language Navigation with legged robots, which not only provides a flexible way for humans to command but also allows the robot to navigate through more challenging and cluttered scenes. However, it is non-trivial to translate human language instructions all the way to low-level leg joint actions. We propose NaVILA, a 2-level framework that unifies a Vision-Language-Action model (VLA) with locomotion skills. Instead of directly predicting low-level actions from VLA, NaVILA first generates mid-level actions with spatial information in the form of language, (e.g., ‘moving forward 75cm’), which serves as an input for a visual locomotion RL policy for execution. NaVILA substantially improves previous approaches on existing benchmarks. The same advantages are demonstrated in our newly developed benchmarks with IsaacLab, featuring more realistic scenes, low-level controls, and real-world robot experiments. We show more results at https://navila-bot.github.io/

arxiv情報

著者 An-Chieh Cheng,Yandong Ji,Zhaojing Yang,Zaitian Gongye,Xueyan Zou,Jan Kautz,Erdem Bıyık,Hongxu Yin,Sifei Liu,Xiaolong Wang
発行日 2025-02-17 18:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | NaVILA: Legged Robot Vision-Language-Action Model for Navigation はコメントを受け付けていません

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

要約

マルチモーダル大手言語モデル(MLLMS)の急速な進行により、さまざまなマルチモーダルベンチマークで優れた性能が実証されています。
ただし、トレーニング中のデータ汚染の問題は、パフォーマンス評価と比較に課題を生み出します。
大規模な言語モデル(LLM)でのモデルの汚染を検出するための多くの方法が存在しますが、さまざまなモダリティと複数のトレーニングフェーズのため、MLLMの効果が低くなります。
この研究では、MLLMS向けに設計されたマルチモーダルデータ汚染検出フレームワークMM-検出フレームワークを紹介します。
私たちの実験結果は、MM検出がさまざまな程度の汚染を特定するのに非常に効果的で敏感であり、マルチモーダルベンチマークトレーニングセットの漏れにより大幅なパフォーマンスの改善を強調できることを示しています。
さらに、汚染がMLLMSまたはマルチモーダルトレーニングフェーズで使用される基本LLMから発生するかどうかを調査し、汚染が導入される段階への新しい洞察を提供します。

要約(オリジナル)

The rapid progression of multimodal large language models (MLLMs) has demonstrated superior performance on various multimodal benchmarks. However, the issue of data contamination during training creates challenges in performance evaluation and comparison. While numerous methods exist for detecting models’ contamination in large language models (LLMs), they are less effective for MLLMs due to their various modalities and multiple training phases. In this study, we introduce a multimodal data contamination detection framework, MM-Detect, designed for MLLMs. Our experimental results indicate that MM-Detect is quite effective and sensitive in identifying varying degrees of contamination, and can highlight significant performance improvements due to the leakage of multimodal benchmark training sets. Furthermore, we explore whether the contamination originates from the base LLMs used by MLLMs or the multimodal training phase, providing new insights into the stages at which contamination may be introduced.

arxiv情報

著者 Dingjie Song,Sicheng Lai,Shunian Chen,Lichao Sun,Benyou Wang
発行日 2025-02-17 18:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination はコメントを受け付けていません