MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion

要約

ビデオには、視覚イベント、テキストオーバーレイ、サウンド、音声など、複数のモダリティが本質的に含まれています。これらはすべて検索に重要​​です。
ただし、VastやLanguageBindなどの最先端のマルチモーダル言語モデルは、Vision言語モデル(VLM)に基づいて構築されているため、視覚信号を過度に優先します。
検索ベンチマークは、視覚的なクエリに焦点を当て、他のモダリティを無視することにより、このバイアスをさらに強化します。
視覚モダリティとオーディオモダリティの両方からテキストと機能を抽出し、新しいモダリティを認識した加重相互ランク融合と統合する検索システムmmmorrfを作成します。
Mmmorrfは効果的かつ効率的であり、視覚的な記述クエリの代わりにユーザーの情報ニーズに基づいてビデオを検索する際の実用性を示しています。
Multivent 2.0とTVRのMmmorrfを評価します。これは、よりターゲットを絞った情報ニーズに合わせて設計された2つのマルチモーダルベンチマークであり、主要なマルチモーダルエンコーダーよりもNDCG@20 x 81%、単一モダリティの検索よりも37%を改善し、多様なモダリティを統合する価値を示しています。

要約(オリジナル)

Videos inherently contain multiple modalities, including visual events, text overlays, sounds, and speech, all of which are important for retrieval. However, state-of-the-art multimodal language models like VAST and LanguageBind are built on vision-language models (VLMs), and thus overly prioritize visual signals. Retrieval benchmarks further reinforce this bias by focusing on visual queries and neglecting other modalities. We create a search system MMMORRF that extracts text and features from both visual and audio modalities and integrates them with a novel modality-aware weighted reciprocal rank fusion. MMMORRF is both effective and efficient, demonstrating practicality in searching videos based on users’ information needs instead of visual descriptive queries. We evaluate MMMORRF on MultiVENT 2.0 and TVR, two multimodal benchmarks designed for more targeted information needs, and find that it improves nDCG@20 by 81% over leading multimodal encoders and 37% over single-modality retrieval, demonstrating the value of integrating diverse modalities.

arxiv情報

著者 Saron Samuel,Dan DeGenaro,Jimena Guallar-Blasco,Kate Sanders,Oluwaseun Eisape,Arun Reddy,Alexander Martin,Andrew Yates,Eugene Yang,Cameron Carpenter,David Etter,Efsun Kayi,Matthew Wiesner,Kenton Murray,Reno Kriz
発行日 2025-03-26 16:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion はコメントを受け付けていません

Networking Systems for Video Anomaly Detection: A Tutorial and Survey

要約

オンラインビデオアプリケーションの急増と相まって、スマートシティでの監視カメラの利用の増加は、公共セキュリティとプライバシー保護に関する懸念を高め、自動化されたビデオ異常検出(VAD)を人工知能(AI)コミュニティ内の基本的な研究タスクに推進しました。
ディープラーニングとエッジコンピューティングの進歩により、VADは大幅な進歩を遂げ、スマートシティやビデオインターネットの新たなアプリケーションと相乗効果を発揮しました。これは、AI、IOVT、およびコンピューティングフィールドでの交差点探索のための実用的なホットスポットであるALGORITHM ENGINEERINGの従来の研究範囲(NSVAD)に移行しました。
この記事では、NSVADの初心者向けの徹底的なチュートリアルを提供する、さまざまな深い学習駆動型VADルートの基本的な仮定、学習フレームワーク、および適用可能なシナリオを描写します。
さらに、この記事は、最近の進歩と典型的なソリューションをレビューし、https://github.com/fdjingliu/nsvadでアクセスできる利用可能な研究リソースを集約することにより、コアの概念を解明します。
最後に、この記事は将来の開発動向を予測し、AIとコンピューティングテクノロジーの統合が既存の研究の課題に対処し、オープンな機会を促進する方法について説明し、将来の研究者とエンジニアのための洞察に満ちたガイドとして機能します。

要約(オリジナル)

The increasing utilization of surveillance cameras in smart cities, coupled with the surge of online video applications, has heightened concerns regarding public security and privacy protection, which propelled automated Video Anomaly Detection (VAD) into a fundamental research task within the Artificial Intelligence (AI) community. With the advancements in deep learning and edge computing, VAD has made significant progress and advances synergized with emerging applications in smart cities and video internet, which has moved beyond the conventional research scope of algorithm engineering to deployable Networking Systems for VAD (NSVAD), a practical hotspot for intersection exploration in the AI, IoVT, and computing fields. In this article, we delineate the foundational assumptions, learning frameworks, and applicable scenarios of various deep learning-driven VAD routes, offering an exhaustive tutorial for novices in NSVAD. In addition, this article elucidates core concepts by reviewing recent advances and typical solutions and aggregating available research resources accessible at https://github.com/fdjingliu/NSVAD. Lastly, this article projects future development trends and discusses how the integration of AI and computing technologies can address existing research challenges and promote open opportunities, serving as an insightful guide for prospective researchers and engineers.

arxiv情報

著者 Jing Liu,Yang Liu,Jieyu Lin,Jielin Li,Liang Cao,Peng Sun,Bo Hu,Liang Song,Azzedine Boukerche,Victor C. M. Leung
発行日 2025-03-26 16:44:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY | Networking Systems for Video Anomaly Detection: A Tutorial and Survey はコメントを受け付けていません

Demand Estimation with Text and Image Data

要約

非構造化されたテキストと画像データをレバレバルして、代替パターンを推測する需要推定方法を提案します。
事前に訓練されたディープラーニングモデルを使用して、製品画像とテキストの説明から埋め込みを抽出し、それらをランダム係数ロジットモデルに組み込みます。
このアプローチにより、研究者は、製品属性に関するデータが不足している場合、または消費者が視覚設計や機能的利点などの困難な属性を大切にしている場合でも、需要を推定できます。
選択実験のデータを使用して、私たちのアプローチは、消費者の2番目の選択肢の反事実的予測で標準属性ベースのモデルよりも優れていることを示しています。
また、Amazon.comの40の製品カテゴリにまたがることにも適用され、テキストと画像データが各カテゴリ内の密接な代替品を識別するのに役立つことが一貫しています。

要約(オリジナル)

We propose a demand estimation method that leverages unstructured text and image data to infer substitution patterns. Using pre-trained deep learning models, we extract embeddings from product images and textual descriptions and incorporate them into a random coefficients logit model. This approach enables researchers to estimate demand even when they lack data on product attributes or when consumers value hard-to-quantify attributes, such as visual design or functional benefits. Using data from a choice experiment, we show that our approach outperforms standard attribute-based models in counterfactual predictions of consumers’ second choices. We also apply it across 40 product categories on Amazon.com and consistently find that text and image data help identify close substitutes within each category.

arxiv情報

著者 Giovanni Compiani,Ilya Morozov,Stephan Seiler
発行日 2025-03-26 16:47:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, econ.GN, q-fin.EC | Demand Estimation with Text and Image Data はコメントを受け付けていません

DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

要約

高度なロボット工学にとって、接触豊富な相互作用による器用な操作が重要です。
最近の拡散ベースの計画アプローチは、単純な操作タスクの可能性を示していますが、複雑なシーケンシャル相互作用を処理するときに、非現実的なゴースト状態(たとえば、オブジェクトが自動的に手と接触せずに移動する)または適応性がないことがよくあります。
この作業では、適応的な器用な操作のための相互作用対応拡散計画フレームワークであるDexhanddiffを紹介します。
Dexhanddiffモデルは、相互作用前の接触アライメントとコンタクト後の目標指向制御で構成される二重相拡散プロセスを介した共同の状態アクションダイナミクスをモデル化し、目標適応一般化可能な器用な操作を可能にします。
さらに、ダイナミクスモデルベースのデュアルガイダンスを組み込み、自動ガイダンス関数の生成のための大規模な言語モデルを活用し、物理的相互作用の一般化を強化し、言語キューを通じて多様な目標適応を促進します。
ドアの開口部、ペンとブロックの再配向、オブジェクトの再配置、ハンマーストライキなどの物理的相互作用タスクの実験は、既存の方法と比較して平均成功率(59.2%対29.5%)の2倍以上のトレーニング分布外の目標に対するDexhanddiffの有効性を示しています。
私たちのフレームワークは、目標適応型器用なタスクで平均70.7%の成功率を達成し、接触豊富な操作における堅牢性と柔軟性を強調しています。

要約(オリジナル)

Dexterous manipulation with contact-rich interactions is crucial for advanced robotics. While recent diffusion-based planning approaches show promise for simple manipulation tasks, they often produce unrealistic ghost states (e.g., the object automatically moves without hand contact) or lack adaptability when handling complex sequential interactions. In this work, we introduce DexHandDiff, an interaction-aware diffusion planning framework for adaptive dexterous manipulation. DexHandDiff models joint state-action dynamics through a dual-phase diffusion process which consists of pre-interaction contact alignment and post-contact goal-directed control, enabling goal-adaptive generalizable dexterous manipulation. Additionally, we incorporate dynamics model-based dual guidance and leverage large language models for automated guidance function generation, enhancing generalizability for physical interactions and facilitating diverse goal adaptation through language cues. Experiments on physical interaction tasks such as door opening, pen and block re-orientation, object relocation, and hammer striking demonstrate DexHandDiff’s effectiveness on goals outside training distributions, achieving over twice the average success rate (59.2% vs. 29.5%) compared to existing methods. Our framework achieves an average of 70.7% success rate on goal adaptive dexterous tasks, highlighting its robustness and flexibility in contact-rich manipulation.

arxiv情報

著者 Zhixuan Liang,Yao Mu,Yixiao Wang,Tianxing Chen,Wenqi Shao,Wei Zhan,Masayoshi Tomizuka,Ping Luo,Mingyu Ding
発行日 2025-03-26 16:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | DexHandDiff: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation はコメントを受け付けていません

A weakly-supervised deep learning model for fast localisation and delineation of the skeleton, internal organs, and spinal canal on Whole-Body Diffusion-Weighted MRI (WB-DWI)

要約

背景:全身拡散加重MRI(WB-DWI)からの見かけの拡散係数(ADC)値と総拡散量(TDV)は、がんイメージングバイオマーカーが認識されています。
ただし、ADCおよびTDV測定の手動疾患の描写は、臨床診療では自動化を要求しています。
最初のステップとして、骨格、隣接する内臓(肝臓、脾臓、尿膀胱、腎臓)、および脊髄運河の高速で再現可能な確率マップを生成するアルゴリズムを提案します。
方法:WB-DWI上のこれらの解剖学的構造をローカライズし、描写する3Dパッチベースの残差U-NETアーキテクチャに基づいて、自動掘削パイプラインを開発しました。
このアルゴリズムは、計算集中的なアトラスベースのアプローチから派生した「ソフトラベル」(非バイナリセグメンテーション)を使用してトレーニングされました。
トレーニングと検証のために、45人の患者の検査で、進行前立腺がん(APC)または多発性骨髄腫(MM)の患者から532件のスキャンを含むマルチセンターWB-DWIデータセットを採用しました。
結果:監視されている深いディープラーニングモデルは、骨格描写で0.66/0.6/0.73、内臓の0.8/0.79/0.8​​1、脊髄運河の0.85/0.79/0.94の平均DICEスコア/精度/リコールを達成しました。
自動化されたエキスパートとマニュアル定義の全身描写の間の相対的な中央値ADCと対数変換の体積の違いは、それぞれ10%と4%未満でした。
確率マップを生成するための計算時間は、Atlasベースの登録アルゴリズムよりも12倍高速でした(25秒対5分)。
経験豊富な放射線科医は、テストデータセットでモデルの精度を「良い」または「優れた」と評価しました。
結論:私たちのモデルは、WB-DWIのボディ領域を局在化および描写するための高速で再現性のある確率マップを提供し、ADCとTDVの定量化を可能にし、疾患の病期分類および治療反応評価の臨床医をサポートする可能性があります。

要約(オリジナル)

Background: Apparent Diffusion Coefficient (ADC) values and Total Diffusion Volume (TDV) from Whole-body diffusion-weighted MRI (WB-DWI) are recognized cancer imaging biomarkers. However, manual disease delineation for ADC and TDV measurements is unfeasible in clinical practice, demanding automation. As a first step, we propose an algorithm to generate fast and reproducible probability maps of the skeleton, adjacent internal organs (liver, spleen, urinary bladder, and kidneys), and spinal canal. Methods: We developed an automated deep-learning pipeline based on a 3D patch-based Residual U-Net architecture that localizes and delineates these anatomical structures on WB-DWI. The algorithm was trained using ‘soft-labels’ (non-binary segmentations) derived from a computationally intensive atlas-based approach. For training and validation, we employed a multi-center WB-DWI dataset comprising 532 scans from patients with Advanced Prostate Cancer (APC) or Multiple Myeloma (MM), with testing on 45 patients. Results: Our weakly-supervised deep learning model achieved an average dice score/precision/recall of 0.66/0.6/0.73 for skeletal delineations, 0.8/0.79/0.81 for internal organs, and 0.85/0.79/0.94 for spinal canal, with surface distances consistently below 3 mm. Relative median ADC and log-transformed volume differences between automated and manual expert-defined full-body delineations were below 10% and 4%, respectively. The computational time for generating probability maps was 12x faster than the atlas-based registration algorithm (25 s vs. 5 min). An experienced radiologist rated the model’s accuracy ‘good’ or ‘excellent’ on test datasets. Conclusion: Our model offers fast and reproducible probability maps for localizing and delineating body regions on WB-DWI, enabling ADC and TDV quantification, potentially supporting clinicians in disease staging and treatment response assessment.

arxiv情報

著者 A. Candito,A. Dragan,R. Holbrey,A. Ribeiro,R. Donners,C. Messiou,N. Tunariu,D. -M. Koh,M. D. Blackledge,The Institute of Cancer Research,London,United Kingdom,The Royal Marsden NHS Foundation Trust,London,United Kingdom,University Hospital Basel,Basel,Switzerland
発行日 2025-03-26 17:03:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A weakly-supervised deep learning model for fast localisation and delineation of the skeleton, internal organs, and spinal canal on Whole-Body Diffusion-Weighted MRI (WB-DWI) はコメントを受け付けていません

Dynamic Motion Blending for Versatile Motion Editing

要約

テキスト誘導モーション編集により、従来のキーフレームアニメーションを超えて、高レベルのセマンティックコントロールと反復的な変更が可能になります。
既存の方法は、限られた事前に収集されたトレーニングトリプレットに依存しており、これは多様な編集シナリオにおける汎用性を著しく妨げます。
入力テキストに基づいてボディパーツの動きをブレンドすることにより、トレーニングトリプレットを動的に生成するオンラインデータ増強手法であるMotionCutmixを紹介します。
MotionCutmixはトレーニングの分布を効果的に拡張しますが、組成の性質はランダム性と潜在的な身体部分の不整合を導入します。
このような豊富な分布をモデル化するために、モーションコーディネーターを使用した自動回帰拡散モデルであるMotionRefitを提示します。
自動回帰アーキテクチャは、長いシーケンスを分解することにより学習を促進し、モーションコーディネーターはモーション構成のアーティファクトを軽減します。
私たちの方法は、追加の仕様や大規模な言語モデルに依存することなく、高レベルの人間の指示から直接空間モーションと時間のモーション編集を編集します。
広範な実験を通じて、MotionRefitがテキスト誘導モーション編集で最先端のパフォーマンスを達成することを示します。

要約(オリジナル)

Text-guided motion editing enables high-level semantic control and iterative modifications beyond traditional keyframe animation. Existing methods rely on limited pre-collected training triplets, which severely hinders their versatility in diverse editing scenarios. We introduce MotionCutMix, an online data augmentation technique that dynamically generates training triplets by blending body part motions based on input text. While MotionCutMix effectively expands the training distribution, the compositional nature introduces increased randomness and potential body part incoordination. To model such a rich distribution, we present MotionReFit, an auto-regressive diffusion model with a motion coordinator. The auto-regressive architecture facilitates learning by decomposing long sequences, while the motion coordinator mitigates the artifacts of motion composition. Our method handles both spatial and temporal motion edits directly from high-level human instructions, without relying on additional specifications or Large Language Models. Through extensive experiments, we show that MotionReFit achieves state-of-the-art performance in text-guided motion editing.

arxiv情報

著者 Nan Jiang,Hongjie Li,Ziye Yuan,Zimo He,Yixin Chen,Tengyu Liu,Yixin Zhu,Siyuan Huang
発行日 2025-03-26 17:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dynamic Motion Blending for Versatile Motion Editing はコメントを受け付けていません

SChanger: Change Detection from a Semantic Change and Spatial Consistency Perspective

要約

変更検出は、地球観測アプリケーションの重要なタスクです。
最近、ディープラーニング方法は、強力なパフォーマンスと広範なアプリケーションを実証しています。
ただし、変化検出は、同じ領域のリモートセンシング画像を正確に整列させる労働集約的なプロセスにより、データ不足に直面しているため、深い学習アルゴリズムのパフォーマンスが制限されます。
データ不足の問題に対処するために、Semantic Change Network(SCN)と呼ばれる微調整戦略を開発します。
最初は、インスタンス機能抽出の事前知識を獲得するために、単一時間の教師付きタスクのモデルを事前訓練しました。
このモデルは、この事前知識を維持するために、共有重量のシアムアーキテクチャと拡張時間融合モジュール(TFM)を採用し、変化検出タスクで微調整されます。
すべてのインスタンスを識別するための学習されたセマンティクスは、変更のみを識別することに焦点を合わせて変更されます。
一方、2つの画像間の変更の位置は空間的に同一であり、空間的一貫性と呼ばれる概念であることがわかります。
この誘導バイアスを、大型型の畳み込みによって生成され、両方の時点からの機能に適用される注意マップを介して導入します。
これにより、マルチスケールの変化のモデリングが強化され、変更検出セマンティクスにおける根本的な関係を捉えるのに役立ちます。
これら2つの戦略を利用して、バイナリ変化検出モデルを開発します。
このモデルは、6つのデータセットで最先端の方法に対して検証され、すべてのベンチマーク方法を超え、92.87%、86.43%、68.95%、97.62%、84.58%、および93.20%のF1スコアを実現します。

要約(オリジナル)

Change detection is a key task in Earth observation applications. Recently, deep learning methods have demonstrated strong performance and widespread application. However, change detection faces data scarcity due to the labor-intensive process of accurately aligning remote sensing images of the same area, which limits the performance of deep learning algorithms. To address the data scarcity issue, we develop a fine-tuning strategy called the Semantic Change Network (SCN). We initially pre-train the model on single-temporal supervised tasks to acquire prior knowledge of instance feature extraction. The model then employs a shared-weight Siamese architecture and extended Temporal Fusion Module (TFM) to preserve this prior knowledge and is fine-tuned on change detection tasks. The learned semantics for identifying all instances is changed to focus on identifying only the changes. Meanwhile, we observe that the locations of changes between the two images are spatially identical, a concept we refer to as spatial consistency. We introduce this inductive bias through an attention map that is generated by large-kernel convolutions and applied to the features from both time points. This enhances the modeling of multi-scale changes and helps capture underlying relationships in change detection semantics. We develop a binary change detection model utilizing these two strategies. The model is validated against state-of-the-art methods on six datasets, surpassing all benchmark methods and achieving F1 scores of 92.87%, 86.43%, 68.95%, 97.62%, 84.58%, and 93.20% on the LEVIR-CD, LEVIR-CD+, S2Looking, CDD, SYSU-CD, and WHU-CD datasets, respectively.

arxiv情報

著者 Ziyu Zhou,Keyan Hu,Yutian Fang,Xiaoping Rui
発行日 2025-03-26 17:15:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SChanger: Change Detection from a Semantic Change and Spatial Consistency Perspective はコメントを受け付けていません

Emotion Detection and Music Recommendation System

要約

人工知能が日常生活でますます染み込んでいるので、音楽の推奨と感情に基づく検出に深い学習を使用する新しいシステムを提示します。
顔認識とディープフェイスフレームワークを使用することにより、私たちの方法は人間の感情をリアルタイムで分析し、それが発見した気分を反映した音楽を演奏します。
システムは、ウェブカメラを使用して写真を撮り、最も一般的な表情を分析し、検出した気分に対応するローカルストレージからプレイリストを引き出します。
ユーザーがドロップダウンメニューまたはナビゲーションボタンを介して曲の選択を手動で変更できるようにすることにより、魅力的でカスタマイズされたエクスペリエンスが保証されます。
プレイリストを継続的にループすることにより、テクノロジーは継続性を保証します。
私たちのシステムの目的は、応答性の高い自動化された音楽選択体験を提供することにより、音楽療法を通じて感情的な幸福を改善することです。

要約(オリジナル)

As artificial intelligence becomes more and more ingrained in daily life, we present a novel system that uses deep learning for music recommendation and emotion-based detection. Through the use of facial recognition and the DeepFace framework, our method analyses human emotions in real-time and then plays music that reflects the mood it has discovered. The system uses a webcam to take pictures, analyses the most common facial expression, and then pulls a playlist from local storage that corresponds to the mood it has detected. An engaging and customised experience is ensured by allowing users to manually change the song selection via a dropdown menu or navigation buttons. By continuously looping over the playlist, the technology guarantees continuity. The objective of our system is to improve emotional well-being through music therapy by offering a responsive and automated music-selection experience.

arxiv情報

著者 Swetha Kambham,Hubert Jhonson,Sai Prathap Reddy Kambham
発行日 2025-03-26 17:22:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Emotion Detection and Music Recommendation System はコメントを受け付けていません

High Quality Diffusion Distillation on a Single GPU with Relative and Absolute Position Matching

要約

相対的および絶対的な位置マッチング(RAPM)を導入します。これは、単一のGPUで効率的にトレーニングできる高品質の生成をもたらす拡散蒸留方法です。
最近の拡散蒸留研究は、段階的整合性モデル(PCM)や分布マッチング蒸留(DMD2)の改善などの方法で、高解像度のテキストから画像の生成の優れた結果を達成しました。
ただし、これらの方法は一般に、トレーニング中に多くのGPU(例:〜8-64)と重要なバッチサイズ(例:〜128-2048)を必要とし、一部の研究者のリソースを超えたメモリと計算要件をもたらします。
RAPMは、1のバッチサイズで効果的なシングルGPU拡散蒸留トレーニングを提供します。新しい方法は、相対位置と絶対位置を一致させることにより、教師モデルのサンプリング軌跡を模倣しようとします。
相対的な位置の設計は、PCMに触発されています。
それに応じてRAPMで2つの判別器が導入され、1つは相対位置を一致させ、もう1つは絶対位置に導入されます。
Stabled Fusion(SD)V1.5およびSDXLの実験結果は、4つのタイムステップを持つRAPMが、非常に限られた計算リソースの下で1つのタイムステップを持つ最良の方法として同等のFIDスコアを生成することを示しています。

要約(オリジナル)

We introduce relative and absolute position matching (RAPM), a diffusion distillation method resulting in high quality generation that can be trained efficiently on a single GPU. Recent diffusion distillation research has achieved excellent results for high-resolution text-to-image generation with methods such as phased consistency models (PCM) and improved distribution matching distillation (DMD2). However, these methods generally require many GPUs (e.g.~8-64) and significant batchsizes (e.g.~128-2048) during training, resulting in memory and compute requirements that are beyond the resources of some researchers. RAPM provides effective single-GPU diffusion distillation training with a batchsize of 1. The new method attempts to mimic the sampling trajectories of the teacher model by matching the relative and absolute positions. The design of relative positions is inspired by PCM. Two discriminators are introduced accordingly in RAPM, one for matching relative positions and the other for absolute positions. Experimental results on StableDiffusion (SD) V1.5 and SDXL indicate that RAPM with 4 timesteps produces comparable FID scores as the best method with 1 timestep under very limited computational resources.

arxiv情報

著者 Guoqiang Zhang,Kenta Niwa,J. P. Lewis,Cedric Mesnage,W. Bastiaan Kleijn
発行日 2025-03-26 17:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | High Quality Diffusion Distillation on a Single GPU with Relative and Absolute Position Matching はコメントを受け付けていません

MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams

要約

図は、構造化されたシンボル、形状、空間的配置を介した複雑な概念とその相互関係を表す視覚言語の基本的な形式として機能します。
自然画像とは異なり、本質的に象徴的で抽象的な性質は、マルチモーダルの大手言語モデル(MLLM)に大きな課題をもたらします。
ただし、現在のベンチマークは、知覚と推論のタスクを混同し、MLLMが表面的なパターン認識を超えた数学的図を本当に理解しているかどうかを評価することを困難にしています。
このギャップに対処するために、MLLMの数学的知覚を分離および評価するために特別に設計されたベンチマークであるMathgranceを導入します。
Mathgranceは、1.2kの画像と、平面ジオメトリ、固体ジオメトリ、グラフィカル表現を含む多様なドメインをカバーする形状分類、オブジェクトカウント、関係の識別、およびオブジェクトの接地の4つの知覚タスクにまたがる1.6kの慎重にキュレーションされた質問を含みます。
MLLMの評価は、図を理解する能力が特に制限されていることを明らかにしています。
これに応じて、Geopepを構築します。これは、幾何学的プリミティブと正確な空間的関係で明示的に注釈が付けられた200K構造化されたジオメトリ画像テキストペアの知覚指向のデータセットです。
GeopepでMLLMをトレーニングすると、知覚精度が大幅に向上し、数学的な推論が大幅に向上します。
当社のベンチマークとデータセットは、マルチモーダル数学的理解を評価および進め、将来のMLLM研究を促進するための貴重なリソースと洞察を提供するための重要な基準を確立します。

要約(オリジナル)

Diagrams serve as a fundamental form of visual language, representing complex concepts and their inter-relationships through structured symbols, shapes, and spatial arrangements. Unlike natural images, their inherently symbolic and abstract nature poses significant challenges for Multimodal Large Language Models (MLLMs). However, current benchmarks conflate perceptual and reasoning tasks, making it difficult to assess whether MLLMs genuinely understand mathematical diagrams beyond superficial pattern recognition. To address this gap, we introduce MATHGLANCE, a benchmark specifically designed to isolate and evaluate mathematical perception in MLLMs. MATHGLANCE comprises 1.2K images and 1.6K carefully curated questions spanning four perception tasks: shape classification, object counting, relationship identification, and object grounding, covering diverse domains including plane geometry, solid geometry, and graphical representations. Our evaluation of MLLMs reveals that their ability to understand diagrams is notably limited, particularly in fine-grained grounding tasks. In response, we construct GeoPeP, a perception-oriented dataset of 200K structured geometry image-text pairs explicitly annotated with geometric primitives and precise spatial relationships. Training MLLM on GeoPeP leads to significant gains in perceptual accuracy, which in turn substantially improves mathematical reasoning. Our benchmark and dataset establish critical standards for evaluating and advancing multimodal mathematical understanding, providing valuable resources and insights to foster future MLLM research.

arxiv情報

著者 Yanpeng Sun,Shan Zhang,Wei Tang,Aotian Chen,Piotr Koniusz,Kai Zou,Yuan Xue,Anton van den Hengel
発行日 2025-03-26 17:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams はコメントを受け付けていません