MAGO-SP: Detection and Correction of Water-Fat Swaps in Magnitude-Only VIBE MRI

要約

容積補間呼吸収容検査(VIBE)MRIは、水と脂肪の信号組成の推定に適した画像を生成します。
2ポイントの雰囲気は水脂肪分離画像を提供しますが、6点の雰囲気により、健康と病気のイメージングマーカーである有効な横方向の緩和速度R2*およびプロトン密度脂肪画分(PDFF)の推定が可能になります。
信号の再構築中のあいまいさは、水脂肪スワップにつながる可能性があります。
この欠点は、大規模な臨床データと集団研究の自動PDFF分析のためのVibe-MRIの適用に挑戦しています。
この研究では、非コントラスト強化されたバイブ画像の水脂肪スワップを検出および修正するための自動化されたパイプラインを開発します。
私たちの3段階のパイプラインは、セグメンテーションネットワークをトレーニングすることから始まり、ボリュームを「脂肪のような」または「水のような」と分類し、脂肪と水の量をパーリンノイズと融合させることによって生成される合成水脂肪スワップを使用します。
次に、拡散画像から画像への拡散イメージからイメージへのネットワークが、補正のための信号前のものとして水の量を予測します。
最後に、これを物理的に制約のあるモデルに統合して、正確な水と脂肪の信号を回収します。
私たちのアプローチは、6ポイントの雰囲気の水脂肪スワップ検出で1%未満のエラー率を達成します。
特に、スワップは、低体重およびクラス3の肥満BMIカテゴリの個人に不釣り合いに影響します。
補正アルゴリズムは、化学相MRIで正確なソリューション選択を保証し、信頼できるPDFF推定を可能にします。
これは、自動化された大規模な集団イメージング分析のための強固な技術基盤を形成します。

要約(オリジナル)

Volume Interpolated Breath-Hold Examination (VIBE) MRI generates images suitable for water and fat signal composition estimation. While the two-point VIBE provides water-fat-separated images, the six-point VIBE allows estimation of the effective transversal relaxation rate R2* and the proton density fat fraction (PDFF), which are imaging markers for health and disease. Ambiguity during signal reconstruction can lead to water-fat swaps. This shortcoming challenges the application of VIBE-MRI for automated PDFF analyses of large-scale clinical data and of population studies. This study develops an automated pipeline to detect and correct water-fat swaps in non-contrast-enhanced VIBE images. Our three-step pipeline begins with training a segmentation network to classify volumes as ‘fat-like’ or ‘water-like,’ using synthetic water-fat swaps generated by merging fat and water volumes with Perlin noise. Next, a denoising diffusion image-to-image network predicts water volumes as signal priors for correction. Finally, we integrate this prior into a physics-constrained model to recover accurate water and fat signals. Our approach achieves a < 1% error rate in water-fat swap detection for a 6-point VIBE. Notably, swaps disproportionately affect individuals in the Underweight and Class 3 Obesity BMI categories. Our correction algorithm ensures accurate solution selection in chemical phase MRIs, enabling reliable PDFF estimation. This forms a solid technical foundation for automated large-scale population imaging analysis.

arxiv情報

著者 Robert Graf,Hendrik Möller,Sophie Starck,Matan Atad,Philipp Braun,Jonathan Stelter,Annette Peters,Lilian Krist,Stefan N. Willich,Henry Völzke,Robin Bülow,Klaus Berger,Tobias Pischon,Thoralf Niendorf,Johannes Paetzold,Dimitrios Karampinos,Daniel Rueckert,Jan Kirschke
発行日 2025-02-20 15:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MAGO-SP: Detection and Correction of Water-Fat Swaps in Magnitude-Only VIBE MRI はコメントを受け付けていません

BP-SGCN: Behavioral Pseudo-Label Informed Sparse Graph Convolution Network for Pedestrian and Heterogeneous Trajectory Prediction

要約

軌道予測により、交通エージェントの短期的な将来の動きを予測することにより、自律車両の適用または監視の適用における意思決定が改善されます。
歩行者または不均一な軌道予測に分類されます。
前者は歩行者の比較的一貫した行動を利用していますが、サイクリストや車両などの不均一な交通エージェントとの現実世界のシナリオでは制限されています。
後者は通常、不均一なエージェントを区別するために追加のクラスラベル情報に依存していますが、そのようなラベルは注釈に費用がかかり、同じクラスのエージェント内の異なる動作を表すように一般化することはできません。
この作業では、動きの特徴に基づいて歩行者と不均一なエージェントの行動分布を効果的にキャプチャする行動擬似適応を紹介し、軌道予測の精度を大幅に改善します。
フレームワークを実装するために、擬似ラベルを学習し、軌道予測因子に通知する行動の擬似ラベルに通知されたスパースグラフ畳み込みネットワーク(BP-SGCN)を提案します。
最適化のために、カスケードトレーニングスキームを提案します。このスキームでは、擬似ラベルを監視なしで最初に学び、次に軌跡予測の精度を高める方向にラベルでエンドツーエンドの微調整を実行します。
実験は、私たちの擬似ラベルが異なる動作クラスターを効果的にモデル化し、軌道予測を改善することを示しています。
提案されているBP-SGCNは、歩行者(ETH/UCY、歩行者のみのSDD)と異種エージェントデータセット(SDD、Argoverse 1)の両方を使用して、既存の方法を上回ります。

要約(オリジナル)

Trajectory prediction allows better decision-making in applications of autonomous vehicles or surveillance by predicting the short-term future movement of traffic agents. It is classified into pedestrian or heterogeneous trajectory prediction. The former exploits the relatively consistent behavior of pedestrians, but is limited in real-world scenarios with heterogeneous traffic agents such as cyclists and vehicles. The latter typically relies on extra class label information to distinguish the heterogeneous agents, but such labels are costly to annotate and cannot be generalized to represent different behaviors within the same class of agents. In this work, we introduce the behavioral pseudo-labels that effectively capture the behavior distributions of pedestrians and heterogeneous agents solely based on their motion features, significantly improving the accuracy of trajectory prediction. To implement the framework, we propose the Behavioral Pseudo-Label Informed Sparse Graph Convolution Network (BP-SGCN) that learns pseudo-labels and informs to a trajectory predictor. For optimization, we propose a cascaded training scheme, in which we first learn the pseudo-labels in an unsupervised manner, and then perform end-to-end fine-tuning on the labels in the direction of increasing the trajectory prediction accuracy. Experiments show that our pseudo-labels effectively model different behavior clusters and improve trajectory prediction. Our proposed BP-SGCN outperforms existing methods using both pedestrian (ETH/UCY, pedestrian-only SDD) and heterogeneous agent datasets (SDD, Argoverse 1).

arxiv情報

著者 Ruochen Li,Stamos Katsigiannis,Tae-Kyun Kim,Hubert P. H. Shum
発行日 2025-02-20 16:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | BP-SGCN: Behavioral Pseudo-Label Informed Sparse Graph Convolution Network for Pedestrian and Heterogeneous Trajectory Prediction はコメントを受け付けていません

CDGS: Confidence-Aware Depth Regularization for 3D Gaussian Splatting

要約

3Dガウススプラッティング(3DG)は、特に高いレンダリング速度と高品質の結果を達成する上で、新しいビュー合成(NVS)に大きな利点を示しています。
ただし、最適化中の明示的な幾何学的制約がないため、3D再構成における幾何学的精度は限られたままです。
このペーパーでは、3DGを強化するために開発された信頼性の高い深さ正規化アプローチであるCDGSを紹介します。
モノクラー深度推定のマルチキュー信頼マップとモーションからのまばらな構造の深さを活用して、最適化プロセス中に深さの監督を適応的に調整します。
私たちの方法は、早期トレーニング段階での幾何学的詳細保存の改善を示し、NVSの品質と幾何学的精度の両方で競争力のあるパフォーマンスを達成します。
公開されているタンクと寺院のベンチマークデータセットでの実験は、私たちの方法がより安定した収束挙動とより正確な幾何学的再構成結果を達成し、NVSのPSNRで最大2.31 dBの改善を実現し、M3C2距離メトリックで一貫して幾何学的誤差を低下させることを示しています。
特に、私たちの方法は、トレーニングの反復の50%のみで、元の3DGSに匹敵するFスコアに到達します。
この作業は、デジタルツイン作成、遺産保存、林業用途などの実際のアプリケーション向けの効率的かつ正確な3D再構成システムの開発を促進することを期待しています。

要約(オリジナル)

3D Gaussian Splatting (3DGS) has shown significant advantages in novel view synthesis (NVS), particularly in achieving high rendering speeds and high-quality results. However, its geometric accuracy in 3D reconstruction remains limited due to the lack of explicit geometric constraints during optimization. This paper introduces CDGS, a confidence-aware depth regularization approach developed to enhance 3DGS. We leverage multi-cue confidence maps of monocular depth estimation and sparse Structure-from-Motion depth to adaptively adjust depth supervision during the optimization process. Our method demonstrates improved geometric detail preservation in early training stages and achieves competitive performance in both NVS quality and geometric accuracy. Experiments on the publicly available Tanks and Temples benchmark dataset show that our method achieves more stable convergence behavior and more accurate geometric reconstruction results, with improvements of up to 2.31 dB in PSNR for NVS and consistently lower geometric errors in M3C2 distance metrics. Notably, our method reaches comparable F-scores to the original 3DGS with only 50% of the training iterations. We expect this work will facilitate the development of efficient and accurate 3D reconstruction systems for real-world applications such as digital twin creation, heritage preservation, or forestry applications.

arxiv情報

著者 Qilin Zhang,Olaf Wysocki,Steffen Urban,Boris Jutzi
発行日 2025-02-20 16:12:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | CDGS: Confidence-Aware Depth Regularization for 3D Gaussian Splatting はコメントを受け付けていません

Sketch2CAD: 3D CAD Model Reconstruction from 2D Sketch using Visual Transformer

要約

現在の3D再構築方法は、通常、ボクセル、ポイントクラウド、またはメッシュの形で出力を生成します。
ただし、これらの各形式には、粗い表面や歪んだ構造など、固有の制限があります。
さらに、これらのデータ型は、さらに手動の編集と後処理に理想的ではありません。
この論文では、CAD互換モデルを再構築することにより、これらの欠点を克服するために設計された新しい3D再構成方法を提示します。
視覚的な変圧器をトレーニングして、単一の2Dワイヤフレーム画像から「シーン記述子」を予測しました。
この記述子には、オブジェクトの種類や位置、回転、サイズなどのパラメーターなどの重要な情報が含まれています。
予測されたパラメーターを使用して、Rhino Grasshopperなどのプログラム可能なインターフェイスを備えた3Dモデリングソフトウェアで3Dシーンを再構築して、B-REPの形で非常に編集可能な3Dモデルを構築できます。
提案されたモデルを評価するために、2つのデータセットを作成しました。1つはシンプルなシーンと、より複雑なシーンを持つシーンで構成されています。
テスト結果は、より複雑なシーンでの困難を強調しながら、単純なシーンを正確に再構築するモデルの機能を示しています。

要約(オリジナル)

Current 3D reconstruction methods typically generate outputs in the form of voxels, point clouds, or meshes. However, each of these formats has inherent limitations, such as rough surfaces and distorted structures. Additionally, these data types are not ideal for further manual editing and post-processing. In this paper, we present a novel 3D reconstruction method designed to overcome these disadvantages by reconstructing CAD-compatible models. We trained a visual transformer to predict a ‘scene descriptor’ from a single 2D wire-frame image. This descriptor includes essential information, such as object types and parameters like position, rotation, and size. Using the predicted parameters, a 3D scene can be reconstructed with 3D modeling software that has programmable interfaces, such as Rhino Grasshopper, to build highly editable 3D models in the form of B-rep. To evaluate our proposed model, we created two datasets: one consisting of simple scenes and another with more complex scenes. The test results indicate the model’s capability to accurately reconstruct simple scenes while highlighting its difficulties with more complex ones.

arxiv情報

著者 Hong-Bin Yang
発行日 2025-02-20 16:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sketch2CAD: 3D CAD Model Reconstruction from 2D Sketch using Visual Transformer はコメントを受け付けていません

Multi-dataset synergistic in supervised learning to pre-label structural components in point clouds from shell construction scenes

要約

新しいトレーニングデータセットにデータに注釈を付けるために必要な重要な努力は、建設業界でのコンピュータービジョンの研究と機械学習を妨げます。
この作業では、シェル構造サイトのコンテキストでのポイントクラウドセマンティックセグメンテーションのための標準データセットと最新のトランスモデルアーキテクチャの適応を探ります。
建物のインテリアと家具のオブジェクトセグメンテーションに焦点を当てた一般的なアプローチとは異なり、この研究は、建築、エンジニアリング、および建設(AEC)の複雑な構造成分をセグメント化するという課題に対処しました。
監視されたトレーニングとカスタム検証データセットを通じてベースラインを確立し、大規模な屋内データセットとのクロスドメイン推論を評価し、転送学習を利用して最小限の新しいデータでセグメンテーションパフォーマンスを最大化します。
調査結果は、最小限の微調整により、事前に訓練された変圧器アーキテクチャがコンポーネントセグメンテーションを構築するための効果的な戦略を提供することを示しています。
私たちの結果は、より大きなトレーニングリソースを作成する際に、以前に見えなかった新しいデータの注釈を自動化することと、頻繁に繰り返されるオブジェクトのセグメンテーションで有望です。

要約(オリジナル)

The significant effort required to annotate data for new training datasets hinders computer vision research and machine learning in the construction industry. This work explores adapting standard datasets and the latest transformer model architectures for point cloud semantic segmentation in the context of shell construction sites. Unlike common approaches focused on object segmentation of building interiors and furniture, this study addressed the challenges of segmenting complex structural components in Architecture, Engineering, and Construction (AEC). We establish a baseline through supervised training and a custom validation dataset, evaluate the cross-domain inference with large-scale indoor datasets, and utilize transfer learning to maximize segmentation performance with minimal new data. The findings indicate that with minimal fine-tuning, pre-trained transformer architectures offer an effective strategy for building component segmentation. Our results are promising for automating the annotation of new, previously unseen data when creating larger training resources and for the segmentation of frequently recurring objects.

arxiv情報

著者 Lukas Rauch,Thomas Braml
発行日 2025-02-20 16:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-dataset synergistic in supervised learning to pre-label structural components in point clouds from shell construction scenes はコメントを受け付けていません

YOLOv12: A Breakdown of the Key Architectural Features

要約

このペーパーでは、Yolov12の建築分析を紹介します。これは、重要な改善を導入しながら、前身の強みに基づいて、単一段階のリアルタイムオブジェクト検出構築の大幅な進歩です。
このモデルには、最適化されたバックボーン(R-ELAN)、7×7分離可能な畳み込み、およびフラッシュ駆動型のエリアベースの注意が組み込まれ、特徴抽出、効率の向上、堅牢な検出が改善されます。
前任者と同様に、複数のモデルバリエーションを使用して、Yolov12は、遅延に敏感なアプリケーションと高精度の両方のアプリケーションのためのスケーラブルなソリューションを提供します。
実験結果は、平均平均精度(MAP)と推​​論速度で一貫した利益を示し、Yolov12を自律システム、セキュリティ、およびリアルタイム分析でのアプリケーションに魅力的な選択にします。
計算効率とパフォーマンスの間で最適なバランスをとることにより、Yolov12はリアルタイムコンピュータービジョンの新しいベンチマークを設定し、エッジデバイスから高性能クラスターまで、多様なハードウェアプラットフォーム全体の展開を促進します。

要約(オリジナル)

This paper presents an architectural analysis of YOLOv12, a significant advancement in single-stage, real-time object detection building upon the strengths of its predecessors while introducing key improvements. The model incorporates an optimised backbone (R-ELAN), 7×7 separable convolutions, and FlashAttention-driven area-based attention, improving feature extraction, enhanced efficiency, and robust detections. With multiple model variants, similar to its predecessors, YOLOv12 offers scalable solutions for both latency-sensitive and high-accuracy applications. Experimental results manifest consistent gains in mean average precision (mAP) and inference speed, making YOLOv12 a compelling choice for applications in autonomous systems, security, and real-time analytics. By achieving an optimal balance between computational efficiency and performance, YOLOv12 sets a new benchmark for real-time computer vision, facilitating deployment across diverse hardware platforms, from edge devices to high-performance clusters.

arxiv情報

著者 Mujadded Al Rabbani Alif,Muhammad Hussain
発行日 2025-02-20 17:08:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | YOLOv12: A Breakdown of the Key Architectural Features はコメントを受け付けていません

Data Attribution for Text-to-Image Models by Unlearning Synthesized Images

要約

テキストから画像へのモデルのデータ属性の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を識別することです。
影響力が最も影響力のある画像なしでモデルがゼロから再登録されている場合、モデルが同じ出力を再現できないように、特定の出力に対して影響が定義されます。
残念ながら、これらの影響力のある画像を直接検索することは、ゼロからモデルを繰り返し再訓練する必要があるため、計算上は実行不可能です。
私たちの作業では、合成された画像を学習することをシミュレートすることにより、効率的なデータ属性法を提案します。
私たちは、他の無関係な概念を壊滅的に忘れることなく、出力画像のトレーニング損失を増やすことでこれを達成します。
次に、未学習プロセスの後に大きな損失逸脱を伴うトレーニング画像を特定し、これらを影響力のあるラベル付けします。
計算的に集中的ではあるが「ゴールドスタンダード」の再訓練でゼロからの方法を評価し、以前の方法よりも方法の利点を示します。

要約(オリジナル)

The goal of data attribution for text-to-image models is to identify the training images that most influence the generation of a new image. Influence is defined such that, for a given output, if a model is retrained from scratch without the most influential images, the model would fail to reproduce the same output. Unfortunately, directly searching for these influential images is computationally infeasible, since it would require repeatedly retraining models from scratch. In our work, we propose an efficient data attribution method by simulating unlearning the synthesized image. We achieve this by increasing the training loss on the output image, without catastrophic forgetting of other, unrelated concepts. We then identify training images with significant loss deviations after the unlearning process and label these as influential. We evaluate our method with a computationally intensive but ‘gold-standard’ retraining from scratch and demonstrate our method’s advantages over previous methods.

arxiv情報

著者 Sheng-Yu Wang,Aaron Hertzmann,Alexei A. Efros,Jun-Yan Zhu,Richard Zhang
発行日 2025-02-20 17:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Data Attribution for Text-to-Image Models by Unlearning Synthesized Images はコメントを受け付けていません

MedVAE: Efficient Automated Interpretation of Medical Images with Large-Scale Generalizable Autoencoders

要約

医療画像は、臨床的意思決定に必要な細粒の特徴をキャプチャするために、大きな視野を持つ高解像度で獲得されます。
したがって、医療画像で深い学習モデルをトレーニングすると、大きな計算コストが発生する可能性があります。
この作業では、臨床的に関連する機能を維持しながら、下流の計算効率を改善するために、医療画像を縮小するという課題に対処します。
医療画像をダウンサイズの潜在表現としてエンコードし、潜在表現を高解像度画像にデコードできる6つの大規模な2Dおよび3D自動エンコーダーのファミリーであるMedvaeを紹介します。
1,052,730の医療画像を使用した新しい2段階トレーニングアプローチを使用して、Medvae自動エンコーダーをトレーニングします。
20の医療画像データセットから得られた多様なタスクを介して、(1)下流モデルをトレーニングするときに高解像度画像の代わりにMedvae潜在表現を利用して、臨床的に関連性のある効率の利点(最大70倍の改善)につながる可能性があることを示しています。
特徴と(2)Medvaeは、潜在的な表現を高い忠実度で高解像度の画像に戻すことができます。
私たちの仕事は、大規模で一般化可能な自動エンコーダーが医療領域の重要な効率の課題に対処するのに役立つことを示しています。
私たちのコードは、https://github.com/stanfordmimi/medvaeで入手できます。

要約(オリジナル)

Medical images are acquired at high resolutions with large fields of view in order to capture fine-grained features necessary for clinical decision-making. Consequently, training deep learning models on medical images can incur large computational costs. In this work, we address the challenge of downsizing medical images in order to improve downstream computational efficiency while preserving clinically-relevant features. We introduce MedVAE, a family of six large-scale 2D and 3D autoencoders capable of encoding medical images as downsized latent representations and decoding latent representations back to high-resolution images. We train MedVAE autoencoders using a novel two-stage training approach with 1,052,730 medical images. Across diverse tasks obtained from 20 medical image datasets, we demonstrate that (1) utilizing MedVAE latent representations in place of high-resolution images when training downstream models can lead to efficiency benefits (up to 70x improvement in throughput) while simultaneously preserving clinically-relevant features and (2) MedVAE can decode latent representations back to high-resolution images with high fidelity. Our work demonstrates that large-scale, generalizable autoencoders can help address critical efficiency challenges in the medical domain. Our code is available at https://github.com/StanfordMIMI/MedVAE.

arxiv情報

著者 Maya Varma,Ashwin Kumar,Rogier van der Sluijs,Sophie Ostmeier,Louis Blankemeier,Pierre Chambon,Christian Bluethgen,Jip Prince,Curtis Langlotz,Akshay Chaudhari
発行日 2025-02-20 17:24:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | MedVAE: Efficient Automated Interpretation of Medical Images with Large-Scale Generalizable Autoencoders はコメントを受け付けていません

Sculpting [CLS] Features for Pre-Trained Model-Based Class-Incremental Learning

要約

クラスインクリメンタル学習では、モデルが古いクラスを忘れずに新しいクラスの知識を継続的に取得する必要があります。
事前に訓練されたモデルは、クラスインクリメンタル学習において強力なパフォーマンスを実証していますが、新しい概念を学ぶとき、壊滅的な忘却の影響を受けやすいままです。
モデルの過度の可塑性は一般化可能性を破り、忘れを引き起こしますが、強い安定性は新しいクラスへの適応が不十分になります。
これにより、事前に訓練されたモデルの一般的な知識を維持するための最小限の変更を伴う効果的な適応が必要です。
この課題に対処するために、最初に、アダプターキャリブレーターのカップルを介して知識を獲得するように設計された新しいパラメーター効率の高い微調整モジュール「Learn and Calibrate」、またはLucaを導入し、適切に洗練された機能表現で効果的な適応を可能にします。
第二に、学習セッションごとに、分類器の直前に最後のトークンの上にスパースルカモジュールを展開します。これを「トークンレベルのスパースキャリブレーションと適応」、またはTOSCAと呼びます。
この戦略的設計は、モジュール間の直交性を改善し、トレーニングと推論の複雑さの両方を大幅に削減します。
事前に訓練されたモデルの一般化能力をそのまま残し、最後のトークンを介して独占的に適応することにより、私たちのアプローチは安定性と可塑性の調和のとれたバランスを達成します。
広範な実験は、Toscaの最先端のパフォーマンスを示しながら、以前の方法と比較してパラメーターが8倍少ないことを示しています。

要約(オリジナル)

Class-incremental learning requires models to continually acquire knowledge of new classes without forgetting old ones. Although pre-trained models have demonstrated strong performance in class-incremental learning, they remain susceptible to catastrophic forgetting when learning new concepts. Excessive plasticity in the models breaks generalizability and causes forgetting, while strong stability results in insufficient adaptation to new classes. This necessitates effective adaptation with minimal modifications to preserve the general knowledge of pre-trained models. To address this challenge, we first introduce a new parameter-efficient fine-tuning module ‘Learn and Calibrate’, or LuCA, designed to acquire knowledge through an adapter-calibrator couple, enabling effective adaptation with well-refined feature representations. Second, for each learning session, we deploy a sparse LuCA module on top of the last token just before the classifier, which we refer to as ‘Token-level Sparse Calibration and Adaptation’, or TOSCA. This strategic design improves the orthogonality between the modules and significantly reduces both training and inference complexity. By leaving the generalization capabilities of the pre-trained models intact and adapting exclusively via the last token, our approach achieves a harmonious balance between stability and plasticity. Extensive experiments demonstrate TOSCA’s state-of-the-art performance while introducing ~8 times fewer parameters compared to prior methods.

arxiv情報

著者 Murat Onur Yildirim,Elif Ceren Gok Yildirim,Joaquin Vanschoren
発行日 2025-02-20 17:37:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Sculpting [CLS] Features for Pre-Trained Model-Based Class-Incremental Learning はコメントを受け付けていません

Harnessing PDF Data for Improving Japanese Large Multimodal Models

要約

大規模なマルチモーダルモデル(LMM)は英語で強力なパフォーマンスを実証していますが、高品質のトレーニングデータが不足しているため、日本語での有効性は限られたままです。
現在の日本のLMMは、しばしば翻訳された英語のデータセットに依存しており、日本固有の文化的知識を捉える能力を制限しています。
これに対処するために、日本のPDFデータのトレーニングリソースとしての可能性を調査します。これは、ほとんど活用されていない領域です。
レイアウト分析、OCR、およびビジョン言語ペアリングを通じてPDFから画像テキストペアを抽出するために前処理されたモデルを活用する完全に自動化されたパイプラインを導入し、手動注釈の必要性を削除します。
さらに、抽出された画像テキストペアから命令データを構築して、トレーニングデータを豊かにします。
PDF由来のデータの有効性を評価するために、日本のLMMを訓練し、日本のLMMベンチマークでのパフォーマンスを評価します。
私たちの結果は大幅な改善を示しており、パフォーマンスの向上はヘロンベンチで3.9%から13.8%の範囲です。
さらなる分析では、モデルサイズや言語モデルなどのさまざまな要因に対するPDF由来のデータが日本のLMMのマルチモーダルリソースとしての価値を強化する影響を強調しています。
ソースコードとデータを受け入れたときに公開することを計画しています。

要約(オリジナル)

Large Multimodal Models (LMMs) have demonstrated strong performance in English, but their effectiveness in Japanese remains limited due to the lack of high-quality training data. Current Japanese LMMs often rely on translated English datasets, restricting their ability to capture Japan-specific cultural knowledge. To address this, we explore the potential of Japanese PDF data as a training resource, an area that remains largely underutilized. We introduce a fully automated pipeline that leverages pretrained models to extract image-text pairs from PDFs through layout analysis, OCR, and vision-language pairing, removing the need for manual annotation. Additionally, we construct instruction data from extracted image-text pairs to enrich the training data. To evaluate the effectiveness of PDF-derived data, we train Japanese LMMs and assess their performance on the Japanese LMM Benchmark. Our results demonstrate substantial improvements, with performance gains ranging from 3.9% to 13.8% on Heron-Bench. Further analysis highlights the impact of PDF-derived data on various factors, such as model size and language models, reinforcing its value as a multimodal resource for Japanese LMMs. We plan to make the source code and data publicly available upon acceptance.

arxiv情報

著者 Jeonghun Baek,Akiko Aizawa,Kiyoharu Aizawa
発行日 2025-02-20 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Harnessing PDF Data for Improving Japanese Large Multimodal Models はコメントを受け付けていません