MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

要約

コードは、その精度と精度により、大規模な言語モデルの数学的推論能力を強化するのに効果的であることが示されています。
継続的な数学的事前トレーニングを伴う以前の研究には、数学関連のパッケージを利用するコードが含まれることがよくあります。これらのパッケージは、数学的推論に直接焦点を当てるのではなく、主にエンジニアリング、機械学習、信号処理、モジュール テストなどの分野向けに設計されています。
この論文では、継続的な事前トレーニングのための対応する推論ステップを伴う数学的コードを生成する新しい方法を紹介します。
私たちのアプローチは、数学関連の Web データ、数学パッケージを使用したコード、数学の教科書、合成データを組み込むことにより、高品質の数学的継続事前トレーニング データセットを構築することから始まります。
次に、以前に収集したデータセットから LaTeX 式、式に必要な条件、式の結果を抽出して推論ステップを構築します。
この抽出された情報に基づいて、対応するコードを生成し、数学的推論プロセスを正確に把握します。
生成されたコードを各推論ステップに追加すると、ペアの自然言語推論ステップとそれらに対応するコードで構成されるデータが生成されます。
このデータを元のデータセットと組み合わせると、19.2 億トークンの高性能な数学的事前トレーニング コーパスが生成され、これを MathCode-Pile と名付けます。
このコーパスを使用していくつかの一般的な基本モデルをトレーニングすると、数学的能力が大幅に向上し、MathCoder2 ファミリーのモデルの作成につながります。
当社のデータ処理およびトレーニング コードはすべてオープンソースであり、データ収集およびトレーニング パイプライン全体の完全な透明性と簡単な再現性を保証します。
コードは https://github.com/mathllm/MathCoder2 でリリースされています。

要約(オリジナル)

Code has been shown to be effective in enhancing the mathematical reasoning abilities of large language models due to its precision and accuracy. Previous works involving continued mathematical pretraining often include code that utilizes math-related packages, which are primarily designed for fields such as engineering, machine learning, signal processing, or module testing, rather than being directly focused on mathematical reasoning. In this paper, we introduce a novel method for generating mathematical code accompanied with corresponding reasoning steps for continued pretraining. Our approach begins with the construction of a high-quality mathematical continued pretraining dataset by incorporating math-related web data, code using mathematical packages, math textbooks, and synthetic data. Next, we construct reasoning steps by extracting LaTeX expressions, the conditions needed for the expressions, and the results of the expressions from the previously collected dataset. Based on this extracted information, we generate corresponding code to accurately capture the mathematical reasoning process. Appending the generated code to each reasoning step results in data consisting of paired natural language reasoning steps and their corresponding code. Combining this data with the original dataset results in a 19.2B-token high-performing mathematical pretraining corpus, which we name MathCode-Pile. Training several popular base models with this corpus significantly improves their mathematical abilities, leading to the creation of the MathCoder2 family of models. All of our data processing and training code is open-sourced, ensuring full transparency and easy reproducibility of the entire data collection and training pipeline. The code is released at https://github.com/mathllm/MathCoder2 .

arxiv情報

著者 Zimu Lu,Aojun Zhou,Ke Wang,Houxing Ren,Weikang Shi,Junting Pan,Mingjie Zhan,Hongsheng Li
発行日 2024-10-10 17:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code はコメントを受け付けていません

Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models

要約

CLIP のような対照的視覚言語モデル (VLM) は、さまざまな下流タスクに多用途に適用できるため人気が高まっています。
ゼロショット物体認識などの一部のタスクでは成功したにもかかわらず、属性認識などの他のタスクでは驚くほどパフォーマンスが悪くなります。
これまでの研究では、これらの課題はモダリティのギャップ、共有表現空間における画像とテキストの分離、および属性などの他の要素よりもオブジェクトへの偏りが原因であるとされていました。
この分析論文では、両方の現象を徹底的に調査します。
既製の VLM を評価したところ、パフォーマンスに対するギャップの影響は通常、他の要因によって影が薄くなりますが、ギャップを埋めることが実際に改善につながる兆候が見出されました。
さらに、直観に反して、わずかな埋め込み次元のみがギャップを駆動し、埋め込み空間が異なって構成されていることがわかりました。
オブジェクトバイアスの明確な研究を可能にするために、その定義と対応する尺度を導入します。
このツールを使用すると、オブジェクトのバイアスが属性自体などの他の概念のパフォーマンスの低下につながることはないことがわかります。
しかし、そもそもなぜモダリティギャップとオブジェクトバイアスという両方の現象が現れるのでしょうか?
この基本的な質問に答え、対照的な VLM の内部動作の一部を明らかにするために、私たちはモダリティ間で共有される情報の量を制御できる実験を実施しました。
これらの実験により、モダリティギャップとオブジェクトバイアスの両方の背後にある要因は、画像とキャプションの間の情報の不均衡であることが明らかになり、モダリティギャップとロジットのエントロピーとの間の興味深い関係が明らかになりました。

要約(オリジナル)

Contrastive vision-language models (VLMs), like CLIP, have gained popularity for their versatile applicability to various downstream tasks. Despite their successes in some tasks, like zero-shot object recognition, they perform surprisingly poor on other tasks, like attribute recognition. Previous work has attributed these challenges to the modality gap, a separation of image and text in the shared representation space, and to a bias towards objects over other factors, such as attributes. In this analysis paper, we investigate both phenomena thoroughly. We evaluated off-the-shelf VLMs and find that while the gap’s influence on performance is typically overshadowed by other factors, we find indications that closing the gap indeed leads to improvements. Moreover, we find that, contrary to intuition, only few embedding dimensions drive the gap and that the embedding spaces are differently organized. To allow for a clean study of object bias, we introduce a definition and a corresponding measure of it. Equipped with this tool, we find that object bias does not lead to worse performance on other concepts, such as attributes per se. However, why do both phenomena, modality gap and object bias, emerge in the first place? To answer this fundamental question and uncover some of the inner workings of contrastive VLMs, we conducted experiments that allowed us to control the amount of shared information between the modalities. These experiments revealed that the driving factor behind both the modality gap and the object bias, is an information imbalance between images and captions, and unveiled an intriguing connection between the modality gap and entropy of the logits.

arxiv情報

著者 Simon Schrodi,David T. Hoffmann,Max Argus,Volker Fischer,Thomas Brox
発行日 2024-10-10 17:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models はコメントを受け付けていません

Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models

要約

テキストから画像への生成における拡散モデルの採用の増加により、その信頼性に対する懸念が生じています。
このようなモデルは現在、さまざまな指標、特にキャリブレーション、公平性、計算効率などの観点から厳密に精査されています。
この作業では、これらのモデルを展開するときに発生する 2 つの問題、つまり、画像をプロンプトする際の多様性の欠如と、トレーニング セットから画像を再作成する傾向に焦点を当てます。
両方の問題を解決するために、事前学習された拡散モデルのサンプリングされた軌跡を調整して、参照セットの外にある画像に着地させる方法を提案します。
これは、生成軌道全体を通じて拡散 SDE に反発項を追加することで実現します。これは、パスがシールドされた参照セット内の画像に近すぎると予想される場合にトリガーされます。
ほとんどの場合、これらの忌避項はゼロで非アクティブであり、生成軌跡の終わりに近づくとさらに顕著になるという意味で、私たちの方法はまばらです。
スパース忌避性を意味する SPELL と名付けられたこの方法は、保護された画像を含む静的参照セットで使用することも、バッチ内で同時に生成される予期される画像でタイムステップごとにセットを更新することによって動的に使用することもできます。
一般的な拡散モデルに SPELL を追加すると、FID にわずかな影響を与えながら多様性が向上し、最近のトレーニング不要の多様性手法よりも比較的優れたパフォーマンスを発揮することを示します。
また、SPELL が ImageNet からの 1.2M のすべての画像を保護されたセットとみなすことにより、保護された画像の非常に大きなセットから確実にシールドされた世代を確実に分離できることも示します。

要約(オリジナル)

The increased adoption of diffusion models in text-to-image generation has triggered concerns on their reliability. Such models are now closely scrutinized under the lens of various metrics, notably calibration, fairness, or compute efficiency. We focus in this work on two issues that arise when deploying these models: a lack of diversity when prompting images, and a tendency to recreate images from the training set. To solve both problems, we propose a method that coaxes the sampled trajectories of pretrained diffusion models to land on images that fall outside of a reference set. We achieve this by adding repellency terms to the diffusion SDE throughout the generation trajectory, which are triggered whenever the path is expected to land too closely to an image in the shielded reference set. Our method is sparse in the sense that these repellency terms are zero and inactive most of the time, and even more so towards the end of the generation trajectory. Our method, named SPELL for sparse repellency, can be used either with a static reference set that contains protected images, or dynamically, by updating the set at each timestep with the expected images concurrently generated within a batch. We show that adding SPELL to popular diffusion models improves their diversity while impacting their FID only marginally, and performs comparatively better than other recent training-free diversity methods. We also demonstrate how SPELL can ensure a shielded generation away from a very large set of protected images by considering all 1.2M images from ImageNet as the protected set.

arxiv情報

著者 Michael Kirchhof,James Thornton,Pierre Ablin,Louis Béthune,Eugene Ndiaye,Marco Cuturi
発行日 2024-10-10 17:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models はコメントを受け付けていません

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

要約

大規模言語モデル (LLM) の急速な進歩により、その機能をマルチモーダル タスクに拡張する取り組みが殺到しています。
その中でも、ビジュアルエンコーディングと言語デコーディングを単一の LLM に統合するモノリシックなマルチモーダル大規模言語モデル (MLLM) に注目が集まっています。
構造が単純で導入が容易であるにもかかわらず、期待できるパフォーマンスを備えたモノリシック MLLM をトレーニングすることは依然として困難です。
特に、一般的なアプローチでは、継続的な事前トレーニングを採用して、事前トレーニングされた LLM をモノリシック MLLM に拡張しますが、壊滅的な忘却が発生し、パフォーマンスの低下につながります。
この論文では、デルタチューニングの観点からこの制限を克服することを目指します。
具体的には、私たちの中心となるアイデアは、視覚パラメータを事前トレーニングされた LLM に埋め込むことで、デルタ チューニングを介して大量のデータから視覚知識を段階的に学習することです。つまり、視覚パラメータを最適化するときに LLM をフリーズします。
この原理に基づいて、私たちは、マルチモーダルな専門家混合構造を介して一連の視覚的専門家をシームレスに統合する、新しいモノリシック MLLM である Mono-InternVL を紹介します。
さらに、Mono-InternVL の視覚能力を最大化するための革新的な事前トレーニング戦略、すなわち Endogenous Visual Pre-training (EViP) を提案します。
特に、EViP は視覚専門家向けの進歩的な学習プロセスとして設計されており、ノイズの多いデータから高品質のデータまで視覚的な知識を最大限に活用することを目的としています。
私たちのアプローチを検証するために、16 のベンチマークで広範な実験を実施しました。
実験結果は、6 つのマルチモーダル ベンチマークで最先端の MLLM と比較して Mono-InternVL のパフォーマンスが優れていること (たとえば、OCRBench で InternVL-1.5 より +113 ポイント) を検証するだけでなく、その導入効率の向上も確認しています。
トークンの遅延が最大 67% 削減されました。

要約(オリジナル)

The rapid advancement of Large Language Models (LLMs) has led to an influx of efforts to extend their capabilities to multimodal tasks. Among them, growing attention has been focused on monolithic Multimodal Large Language Models (MLLMs) that integrate visual encoding and language decoding into a single LLM. Despite the structural simplicity and deployment-friendliness, training a monolithic MLLM with promising performance still remains challenging. In particular, the popular approaches adopt continuous pre-training to extend a pre-trained LLM to a monolithic MLLM, which suffers from catastrophic forgetting and leads to performance degeneration. In this paper, we aim to overcome this limitation from the perspective of delta tuning. Specifically, our core idea is to embed visual parameters into a pre-trained LLM, thereby incrementally learning visual knowledge from massive data via delta tuning, i.e., freezing the LLM when optimizing the visual parameters. Based on this principle, we present Mono-InternVL, a novel monolithic MLLM that seamlessly integrates a set of visual experts via a multimodal mixture-of-experts structure. Moreover, we propose an innovative pre-training strategy to maximize the visual capability of Mono-InternVL, namely Endogenous Visual Pre-training (EViP). In particular, EViP is designed as a progressive learning process for visual experts, which aims to fully exploit the visual knowledge from noisy data to high-quality data. To validate our approach, we conduct extensive experiments on 16 benchmarks. Experimental results not only validate the superior performance of Mono-InternVL compared to the state-of-the-art MLLM on 6 multimodal benchmarks, e.g., +113 points over InternVL-1.5 on OCRBench, but also confirm its better deployment efficiency, with first token latency reduced by up to 67%.

arxiv情報

著者 Gen Luo,Xue Yang,Wenhan Dou,Zhaokai Wang,Jifeng Dai,Yu Qiao,Xizhou Zhu
発行日 2024-10-10 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training はコメントを受け付けていません

Interactive4D: Interactive 4D LiDAR Segmentation

要約

インタラクティブなセグメンテーションは、将来の LiDAR データセットのアノテーション プロセスを容易にする上で重要な役割を果たします。
既存のアプローチでは、LiDAR スキャンごとに個々のオブジェクトを順次セグメント化し、シーケンス全体にわたってこのプロセスを繰り返しますが、これは冗長で非効率的です。
この研究では、複数の LiDAR スキャンで複数のオブジェクトを同時にセグメント化できる新しいパラダイムであるインタラクティブ 4D セグメンテーションと、シーケンシャル
LiDAR データの性質。
インタラクティブなセグメンテーションを実行する際、私たちのモデルは時空間ボリューム全体を活用し、より効率的なセグメンテーションを実現します。
4D ボリューム上で動作し、長期にわたって一貫したインスタンス ID を直接提供し、注釈の追跡も簡素化します。
さらに、LiDAR 点群でのモデル トレーニングを成功させるには、クリック シミュレーションが重要であることを示します。
この目的を達成するために、LiDAR データの特性により適したクリック シミュレーション戦略を設計します。
その精度と有効性を実証するために、複数の LiDAR データセットで Interactive4D を評価しました。そこでは、Interactive4D は大幅な差で新しい最先端を達成しています。
承認され次第、コードとモデルを https://vision.rwth-aachen.de/Interactive4D で公開します。

要約(オリジナル)

Interactive segmentation has an important role in facilitating the annotation process of future LiDAR datasets. Existing approaches sequentially segment individual objects at each LiDAR scan, repeating the process throughout the entire sequence, which is redundant and ineffective. In this work, we propose interactive 4D segmentation, a new paradigm that allows segmenting multiple objects on multiple LiDAR scans simultaneously, and Interactive4D, the first interactive 4D segmentation model that segments multiple objects on superimposed consecutive LiDAR scans in a single iteration by utilizing the sequential nature of LiDAR data. While performing interactive segmentation, our model leverages the entire space-time volume, leading to more efficient segmentation. Operating on the 4D volume, it directly provides consistent instance IDs over time and also simplifies tracking annotations. Moreover, we show that click simulations are crucial for successful model training on LiDAR point clouds. To this end, we design a click simulation strategy that is better suited for the characteristics of LiDAR data. To demonstrate its accuracy and effectiveness, we evaluate Interactive4D on multiple LiDAR datasets, where Interactive4D achieves a new state-of-the-art by a large margin. Upon acceptance, we will publicly release the code and models at https://vision.rwth-aachen.de/Interactive4D.

arxiv情報

著者 Ilya Fradlin,Idil Esen Zulfikar,Kadir Yilmaz,Theodora Kontogianni,Bastian Leibe
発行日 2024-10-10 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Interactive4D: Interactive 4D LiDAR Segmentation はコメントを受け付けていません

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

要約

離散拡散モデルは、画像生成やマスクされた言語モデリングなどのタスクでは成功を収めていますが、制御されたコンテンツ編集では限界に直面しています。
多項拡散やマスク生成モデルなどの離散拡散モデルの正確な逆変換を可能にする最初のアプローチである DICE (Discrete Inversion for Controllable Editing) を紹介します。
逆拡散プロセス中にノイズ シーケンスとマスキング パターンを記録することにより、DICE は、事前定義されたマスクや注意力の操作を必要とせずに、離散データの正確な再構成と柔軟な編集を可能にします。
VQ-Difffusion、Paella、RoBERTa などのモデルで評価し、画像とテキストの両方のドメインにわたる DICE の有効性を実証します。
私たちの結果は、DICE が高いデータ忠実度を維持しながら編集機能を強化し、離散空間でのきめ細かいコンテンツ操作の新たな機会を提供することを示しています。
プロジェクトの Web ページについては、https://hexiaoxiao-cs.github.io/DICE/ を参照してください。

要約(オリジナル)

Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces. For project webpage, see https://hexiaoxiao-cs.github.io/DICE/.

arxiv情報

著者 Xiaoxiao He,Ligong Han,Quan Dao,Song Wen,Minhao Bai,Di Liu,Han Zhang,Martin Renqiang Min,Felix Juefei-Xu,Chaowei Tan,Bo Liu,Kang Li,Hongdong Li,Junzhou Huang,Faez Ahmed,Akash Srivastava,Dimitris Metaxas
発行日 2024-10-10 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models はコメントを受け付けていません

SPA: 3D Spatial-Awareness Enables Effective Embodied Representation

要約

この論文では、身体化された AI における 3D 空間認識の重要性を強調する新しい表現学習フレームワークである SPA を紹介します。
私たちのアプローチは、マルチビュー画像に対する微分可能なニューラル レンダリングを利用して、バニラ ビジョン トランスフォーマー (ViT) に本質的な空間理解を与えます。
シングルタスクと言語条件付きマルチタスクの両方のシナリオで、多様なポリシーを持つ 8 つのシミュレーターにわたる 268 のタスクをカバーする、これまでの身体表現学習の最も包括的な評価を示します。
その結果は説得力があります。SPA は、より少ないトレーニング データを使用しながら、具体化された AI、ビジョン中心のタスク、マルチモーダル アプリケーション向けに特別に設計されたものなど、10 を超える最先端の表現方法を常に上回っています。
さらに、実際のシナリオでの有効性を確認するために一連の実際の実験を実施します。
これらの結果は、身体表現学習における 3D 空間認識の重要な役割を浮き彫りにしています。
私たちの最強のモデルのトレーニングには 6000 GPU 時間以上かかります。私たちは、身体表現学習における将来の研究を促進するために、すべてのコードとモデルの重みをオープンソース化することに取り組んでいます。
プロジェクトページ: https://haoyizhu.github.io/spa/。

要約(オリジナル)

In this paper, we introduce SPA, a novel representation learning framework that emphasizes the importance of 3D spatial awareness in embodied AI. Our approach leverages differentiable neural rendering on multi-view images to endow a vanilla Vision Transformer (ViT) with intrinsic spatial understanding. We present the most comprehensive evaluation of embodied representation learning to date, covering 268 tasks across 8 simulators with diverse policies in both single-task and language-conditioned multi-task scenarios. The results are compelling: SPA consistently outperforms more than 10 state-of-the-art representation methods, including those specifically designed for embodied AI, vision-centric tasks, and multi-modal applications, while using less training data. Furthermore, we conduct a series of real-world experiments to confirm its effectiveness in practical scenarios. These results highlight the critical role of 3D spatial awareness for embodied representation learning. Our strongest model takes more than 6000 GPU hours to train and we are committed to open-sourcing all code and model weights to foster future research in embodied representation learning. Project Page: https://haoyizhu.github.io/spa/.

arxiv情報

著者 Haoyi Zhu,Honghui Yang,Yating Wang,Jiange Yang,Limin Wang,Tong He
発行日 2024-10-10 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | SPA: 3D Spatial-Awareness Enables Effective Embodied Representation はコメントを受け付けていません

Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision

要約

現在の大規模マルチモーダル モデル (LMM) は、モデルが言語コンポーネントを視覚的エンティティに関連付ける必要があるため、グラウンディングという課題に直面しています。
追加の接地監視によって LMM を微調整する一般的な手法とは異なり、明示的な接地監視なしで訓練された LMM には実際に接地能力が発現する可能性があることがわかりました。
この新たな根拠を明らかにするために、標準 LMM のアテンション マップを活用してピクセル レベルのセグメンテーションを実行する「アテンド アンド セグメント」手法を導入します。
さらに、接地能力を強化するために、標準の CLIP ビジュアル エンコーダとは対照的に、拡散ベースのビジュアル エンコーダを利用し、同じ弱い監視でトレーニングされた LMM である DIFFLMM を提案します。
接地固有の監視データのバイアスや限られた規模に制約されることなく、私たちのアプローチはより一般化可能で拡張可能です。
当社は、グラウンディング固有のベンチマークと一般的な視覚的質問応答ベンチマークの両方で、それぞれグラウンディング LMM と汎用 LMM と比較して、競争力のあるパフォーマンスを達成しています。
特に、接地の監視なしで接地された会話の生成で 44.2 の接地マスク再現率を達成し、広範囲に監視されたモデル GLaMM を上回りました。
プロジェクトページ: https://groundLMM.github.io。

要約(オリジナル)

Current large multimodal models (LMMs) face challenges in grounding, which requires the model to relate language components to visual entities. Contrary to the common practice that fine-tunes LMMs with additional grounding supervision, we find that the grounding ability can in fact emerge in LMMs trained without explicit grounding supervision. To reveal this emerging grounding, we introduce an ‘attend-and-segment’ method which leverages attention maps from standard LMMs to perform pixel-level segmentation. Furthermore, to enhance the grounding ability, we propose DIFFLMM, an LMM utilizing a diffusion-based visual encoder, as opposed to the standard CLIP visual encoder, and trained with the same weak supervision. Without being constrained by the biases and limited scale of grounding-specific supervision data, our approach is more generalizable and scalable. We achieve competitive performance on both grounding-specific and general visual question answering benchmarks, compared with grounding LMMs and generalist LMMs, respectively. Notably, we achieve a 44.2 grounding mask recall on grounded conversation generation without any grounding supervision, outperforming the extensively supervised model GLaMM. Project page: https://groundLMM.github.io.

arxiv情報

著者 Shengcao Cao,Liang-Yan Gui,Yu-Xiong Wang
発行日 2024-10-10 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision はコメントを受け付けていません

PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object Detection

要約

単一点教師あり指向物体検出は注目を集め、コミュニティ内で初期の進歩を遂げました。
ワンショット サンプルや強力な事前トレーニング済みモデル (SAM など) に依存するアプローチとは異なり、PointOBB は事前不要の機能により有望性を示しています。
この論文では、他の先行技術に依存せずに点から疑似回転ボックスを生成するための、よりシンプルで高速かつ強力な方法である PointOBB-v2 を提案します。
具体的には、まず、不均一な正および負のサンプリングでネットワークをトレーニングすることにより、クラス確率マップ (CPM) を生成します。
CPM がおおよそのオブジェクト領域とその輪郭を学習できることを示します。
次に、主成分分析 (PCA) を適用して、オブジェクトの方向と境界を正確に推定します。
さらに分離メカニズムを組み込むことで、CPM 上の重複によって引き起こされる混乱を解決し、高密度シナリオでの動作を可能にします。
広範な比較により、DOTA-v1.0/v1.5/v2.0 データセットでは、以前の状態と比較して、私たちのメソッドが 15.58 倍速いトレーニング速度と 11.60%/25.15%/21.19% の精度向上を達成していることが実証されています。
アート、PointOBB。
これにより、モジュラートラックにおける単一点監視付き指向検出の最先端が大幅に進歩します。

要約(オリジナル)

Single point supervised oriented object detection has gained attention and made initial progress within the community. Diverse from those approaches relying on one-shot samples or powerful pretrained models (e.g. SAM), PointOBB has shown promise due to its prior-free feature. In this paper, we propose PointOBB-v2, a simpler, faster, and stronger method to generate pseudo rotated boxes from points without relying on any other prior. Specifically, we first generate a Class Probability Map (CPM) by training the network with non-uniform positive and negative sampling. We show that the CPM is able to learn the approximate object regions and their contours. Then, Principal Component Analysis (PCA) is applied to accurately estimate the orientation and the boundary of objects. By further incorporating a separation mechanism, we resolve the confusion caused by the overlapping on the CPM, enabling its operation in high-density scenarios. Extensive comparisons demonstrate that our method achieves a training speed 15.58x faster and an accuracy improvement of 11.60%/25.15%/21.19% on the DOTA-v1.0/v1.5/v2.0 datasets compared to the previous state-of-the-art, PointOBB. This significantly advances the cutting edge of single point supervised oriented detection in the modular track.

arxiv情報

著者 Botao Ren,Xue Yang,Yi Yu,Junwei Luo,Zhidong Deng
発行日 2024-10-10 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object Detection はコメントを受け付けていません

LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts

要約

大規模ビジョン言語事前トレーニング (VLP) モデル (CLIP など) は、ゼロショット設定でさまざまなアプリケーションに適用できるため、その多用途性で知られています。
ただし、これらのモデルが特定のドメインで使用される場合、ドメインのギャップやトレーニング データ内のこれらのドメインの過小表現により、パフォーマンスが低下することがよくあります。
人間がアノテーションを付けたラベルを使用してカスタム データセットの VLP モデルを微調整することでこの問題に対処できますが、小規模なデータセット (例: 100,000 サンプル) にアノテーションを付けるのは費用がかかる作業となる可能性があり、タスクが複雑な場合は専門のアノテーターが必要になることがよくあります。
これらの課題に対処するために、私たちは LatteCLIP を提案します。LatteCLIP は、人間による注釈に依存せず、カスタム ドメイン内の既知のクラス名による分類に基づいて CLIP モデルを微調整するための教師なし手法です。
私たちの方法では、大規模マルチモーダル モデル (LMM) を利用して、個々の画像と画像のグループの両方について表現力豊かなテキストの説明を生成します。
これらは、カスタム ドメインでの微調整プロセスをガイドするための追加のコンテキスト情報を提供します。
LMM で生成された記述は幻覚や詳細の欠落を招きやすいため、有用な情報のみを抽出してトレーニングを安定させるための新しい戦略を導入します。
具体的には、ノイズの多い生成テキストと二重擬似ラベルから、クラスごとの豊富なプロトタイプ表現を学習します。
10 のドメイン固有のデータセットに対する実験では、LatteCLIP が事前トレーニング済みのゼロショット手法よりもトップ 1 精度で平均 +4​​.74 ポイント向上し、その他の最先端の教師なし手法よりも +3.45 ポイント優れていることがわかりました。

要約(オリジナル)

Large-scale vision-language pre-trained (VLP) models (e.g., CLIP) are renowned for their versatility, as they can be applied to diverse applications in a zero-shot setup. However, when these models are used in specific domains, their performance often falls short due to domain gaps or the under-representation of these domains in the training data. While fine-tuning VLP models on custom datasets with human-annotated labels can address this issue, annotating even a small-scale dataset (e.g., 100k samples) can be an expensive endeavor, often requiring expert annotators if the task is complex. To address these challenges, we propose LatteCLIP, an unsupervised method for fine-tuning CLIP models on classification with known class names in custom domains, without relying on human annotations. Our method leverages Large Multimodal Models (LMMs) to generate expressive textual descriptions for both individual images and groups of images. These provide additional contextual information to guide the fine-tuning process in the custom domains. Since LMM-generated descriptions are prone to hallucination or missing details, we introduce a novel strategy to distill only the useful information and stabilize the training. Specifically, we learn rich per-class prototype representations from noisy generated texts and dual pseudo-labels. Our experiments on 10 domain-specific datasets show that LatteCLIP outperforms pre-trained zero-shot methods by an average improvement of +4.74 points in top-1 accuracy and other state-of-the-art unsupervised methods by +3.45 points.

arxiv情報

著者 Anh-Quan Cao,Maximilian Jaritz,Matthieu Guillaumin,Raoul de Charette,Loris Bazzani
発行日 2024-10-10 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts はコメントを受け付けていません