Large-scale Remote Sensing Image Target Recognition and Automatic Annotation

要約

このペーパーでは、LRSAAと呼ばれる大型エリアリモートセンシング画像のオブジェクト認識と自動ラベル付けの方法を紹介します。
このメソッドは、モデルのパフォーマンスを向上させるためにアンサンブル学習を通じて、Yolov11およびMobileNETV3-SSDオブジェクト検出アルゴリズムを統合します。
さらに、ポアソンディスクサンプリングセグメンテーション技術とEIOUメトリックを使用して、セグメント化された画像のトレーニングと推論プロセスを最適化し、その後に結果の統合が続きます。
このアプローチは、計算リソースの需要を削減するだけでなく、精度と速度のバランスをとることもできます。
このプロジェクトのソースコードは、https://github.com/anaerovane/lrsaaで公開されています。

要約(オリジナル)

This paper presents a method for object recognition and automatic labeling in large-area remote sensing images called LRSAA. The method integrates YOLOv11 and MobileNetV3-SSD object detection algorithms through ensemble learning to enhance model performance. Furthermore, it employs Poisson disk sampling segmentation techniques and the EIOU metric to optimize the training and inference processes of segmented images, followed by the integration of results. This approach not only reduces the demand for computational resources but also achieves a good balance between accuracy and speed. The source code for this project has been made publicly available on https://github.com/anaerovane/LRSAA.

arxiv情報

著者 Wuzheng Dong
発行日 2025-03-10 13:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Large-scale Remote Sensing Image Target Recognition and Automatic Annotation はコメントを受け付けていません

Extracting Training Data from Unconditional Diffusion Models

要約

拡散確率モデル(DPMS)が生成人工知能(Genai)の主流モデルとして採用されているため、彼らの暗記の研究は注目を集めています。
この分野の既存の作品は、DPMが暗記によってどの程度学習するかどうか、またはどの程度学習するかを理解することを目指しています。
このような理解は、拡散モデルにおけるデータの漏れと著作権侵害の潜在的なリスクを特定するために、さらに重要なことに、gena​​iの信頼できる適用のために重要です。
既存の作品は、条件付きDPMが無条件のDPMよりもトレーニングデータを記憶する傾向があることを明らかにしました。
そして、これまでに開発されたほとんどのデータ抽出方法条件付きDPMを対象としました。
無条件のDPMはデータ抽出の発生傾向がありませんが、これらの攻撃は安定した拡散などの条件付きモデルの基礎として機能するため、これらの攻撃のさらなる調査が不可欠なままであり、これらの攻撃を探索すると、DPMSの記憶の理解が向上します。
この作業では、\ textbf {surrogate条件付きデータ抽出(side)}という名前の新しいデータ抽出方法を提案します。これは、生成されたデータでトレーニングされた時間依存分類器を、無条件のDPMからトレーニングデータを抽出するために活用します。
経験的な結果は、以前の方法が失敗する挑戦的なシナリオでトレーニングデータを抽出できることを示しており、それは平均して、セレバデータセットの異なるスケールで50を超える\%を超えるものです。
さらに、条件付きDPMと無条件のDPMの両方で、暗記の理論的理解を提供します。

要約(オリジナル)

As diffusion probabilistic models (DPMs) are being employed as mainstream models for Generative Artificial Intelligence (GenAI), the study of their memorization has attracted growing attention. Existing works in this field aim to establish an understanding of whether or to what extent DPMs learn via memorization. Such an understanding is crucial for identifying potential risks of data leakage and copyright infringement in diffusion models and, more importantly, for trustworthy application of GenAI. Existing works revealed that conditional DPMs are more prone to memorize training data than unconditional DPMs. And most data extraction methods developed so far target conditional DPMs. Although unconditional DPMs are less prone to data extraction, further investigation into these attacks remains essential since they serve as the foundation for conditional models like Stable Diffusion, and exploring these attacks will enhance our understanding of memorization in DPMs. In this work, we propose a novel data extraction method named \textbf{Surrogate condItional Data Extraction (SIDE)} that leverages a time-dependent classifier trained on generated data as surrogate conditions to extract training data from unconditional DPMs. Empirical results demonstrate that it can extract training data in challenging scenarios where previous methods fail, and it is, on average, over 50\% more effective across different scales of the CelebA dataset. Furthermore, we provide a theoretical understanding of memorization in both conditional and unconditional DPMs and why SIDE is effective.

arxiv情報

著者 Yunhao Chen,Shujie Wang,Difan Zou,Xingjun Ma
発行日 2025-03-10 13:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | Extracting Training Data from Unconditional Diffusion Models はコメントを受け付けていません

OccLinker: Deflickering Occupancy Networks through Lightweight Spatio-Temporal Correlation

要約

ビジョンベースの占有ネットワーク(VON)は、自律運転で3D環境を再構築するためのエンドツーエンドソリューションを提供します。
ただし、既存の方法はしばしば時間的矛盾に悩まされ、視覚的な経験を妥協し、意思決定に悪影響を与えるちらつき効果として現れます。
最近のアプローチでは、問題を軽減するために履歴データが組み込まれていますが、多くの場合、高い計算コストが発生し、オブジェクトの検出を妨げる騒々しい情報が導入されます。
Occlinkerは、パフォーマンスを向上させるために既存のボンとシームレスに統合するように設計された新しいプラグインフレームワークです。
私たちの方法では、歴史的な静的およびモーションキューを統合し、モーションスタティック統合(MSI)メカニズムを介して現在の機能と相関させ、補正の占有率を生成してベースネットワークの予測を改善する3段階のアーキテクチャを採用しています。
2つのベンチマークでの広範な実験は、最新のベースラインモデルを上回る方法の効率と有効性を示しています。
ソースコードは、補足資料で利用できます。

要約(オリジナル)

Vision-based occupancy networks (VONs) provide an end-to-end solution for reconstructing 3D environments in autonomous driving. However, existing methods often suffer from temporal inconsistencies, manifesting as flickering effects that compromise visual experience and adversely affect decision-making. While recent approaches have incorporated historical data to mitigate the issue, they often incur high computational costs and introduce noisy information that interferes with object detection. We propose OccLinker, a novel plugin framework designed to seamlessly integrate with existing VONs for boosting performance. Our method employs a three-stage architecture that consolidates historical static and motion cues, correlates them with current features through a Motion-Static Integration (MSI) mechanism, and generates correction occupancy to refine base network predictions. Extensive experiments on two benchmarks demonstrate the efficiency and effectiveness of our method, outperforming the latest baseline models. The source code are available in the supplementary material.

arxiv情報

著者 Fengcheng Yu,Haoran Xu,Canming Xia,Ziyang Zong,Guang Tan
発行日 2025-03-10 13:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OccLinker: Deflickering Occupancy Networks through Lightweight Spatio-Temporal Correlation はコメントを受け付けていません

Now you see me! A framework for obtaining class-relevant saliency maps

要約

ニューラルネットワークは、理解と透明性が重要であるハイステークス設定を含む、日常生活の意思決定の一部です。
顕著性マップは、特定の予測にニューラルネットワークが使用する入力機能を理解するために開発されています。
広く採用されていますが、これらの方法は、分類をトリガーした特定の情報を特定できない過度に一般的な顕著性マップをもたらすことがよくあります。
この作業では、クラスに属性を組み込んで、クラスに関連する情報を実際にキャプチャする顕著なマップに到達できるフレームワークを提案します。
グリッドポイントゲームやランダム化ベースの正気チェックなどの帰属方法用の確立されたベンチマークでは、フレームワークが標準の顕著性マップアプローチのパフォーマンスを大幅に向上させることを示しています。
設計上、モデルアーキテクチャと帰属方法をモデル化することは不可知論であり、モデル予測に使用される際立った機能と共有機能を特定できるようになりました。

要約(オリジナル)

Neural networks are part of daily-life decision-making, including in high-stakes settings where understanding and transparency are key. Saliency maps have been developed to gain understanding into which input features neural networks use for a specific prediction. Although widely employed, these methods often result in overly general saliency maps that fail to identify the specific information that triggered the classification. In this work, we suggest a framework that allows to incorporate attributions across classes to arrive at saliency maps that actually capture the class-relevant information. On established benchmarks for attribution methods, including the grid-pointing game and randomization-based sanity checks, we show that our framework heavily boosts the performance of standard saliency map approaches. It is, by design, agnostic to model architectures and attribution methods and now allows to identify the distinguishing and shared features used for a model prediction.

arxiv情報

著者 Nils Philipp Walter,Jilles Vreeken,Jonas Fischer
発行日 2025-03-10 13:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Now you see me! A framework for obtaining class-relevant saliency maps はコメントを受け付けていません

DaD: Distilled Reinforcement Learning for Diverse Keypoint Detection

要約

キーポイントは、構造からの構造(SFM)システムが数千の画像にスケーリングできるようにするものです。
ただし、SFMは非拡張不可能であるため、キーポイント検出目標の設計は自明ではないタスクです。
通常、記述子を含む補助目標が最適化されます。
ただし、これは記述子への依存性を誘発します。これは望ましくありません。
この論文では、補強学習を通じて、キーポイント検出のための完全に自己監視され、記述されない目標を提案します。
トレーニングが退化しないようにするために、バランスの取れたTOP-Kサンプリング戦略を活用します。
これはすでに競争力のあるモデルを生成していますが、2つの定性的に異なるタイプの検出器が出現し、それぞれ明かりと暗いキーポイントのみを検出できることがわかります。
これを改善するために、私たちは、明るい検出器と暗い検出器の両方のポイントワイズの最大値のカルバック繰り返しの発散を最適化する3番目の検出器であるDADを訓練します。
私たちのアプローチは、さまざまなベンチマークにわたってSOTAを大幅に改善しています。
コードとモデルの重みは、https:github.com/parskatt/dadで公開されています

要約(オリジナル)

Keypoints are what enable Structure-from-Motion (SfM) systems to scale to thousands of images. However, designing a keypoint detection objective is a non-trivial task, as SfM is non-differentiable. Typically, an auxiliary objective involving a descriptor is optimized. This however induces a dependency on the descriptor, which is undesirable. In this paper we propose a fully self-supervised and descriptor-free objective for keypoint detection, through reinforcement learning. To ensure training does not degenerate, we leverage a balanced top-K sampling strategy. While this already produces competitive models, we find that two qualitatively different types of detectors emerge, which are only able to detect light and dark keypoints respectively. To remedy this, we train a third detector, DaD, that optimizes the Kullback-Leibler divergence of the pointwise maximum of both light and dark detectors. Our approach significantly improve upon SotA across a range of benchmarks. Code and model weights are publicly available at https:github.com/parskatt/dad

arxiv情報

著者 Johan Edstedt,Georg Bökman,Mårten Wadenbäck,Michael Felsberg
発行日 2025-03-10 14:02:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DaD: Distilled Reinforcement Learning for Diverse Keypoint Detection はコメントを受け付けていません

Fully Unsupervised Annotation of C. Elegans

要約

この作業では、監視されていないマルチグラフマッチングのための新しいアプローチを提示します。これは、キーポイント機能のガウス分布を想定できる問題に適用されます。
自己教師の学習の損失としてのサイクルの一貫性を活用し、ベイジアンの最適化を通じてガウスパラメーターを決定し、大きなデータセットに拡大する非常に効率的なアプローチをもたらします。
当社の完全に監視されていないアプローチにより、ワームC. elegansの3D顕微鏡画像で細胞核を注釈するというユースケースの最先端の監視方法の精度に到達することができます。
この目的のために、私たちのアプローチは、C。elegansの最初の監視されていないアトラス、つまり、グラウンドトゥルースセルアノテーションを必要とせずに、すべての細胞核の共同分布のモデルを生み出します。
この進歩により、C。elegansの大きな顕微鏡データセットで細胞核の非常に効率的な注釈が可能になります。
C. elegansを超えて、私たちのアプローチは、ステレオタイプ化された細胞系統を持つあらゆるモデル生物の細胞レベルのアトラーゼの完全に監視されていない構造を提供し、したがって、さらなる種の範囲でそれぞれの比較発達研究を触媒する可能性があります。

要約(オリジナル)

In this work we present a novel approach for unsupervised multi-graph matching, which applies to problems for which a Gaussian distribution of keypoint features can be assumed. We leverage cycle consistency as loss for self-supervised learning, and determine Gaussian parameters through Bayesian Optimization, yielding a highly efficient approach that scales to large datasets. Our fully unsupervised approach enables us to reach the accuracy of state-of-the-art supervised methodology for the use case of annotating cell nuclei in 3D microscopy images of the worm C. elegans. To this end, our approach yields the first unsupervised atlas of C. elegans, i.e. a model of the joint distribution of all of its cell nuclei, without the need for any ground truth cell annotation. This advancement enables highly efficient annotation of cell nuclei in large microscopy datasets of C. elegans. Beyond C. elegans, our approach offers fully unsupervised construction of cell-level atlases for any model organism with a stereotyped cell lineage, and thus bears the potential to catalyze respective comparative developmental studies in a range of further species.

arxiv情報

著者 Christoph Karg,Sebastian Stricker,Lisa Hutschenreiter,Bogdan Savchynskyy,Dagmar Kainmueller
発行日 2025-03-10 14:03:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Fully Unsupervised Annotation of C. Elegans はコメントを受け付けていません

Efficient Perspective-Correct 3D Gaussian Splatting Using Hybrid Transparency

要約

3Dガウススプラット(3DG)は、逆レンダリングとシーンのリアルタイムの調査の両方のために、多用途のレンダリングプリミティブであることが証明されています。
これらのアプリケーションでは、シーンの再構築の堅牢な収束やアーティファクトフリーのフライスルーのためであろうと、カメラフレームと複数のビュー全体のコヒーレンスが重要です。
最近の研究は、一貫性のない透明性のソートと(2d)スプラットの視点が正しいアウトラインによるアーティファクトをポップするなど、マルチビューのコヒーレンスを破るアーティファクトの緩和を開始しました。
同時に、リアルタイムの要件により、そのような実装は、3Dガウスの大規模なアセンブリの透明性がどのように解決され、他の方法で一貫性を破るかについての妥協を受け入れることを余儀なくされました。
私たちの仕事では、リアルタイムのフレームレートを保持するために、ピクセルあたりレベルで正確なブレンド、ハイブリッド透明性の高品質の近似を使用しながら、完全にパースペクティブで修正された3Dガウス派をレンダリングすることにより、最大のコヒーレンスを達成することを目指しています。
3Dガウスの評価のための高速かつ視野の正確なアプローチは、マトリックスの反転を必要とせず、それによって数値の安定性を確保し、退化したスプラットの特別な取り扱いの必要性を排除し、ブレンディングのためのハイブリッド透明性の定式化は、レンズーリングコストの範囲で完全に解決されたピクセルごとの透明度と同様の品質を維持します。
さらに、これら2つのコンポーネントのそれぞれが、ガウススプラッティングシステムに独立して統合できることを示しています。
組み合わせて、彼らは最大2 $ \ Times $のフレームレート、2 $ \ Times $の最適化、および一般的なベンチマーク上の従来の3DGと比較してレンダリングアーティファクトを少なくする等しいまたはより良い画質を達成します。

要約(オリジナル)

3D Gaussian Splats (3DGS) have proven a versatile rendering primitive, both for inverse rendering as well as real-time exploration of scenes. In these applications, coherence across camera frames and multiple views is crucial, be it for robust convergence of a scene reconstruction or for artifact-free fly-throughs. Recent work started mitigating artifacts that break multi-view coherence, including popping artifacts due to inconsistent transparency sorting and perspective-correct outlines of (2D) splats. At the same time, real-time requirements forced such implementations to accept compromises in how transparency of large assemblies of 3D Gaussians is resolved, in turn breaking coherence in other ways. In our work, we aim at achieving maximum coherence, by rendering fully perspective-correct 3D Gaussians while using a high-quality approximation of accurate blending, hybrid transparency, on a per-pixel level, in order to retain real-time frame rates. Our fast and perspectively accurate approach for evaluation of 3D Gaussians does not require matrix inversions, thereby ensuring numerical stability and eliminating the need for special handling of degenerate splats, and the hybrid transparency formulation for blending maintains similar quality as fully resolved per-pixel transparencies at a fraction of the rendering costs. We further show that each of these two components can be independently integrated into Gaussian splatting systems. In combination, they achieve up to 2$\times$ higher frame rates, 2$\times$ faster optimization, and equal or better image quality with fewer rendering artifacts compared to traditional 3DGS on common benchmarks.

arxiv情報

著者 Florian Hahlbohm,Fabian Friederichs,Tim Weyrich,Linus Franke,Moritz Kappel,Susana Castillo,Marc Stamminger,Martin Eisemann,Marcus Magnor
発行日 2025-03-10 14:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Efficient Perspective-Correct 3D Gaussian Splatting Using Hybrid Transparency はコメントを受け付けていません

Certifiably Optimal Anisotropic Rotation Averaging

要約

回転平均化は、コンピュータービジョンとロボット工学のアプリケーションにおける重要なサブ問題です。
この問題を解決するための多くの方法が存在し、難易度と最適性を分析するいくつかの理論的結果もあります。
ただし、これらのほとんどが共通している1つの側面は、等方性の設定に焦点を当てています。測定の本質的な不確実性は、結果として生じる最適化タスクに完全に組み込まれていません。
最近の経験的結果は、これらの不確実性が明示的に含まれている異方性フレームワークに移動すると、ソリューションの品質が向上する可能性があることを示唆しています。
ただし、回転平均のグローバルな最適化は、このシナリオでは依然として課題となっています。
このペーパーでは、異方性コストを認証可能に最適な回転平均化にどのように組み込むことができるかを示します。
また、等方性状況向けに設計された既存のソルバーが異方性の設定でどのように失敗するかを示します。
最後に、より強力なリラクゼーションを提案し、すべてのテストされたデータセットでグローバルな最適化を回復できることを経験的に示し、シーンの1つを除くすべてのすべてでより正確な再構築につながります。

要約(オリジナル)

Rotation averaging is a key subproblem in applications of computer vision and robotics. Many methods for solving this problem exist, and there are also several theoretical results analyzing difficulty and optimality. However, one aspect that most of these have in common is a focus on the isotropic setting, where the intrinsic uncertainties in the measurements are not fully incorporated into the resulting optimization task. Recent empirical results suggest that moving to an anisotropic framework, where these uncertainties are explicitly included, can result in an improvement of solution quality. However, global optimization for rotation averaging has remained a challenge in this scenario. In this paper we show how anisotropic costs can be incorporated in certifiably optimal rotation averaging. We also demonstrate how existing solvers, designed for isotropic situations, fail in the anisotropic setting. Finally, we propose a stronger relaxation and show empirically that it is able to recover global optima in all tested datasets and leads to a more accurate reconstruction in all but one of the scenes.

arxiv情報

著者 Carl Olsson,Yaroslava Lochman,Johan Malmport,Christopher Zach
発行日 2025-03-10 14:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Certifiably Optimal Anisotropic Rotation Averaging はコメントを受け付けていません

Inversion-Free Video Style Transfer with Trajectory Reset Attention Control and Content-Style Bridging

要約

ビデオスタイルの転送は、コンテンツを保存しながら、ビデオのスタイルを変更することを目的としています。
特に、正確なスタイルを転送することを目的とした画像駆動型のアプローチを使用する場合、以前の方法はコンテンツの漏れやスタイルの不整合に苦労することがよくあります。
この作業では、コンテンツの完全性を維持しながら高品質のスタイル転送を可能にする新しい方法であるTrajectory Reset Attonest Control(TRAC)を導入します。
TRACは、除去軌道をリセットし、注意制御を実施することで動作し、コンテンツの一貫性を強化しながら、反転ベースの方法に対する計算コストを大幅に削減します。
さらに、スタイルメディアと呼ばれる概念が導入され、コンテンツとスタイルの間のギャップを埋めるために導入され、スタイル要素のより正確で調和のとれた転送が可能になります。
これらの概念に基づいて、画像スタイルとビデオスタイルの両方の転送に安定した柔軟で効率的なソリューションを提供するチューニングフリーフレームワークを紹介します。
実験結果は、提案されたフレームワークが、正確なコンテンツの保存から、活気に満ちた表現力豊かなスタイルで視覚的に印象的な結果の生成まで、幅広い様式化された出力に対応することを示しています。

要約(オリジナル)

Video style transfer aims to alter the style of a video while preserving its content. Previous methods often struggle with content leakage and style misalignment, particularly when using image-driven approaches that aim to transfer precise styles. In this work, we introduce Trajectory Reset Attention Control (TRAC), a novel method that allows for high-quality style transfer while preserving content integrity. TRAC operates by resetting the denoising trajectory and enforcing attention control, thus enhancing content consistency while significantly reducing the computational costs against inversion-based methods. Additionally, a concept termed Style Medium is introduced to bridge the gap between content and style, enabling a more precise and harmonious transfer of stylistic elements. Building upon these concepts, we present a tuning-free framework that offers a stable, flexible, and efficient solution for both image and video style transfer. Experimental results demonstrate that our proposed framework accommodates a wide range of stylized outputs, from precise content preservation to the production of visually striking results with vibrant and expressive styles.

arxiv情報

著者 Jiang Lin,Zili Yi
発行日 2025-03-10 14:18:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Inversion-Free Video Style Transfer with Trajectory Reset Attention Control and Content-Style Bridging はコメントを受け付けていません

MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

要約

大規模なルールベースの強化学習(RL)をマルチモーダル推論に拡張するマルチモーダル推論モデルであるMM-Eurekaを提示します。
ルールベースのRLは、テキストドメインでのLLMSの推論能力の改善に顕著な成功を示していますが、マルチモーダル設定への適用は依然として困難です。
私たちの仕事は、マルチモーダル空間のDeepSeek-R1などのテキストベースのRLシステムの重要な特性を再現しています。これには、精度の報酬と応答の長さの着実な増加、反射行動の出現が含まれます。
命令チューニングモデルと事前に訓練されたモデルの両方が、監視された微調整なしにルールベースのRLを通じて強力なマルチモーダル推論機能を開発し、代替アプローチと比較して優れたデータ効率を示すことができることを実証します。
この分野でのさらなる研究を促進するために、完全なパイプラインをオープンソーシングします。
すべてのコード、モデル、データなどをhttps://github.com/modalminds/mm-eurekaでリリースします

要約(オリジナル)

We present MM-Eureka, a multimodal reasoning model that successfully extends large-scale rule-based reinforcement learning (RL) to multimodal reasoning. While rule-based RL has shown remarkable success in improving LLMs’ reasoning abilities in text domains, its application to multimodal settings has remained challenging. Our work reproduces key characteristics of text-based RL systems like DeepSeek-R1 in the multimodal space, including steady increases in accuracy reward and response length, and the emergence of reflection behaviors. We demonstrate that both instruction-tuned and pre-trained models can develop strong multimodal reasoning capabilities through rule-based RL without supervised fine-tuning, showing superior data efficiency compared to alternative approaches. We open-source our complete pipeline to foster further research in this area. We release all our codes, models, data, etc. at https://github.com/ModalMinds/MM-EUREKA

arxiv情報

著者 Fanqing Meng,Lingxiao Du,Zongkai Liu,Zhixiang Zhou,Quanfeng Lu,Daocheng Fu,Botian Shi,Wenhai Wang,Junjun He,Kaipeng Zhang,Ping Luo,Yu Qiao,Qiaosheng Zhang,Wenqi Shao
発行日 2025-03-10 14:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning はコメントを受け付けていません