OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

要約

人間は、複雑な問題解決のためのインタラクティブな視覚認知を柔軟に活用できますが、視覚ツールで同様に適応行動を学習できるようにする大規模な視覚モデル(LVLMS)が可能になります。
重要なハードルは、現在の標準化されたインフラストラクチャの欠如であり、多様なツールの統合、豊富な相互作用データの生成、および堅牢なエージェントを効果的にトレーニングすることを妨げます。
これらのギャップに対処するために、ツールを得たLVLMSの最初のオープンソースで包括的なエンドツーエンドフレームワークであるOpenthinkimgを紹介します。
標準化されたビジョンツールインターフェイス、ポリシーの初期化のためのスケーラブルな軌跡生成、および柔軟なトレーニング環境を備えています。
さらに、静的デモンストレーションで監視された微調整(SFT)が動的ツールの呼び出しのための限られたポリシー一般化を提供することを考慮すると、外部ビジョンツールを呼び出すための適応ポリシーを学習するためのLVLMSを訓練するための新しい強化学習(RL)フレームワークv-TOOLRLを提案します。
V-ToolRLにより、LVLMは、ツールインタラクションからのフィードバックを使用してタスクの成功を最適化することにより、最適なツール使用戦略を自律的に発見できます。
挑戦的なチャート推論タスクについて、V-ToolRLを経験的に検証します。
QWEN2-VL-2Bに基づいて構築されたRLトレーニングエージェントは、SFTが有名なカウンターパート(+28.83ポイント)を大幅に上回り、TacoやCogcomのような監視されたツール学習ベースラインを平均+12.7ポイント上回ります。
特に、GPT-4.1 x +8.68の精度ポイントなどの顕著なクローズドソースモデルを上回ります。
Openthinkimgが、ダイナミックでツールを熟成した視覚的推論を進めるための基礎的なフレームワークとして役立つことを願っています。

要約(オリジナル)

While humans can flexibly leverage interactive visual cognition for complex problem-solving, enabling Large Vision-Language Models (LVLMs) to learn similarly adaptive behaviors with visual tools remains challenging. A significant hurdle is the current lack of standardized infrastructure, which hinders integrating diverse tools, generating rich interaction data, and training robust agents effectively. To address these gaps, we introduce OpenThinkIMG, the first open-source, comprehensive end-to-end framework for tool-augmented LVLMs. It features standardized vision tool interfaces, scalable trajectory generation for policy initialization, and a flexible training environment. Furthermore, considering supervised fine-tuning (SFT) on static demonstrations offers limited policy generalization for dynamic tool invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL to train LVLMs to learn adaptive policies for invoking external vision tools. V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies by directly optimizing for task success using feedback from tool interactions. We empirically validate V-ToolRL on challenging chart reasoning tasks. Our RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its SFT-initialized counterpart (+28.83 points) and surpasses established supervised tool-learning baselines like Taco and CogCom by an average of +12.7 points. Notably, it also surpasses prominent closed-source models like GPT-4.1 by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational framework for advancing dynamic, tool-augmented visual reasoning, helping the community develop AI agents that can genuinely ‘think with images’.

arxiv情報

著者 Zhaochen Su,Linjie Li,Mingyang Song,Yunzhuo Hao,Zhengyuan Yang,Jun Zhang,Guanjie Chen,Jiawei Gu,Juntao Li,Xiaoye Qu,Yu Cheng
発行日 2025-05-13 14:35:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning はコメントを受け付けていません

Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models

要約

Dall-Eや安定した拡散などのテキストから画像間モデルは、広告、パーソナライズされたメディア、デザインプロトタイピングなど、さまざまなアプリケーションにわたって視覚コンテンツの作成に革命をもたらしました。
ただし、これらのモデルを導くための効果的なテキストプロンプトを作成することは困難なままであり、多くの場合、広範な試行錯誤が必要です。
ソフトでハードプロンプトのテクニックなどの既存の迅速な反転アプローチは、制限された解釈可能性と一貫性のない迅速な生成のためにそれほど効果的ではありません。
これらの問題に対処するために、視覚的にガイド付きデコード(VGD)、大規模な言語モデル(LLM)を活用するグラデーションフリーアプローチ、およびコヒーレントで意味的に整合したプロンプトを生成するクリップベースのガイダンスを提案します。
本質的に、VGDはLLMの堅牢なテキスト生成機能を利用して、人間が読みやすいプロンプトを生成します。
さらに、クリップスコアを使用してユーザー指定の視覚概念との連携を確保することにより、VGDは、追加のトレーニングを必要とせずに、迅速な生成の解釈可能性、一般化、柔軟性を高めます。
私たちの実験は、VGDが理解可能で文脈的に関連するプロンプトを生成する際に既存の迅速な反転技術を上回り、テキスト間モデルとのより直感的で制御可能な相互作用を促進することを示しています。

要約(オリジナル)

Text-to-image generative models like DALL-E and Stable Diffusion have revolutionized visual content creation across various applications, including advertising, personalized media, and design prototyping. However, crafting effective textual prompts to guide these models remains challenging, often requiring extensive trial and error. Existing prompt inversion approaches, such as soft and hard prompt techniques, are not so effective due to the limited interpretability and incoherent prompt generation. To address these issues, we propose Visually Guided Decoding (VGD), a gradient-free approach that leverages large language models (LLMs) and CLIP-based guidance to generate coherent and semantically aligned prompts. In essence, VGD utilizes the robust text generation capabilities of LLMs to produce human-readable prompts. Further, by employing CLIP scores to ensure alignment with user-specified visual concepts, VGD enhances the interpretability, generalization, and flexibility of prompt generation without the need for additional training. Our experiments demonstrate that VGD outperforms existing prompt inversion techniques in generating understandable and contextually relevant prompts, facilitating more intuitive and controllable interactions with text-to-image models.

arxiv情報

著者 Donghoon Kim,Minji Bae,Kyuhong Shim,Byonghyo Shim
発行日 2025-05-13 14:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models はコメントを受け付けていません

DLO-Splatting: Tracking Deformable Linear Objects Using 3D Gaussian Splatting

要約

この作業は、予測アップデートフィルタリングを介して、マルチビューRGB画像とグリッパー状態情報から変形可能な線形オブジェクト(DLO)の3D形状を推定するためのアルゴリズムであるDLO-Splattingを示しています。
DLO-Splattingアルゴリズムは、形状の滑らかさと剛性減衰補正を備えた位置ベースのダイナミクスモデルを使用して、オブジェクトの形状を予測します。
3Dガウスのスプラッティングベースのレンダリング損失を使用した最適化は、更新ステップの視覚的観測と整列する予測を繰り返しレンダリングし、改良します。
初期の実験は、既存の視覚のみの方法で困難な結び目を結ぶシナリオで有望な結果を示しています。

要約(オリジナル)

This work presents DLO-Splatting, an algorithm for estimating the 3D shape of Deformable Linear Objects (DLOs) from multi-view RGB images and gripper state information through prediction-update filtering. The DLO-Splatting algorithm uses a position-based dynamics model with shape smoothness and rigidity dampening corrections to predict the object shape. Optimization with a 3D Gaussian Splatting-based rendering loss iteratively renders and refines the prediction to align it with the visual observations in the update step. Initial experiments demonstrate promising results in a knot tying scenario, which is challenging for existing vision-only methods.

arxiv情報

著者 Holly Dinkel,Marcel Büsching,Alberta Longhini,Brian Coltin,Trey Smith,Danica Kragic,Mårten Björkman,Timothy Bretl
発行日 2025-05-13 15:03:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DLO-Splatting: Tracking Deformable Linear Objects Using 3D Gaussian Splatting はコメントを受け付けていません

MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification

要約

全体のスライド病理学の画像分類は、ギガピクセルの画像サイズと限られた注釈ラベルのために課題を提示し、モデルの一般化を妨げます。
このペーパーでは、少数のショット病理分類のために大規模なビジョン言語モデルを適応させるための迅速な学習方法を紹介します。
最初に、13億の病理学のイメージタイルで事前に訓練されたProv-Gigapath Vision Foundationモデルを、アダプターを追加し、923K画像テキストペアの対照学習を介して医療テキストエンコーダーと整列することにより、ビジョン言語モデルに拡張します。
次に、このモデルを使用して、視覚的な特徴とテキスト埋め込みを抽出して、少数のショット注釈と微細チューンを学習可能な迅速な埋め込みで抽出します。
プロンプトと接頭辞埋め込みまたは自己触媒を使用して凍結機能を組み合わせた以前の方法とは異なり、学習可能なプロンプトとそれらのグループとの相互作用を比較する多顆粒の注意を提案します。
このアプローチは、細かい細部とより広いコンテキストの両方をキャプチャするモデルの能力を改善し、サブリージョン全体の複雑なパターンの認識を高めます。
精度をさらに向上させるために、データ増強プロセス中に発生する可能性のある摂動を緩和することにより、モデルの堅牢性を確保するために、最適な輸送ベースの視覚テキスト距離を活用します。
肺、腎臓、および乳房の病理学のモダリティに関する経験的実験は、私たちのアプローチの有効性を検証します。
これにより、最新の競合他社のいくつかを上回り、クリップ、プリップ、プロブギガパス統合プリップなど、多様なアーキテクチャ全体のパフォーマンスを一貫して改善します。
このMGPATHで実装と事前に訓練されたモデルをリリースします。

要約(オリジナル)

Whole slide pathology image classification presents challenges due to gigapixel image sizes and limited annotation labels, hindering model generalization. This paper introduces a prompt learning method to adapt large vision-language models for few-shot pathology classification. We first extend the Prov-GigaPath vision foundation model, pre-trained on 1.3 billion pathology image tiles, into a vision-language model by adding adaptors and aligning it with medical text encoders via contrastive learning on 923K image-text pairs. The model is then used to extract visual features and text embeddings from few-shot annotations and fine-tunes with learnable prompt embeddings. Unlike prior methods that combine prompts with frozen features using prefix embeddings or self-attention, we propose multi-granular attention that compares interactions between learnable prompts with individual image patches and groups of them. This approach improves the model’s ability to capture both fine-grained details and broader context, enhancing its recognition of complex patterns across sub-regions. To further improve accuracy, we leverage (unbalanced) optimal transport-based visual-text distance to secure model robustness by mitigating perturbations that might occur during the data augmentation process. Empirical experiments on lung, kidney, and breast pathology modalities validate the effectiveness of our approach; thereby, we surpass several of the latest competitors and consistently improve performance across diverse architectures, including CLIP, PLIP, and Prov-GigaPath integrated PLIP. We release our implementations and pre-trained models at this MGPATH.

arxiv情報

著者 Anh-Tien Nguyen,Duy Minh Ho Nguyen,Nghiem Tuong Diep,Trung Quoc Nguyen,Nhat Ho,Jacqueline Michelle Metsch,Miriam Cindy Maurer,Daniel Sonntag,Hanibal Bohnenberger,Anne-Christin Hauschild
発行日 2025-05-13 15:09:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification はコメントを受け付けていません

SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation

要約

複雑な活動における人間のスキルレベルを評価することは、スポーツ、リハビリテーション、トレーニングのアプリケーションの困難な問題です。
この作業では、エゴセントリックビデオおよびエキソセントリックビデオからの統一されたマルチビュー習熟度推定のパラメーター効率の高いアーキテクチャであるスキルフォーマーを提示します。
Timesformer Backboneに基づいて、Skillformerは、マルチヘッドクロスアテナテンション、学習可能なゲーティング、および適応性のあるセルフキャリブレーションを使用して、ビュー固有の機能を融合するCrossviewFusionモジュールを導入します。
低ランクの適応を活用して、パラメーターの小さなサブセットのみを微調整し、トレーニングコストを大幅に削減します。
実際、eGoExo4Dデータセットで評価されると、スキルフォーマーはマルチビュー設定で最先端の精度を達成しながら、4.5倍のパラメーターを使用して3.75倍少ないトレーニングエポックを使用して、顕著な計算効率を実証します。
それは複数の構造化されたタスクに優れており、きめ細かいスキル評価のためのマルチビュー統合の価値を確認します。

要約(オリジナル)

Assessing human skill levels in complex activities is a challenging problem with applications in sports, rehabilitation, and training. In this work, we present SkillFormer, a parameter-efficient architecture for unified multi-view proficiency estimation from egocentric and exocentric videos. Building on the TimeSformer backbone, SkillFormer introduces a CrossViewFusion module that fuses view-specific features using multi-head cross-attention, learnable gating, and adaptive self-calibration. We leverage Low-Rank Adaptation to fine-tune only a small subset of parameters, significantly reducing training costs. In fact, when evaluated on the EgoExo4D dataset, SkillFormer achieves state-of-the-art accuracy in multi-view settings while demonstrating remarkable computational efficiency, using 4.5x fewer parameters and requiring 3.75x fewer training epochs than prior baselines. It excels in multiple structured tasks, confirming the value of multi-view integration for fine-grained skill assessment.

arxiv情報

著者 Edoardo Bianchi,Antonio Liotta
発行日 2025-05-13 15:27:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SkillFormer: Unified Multi-View Video Understanding for Proficiency Estimation はコメントを受け付けていません

Claycode: Stylable and Deformable 2D Scannable Codes

要約

このペーパーでは、広範なスタイリゼーションと変形のために設計された新しい2Dスキャン可能なコードであるClayCodeを紹介します。
従来のマトリックスベースのコード(QRコードなど)とは異なり、クレイコードはメッセージをツリー構造にエンコードします。
エンコーディングプロセス中、ビットはトポロジツリーにマッピングされ、それはターゲットポリゴン形状の境界内に描かれた色領域の営巣として描かれます。
デコードすると、粘土質が抽出され、カメラストリームからリアルタイムで解釈されます。
エンドツーエンドのパイプラインについて詳しく説明し、粘土質が機能を損なうことなく広範なスタイリゼーションを可能にすることを示します。
次に、ClayCodeの重い変形に対する高い耐性を経験的に示し、通常失敗するシナリオで従来の2Dスキャン可能なコードを上回ります。

要約(オリジナル)

This paper introduces Claycode, a novel 2D scannable code designed for extensive stylization and deformation. Unlike traditional matrix-based codes (e.g., QR codes), Claycodes encode their message in a tree structure. During the encoding process, bits are mapped into a topology tree, which is then depicted as a nesting of color regions drawn within the boundaries of a target polygon shape. When decoding, Claycodes are extracted and interpreted in real-time from a camera stream. We detail the end-to-end pipeline and show that Claycodes allow for extensive stylization without compromising their functionality. We then empirically demonstrate Claycode’s high tolerance to heavy deformations, outperforming traditional 2D scannable codes in scenarios where they typically fail.

arxiv情報

著者 Marco Maida,Alberto Crescini,Marco Perronet,Elena Camuffo
発行日 2025-05-13 15:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.CV, cs.GR, cs.HC, I.3.0 | Claycode: Stylable and Deformable 2D Scannable Codes はコメントを受け付けていません

EMPERROR: A Flexible Generative Perception Error Model for Probing Self-Driving Planners

要約

実際のトラフィックの複雑さを処理するために、データから自動運転のための学習プランナーは有望な方向です。
最近のアプローチは大きな進歩を示していますが、通常、地上の真実の世界状態が入力として利用できる設定を想定しています。
ただし、展開する場合、計画は、騒々しい知覚システムによって発生するエラーの長い尾に堅牢である必要があります。これは、評価ではしばしば無視されます。
これに対処するために、以前の研究では、ターゲットオブジェクト検出器のノイズ特性を模倣する知覚エラーモデル(PEM)から敵対的なサンプルを描画することが提案されています。
ただし、これらの方法では、すべての障害モードを正確にキャプチャできない単純なPEMを使用します。
この論文では、新しい変圧器ベースの生成PEMであるEmperrorを提示し、それを適用して、模倣学習(IL)ベースのプランナーをストレステストし、以前の研究よりも忠実に最新の検出器を模倣することを示しています。
さらに、プランナーの衝突率を最大85%上げる現実的なノイズの多い入力を生成することができ、自動運転プランナーのより完全な評価のための貴重なツールとしての有用性を実証します。

要約(オリジナル)

To handle the complexities of real-world traffic, learning planners for self-driving from data is a promising direction. While recent approaches have shown great progress, they typically assume a setting in which the ground-truth world state is available as input. However, when deployed, planning needs to be robust to the long-tail of errors incurred by a noisy perception system, which is often neglected in evaluation. To address this, previous work has proposed drawing adversarial samples from a perception error model (PEM) mimicking the noise characteristics of a target object detector. However, these methods use simple PEMs that fail to accurately capture all failure modes of detection. In this paper, we present EMPERROR, a novel transformer-based generative PEM, apply it to stress-test an imitation learning (IL)-based planner and show that it imitates modern detectors more faithfully than previous work. Furthermore, it is able to produce realistic noisy inputs that increase the planner’s collision rate by up to 85%, demonstrating its utility as a valuable tool for a more complete evaluation of self-driving planners.

arxiv情報

著者 Niklas Hanselmann,Simon Doll,Marius Cordts,Hendrik P. A. Lensch,Andreas Geiger
発行日 2025-05-13 15:30:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | EMPERROR: A Flexible Generative Perception Error Model for Probing Self-Driving Planners はコメントを受け付けていません

TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation

要約

テキストからイメージ(T2I)の世代は、高品質の画像の作成において顕著な進歩を遂げましたが、根本的な課題は残っています。画質を損なうことなく、テキスト配置に自然に対応する背景を作成します。
この機能は、コンテンツとテキストの間の明確な視覚的階層が不可欠なグラフィックデザインのような実際のアプリケーションにとって重要ではありません。
以前の作業は、主に既存の静的画像内にレイアウトを配置することに焦点を当てており、テキストに優しい背景を生成するためのT2Iモデルの可能性が未開拓の可能性を残しています。
テキストに優しい画像生成のための空白の地域でのトレーニングなしの動的な背景適応であるTextCengenを提示します。
画質を低下させるテキスト領域での注意を直接軽減する代わりに、バックグラウンドの最適化の前に競合するオブジェクトを再配置します。
私たちの方法は、クロスアテンションマップを分析して、テキスト領域と重複する矛盾するオブジェクトを識別し、フォース指向のグラフアプローチを使用して再配置を導き、その後、スムーズな背景を確保するための制約を除く注意が続きます。
私たちの方法はプラグアンドプレイであり、セマンティックの忠実度と視覚品質の両方のバランスをとりながら、追加のトレーニングを必要としません。
提案されたテキストフレンドリーなT2Iベンチマークで評価された4つのシードデータセットにわたって27,000の画像のベンチマークでは、TextCengenは、CLIPスコアと提案された視覚視テキストの一致メトリック(VTCM)によって測定されたセマンティックフィデリティの98%を維持しながら、テキスト領域で23%低い顕著性オーバーラップを達成することにより、既存の方法を上回ります。

要約(オリジナル)

Text-to-image (T2I) generation has made remarkable progress in producing high-quality images, but a fundamental challenge remains: creating backgrounds that naturally accommodate text placement without compromising image quality. This capability is non-trivial for real-world applications like graphic design, where clear visual hierarchy between content and text is essential. Prior work has primarily focused on arranging layouts within existing static images, leaving unexplored the potential of T2I models for generating text-friendly backgrounds. We present TextCenGen, a training-free dynamic background adaptation in the blank region for text-friendly image generation. Instead of directly reducing attention in text areas, which degrades image quality, we relocate conflicting objects before background optimization. Our method analyzes cross-attention maps to identify conflicting objects overlapping with text regions and uses a force-directed graph approach to guide their relocation, followed by attention excluding constraints to ensure smooth backgrounds. Our method is plug-and-play, requiring no additional training while well balancing both semantic fidelity and visual quality. Evaluated on our proposed text-friendly T2I benchmark of 27,000 images across four seed datasets, TextCenGen outperforms existing methods by achieving 23% lower saliency overlap in text regions while maintaining 98% of the semantic fidelity measured by CLIP score and our proposed Visual-Textual Concordance Metric (VTCM).

arxiv情報

著者 Tianyi Liang,Jiangqi Liu,Yifei Huang,Shiqi Jiang,Jianshen Shi,Changbo Wang,Chenhui Li
発行日 2025-05-13 15:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation はコメントを受け付けていません

Calibration and Uncertainty for multiRater Volume Assessment in multiorgan Segmentation (CURVAS) challenge results

要約

ディープラーニング(DL)は、医療画像セグメンテーションの支配的なアプローチとなっていますが、これらのモデルの信頼性と臨床的適用性を確保するには、注釈の変動、キャリブレーション、不確実性の推定などの重要な課題に対処する必要があります。
これが、マルチオルガンセグメンテーション(曲線)におけるマルチリーターボリューム評価のキャリブレーションと不確実性を作成した理由です。これは、より包括的なグラウンドトゥルースを確立する上で複数のアノテーターの重要な役割を強調し、セグメンテーションが本質的に主観的であり、アノテーター間の変動を活用することは堅牢なモデル評価に不可欠であることを強調します。
7つのチームがチャレンジに参加し、サイコロの類似性係数(DSC)、予想キャリブレーションエラー(ECE)、および連続ランク付けされた確率スコア(CRPS)などのメトリックを使用して評価されたさまざまなDLモデルを提出しました。
コンセンサスと反対の基本真理を組み込むことにより、DLモデルが不確実性を処理する方法と、自信の推定値が真のセグメンテーションパフォーマンスと一致するかどうかを評価します。
より良いキャリブレーションは結果の品質と強く相関しているため、私たちの調査結果は十分に調整されたモデルの重要性を強化します。
さらに、特に標準的な解剖学的構造から逸脱している場合、多様なデータセットで訓練され、事前に訓練された知識で濃縮されたセグメンテーションモデルは、より大きな堅牢性を示すことを実証します。
特に、最高のパフォーマンスモデルでは、高DSCと適切に調整された不確実性の推定値が達成されました。
この作業は、マルチアノテーターグラウンドトゥルース、徹底的なキャリブレーション評価、および信頼できる臨床的に信頼性の高いDLベースの医療画像セグメンテーションモデルを開発するための不確実性対応評価の必要性を強調しています。

要約(オリジナル)

Deep learning (DL) has become the dominant approach for medical image segmentation, yet ensuring the reliability and clinical applicability of these models requires addressing key challenges such as annotation variability, calibration, and uncertainty estimation. This is why we created the Calibration and Uncertainty for multiRater Volume Assessment in multiorgan Segmentation (CURVAS), which highlights the critical role of multiple annotators in establishing a more comprehensive ground truth, emphasizing that segmentation is inherently subjective and that leveraging inter-annotator variability is essential for robust model evaluation. Seven teams participated in the challenge, submitting a variety of DL models evaluated using metrics such as Dice Similarity Coefficient (DSC), Expected Calibration Error (ECE), and Continuous Ranked Probability Score (CRPS). By incorporating consensus and dissensus ground truth, we assess how DL models handle uncertainty and whether their confidence estimates align with true segmentation performance. Our findings reinforce the importance of well-calibrated models, as better calibration is strongly correlated with the quality of the results. Furthermore, we demonstrate that segmentation models trained on diverse datasets and enriched with pre-trained knowledge exhibit greater robustness, particularly in cases deviating from standard anatomical structures. Notably, the best-performing models achieved high DSC and well-calibrated uncertainty estimates. This work underscores the need for multi-annotator ground truth, thorough calibration assessments, and uncertainty-aware evaluations to develop trustworthy and clinically reliable DL-based medical image segmentation models.

arxiv情報

著者 Meritxell Riera-Marin,Sikha O K,Julia Rodriguez-Comas,Matthias Stefan May,Zhaohong Pan,Xiang Zhou,Xiaokun Liang,Franciskus Xaverius Erick,Andrea Prenner,Cedric Hemon,Valentin Boussot,Jean-Louis Dillenseger,Jean-Claude Nunes,Abdul Qayyum,Moona Mazher,Steven A Niederer,Kaisar Kushibar,Carlos Martin-Isla,Petia Radeva,Karim Lekadir,Theodore Barfoot,Luis C. Garcia Peraza Herrera,Ben Glocker,Tom Vercauteren,Lucas Gago,Justin Englemann,Joy-Marie Kleiss,Anton Aubanell,Andreu Antolin,Javier Garcia-Lopez,Miguel A. Gonzalez Ballester,Adrian Galdran
発行日 2025-05-13 15:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Calibration and Uncertainty for multiRater Volume Assessment in multiorgan Segmentation (CURVAS) challenge results はコメントを受け付けていません

CAD-Coder:Text-Guided CAD Files Code Generation

要約

コンピューター支援設計(CAD)は、実世界の製品の2D図面と3Dモデルをデジタル的に作成する方法です。
従来のCADは通常、専門家による手描きや既存のライブラリファイルの変更に依存していますが、これは迅速なパーソナライズを可能にしません。
生成的人工知能の出現により、便利で効率的なパーソナライズされたCAD生成が可能になりました。
ただし、既存の生成方法は通常、インタラクティブな編集可能性と幾何学的注釈を欠いている出力を生成し、製造における実用的なアプリケーションを制限します。
インタラクティブな生成CADを有効にするために、自然言語の指示をCADスクリプトコードに変換するフレームワークであるCADコダーを提案します。これは、Python環境で実行して人間編集可能なCADファイル(.DXF)を生成できます。
注釈情報を使用して編集可能なCADスケッチの生成を容易にするために、対応するスクリプトコードを使用して29,130​​ dxfファイルを含む包括的なデータセットを構築します。各スケッチは、編集可能性と幾何学的な注釈の両方を保持します。
既存の方法に対するさまざまな2D/3D CAD生成タスクのCADコダーを評価し、優れたインタラクティブ機能を実証しながら、幾何学的な注釈で編集可能なスケッチをユニークに提供します。

要約(オリジナル)

Computer-aided design (CAD) is a way to digitally create 2D drawings and 3D models of real-world products. Traditional CAD typically relies on hand-drawing by experts or modifications of existing library files, which doesn’t allow for rapid personalization. With the emergence of generative artificial intelligence, convenient and efficient personalized CAD generation has become possible. However, existing generative methods typically produce outputs that lack interactive editability and geometric annotations, limiting their practical applications in manufacturing. To enable interactive generative CAD, we propose CAD-Coder, a framework that transforms natural language instructions into CAD script codes, which can be executed in Python environments to generate human-editable CAD files (.Dxf). To facilitate the generation of editable CAD sketches with annotation information, we construct a comprehensive dataset comprising 29,130 Dxf files with their corresponding script codes, where each sketch preserves both editability and geometric annotations. We evaluate CAD-Coder on various 2D/3D CAD generation tasks against existing methods, demonstrating superior interactive capabilities while uniquely providing editable sketches with geometric annotations.

arxiv情報

著者 Changqi He,Shuhan Zhang,Liguo Zhang,Jiajun Miao
発行日 2025-05-13 15:45:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | CAD-Coder:Text-Guided CAD Files Code Generation はコメントを受け付けていません