Time of the Flight of the Gaussians: Optimizing Depth Indirectly in Dynamic Radiance Fields

要約

単眼の連続波の飛行時間(C-TOF)カメラから動的シーンを再構築する方法を提示します。
単一の視点から高忠実度の動的3D再構成を迅速に達成することは、コンピュータービジョンにおける重要な課題です。
C-TOF Radianceフィールド再構成では、関心のある特性は直接測定されておらず、追加の課題を引き起こします。
この問題は、3Dガウススプラッティングのような高速プリミティブベースのシーン表現を使用する場合、最適化に大きく過小評価されている影響を及ぼします。これは、マルチビューデータで一般的に使用されて満足のいく結果を生成し、それ以外の場合は脆弱です。
2つのヒューリスティックを最適化に組み込み、ガウスが表すシーンジオメトリの精度を改善します。
実験結果は、私たちのアプローチが、野球のバットの揺れなどの高速な動きを含む、制約されたC-TOFセンシング条件下で正確な再構成を生成することを示しています。
https://visual.cs.brown.edu/gftorf

要約(オリジナル)

We present a method to reconstruct dynamic scenes from monocular continuous-wave time-of-flight (C-ToF) cameras using raw sensor samples that achieves similar or better accuracy than neural volumetric approaches and is 100x faster. Quickly achieving high-fidelity dynamic 3D reconstruction from a single viewpoint is a significant challenge in computer vision. In C-ToF radiance field reconstruction, the property of interest-depth-is not directly measured, causing an additional challenge. This problem has a large and underappreciated impact upon the optimization when using a fast primitive-based scene representation like 3D Gaussian splatting, which is commonly used with multi-view data to produce satisfactory results and is brittle in its optimization otherwise. We incorporate two heuristics into the optimization to improve the accuracy of scene geometry represented by Gaussians. Experimental results show that our approach produces accurate reconstructions under constrained C-ToF sensing conditions, including for fast motions like swinging baseball bats. https://visual.cs.brown.edu/gftorf

arxiv情報

著者 Runfeng Li,Mikhail Okunev,Zixuan Guo,Anh Ha Duong,Christian Richardt,Matthew O’Toole,James Tompkin
発行日 2025-05-08 15:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | Time of the Flight of the Gaussians: Optimizing Depth Indirectly in Dynamic Radiance Fields はコメントを受け付けていません

Joint Super-Resolution and Segmentation for 1-m Impervious Surface Area Mapping in China’s Yangtze River Economic Belt

要約

私たちは、自由に利用可能なSentinel-2画像から直接1メートルのISAマップの生成を可能にするAintsegと呼ばれるスーパー解像度とセグメンテーションを統合することにより、新しい共同フレームワークを提案します。
JointSegは、マルチモーダルの交差解像度入力について訓練され、従来のアプローチに代わるスケーラブルで手頃な価格の代替品を提供しました。
この相乗的設計により、細粒の空間テクスチャを保持しながら、10mから1mまでの段階的な解像度の強化が可能になり、効果的なクロススケールの特徴融合を通じて高い分類の忠実度が確保されます。
この方法は、複雑な都市農村パターンと多様な地形を特徴とするヤングツ川経済帯(YREB)に成功裏に適用されています。
その結果、ISA-1と呼ばれる2021年の包括的なISAマッピング製品が生成され、220万平方キロメートルを超える面積をカバーしました。
10M ESAワールドカバーおよびその他のベンチマーク製品との定量的比較により、ISA-1は85.71%のF1スコアを達成し、双線形挿入ベースのセグメンテーションを9.5%上回り、他のISAデータセットを21.43%-61.07%上回ることが明らかになりました。
密集した都市化された地域(蘇州、南京など)では、ISA-1は、緑地と水域の差別の改善によりISA過大評価を減らします。
逆に、山岳地帯(Ganzi、Zhaotongなど)では、農村道路やまばらな集落などの断片化された人為的特徴を検出する能力が強化されているため、大幅に多くのISAを特定し、多様な景観全体の堅牢性を示しています。
さらに、2017年から2023年までの隔年のISAマップを紹介し、代表的な都市全体で時空間的都市化ダイナミクスを獲得しています。
結果は、異なる地域の成長パターンを強調しています。上流の都市の急速な拡大、中流地域の中程度の成長、および下流の大都市地域の飽和。

要約(オリジナル)

We propose a novel joint framework by integrating super-resolution and segmentation, called JointSeg, which enables the generation of 1-meter ISA maps directly from freely available Sentinel-2 imagery. JointSeg was trained on multimodal cross-resolution inputs, offering a scalable and affordable alternative to traditional approaches. This synergistic design enables gradual resolution enhancement from 10m to 1m while preserving fine-grained spatial textures, and ensures high classification fidelity through effective cross-scale feature fusion. This method has been successfully applied to the Yangtze River Economic Belt (YREB), a region characterized by complex urban-rural patterns and diverse topography. As a result, a comprehensive ISA mapping product for 2021, referred to as ISA-1, was generated, covering an area of over 2.2 million square kilometers. Quantitative comparisons against the 10m ESA WorldCover and other benchmark products reveal that ISA-1 achieves an F1-score of 85.71%, outperforming bilinear-interpolation-based segmentation by 9.5%, and surpassing other ISA datasets by 21.43%-61.07%. In densely urbanized areas (e.g., Suzhou, Nanjing), ISA-1 reduces ISA overestimation through improved discrimination of green spaces and water bodies. Conversely, in mountainous regions (e.g., Ganzi, Zhaotong), it identifies significantly more ISA due to its enhanced ability to detect fragmented anthropogenic features such as rural roads and sparse settlements, demonstrating its robustness across diverse landscapes. Moreover, we present biennial ISA maps from 2017 to 2023, capturing spatiotemporal urbanization dynamics across representative cities. The results highlight distinct regional growth patterns: rapid expansion in upstream cities, moderate growth in midstream regions, and saturation in downstream metropolitan areas.

arxiv情報

著者 Jie Deng,Danfeng Hong,Chenyu Li,Naoto Yokoya
発行日 2025-05-08 16:04:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Joint Super-Resolution and Segmentation for 1-m Impervious Surface Area Mapping in China’s Yangtze River Economic Belt はコメントを受け付けていません

OcularAge: A Comparative Study of Iris and Periocular Images for Pediatric Age Estimation

要約

眼の生体認証画像からの子供の年齢を推定することは、微妙な生理学的変化と縦断的データセットの利用可能性が限られているため、困難です。
ほとんどの生体認証年齢推定研究では、顔の特徴と成人被験者に焦点を当てていますが、特に虹彩および眼周囲の領域の小児特異的分析は比較的未開拓のままです。
この研究では、4歳から16歳までの子供の年齢を推定するための虹彩と眼周囲の画像の比較評価を提示します。
2つの異なるイメージングセンサーを使用して8年間で288の小児科被験者から収集された21,000を超える近赤外(NIR)画像を含む縦断的データセットを利用しました。
年齢予測と年齢グループ分類を共同で実行するために、マルチタスクのディープラーニングフレームワークが採用され、異なる畳み込みニューラルネットワーク(CNN)アーキテクチャ、特に非二乗眼投入に適応されたアーキテクチャがどのように異なる畳み込み眼球入力に適応されるかを体系的に調査し、小児目の画像に固有の複雑な変動性をキャプチャします。
結果は、眼周囲モデルが一貫して虹彩ベースのモデルを上回り、1。33年の平均絶対誤差(MAE)と年齢層分類精度を83.82%に達成することを示しています。
これらの結果は、信頼できる年齢の推定が子供の眼画像から実行可能であることを最初に示し、子供中心のアプリケーションでプライバシーを提供する年齢チェックを可能にします。
この作業は、小児眼年齢推定のための最初の縦方向のベンチマークを確立し、堅牢で子供向けの生体認証システムを設計するための基盤を提供します。
開発されたモデルは、異なるイメージングセンサー全体で回復力があることが証明され、実際の展開の可能性が確認されました。
また、リソースに制約のあるVRヘッドセットで、画像ごとに10ミリ秒未満の推論速度を達成し、リアルタイムアプリケーションへの適合性を示しています。

要約(オリジナル)

Estimating a child’s age from ocular biometric images is challenging due to subtle physiological changes and the limited availability of longitudinal datasets. Although most biometric age estimation studies have focused on facial features and adult subjects, pediatric-specific analysis, particularly of the iris and periocular regions, remains relatively unexplored. This study presents a comparative evaluation of iris and periocular images for estimating the ages of children aged between 4 and 16 years. We utilized a longitudinal dataset comprising more than 21,000 near-infrared (NIR) images, collected from 288 pediatric subjects over eight years using two different imaging sensors. A multi-task deep learning framework was employed to jointly perform age prediction and age-group classification, enabling a systematic exploration of how different convolutional neural network (CNN) architectures, particularly those adapted for non-square ocular inputs, capture the complex variability inherent in pediatric eye images. The results show that periocular models consistently outperform iris-based models, achieving a mean absolute error (MAE) of 1.33 years and an age-group classification accuracy of 83.82%. These results mark the first demonstration that reliable age estimation is feasible from children’s ocular images, enabling privacy-preserving age checks in child-centric applications. This work establishes the first longitudinal benchmark for pediatric ocular age estimation, providing a foundation for designing robust, child-focused biometric systems. The developed models proved resilient across different imaging sensors, confirming their potential for real-world deployment. They also achieved inference speeds of less than 10 milliseconds per image on resource-constrained VR headsets, demonstrating their suitability for real-time applications.

arxiv情報

著者 Naveenkumar G Venkataswamy,Poorna Ravi,Stephanie Schuckers,Masudul H. Imtiaz
発行日 2025-05-08 16:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | OcularAge: A Comparative Study of Iris and Periocular Images for Pediatric Age Estimation はコメントを受け付けていません

Threshold Modulation for Online Test-Time Adaptation of Spiking Neural Networks

要約

最近、神経変動チップに展開されたスパイクニューラルネットワーク(SNN)は、さまざまなシナリオでエッジデバイスで非常に効率的なソリューションを提供します。
ただし、展開後に流通シフトに適応する能力は、重要な課題になりました。
オンラインテスト時間適応(OTTA)は、ソースデータやラベル付きターゲットサンプルを必要とせずに、モデルが新しいデータ分布に動的に調整できるようにすることにより、有望なソリューションを提供します。
それにもかかわらず、既存のOTTAメソッドは、主に従来の人工ニューラルネットワーク向けに設計されており、SNNには適していません。
このギャップに対処するために、流通シフトの下でモデルの一般化を強化することを目的とした、低電力の神経形態に優しいオンラインテスト時間適応フレームワークを提案します。
提案されたアプローチは、しきい値変調(TM)と呼ばれます。これは、ニューロンダイナミクスにインスパイアされた正規化を介して発火しきい値を動的に調整し、神経形態のハードウェアとより互換性があります。
ベンチマークデータセットの実験結果は、低い計算コストを維持しながら、分布シフトに対するSNNの堅牢性を改善する際のこの方法の有効性を示しています。
提案された方法は、SNNのオンラインテスト時間適応のための実用的なソリューションを提供し、将来の神経型チップの設計にインスピレーションを提供します。
デモコードは、github.com/nneurotransmitterr/tm-otta-snnで入手できます。

要約(オリジナル)

Recently, spiking neural networks (SNNs), deployed on neuromorphic chips, provide highly efficient solutions on edge devices in different scenarios. However, their ability to adapt to distribution shifts after deployment has become a crucial challenge. Online test-time adaptation (OTTA) offers a promising solution by enabling models to dynamically adjust to new data distributions without requiring source data or labeled target samples. Nevertheless, existing OTTA methods are largely designed for traditional artificial neural networks and are not well-suited for SNNs. To address this gap, we propose a low-power, neuromorphic chip-friendly online test-time adaptation framework, aiming to enhance model generalization under distribution shifts. The proposed approach is called Threshold Modulation (TM), which dynamically adjusts the firing threshold through neuronal dynamics-inspired normalization, being more compatible with neuromorphic hardware. Experimental results on benchmark datasets demonstrate the effectiveness of this method in improving the robustness of SNNs against distribution shifts while maintaining low computational cost. The proposed method offers a practical solution for online test-time adaptation of SNNs, providing inspiration for the design of future neuromorphic chips. The demo code is available at github.com/NneurotransmitterR/TM-OTTA-SNN.

arxiv情報

著者 Kejie Zhao,Wenjia Hua,Aiersi Tuerhong,Luziwei Leng,Yuxin Ma,Qinghua Guo
発行日 2025-05-08 16:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE | Threshold Modulation for Online Test-Time Adaptation of Spiking Neural Networks はコメントを受け付けていません

GeomHair: Reconstruction of Hair Strands from Colorless 3D Scans

要約

マルチモーダルヘアオリエンテーション抽出を活用することにより、無色の3Dスキャンから直接髪の鎖を再構築する新しい方法を提案します。
ヘアストランドの再構築は、コンピュータービジョンとグラフィックスの根本的な問題であり、高忠実度のデジタルアバター合成、アニメーション、AR/VRアプリケーションに使用できます。
ただし、生のスキャンデータから髪の毛を正確に回復することは、人間の髪の複雑できめ細かい構造のために困難なままです。
既存の方法は通常、RGBキャプチャに依存しています。RGBキャプチャは、環境に敏感であり、特に挑戦的なヘアスタイルの場合にガイドストランドの方向を抽出するための挑戦的なドメインになる可能性があります。
観察されたジオメトリから純粋に髪を再構築するために、私たちの方法は、スキャンで鋭い表面の特徴を直接見つけ、スキャンシェーディングのレンダリングに適用されるニューラル2Dライン検出器を介して鎖の方向を推定します。
さらに、多様な合成ヘアスキャンで訓練された事前に拡散を組み込み、改善されたノイズスケジュールで改良され、スキャン固有のテキストプロンプトを介して再構築されたコンテンツに適応します。
この監督信号の組み合わせにより、色情報に依存することなく、シンプルと複雑なヘアスタイルの両方を正確に再構築できることを実証します。
さらなる研究を容易にするために、400人の被験者のスキャンから再構築された髪鎖から抽出された詳細な表面ジオメトリを使用して、毛ストランドの最大の公的に利用可能なデータセットであるStrands400を紹介します。

要約(オリジナル)

We propose a novel method that reconstructs hair strands directly from colorless 3D scans by leveraging multi-modal hair orientation extraction. Hair strand reconstruction is a fundamental problem in computer vision and graphics that can be used for high-fidelity digital avatar synthesis, animation, and AR/VR applications. However, accurately recovering hair strands from raw scan data remains challenging due to human hair’s complex and fine-grained structure. Existing methods typically rely on RGB captures, which can be sensitive to the environment and can be a challenging domain for extracting the orientation of guiding strands, especially in the case of challenging hairstyles. To reconstruct the hair purely from the observed geometry, our method finds sharp surface features directly on the scan and estimates strand orientation through a neural 2D line detector applied to the renderings of scan shading. Additionally, we incorporate a diffusion prior trained on a diverse set of synthetic hair scans, refined with an improved noise schedule, and adapted to the reconstructed contents via a scan-specific text prompt. We demonstrate that this combination of supervision signals enables accurate reconstruction of both simple and intricate hairstyles without relying on color information. To facilitate further research, we introduce Strands400, the largest publicly available dataset of hair strands with detailed surface geometry extracted from real-world data, which contains reconstructed hair strands from the scans of 400 subjects.

arxiv情報

著者 Rachmadio Noval Lazuardi,Artem Sevastopolsky,Egor Zakharov,Matthias Niessner,Vanessa Sklyarova
発行日 2025-05-08 16:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GeomHair: Reconstruction of Hair Strands from Colorless 3D Scans はコメントを受け付けていません

EDmamba: A Simple yet Effective Event Denoising Method with State Space Model

要約

イベントカメラは、時間分解能が高い、ダイナミックレンジが高く、消費電力が低いため、高速視力に優れています。
ただし、動的ビジョンセンサーとして、その出力は本質的にノイズがあり、効率的な除去が非常に低いレイテンシおよびリアルタイム処理機能を維持するために不可欠です。
既存のイベントの除去方法は、重要なジレンマとの闘いです。計算的に集中的なアプローチは、センサーの高速優位性を損なうものですが、軽量の方法はさまざまなノイズレベルにわたって堅牢性を欠いていることがよくあります。
これに対処するために、State Space Models(SSM)に基づいた新しいイベント除去フレームワークを提案します。
私たちのアプローチは、イベントを4Dイベントクラウドとして表し、幾何学的および極性認識サブスペースの両方から埋め込み機能を抽出する粗い特徴抽出(CFE)モジュールを含んでいます。
このモデルは、さらに2つの重要なコンポーネントで構成されています。ローカルな幾何学的構造をモデル化する空間マンバ(SSSM)と、グローバルな時間的ダイナミクスをキャプチャし、イベント全体の時空間的特徴を効率的に伝播する時間的マンバ(T-SSM)です。
実験は、私たちの方法が88.89Kパ​​ラメーター、100Kイベント推論時間あたり0.0685秒、0.982精度スコア、2.08%の精度を2.08%、36x Fasterを備えた最先端の精度と効率を達成することを示しています。

要約(オリジナル)

Event cameras excel in high-speed vision due to their high temporal resolution, high dynamic range, and low power consumption. However, as dynamic vision sensors, their output is inherently noisy, making efficient denoising essential to preserve their ultra-low latency and real-time processing capabilities. Existing event denoising methods struggle with a critical dilemma: computationally intensive approaches compromise the sensor’s high-speed advantage, while lightweight methods often lack robustness across varying noise levels. To address this, we propose a novel event denoising framework based on State Space Models (SSMs). Our approach represents events as 4D event clouds and includes a Coarse Feature Extraction (CFE) module that extracts embedding features from both geometric and polarity-aware subspaces. The model is further composed of two essential components: A Spatial Mamba (S-SSM) that models local geometric structures and a Temporal Mamba (T-SSM) that captures global temporal dynamics, efficiently propagating spatiotemporal features across events. Experiments demonstrate that our method achieves state-of-the-art accuracy and efficiency, with 88.89K parameters, 0.0685s per 100K events inference time, and a 0.982 accuracy score, outperforming Transformer-based methods by 2.08% in denoising accuracy and 36X faster.

arxiv情報

著者 Ciyu Ruan,Zihang Gong,Ruishan Guo,Jingao Xu,Xinlei Chen
発行日 2025-05-08 16:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EDmamba: A Simple yet Effective Event Denoising Method with State Space Model はコメントを受け付けていません

PillarMamba: Learning Local-Global Context for Roadside Point Cloud via Hybrid State Space Model

要約

インテリジェント輸送システム(ITS)および車両からすべての(V2X)タスクにサービスを提供することで、路側の認識は、接続された車両の認識範囲を拡張し、交通安全を改善できるため、近年注目を集めています。
ただし、道端のポイントクラウド指向の3Dオブジェクト検出は効果的に検討されていません。
ある程度、ポイントクラウド検出器のパフォーマンスの鍵は、ネットワークの受容フィールドとシーンコンテキストを効果的に利用する能力にあります。
状態宇宙モデル(SSM)に基づいたマンバの最近の出現は、その効率的なグローバル受容フィールドのために、長い間基礎的なビルディングブロックであった伝統的な畳み込みと変圧器を揺さぶってきました。
この作業では、Mambaを柱ベースの道端の雲の知覚に紹介し、Pillarmambaと呼ばれるクロスステージ状態空間グループ(CSG)に基づいたフレームワークを提案します。
ネットワークの表現力を高め、クロスステージの特徴融合を通じて効率的な計算を達成します。
ただし、スキャン方向の​​制限により、状態空間モデルはローカル接続の混乱と歴史的な関係に直面しています。
これに対処するために、ハイブリッド状態空間ブロック(HSB)を提案して、道端のポイントクラウドのローカルグローバルコンテキストを取得します。
具体的には、局所的な畳み込みを通じて近隣のつながりを高め、残りの注意を通して歴史的記憶を維持します。
提案された方法は、人気のある大規模な道端のベンチマークであるDair-V2X-Iの最先端の方法よりも優れています。
コードはまもなくリリースされます。

要約(オリジナル)

Serving the Intelligent Transport System (ITS) and Vehicle-to-Everything (V2X) tasks, roadside perception has received increasing attention in recent years, as it can extend the perception range of connected vehicles and improve traffic safety. However, roadside point cloud oriented 3D object detection has not been effectively explored. To some extent, the key to the performance of a point cloud detector lies in the receptive field of the network and the ability to effectively utilize the scene context. The recent emergence of Mamba, based on State Space Model (SSM), has shaken up the traditional convolution and transformers that have long been the foundational building blocks, due to its efficient global receptive field. In this work, we introduce Mamba to pillar-based roadside point cloud perception and propose a framework based on Cross-stage State-space Group (CSG), called PillarMamba. It enhances the expressiveness of the network and achieves efficient computation through cross-stage feature fusion. However, due to the limitations of scan directions, state space model faces local connection disrupted and historical relationship forgotten. To address this, we propose the Hybrid State-space Block (HSB) to obtain the local-global context of roadside point cloud. Specifically, it enhances neighborhood connections through local convolution and preserves historical memory through residual attention. The proposed method outperforms the state-of-the-art methods on the popular large scale roadside benchmark: DAIR-V2X-I. The code will be released soon.

arxiv情報

著者 Zhang Zhang,Chao Sun,Chao Yue,Da Wen,Tianze Wang,Jianghao Leng
発行日 2025-05-08 16:33:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PillarMamba: Learning Local-Global Context for Roadside Point Cloud via Hybrid State Space Model はコメントを受け付けていません

TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation

要約

ChameleonやEMU3などの先駆的なトークンベースの作品は、マルチモーダル統一の基礎を確立していますが、高レベルのセマンティクスの欠如により、高トレーニングの計算オーバーヘッドと限られた理解パフォーマンスの課題に直面しています。
このホワイトペーパーでは、ベクター定量化(VQ)トークンをセマンティック化し、クリップレベルのセマンティクスを組み込んで標準のマルチモーダル自己回帰トレーニングを標準VQトークンで組み込むことで理解を高める視覚トークネイザーであるToklipを紹介します。
Toklipは、低レベルの離散VQトークナー剤をVITベースのトークンエンコーダと統合して、高レベルの連続セマンティクスをキャプチャします。
高レベルの機能を離散化する以前のアプローチ(Vila-uなど)とは異なり、Toklip Direnentanglesトレーニング目標を理解と生成のためにトレーニングするため、テーラード量子化操作を必要とせずに高度なVQトーナイザーを直接適用できます。
私たちの経験的結果は、Toklipが並外れたデータ効率を達成し、低レベルのセマンティック理解で視覚的なトークンに力を与え、低レベルの生成能力を強化し、理解と生成タスクの両方で自己回帰変圧器に適していることを示しています。
コードとモデルは、https://github.com/tencentarc/toklipで入手できます。

要約(オリジナル)

Pioneering token-based works such as Chameleon and Emu3 have established a foundation for multimodal unification but face challenges of high training computational overhead and limited comprehension performance due to a lack of high-level semantics. In this paper, we introduce TokLIP, a visual tokenizer that enhances comprehension by semanticizing vector-quantized (VQ) tokens and incorporating CLIP-level semantics while enabling end-to-end multimodal autoregressive training with standard VQ tokens. TokLIP integrates a low-level discrete VQ tokenizer with a ViT-based token encoder to capture high-level continuous semantics. Unlike previous approaches (e.g., VILA-U) that discretize high-level features, TokLIP disentangles training objectives for comprehension and generation, allowing the direct application of advanced VQ tokenizers without the need for tailored quantization operations. Our empirical results demonstrate that TokLIP achieves exceptional data efficiency, empowering visual tokens with high-level semantic understanding while enhancing low-level generative capacity, making it well-suited for autoregressive Transformers in both comprehension and generation tasks. The code and models are available at https://github.com/TencentARC/TokLIP.

arxiv情報

著者 Haokun Lin,Teng Wang,Yixiao Ge,Yuying Ge,Zhichao Lu,Ying Wei,Qingfu Zhang,Zhenan Sun,Ying Shan
発行日 2025-05-08 17:12:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation はコメントを受け付けていません

Automated detection of underdiagnosed medical conditions via opportunistic imaging

要約

腹部コンピューター断層撮影(CT)スキャンは、臨床環境で頻繁に行われます。
日和見的なCTには、診断情報を抽出するためにルーチンCT画像を再利用することが含まれ、サルコペニア、肝脂肪症、腹水などの診断されていない状態を検出するための新たなツールです。
この研究では、深い学習方法を利用して、正確な診断と臨床文書化を促進します。
2,674個の入院患者CTスキャンを分析して、イメージングの表現型(日和見的CTスキャンから導出された特性)と、放射線学レポートとICDコーディングにおける対応するドキュメントとの矛盾を特定します。
分析を通じて、日和見的なイメージングまたは放射線学の報告のいずれかを通じて、サルコペニア、肝脂肪症、および腹水(それぞれ)と診断されたスキャンの0.5%、3.2%、および30.7%のみがICDコード化されていることがわかります。
我々の調査結果は、リスク調整モデルの診断精度と精度を高める日和見CTの可能性を示しており、精密医療の進歩を提供します。

要約(オリジナル)

Abdominal computed tomography (CT) scans are frequently performed in clinical settings. Opportunistic CT involves repurposing routine CT images to extract diagnostic information and is an emerging tool for detecting underdiagnosed conditions such as sarcopenia, hepatic steatosis, and ascites. This study utilizes deep learning methods to promote accurate diagnosis and clinical documentation. We analyze 2,674 inpatient CT scans to identify discrepancies between imaging phenotypes (characteristics derived from opportunistic CT scans) and their corresponding documentation in radiology reports and ICD coding. Through our analysis, we find that only 0.5%, 3.2%, and 30.7% of scans diagnosed with sarcopenia, hepatic steatosis, and ascites (respectively) through either opportunistic imaging or radiology reports were ICD-coded. Our findings demonstrate opportunistic CT’s potential to enhance diagnostic precision and accuracy of risk adjustment models, offering advancements in precision medicine.

arxiv情報

著者 Asad Aali,Andrew Johnston,Louis Blankemeier,Dave Van Veen,Laura T Derry,David Svec,Jason Hom,Robert D. Boutin,Akshay S. Chaudhari
発行日 2025-05-08 17:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Automated detection of underdiagnosed medical conditions via opportunistic imaging はコメントを受け付けていません

Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding

要約

テキストが豊富な視覚コンテンツの増加に伴い、視覚文書の理解が不可欠になりました。
この分野は、特に複雑なレイアウトを備えた多様なドキュメントタイプ全体で、視覚的な知覚とテキストの理解を効果的に統合する必要があるため、大きな課題を提起します。
さらに、このドメインの既存の微調整データセットは、堅牢な理解のための詳細なコンテキスト情報を提供することに不足していることが多く、幻覚と視覚要素間の空間的関係の制限された理解につながります。
これらの課題に対処するために、Markdown、JSON、HTML、Tikzなどの適応的な生成のマークアップ言語を利用して、高度に構造化されたドキュメント表現を構築し、文脈に基づいた応答を提供する革新的なパイプラインを提案します。
ドキュメント解析のための約3.8mの事前トレーニングデータペアを含むDocmark-Pileの2つの微細粒子構造データセットと、根拠のある命令のための624kの微調整データアノテーションを備えたDocmark-Instructを紹介します。
広範な実験は、提案されたモデルが、複雑な視覚シナリオの高度な推論と理解能力を促進し、さまざまな視覚文書理解ベンチマークにわたって既存の最先端のMLLMを大幅に上回ることを示しています。
コードとモデルはhttps:// githubでリリースされます。
com/euphoria16/docmark。

要約(オリジナル)

Visual Document Understanding has become essential with the increase of text-rich visual content. This field poses significant challenges due to the need for effective integration of visual perception and textual comprehension, particularly across diverse document types with complex layouts. Moreover, existing fine-tuning datasets for this domain often fall short in providing the detailed contextual information for robust understanding, leading to hallucinations and limited comprehension of spatial relationships among visual elements. To address these challenges, we propose an innovative pipeline that utilizes adaptive generation of markup languages, such as Markdown, JSON, HTML, and TiKZ, to build highly structured document representations and deliver contextually-grounded responses. We introduce two fine-grained structured datasets: DocMark-Pile, comprising approximately 3.8M pretraining data pairs for document parsing, and DocMark-Instruct, featuring 624k fine-tuning data annotations for grounded instruction following. Extensive experiments demonstrate that our proposed model significantly outperforms existing state-of-theart MLLMs across a range of visual document understanding benchmarks, facilitating advanced reasoning and comprehension capabilities in complex visual scenarios. Our code and models are released at https://github. com/Euphoria16/DocMark.

arxiv情報

著者 Han Xiao,Yina Xie,Guanxin Tan,Yinghao Chen,Rui Hu,Ke Wang,Aojun Zhou,Hao Li,Hao Shao,Xudong Lu,Peng Gao,Yafei Wen,Xiaoxin Chen,Shuai Ren,Hongsheng Li
発行日 2025-05-08 17:37:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding はコメントを受け付けていません