Flex3D: Feed-Forward 3D Generation with Flexible Reconstruction Model and Input View Curation

要約

テキスト、単一の画像、またはスパースビュー画像から高品質の3Dコンテンツを生成することは、幅広いアプリケーションでの挑戦的なタスクのままです。
既存の方法は通常、マルチビュー拡散モデルを使用してマルチビュー画像を合成し、その後3D再構成のためのフィードフォワードプロセスが続きます。
しかし、これらのアプローチは、多くの場合、少数の固定数の入力ビューによって制約され、多様な視点を捉える能力を制限し、さらに悪いことに、合成されたビューの質が低い場合、最適でない生成の結果につながります。
これらの制限に対処するために、任意の数の高品質の入力ビューを活用できる新しい2段階のフレームワークであるFlex3Dを提案します。
最初の段階は、候補者のビュー生成とキュレーションパイプラインで構成されています。
微調整されたマルチビュー画像拡散モデルとビデオ拡散モデルを使用して、候補ビューのプールを生成し、ターゲット3Dオブジェクトの豊富な表現を可能にします。
その後、ビュー選択パイプラインは、品質と一貫性に基づいてこれらのビューをフィルタリングし、再構築に高品質で信頼性の高いビューのみが使用されるようにします。
第2段階では、キュレーションされたビューは、任意の数の入力を効果的に処理できるトランスアーキテクチャの上に構築された柔軟な再構築モデル(FlexRM)に供給されます。
FLEMRMは、3Dガウスポイントを直接出力し、3面表現を活用し、効率的で詳細な3D生成を可能にします。
設計とトレーニング戦略の広範な調査を通じて、FlexRMを最適化して、再構築と生成タスクの両方で優れたパフォーマンスを実現します。
我々の結果は、Flex3Dが最新のパフォーマンスを達成し、ユーザーの学習では、最新のフィードフォワード3D生成モデルのいくつかと比較した場合、3D世代のタスクで92%を超える勝利率が得られたことを示しています。

要約(オリジナル)

Generating high-quality 3D content from text, single images, or sparse view images remains a challenging task with broad applications. Existing methods typically employ multi-view diffusion models to synthesize multi-view images, followed by a feed-forward process for 3D reconstruction. However, these approaches are often constrained by a small and fixed number of input views, limiting their ability to capture diverse viewpoints and, even worse, leading to suboptimal generation results if the synthesized views are of poor quality. To address these limitations, we propose Flex3D, a novel two-stage framework capable of leveraging an arbitrary number of high-quality input views. The first stage consists of a candidate view generation and curation pipeline. We employ a fine-tuned multi-view image diffusion model and a video diffusion model to generate a pool of candidate views, enabling a rich representation of the target 3D object. Subsequently, a view selection pipeline filters these views based on quality and consistency, ensuring that only the high-quality and reliable views are used for reconstruction. In the second stage, the curated views are fed into a Flexible Reconstruction Model (FlexRM), built upon a transformer architecture that can effectively process an arbitrary number of inputs. FlemRM directly outputs 3D Gaussian points leveraging a tri-plane representation, enabling efficient and detailed 3D generation. Through extensive exploration of design and training strategies, we optimize FlexRM to achieve superior performance in both reconstruction and generation tasks. Our results demonstrate that Flex3D achieves state-of-the-art performance, with a user study winning rate of over 92% in 3D generation tasks when compared to several of the latest feed-forward 3D generative models.

arxiv情報

著者 Junlin Han,Jianyuan Wang,Andrea Vedaldi,Philip Torr,Filippos Kokkinos
発行日 2025-06-02 03:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, eess.IV | Flex3D: Feed-Forward 3D Generation with Flexible Reconstruction Model and Input View Curation はコメントを受け付けていません

MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM

要約

マルチモーダル大手言語モデル(MLLMS)のマルチモーダル幻覚は、MLLMの正確性を制限します。
ただし、マルチモーダルの幻覚はマルチソースであり、多様な原因から生じます。
既存のベンチマークは、知覚誘発性の幻覚と推論によって誘発される幻覚を適切に区別できません。
この障害は重要な問題を構成し、MLLM内のマルチモーダル推論の障害の診断を妨げます。
これに対処するために、{\ dataset}ベンチマークを提案します。これは、入力画像がmllmsによって正しく知覚されるが、推論エラーが持続する質問を作成することにより、推論の幻覚を分離します。
{\ dataset}は、幻覚の定量化のための精度、事実性、およびLLMS幻覚スコア:多粒度評価メトリックを導入します。
私たちの分析により、(1)モデルスケール、データスケール、およびトレーニング段階が、論理、製造、および事実の幻覚の程度に大きく影響することが明らかになりました。
(2)現在のMLLMは、誤解された空間関係によって引き起こされる空間幻覚に効果的な改善を示しており、視覚的推論能力が限られていることを示しています。
(3)質問タイプは、ターゲットを絞った課題と潜在的な緩和戦略を強調し、明確な幻覚パターンと相関しています。
これらの課題に対処するために、{\ Method}を提案します。これは、カリキュラム強化の微調整を組み合わせて、学習の難しさを段階的に減らし、推論の複雑さを減らすための共同ヒントの推論を段階的に減らすことにより、モデルが論理一貫した推論チェーンを生成するよう奨励する方法です。
{\ method}は、{\ dataset}のベースラインを確立し、元のベースモデルの論理的な幻覚を削減します。

要約(オリジナル)

Multimodal hallucination in multimodal large language models (MLLMs) restricts the correctness of MLLMs. However, multimodal hallucinations are multi-sourced and arise from diverse causes. Existing benchmarks fail to adequately distinguish between perception-induced hallucinations and reasoning-induced hallucinations. This failure constitutes a significant issue and hinders the diagnosis of multimodal reasoning failures within MLLMs. To address this, we propose the {\dataset} benchmark, which isolates reasoning hallucinations by constructing questions where input images are correctly perceived by MLLMs yet reasoning errors persist. {\dataset} introduces multi-granular evaluation metrics: accuracy, factuality, and LLMs hallucination score for hallucination quantification. Our analysis reveals that (1) the model scale, data scale, and training stages significantly affect the degree of logical, fabrication, and factual hallucinations; (2) current MLLMs show no effective improvement on spatial hallucinations caused by misinterpreted spatial relationships, indicating their limited visual reasoning capabilities; and (3) question types correlate with distinct hallucination patterns, highlighting targeted challenges and potential mitigation strategies. To address these challenges, we propose {\method}, a method that combines curriculum reinforcement fine-tuning to encourage models to generate logic-consistent reasoning chains by stepwise reducing learning difficulty, and collaborative hint inference to reduce reasoning complexity. {\method} establishes a baseline on {\dataset}, and reduces the logical hallucinations in original base models.

arxiv情報

著者 Bowen Dong,Minheng Ni,Zitong Huang,Guanglei Yang,Wangmeng Zuo,Lei Zhang
発行日 2025-06-02 04:16:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM はコメントを受け付けていません

FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation Models

要約

医学的視覚言語モデルは、しばしば放射線レポートで正確な定量的測定を生成することに苦労し、臨床的信頼性を損なう幻覚につながります。
FactChexckerは、改良されたクエリコードアップデートパラダイムを活用することにより、放射線レポート測定を脱水するモジュール式フレームワークを紹介します。
具体的には、FactChexckerは、特殊なモジュールと大規模な言語モデルのコード生成機能を採用して、元のレポートに基づいて生成された測定クエリを解決します。
測定可能な所見を抽出した後、結果は更新されたレポートに組み込まれます。
MIMIC-CXRデータセットと11の医療報告書世代モデルを使用して、気管内チューブの配置でFactChexkkerを評価します。これは、レポート測定の平均78%を占めています。
私たちの結果は、FactChexckerが幻覚を大幅に減らし、測定精度を改善し、元のレポートの品質を維持することを示しています。
具体的には、FactChexckerは10/11モデルの性能を向上させ、平均絶対誤差で測定された測定幻覚を減らす際に135.0%の平均改善を達成します。
コードはhttps://github.com/rajpurkarlab/factchexckerで入手できます。

要約(オリジナル)

Medical vision-language models often struggle with generating accurate quantitative measurements in radiology reports, leading to hallucinations that undermine clinical reliability. We introduce FactCheXcker, a modular framework that de-hallucinates radiology report measurements by leveraging an improved query-code-update paradigm. Specifically, FactCheXcker employs specialized modules and the code generation capabilities of large language models to solve measurement queries generated based on the original report. After extracting measurable findings, the results are incorporated into an updated report. We evaluate FactCheXcker on endotracheal tube placement, which accounts for an average of 78% of report measurements, using the MIMIC-CXR dataset and 11 medical report-generation models. Our results show that FactCheXcker significantly reduces hallucinations, improves measurement precision, and maintains the quality of the original reports. Specifically, FactCheXcker improves the performance of 10/11 models and achieves an average improvement of 135.0% in reducing measurement hallucinations measured by mean absolute error. Code is available at https://github.com/rajpurkarlab/FactCheXcker.

arxiv情報

著者 Alice Heiman,Xiaoman Zhang,Emma Chen,Sung Eun Kim,Pranav Rajpurkar
発行日 2025-06-02 04:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation Models はコメントを受け付けていません

Urban Safety Perception Assessments via Integrating Multimodal Large Language Models with Street View Images

要約

都市の安全性の認識を測定することは、伝統的に人的資源に大きく依存している重要で複雑なタスクです。
このプロセスには、多くの場合、広範なフィールド調査、手動データ収集、および主観的評価が含まれます。これには、時間がかかり、費用がかかり、時には一貫性がありません。
ストリートビュー画像(SVI)は、深い学習方法とともに、大規模な都市の安全検出を実現する方法を提供します。
ただし、この目標を達成するには、安全ランキングモデルを訓練するために広範な人間の注釈が必要であることが多く、都市間の建築の違いはこれらのモデルの移動性を妨げます。
したがって、安全評価を実施するための完全に自動化された方法が不可欠です。
マルチモーダル大手言語モデル(MLLM)の最近の進歩は、強力な推論と分析能力を実証しています。
最先端のモデル、たとえば、GPT-4は、多くのタスクで驚くべきパフォーマンスを示しています。
これらのモデルは、人間が解決したアンカーセットで都市の安全ランキングに採用し、MLLMの結果が人間の認識と密接に整合することを検証しました。
さらに、事前に訓練されたコントラスト型の言語イメージ前訓練前(CLIP)機能とK-Nearest Neighbors(K-NN)検索に基づいて、都市全体の安全性指数を迅速に評価する方法を提案しました。
実験結果は、私たちの方法が既存のトレーニングが必要な深い学習アプローチを上回り、効率的かつ正確な都市の安全評価を達成することを示しています。
都市の安全性認識評価のための提案された自動化は、都市環境の改善を目的とした都市計画者、政策立案者、および研究者にとって貴重なツールです。

要約(オリジナル)

Measuring urban safety perception is an important and complex task that traditionally relies heavily on human resources. This process often involves extensive field surveys, manual data collection, and subjective assessments, which can be time-consuming, costly, and sometimes inconsistent. Street View Images (SVIs), along with deep learning methods, provide a way to realize large-scale urban safety detection. However, achieving this goal often requires extensive human annotation to train safety ranking models, and the architectural differences between cities hinder the transferability of these models. Thus, a fully automated method for conducting safety evaluations is essential. Recent advances in multimodal large language models (MLLMs) have demonstrated powerful reasoning and analytical capabilities. Cutting-edge models, e.g., GPT-4 have shown surprising performance in many tasks. We employed these models for urban safety ranking on a human-annotated anchor set and validated that the results from MLLMs align closely with human perceptions. Additionally, we proposed a method based on the pre-trained Contrastive Language-Image Pre-training (CLIP) feature and K-Nearest Neighbors (K-NN) retrieval to quickly assess the safety index of the entire city. Experimental results show that our method outperforms existing training needed deep learning approaches, achieving efficient and accurate urban safety evaluations. The proposed automation for urban safety perception assessment is a valuable tool for city planners, policymakers, and researchers aiming to improve urban environments.

arxiv情報

著者 Jiaxin Zhang,Yunqin Li,Tomohiro Fukuda,Bowen Wang
発行日 2025-06-02 05:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Urban Safety Perception Assessments via Integrating Multimodal Large Language Models with Street View Images はコメントを受け付けていません

Distractor-free Generalizable 3D Gaussian Splatting

要約

以前に未開拓の課題に対処する新しいフレームワークであるDGGSを紹介します:$ \ textBf {ディストラクタフリーの一般化可能な3Dガウススプラッティング} $(3DGS)。
クロスセーンの一般化可能な列車設定のディストラクタデータによって引き起こされる3Dの矛盾とトレーニングの不安定性を軽減し、目に見えないシーンの参照から3DGとディストラクタマスクのフィードフォワード推論を可能にします。
これらの目的を達成するために、DGGSは、トレーニングフェーズ中にシーンに依存しない参照ベースのマスク予測と改良モジュールを提案し、トレーニングの安定性に対するディストラクタの影響を効果的に排除します。
さらに、私たちは、耐残りのディストラクタ3DGSプリミティブな影響をさらに除去するディストラクタ剪定メカニズムによって補完された参照スコアリングと再選択のための新しい2段階推論フレームワークを通じて、推論時間にディストラクタによるアーティファクトと穴と戦います。
REALおよび当社の合成データに関する広範なフィードフォワード実験は、新しいディストラクタシーンを扱う際のDGGSの再構成機能を示しています。
さらに、一般化可能なマスク予測は、既存のシーン固有のトレーニング方法よりも優れた精度を達成しています。
ホームページはhttps://github.com/bbbbby-99/dggsです。

要約(オリジナル)

We present DGGS, a novel framework that addresses the previously unexplored challenge: $\textbf{Distractor-free Generalizable 3D Gaussian Splatting}$ (3DGS). It mitigates 3D inconsistency and training instability caused by distractor data in the cross-scenes generalizable train setting while enabling feedforward inference for 3DGS and distractor masks from references in the unseen scenes. To achieve these objectives, DGGS proposes a scene-agnostic reference-based mask prediction and refinement module during the training phase, effectively eliminating the impact of distractor on training stability. Moreover, we combat distractor-induced artifacts and holes at inference time through a novel two-stage inference framework for references scoring and re-selection, complemented by a distractor pruning mechanism that further removes residual distractor 3DGS-primitive influences. Extensive feedforward experiments on the real and our synthetic data show DGGS’s reconstruction capability when dealing with novel distractor scenes. Moreover, our generalizable mask prediction even achieves an accuracy superior to existing scene-specific training methods. Homepage is https://github.com/bbbbby-99/DGGS.

arxiv情報

著者 Yanqi Bao,Jing Liao,Jing Huo,Yang Gao
発行日 2025-06-02 05:22:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Distractor-free Generalizable 3D Gaussian Splatting はコメントを受け付けていません

Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video

要約

堅牢なツールと公開されている事前に訓練されたモデルは、言語モデルの機械的解釈可能性の最近の進歩を促進するのに役立ちました。
ただし、アクセス可能なフレームワークの欠如と事前に訓練された重みの欠如により、視力の機械的解釈可能性の同様の進歩が妨げられています。
Prisma(こちらからコードベースにアクセス:https://github.com/prisma-multimodal/vit-prisma)を提示します。これは、視力の機械的解釈可能性の研究を加速するように設計されたオープンソースフレームワークであり、75+ビジョンとビデオ変圧器にアクセスするための統一されたツールキットを提供します。
スパースオートエンコーダー(SAE)、トランスコダー、クロスコダートレーニングのサポート。
80以上の事前に訓練されたSAEウェイトのスイート。
アクティベーションキャッシング、回路分析ツール、視覚化ツール。
および教育リソース。
私たちの分析は、効果的なビジョンSAEが言語SAEよりも大幅に低いスパースパターンを示すことができ、場合によってはSAEの再構成がモデルの損失を減らすことができることを含む、驚くべき発見を明らかにしています。
Prismaは、この新興分野への参入の障壁を下げながら、ビジョンモデルの内部を理解するための新しい研究の方向性を可能にします。

要約(オリジナル)

Robust tooling and publicly available pre-trained models have helped drive recent advances in mechanistic interpretability for language models. However, similar progress in vision mechanistic interpretability has been hindered by the lack of accessible frameworks and pre-trained weights. We present Prisma (Access the codebase here: https://github.com/Prisma-Multimodal/ViT-Prisma), an open-source framework designed to accelerate vision mechanistic interpretability research, providing a unified toolkit for accessing 75+ vision and video transformers; support for sparse autoencoder (SAE), transcoder, and crosscoder training; a suite of 80+ pre-trained SAE weights; activation caching, circuit analysis tools, and visualization tools; and educational resources. Our analysis reveals surprising findings, including that effective vision SAEs can exhibit substantially lower sparsity patterns than language SAEs, and that in some instances, SAE reconstructions can decrease model loss. Prisma enables new research directions for understanding vision model internals while lowering barriers to entry in this emerging field.

arxiv情報

著者 Sonia Joseph,Praneet Suresh,Lorenz Hufe,Edward Stevinson,Robert Graham,Yash Vadi,Danilo Bzdok,Sebastian Lapuschkin,Lee Sharkey,Blake Aaron Richards
発行日 2025-06-02 05:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video はコメントを受け付けていません

VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

要約

Vision-Language Generative Reward Models(VL-GenRMS)は、マルチモーダルAIシステムの整合と評価に重要な役割を果たしますが、独自の評価は未調査のままです。
現在の評価方法は、主に従来のVLタスクからのAi-Antatedの好みラベルに依存しています。これは、バイアスを導入することができ、多くの場合、最先端のモデルに効果的に挑戦できません。
これらの制限に対処するために、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークであるVL-Rewardbenchを紹介します。
サンプル選択と人間の検証を組み合わせたAIアシストアノテーションパイプラインを通じて、VL-GenRMSの制限をプローブするために特別に設計された1,250の高品質の例をキュレートします。
16の主要な大規模な視覚言語モデルにわたる包括的な評価は、GPT-4oでさえ65.4%の精度しか達成されず、QWEN2-VL-72Bなどの最先端のオープンソースモデルでさえ、ランダムゲッシングを超える苦労を達成する挑戦的なテストベンチとしてのVL-Rewardbenchの有効性を示しています。
重要なことに、VL-Rewardbenchのパフォーマンスは、VL-GenRMSを使用したBest-n-n Samplingを使用して、MMMU-Pro精度と強く相関しています(PearsonのR $ $ 0.9)。
分析実験VL-GENRMSを改善するための3つの重要な洞察を明らかにします。(i)モデルは、推論タスクではなく、基本的な視覚認識タスクで主に失敗します。
(ii)推論時間スケーリングの利点は、モデル容量によって劇的に異なります。
(iii)大幅に判断力を高めることを学ぶためのVL-GenRMSのトレーニング(7B VL-GenRMの+14.7%の精度)。
VL-Rewardbenchと実験的な洞察は、VL-GenRMを進めるための貴重なリソースになると考えています。

要約(オリジナル)

Vision-language generative reward models (VL-GenRMs) play a crucial role in aligning and evaluating multimodal AI systems, yet their own evaluation remains under-explored. Current assessment methods primarily rely on AI-annotated preference labels from traditional VL tasks, which can introduce biases and often fail to effectively challenge state-of-the-art models. To address these limitations, we introduce VL-RewardBench, a comprehensive benchmark spanning general multimodal queries, visual hallucination detection, and complex reasoning tasks. Through our AI-assisted annotation pipeline that combines sample selection with human verification, we curate 1,250 high-quality examples specifically designed to probe VL-GenRMs limitations. Comprehensive evaluation across 16 leading large vision-language models demonstrates VL-RewardBench’s effectiveness as a challenging testbed, where even GPT-4o achieves only 65.4% accuracy, and state-of-the-art open-source models such as Qwen2-VL-72B, struggle to surpass random-guessing. Importantly, performance on VL-RewardBench strongly correlates (Pearson’s r $>$ 0.9) with MMMU-Pro accuracy using Best-of-N sampling with VL-GenRMs. Analysis experiments uncover three critical insights for improving VL-GenRMs: (i) models predominantly fail at basic visual perception tasks rather than reasoning tasks; (ii) inference-time scaling benefits vary dramatically by model capacity; and (iii) training VL-GenRMs to learn to judge substantially boosts judgment capability (+14.7% accuracy for a 7B VL-GenRM). We believe VL-RewardBench along with the experimental insights will become a valuable resource for advancing VL-GenRMs.

arxiv情報

著者 Lei Li,Yuancheng Wei,Zhihui Xie,Xuqing Yang,Yifan Song,Peiyi Wang,Chenxin An,Tianyu Liu,Sujian Li,Bill Yuchen Lin,Lingpeng Kong,Qi Liu
発行日 2025-06-02 05:46:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models はコメントを受け付けていません

RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection

要約

大規模な言語モデル(LLMS)は、放射線レポート生成を含むさまざまなドメインで顕著な能力を示しています。
以前のアプローチでは、このタスクにマルチモーダルLLMSを利用しようとし、ドメイン固有の知識検索の統合を通じてパフォーマンスを向上させました。
ただし、これらのアプローチは、LLMS内に既に組み込まれている知識を見落としていることが多く、冗長な情報統合につながります。
この制限に対処するために、補足的な知識注入を伴う放射線レポート生成を強化するためのフレームワークであるレーダーを提案します。
レーダーは、LLMの内部知識と外部から取得された情報の両方を体系的に活用することにより、レポート生成を改善します。
具体的には、最初に、エキスパートの画像ベースの分類出力と一致するモデルの獲得した知識を抽出します。
次に、関連する補足知識を取得して、この情報をさらに豊かにします。
最後に、両方のソースを集約することにより、レーダーはより正確で有益な放射線レポートを生成します。
Mimic-CXR、Chexpert-Plus、およびIU X線に関する広範な実験は、モデルが言語の質と臨床精度の両方で最先端のLLMを上回ることを示しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in various domains, including radiology report generation. Previous approaches have attempted to utilize multimodal LLMs for this task, enhancing their performance through the integration of domain-specific knowledge retrieval. However, these approaches often overlook the knowledge already embedded within the LLMs, leading to redundant information integration. To address this limitation, we propose Radar, a framework for enhancing radiology report generation with supplementary knowledge injection. Radar improves report generation by systematically leveraging both the internal knowledge of an LLM and externally retrieved information. Specifically, it first extracts the model’s acquired knowledge that aligns with expert image-based classification outputs. It then retrieves relevant supplementary knowledge to further enrich this information. Finally, by aggregating both sources, Radar generates more accurate and informative radiology reports. Extensive experiments on MIMIC-CXR, CheXpert-Plus, and IU X-ray demonstrate that our model outperforms state-of-the-art LLMs in both language quality and clinical accuracy.

arxiv情報

著者 Wenjun Hou,Yi Cheng,Kaishuai Xu,Heng Li,Yan Hu,Wenjie Li,Jiang Liu
発行日 2025-06-02 05:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection はコメントを受け付けていません

A Survey on Event-driven 3D Reconstruction: Development under Different Categories

要約

イベントカメラは、時間分解能が高い、遅延が低く、ダイナミックレンジが高いため、3D再構成の注目を集めています。
ピクセルあたりの輝度が非同期に変化し、速い動きと挑戦的な照明条件下での正確な再構築が可能になります。
この調査では、ステレオ、モノクラー、マルチモーダルシステムなどのイベント駆動型の3D再構成方法の包括的なレビューを提供します。
さらに、幾何学、学習ベース、ハイブリッドアプローチに基づいて最近の開発を分類します。
ニューラル放射輝度フィールドやイベントデータを使用した3Dガウスのスプラッティングなどの新たな傾向もカバーされています。
関連する作品は、分野内の革新と進歩を説明するために時系列に構成されています。
将来の研究をサポートするために、データセット、実験、評価、イベント表現などの重要な研究のギャップと将来の研究の方向性も強調しています。

要約(オリジナル)

Event cameras have gained increasing attention for 3D reconstruction due to their high temporal resolution, low latency, and high dynamic range. They capture per-pixel brightness changes asynchronously, allowing accurate reconstruction under fast motion and challenging lighting conditions. In this survey, we provide a comprehensive review of event-driven 3D reconstruction methods, including stereo, monocular, and multimodal systems. We further categorize recent developments based on geometric, learning-based, and hybrid approaches. Emerging trends, such as neural radiance fields and 3D Gaussian splatting with event data, are also covered. The related works are structured chronologically to illustrate the innovations and progression within the field. To support future research, we also highlight key research gaps and future research directions in dataset, experiment, evaluation, event representation, etc.

arxiv情報

著者 Chuanzhi Xu,Haoxian Zhou,Haodong Chen,Vera Chung,Qiang Qu
発行日 2025-06-02 05:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | A Survey on Event-driven 3D Reconstruction: Development under Different Categories はコメントを受け付けていません

RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers

要約

注意層ではなく、Feedforwardネットワーク(FFN)レイヤーがVision Transformer(VIT)の推論潜時の主な貢献者であり、モデルサイズが増加するにつれてその衝撃が意味することを明らかにします。
この発見は、FFN層に焦点を当てることにより、大規模なvitsの効率を最適化するための重要な機会を強調しています。
この作業では、テスト中に効率的なFFN層のトレーニング後の構造レパラメーター化を促進する新しいチャネルアイドルメカニズムを提案します。
具体的には、特徴チャネルのセットは、各FFN層の非線形活性化関数をアイドル状態に保ち、バイパスし、それにより、推論中に構造的な再分析を可能にする線形経路を形成します。
このメカニズムは、さまざまなVITで許容可能な犠牲(場合によっては利益)を伴う顕著な遅延削減を達成する、回復可能な視力変圧器(繰り返し)のファミリーをもたらします。
メソッドの利点は、モデルサイズと一貫してスケーリングされ、速度の向上の向上を実証し、より大きなモデルの精度のギャップまたはさらに高い精度を徐々に狭めます。
特に、Repa-vit-LargeとRepa-vit-Hugeは、同じトレーニング戦略の下でそれぞれ +1.7%および +1.1%のTOP-1精度で66.8%および68.7%のスピードアップを享受しています。
Repavitは、FFN層に構造的な再評価を採用して、私たちの最良の知識にVITを促進する最初のものであり、効率的なVITの縁起の良い方向を表していると考えています。
ソースコードは、https://github.com/ackesnal/repavitで入手できます。

要約(オリジナル)

We reveal that feedforward network (FFN) layers, rather than attention layers, are the primary contributors to Vision Transformer (ViT) inference latency, with their impact signifying as model size increases. This finding highlights a critical opportunity for optimizing the efficiency of large-scale ViTs by focusing on FFN layers. In this work, we propose a novel channel idle mechanism that facilitates post-training structural reparameterization for efficient FFN layers during testing. Specifically, a set of feature channels remains idle and bypasses the nonlinear activation function in each FFN layer, thereby forming a linear pathway that enables structural reparameterization during inference. This mechanism results in a family of ReParameterizable Vision Transformers (RePaViTs), which achieve remarkable latency reductions with acceptable sacrifices (sometimes gains) in accuracy across various ViTs. The benefits of our method scale consistently with model sizes, demonstrating greater speed improvements and progressively narrowing accuracy gaps or even higher accuracies on larger models. In particular, RePa-ViT-Large and RePa-ViT-Huge enjoy 66.8% and 68.7% speed-ups with +1.7% and +1.1% higher top-1 accuracies under the same training strategy, respectively. RePaViT is the first to employ structural reparameterization on FFN layers to expedite ViTs to our best knowledge, and we believe that it represents an auspicious direction for efficient ViTs. Source code is available at https://github.com/Ackesnal/RePaViT.

arxiv情報

著者 Xuwei Xu,Yang Li,Yudong Chen,Jiajun Liu,Sen Wang
発行日 2025-06-02 06:39:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers はコメントを受け付けていません