A Geometric Notion of Causal Probing

要約

線形部分空間仮説(Bolukbasi et al。、2016)は、言語モデルの表現空間では、言語数などの概念に関するすべての情報が線形部分空間でエンコードされると述べています。
以前の作業は、この仮説をサポートする可能性のある候補者の部分空間を特定して評価するために、補助分類タスクに依存しています。
代わりに、理想的な線形概念サブスペースを特徴付ける一連の固有基準を提供し、言語モデルの分布のみを使用してサブスペースを識別できるようにします。
私たちの情報理論的フレームワークは、概念情報の統計的概念と表現空間で概念がどのようにエンコードされるかについての幾何学的概念を調整することにより、表現空間における微小相関の特徴を説明します(Kumar et al。、2022)。
この分析の副産物として、言語モデルが生成中に概念を活用する方法の因果プロセスを仮定します。
経験的には、線形概念の消去は、口頭数のフレームワークの下でほとんどの概念情報を消去することと、レストランレビューデータセットの複雑なアスペクトレベルの感情概念を消去することに成功していることがわかります。
制御された生成に対する私たちの因果的介入は、2つの言語モデルにわたる少なくとも1つの概念について、概念サブスペースを使用して、生成された単語の概念値を精度で操作できることを示しています。

要約(オリジナル)

The linear subspace hypothesis (Bolukbasi et al., 2016) states that, in a language model’s representation space, all information about a concept such as verbal number is encoded in a linear subspace. Prior work has relied on auxiliary classification tasks to identify and evaluate candidate subspaces that might give support for this hypothesis. We instead give a set of intrinsic criteria which characterize an ideal linear concept subspace and enable us to identify the subspace using only the language model distribution. Our information-theoretic framework accounts for spuriously correlated features in the representation space (Kumar et al., 2022) by reconciling the statistical notion of concept information and the geometric notion of how concepts are encoded in the representation space. As a byproduct of this analysis, we hypothesize a causal process for how a language model might leverage concepts during generation. Empirically, we find that linear concept erasure is successful in erasing most concept information under our framework for verbal number as well as some complex aspect-level sentiment concepts from a restaurant review dataset. Our causal intervention for controlled generation shows that, for at least one concept across two languages models, the concept subspace can be used to manipulate the concept value of the generated word with precision.

arxiv情報

著者 Clément Guerner,Tianyu Liu,Anej Svete,Alexander Warstadt,Ryan Cotterell
発行日 2025-03-26 16:33:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Geometric Notion of Causal Probing はコメントを受け付けていません

From Annotation to Adaptation: Metrics, Synthetic Data, and Aspect Extraction for Aspect-Based Sentiment Analysis with Large Language Models

要約

この研究では、新しいドメインでの暗黙のアスペクト抽出に焦点を当てて、アスペクトベースのセンチメント分析(ABSA)における大規模な言語モデル(LLMS)のパフォーマンスを調べます。
合成スポーツフィードバックデータセットを使用して、オープンウェイトLLMのアスペクト極性ペアを抽出する能力を評価し、メトリックを提案して、生成モデルでアスペクト抽出の評価を促進します。
私たちの調査結果は、ABSAタスクにおけるLLMの潜在性と制限の両方を強調しています。

要約(オリジナル)

This study examines the performance of Large Language Models (LLMs) in Aspect-Based Sentiment Analysis (ABSA), with a focus on implicit aspect extraction in a novel domain. Using a synthetic sports feedback dataset, we evaluate open-weight LLMs’ ability to extract aspect-polarity pairs and propose a metric to facilitate the evaluation of aspect extraction with generative models. Our findings highlight both the potential and limitations of LLMs in the ABSA task.

arxiv情報

著者 Nikita Neveditsin,Pawan Lingras,Vijay Mago
発行日 2025-03-26 16:52:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Annotation to Adaptation: Metrics, Synthetic Data, and Aspect Extraction for Aspect-Based Sentiment Analysis with Large Language Models はコメントを受け付けていません

Ontology-based Semantic Similarity Measures for Clustering Medical Concepts in Drug Safety

要約

セマンティックな類似性測定(SSM)は、生物医学研究で広く使用されていますが、ファーマコビリタンスでは十分に活用されていません。
この研究では、薬物安全データのMEDDRA優先項(PTS)のクラスタリング用の6つのオントロジーベースのSSMを評価します。
Unified Medical Language System(UMLS)を使用して、医学的に意味のある重心を中心にPTをグループ化する各方法の能力を評価します。
Java APIとPythonおよびRインターフェイスを使用して、ハイスループットフレームワークが開発され、大規模な類似性計算がサポートされています。
結果は、パスベースのメソッドは、Wupalmerで0.36、LCHの0.28のF1スコア(IC)ベースの測定、特に固有のリンとソカルで適度に機能し、一貫してより良いクラスタリング精度(F1スコア0.403)を生成することを示しています。
専門家のレビューと標準的なMEDDRAクエリ(SMQ)に対して検証された調査結果は、早期の信号検出を改善し、手動のレビューを削減することにより、薬物存在ワークフローの強化におけるICベースのSSMの約束を強調しています。

要約(オリジナル)

Semantic similarity measures (SSMs) are widely used in biomedical research but remain underutilized in pharmacovigilance. This study evaluates six ontology-based SSMs for clustering MedDRA Preferred Terms (PTs) in drug safety data. Using the Unified Medical Language System (UMLS), we assess each method’s ability to group PTs around medically meaningful centroids. A high-throughput framework was developed with a Java API and Python and R interfaces support large-scale similarity computations. Results show that while path-based methods perform moderately with F1 scores of 0.36 for WUPALMER and 0.28 for LCH, intrinsic information content (IC)-based measures, especially INTRINSIC-LIN and SOKAL, consistently yield better clustering accuracy (F1 score of 0.403). Validated against expert review and standard MedDRA queries (SMQs), our findings highlight the promise of IC-based SSMs in enhancing pharmacovigilance workflows by improving early signal detection and reducing manual review.

arxiv情報

著者 Jeffery L Painter,François Haguinet,Gregory E Powell,Andrew Bate
発行日 2025-03-26 17:19:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, G.3 | Ontology-based Semantic Similarity Measures for Clustering Medical Concepts in Drug Safety はコメントを受け付けていません

Beyond Believability: Accurate Human Behavior Simulation with Fine-Tuned LLMs

要約

最近の調査によると、LLMは「信頼できる」人間の行動を、プロンプトのみの方法を介してLLMエージェントをパワーすることができることが示されています。
この作業では、Webアクション生成タスクの主観的な「信じる性」ではなく、LLMの客観的な「精度」の評価と改善に焦点を当て、オンラインショッピングの人間アクションから収集された大規模で実世界のデータセットを活用しています。
Webアクション生成のタスクに関する最先端のLLMS(Deepseek-R1、Llama、Claudeなど)の最初の包括的な定量的評価を提示します。
私たちの結果は、実際の行動データのLLMを微調整すると、プロンプトのみの方法と比較してアクションを生成する能力が大幅に向上することを示しています。
さらに、合成された推論トレースをモデルトレーニングに組み込むと、パフォーマンスが追加の向上につながり、行動モデリングにおける明示的な理論的根拠の価値が示されます。
この作業は、行動シミュレーションでLLMを評価するための新しいベンチマークを確立し、実際のアクションデータと推論増強がLLMエージェントの忠実度を高める方法についての実用的な洞察を提供します。

要約(オリジナル)

Recent research shows that LLMs can simulate “believable” human behaviors to power LLM agents via prompt-only methods. In this work, we focus on evaluating and improving LLM’s objective “accuracy” rather than the subjective “believability” in the web action generation task, leveraging a large-scale, real-world dataset collected from online shopping human actions. We present the first comprehensive quantitative evaluation of state-of-the-art LLMs (e.g., DeepSeek-R1, Llama, and Claude) on the task of web action generation. Our results show that fine-tuning LLMs on real-world behavioral data substantially improves their ability to generate actions compared to prompt-only methods. Furthermore, incorporating synthesized reasoning traces into model training leads to additional performance gains, demonstrating the value of explicit rationale in behavior modeling. This work establishes a new benchmark for evaluating LLMs in behavior simulation and offers actionable insights into how real-world action data and reasoning augmentation can enhance the fidelity of LLM agents.

arxiv情報

著者 Yuxuan Lu,Jing Huang,Yan Han,Bennet Bei,Yaochen Xie,Dakuo Wang,Jessie Wang,Qi He
発行日 2025-03-26 17:33:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Believability: Accurate Human Behavior Simulation with Fine-Tuned LLMs はコメントを受け付けていません

MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding

要約

大規模な言語モデル(LLM)は、インタラクティブなチャットボット、ドキュメント分析、エージェントワークフローなどの長いコンテキストアプリケーションでより一般的になりましたが、低レイテンシとハイスループットで長いコンテキストリクエストを提供することは困難です。
投機的デコード(SD)は、レイテンシを損失を抑えるために広く使用されている手法ですが、従来の知恵は、その有効性が小さなバッチサイズに限定されていることを示唆しています。
MagicDecでは、驚くべきことにSDが中程度から長いシーケンスの高スループット推論体制でもスピードアップを達成できることを示しています。
さらに興味深いことに、インテリジェントな起草戦略は、厳密な分析に基づいてバッチサイズが増加すると、より良いスピードアップを実現できます。
MagicDecは、最初にバッチサイズとシーケンスの長さが増加するボトルネックシフトを識別し、これらの洞察を使用して、SDをより効果的に展開し、高スループット推論のために展開します。
スパースKVキャッシュを使用してドラフトモデルを活用して、シーケンスの長さとバッチサイズの両方でスケーリングするKVボトルネックに対処します。
さらに、最大速度のために最適なドラフト戦略を選択するための理論モデルを提案します。
私たちの仕事は、スループットを強化し、精度を損なうことなくレイテンシを減らすことができるため、長いコンテキストサービングでの投機的デコードの幅広い適用性を強調しています。
中程度から長いシーケンスの場合、さまざまな種類のハードウェアとタスクで32から256の範囲のバッチサイズを提供する場合、llama3.1-8bの最大2.51xスピードアップを示します。

要約(オリジナル)

Large Language Models (LLMs) have become more prevalent in long-context applications such as interactive chatbots, document analysis, and agent workflows, but it is challenging to serve long-context requests with low latency and high throughput. Speculative decoding (SD) is a widely used technique to reduce latency losslessly, but the conventional wisdom suggests that its efficacy is limited to small batch sizes. In MagicDec, we show that surprisingly SD can achieve speedup even for a high throughput inference regime for moderate to long sequences. More interestingly, an intelligent drafting strategy can achieve better speedup with increasing batch size based on our rigorous analysis. MagicDec first identifies the bottleneck shifts with increasing batch size and sequence length, and uses these insights to deploy SD more effectively for high throughput inference. We leverage draft model with sparse KV cache to address the KV bottleneck, which scales with both sequence length and batch size. Additionally, we propose a theoretical model to select the optimal drafting strategy for maximum speedup. Our work highlights the broad applicability of speculative decoding in long-context serving, as it can enhance throughput and reduce latency without compromising accuracy. For moderate to long sequences, we demonstrate up to 2.51x speedup for Llama3.1-8B when serving batch sizes ranging from 32 to 256 on various types of hardware and tasks.

arxiv情報

著者 Ranajoy Sadhukhan,Jian Chen,Zhuoming Chen,Vashisth Tiwari,Ruihang Lai,Jinyuan Shi,Ian En-Hsu Yen,Avner May,Tianqi Chen,Beidi Chen
発行日 2025-03-26 17:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding はコメントを受け付けていません

MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search

要約

MCTS-RAGを紹介します。MCTS-RAGは、検索された生成(RAG)を活用して関連するコンテキストとモンテカルロツリー検索(MCTS)を提供して推論パスを改善することにより、知識集約型タスクに関する小言語モデルの推論能力を強化する新しいアプローチを紹介します。
MCTS-RAGは、検索と推論を反復的な意思決定プロセスを通じて動的に統合します。
通常、推論から独立して情報を取得し、したがって知識を準最適に統合する標準的なRAGメソッド、または外部の事実のない内部モデルの知識のみに依存する従来のMCTの推論を統合する標準的なRAGメソッドとは異なり、MCTS-RAGは、構造化された推論と適応的検索を組み合わせます。
この統合されたアプローチは、意思決定を強化し、幻覚を減らし、事実上の正確性と応答の一貫性を改善します。
複数の推論と知識集約的なデータセットデータセット(つまり、ComplexWebQA、GPQA、およびFoolmetWice)の実験結果は、私たちの方法が、推論時間計算を効果的にスケーリングすることにより、GPT-4oなどのフロンティアLMSに匹敵するフロンティアLMSを実現できることを示しています。

要約(オリジナル)

We introduce MCTS-RAG, a novel approach that enhances the reasoning capabilities of small language models on knowledge-intensive tasks by leveraging retrieval-augmented generation (RAG) to provide relevant context and Monte Carlo Tree Search (MCTS) to refine reasoning paths. MCTS-RAG dynamically integrates retrieval and reasoning through an iterative decision-making process. Unlike standard RAG methods, which typically retrieve information independently from reasoning and thus integrate knowledge suboptimally, or conventional MCTS reasoning, which depends solely on internal model knowledge without external facts, MCTS-RAG combines structured reasoning with adaptive retrieval. This integrated approach enhances decision-making, reduces hallucinations, and ensures improved factual accuracy and response consistency. The experimental results on multiple reasoning and knowledge-intensive datasets datasets (i.e., ComplexWebQA, GPQA, and FoolMeTwice) show that our method enables small-scale LMs to achieve performance comparable to frontier LLMs like GPT-4o by effectively scaling inference-time compute, setting a new standard for reasoning in small-scale models.

arxiv情報

著者 Yunhai Hu,Yilun Zhao,Chen Zhao,Arman Cohan
発行日 2025-03-26 17:46:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search はコメントを受け付けていません

A multi-agentic framework for real-time, autonomous freeform metasurface design

要約

ナノフォトニクスのイノベーションは現在、フォトニクスの専門知識とシミュレーションおよび最適化アルゴリズムとコーディングの専門知識を相乗する人間の専門家に依存しており、時間がかかり、計算的に要求が厳しく、頻繁に最適な設計サイクルを伴います。
メタチャットを紹介します。Metachatは、自動化されたほぼリアルタイムの方法で、意味的に説明されたフォトニック設計目標を高性能でフリーフォームデバイスレイアウトに変換できるマルチエージェント設計フレームワークです。
マルチステップの推論は、エージェントの反復的独白(AIM)パラダイムによって有効になります。これは、エージェントがコードベースのツール、他の専門エージェント、および人間のデザイナーと一貫したエージェントをインターフェースします。
設計の加速は、メタ面構造の一般化された評価をサポートする、機能ごとの線形変調条件付きMaxwell Surrogateソルバーによって促進されます。
フリーフォームの誘電メタサーフェスをモデルシステムとして使用し、Metachatで、従来の方法よりも桁違いに桁違いに桁違いに桁違いに設計されています。
これらの概念は、専門のデザインエージェント、サロゲートソルバー、および人間の相互作用を活用するための科学的コンピューティングの青写真を提示し、多物理学の革新と発見を促進します。

要約(オリジナル)

Innovation in nanophotonics currently relies on human experts who synergize specialized knowledge in photonics and coding with simulation and optimization algorithms, entailing design cycles that are time-consuming, computationally demanding, and frequently suboptimal. We introduce MetaChat, a multi-agentic design framework that can translate semantically described photonic design goals into high-performance, freeform device layouts in an automated, nearly real-time manner. Multi-step reasoning is enabled by our Agentic Iterative Monologue (AIM) paradigm, which coherently interfaces agents with code-based tools, other specialized agents, and human designers. Design acceleration is facilitated by Feature-wise Linear Modulation-conditioned Maxwell surrogate solvers that support the generalized evaluation of metasurface structures. We use freeform dielectric metasurfaces as a model system and demonstrate with MetaChat the design of multi-objective, multi-wavelength metasurfaces orders of magnitude faster than conventional methods. These concepts present a scientific computing blueprint for utilizing specialist design agents, surrogate solvers, and human interactions to drive multi-physics innovation and discovery.

arxiv情報

著者 Robert Lupoiu,Yixuan Shao,Tianxiang Dai,Chenkai Mao,Kofi Edee,Jonathan A. Fan
発行日 2025-03-26 12:10:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, physics.app-ph, physics.comp-ph | A multi-agentic framework for real-time, autonomous freeform metasurface design はコメントを受け付けていません

Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation

要約

拡散モデルは、テキスト誘導画像翻訳のための多様で高品質の画像の合成において優れた性能を実証しています。
ただし、テキストプロンプトの定式化と参照画像コンテンツの保存の両方に改善の余地が残っています。
第一に、ターゲットテキストプロンプトのバリエーションは、生成された画像の品質に大きく影響する可能性があり、ユーザーが入力画像のコンテンツを完全にキャプチャする最適なプロンプトを作成することはしばしば困難です。
第二に、既存のモデルは参照画像の特定の領域に望ましい変更を導入できますが、変更されていない領域の意図しない変化を頻繁に誘導します。
これらの課題に対処するために、パッチごとの対照的な損失を活用することにより追加のトレーニングの必要性を排除するゼロショット拡散ベースの方法であるPIX2PIX-ZEROCONを提案します。
具体的には、参照画像とターゲットプロンプトに基づいて、テキストの埋め込みスペースの編集方向を自動的に決定します。
さらに、編集された画像で正確なコンテンツと構造的保存を確保するために、事前に訓練された拡散モデル内の生成されたおよび元の画像埋め込みの間に、相互参加ガイドの損失とパッチごとの対照的な損失を導入します。
特に、私たちのアプローチには追加のトレーニングが必要であり、事前に訓練されたテキストからイメージまでの拡散モデルで直接動作します。
広範な実験は、私たちの方法が画像間翻訳の既存のモデルを上回り、忠実度と制御性の向上を達成することを示しています。

要約(オリジナル)

The diffusion model has demonstrated superior performance in synthesizing diverse and high-quality images for text-guided image translation. However, there remains room for improvement in both the formulation of text prompts and the preservation of reference image content. First, variations in target text prompts can significantly influence the quality of the generated images, and it is often challenging for users to craft an optimal prompt that fully captures the content of the input image. Second, while existing models can introduce desired modifications to specific regions of the reference image, they frequently induce unintended alterations in areas that should remain unchanged. To address these challenges, we propose pix2pix-zeroCon, a zero-shot diffusion-based method that eliminates the need for additional training by leveraging patch-wise contrastive loss. Specifically, we automatically determine the editing direction in the text embedding space based on the reference image and target prompts. Furthermore, to ensure precise content and structural preservation in the edited image, we introduce cross-attention guiding loss and patch-wise contrastive loss between the generated and original image embeddings within a pre-trained diffusion model. Notably, our approach requires no additional training and operates directly on a pre-trained text-to-image diffusion model. Extensive experiments demonstrate that our method surpasses existing models in image-to-image translation, achieving enhanced fidelity and controllability.

arxiv情報

著者 Qi Si,Bo Wang,Zhao Zhang
発行日 2025-03-26 12:15:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation はコメントを受け付けていません

Underwater Image Enhancement by Convolutional Spiking Neural Networks

要約

水中画像強化(UIE)は、自律的な視覚ベースのナビゲーションを含む海洋アプリケーションの基本です。
畳み込みニューラルネットワーク(CNN)およびビジョントランスの高度なUIEパフォーマンスを使用した深い学習方法。
最近、スパイクニューラルネットワーク(SNN)は、軽量設計、エネルギー効率、およびスケーラビリティに注目を集めています。
このペーパーでは、水中画像の可視性を改善する最初のSNNベースのUIEアルゴリズムであるUie-SNNを紹介します。
UIE-SNNは、スキップ接続を備えた19層の畳み込みエンコーダーデコーダーフレームワークであり、Sulrogate Gradientベースのバックプロパゲーション(BPTT)戦略を使用して直接トレーニングされています。
エネルギー消費がモデル依存である従来の学習ベースのアーキテクチャとは対照的に、UIE-SNNアーキテクチャのユニークな利点であるエネルギー削減に対するトレーニングデータセットの影響を調査および検証します。
uie-snnは、潜在空間表現の損失関数を最適化して、透明な水中画像を再構築します。
当社のアルゴリズムは、PSNRおよび縮小されたタイムステップ($ t = 5 $)でのPSNRおよび構造類似性インデックス(SSIM)と85ドルのエネルギー消費の観点から、非スパイク対応法と同等の機能で実行されます。
このアルゴリズムは、2つの公開されているベンチマークデータセット、UIEBとEUVPでトレーニングされ、UIEB、EUVP、LSUI、U45、およびカスタムUIEデータセットの目に見えない画像でテストされています。
UIE-SNNアルゴリズムは、\(17.7801〜db \)および\(0.7454 \)のssimのpsnrをuiebで達成し、\(23.1725〜db \)およびssim of \(0.7890 \)の\(23.1725〜db \)のpsnrを達成します。
UIE-SNNは、非スパイクカウンターパート(\(218.88 \)およびエネルギー= \(1.0068〜J \))と比較して、より少ない演算子(\(147.49 \)GSOPS)とエネルギー(\(0.1327〜J \))でこのアルゴリズムパフォーマンスを達成します。
既存のSOTA UIEメソッドと比較して、UIE-SNNはエネルギー効率の平均(6.5 \ Times \)の改善を達成します。
ソースコードは、\ href {https://github.com/vidya-rejul/uie-snn.git} {uie-snn}で利用できます。

要約(オリジナル)

Underwater image enhancement (UIE) is fundamental for marine applications, including autonomous vision-based navigation. Deep learning methods using convolutional neural networks (CNN) and vision transformers advanced UIE performance. Recently, spiking neural networks (SNN) have gained attention for their lightweight design, energy efficiency, and scalability. This paper introduces UIE-SNN, the first SNN-based UIE algorithm to improve visibility of underwater images. UIE-SNN is a 19- layered convolutional spiking encoder-decoder framework with skip connections, directly trained using surrogate gradient-based backpropagation through time (BPTT) strategy. We explore and validate the influence of training datasets on energy reduction, a unique advantage of UIE-SNN architecture, in contrast to the conventional learning-based architectures, where energy consumption is model-dependent. UIE-SNN optimizes the loss function in latent space representation to reconstruct clear underwater images. Our algorithm performs on par with its non-spiking counterpart methods in terms of PSNR and structural similarity index (SSIM) at reduced timesteps ($T=5$) and energy consumption of $85\%$. The algorithm is trained on two publicly available benchmark datasets, UIEB and EUVP, and tested on unseen images from UIEB, EUVP, LSUI, U45, and our custom UIE dataset. The UIE-SNN algorithm achieves PSNR of \(17.7801~dB\) and SSIM of \(0.7454\) on UIEB, and PSNR of \(23.1725~dB\) and SSIM of \(0.7890\) on EUVP. UIE-SNN achieves this algorithmic performance with fewer operators (\(147.49\) GSOPs) and energy (\(0.1327~J\)) compared to its non-spiking counterpart (GFLOPs = \(218.88\) and Energy=\(1.0068~J\)). Compared with existing SOTA UIE methods, UIE-SNN achieves an average of \(6.5\times\) improvement in energy efficiency. The source code is available at \href{https://github.com/vidya-rejul/UIE-SNN.git}{UIE-SNN}.

arxiv情報

著者 Vidya Sudevan,Fakhreddine Zayer,Rizwana Kausar,Sajid Javed,Hamad Karki,Giulia De Masi,Jorge Dias
発行日 2025-03-26 12:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.PF, eess.IV | Underwater Image Enhancement by Convolutional Spiking Neural Networks はコメントを受け付けていません

Towards End-to-End Neuromorphic Voxel-based 3D Object Reconstruction Without Physical Priors

要約

イベントカメラとも呼ばれる神経型カメラは、モーションブラーに苦しむことなく非常に高速な動きをキャプチャできる非同期輝度チェンジセンサーであり、極端な環境での3D再建に特に有望です。
ただし、単眼神経型カメラを使用した3D再建に関する既存の研究は限られており、ほとんどの方法は物理的前症の推定に依存し、複雑なマルチステップパイプラインを採用しています。
この作業では、物理的前症を推定する必要性を排除する神経モルフィカメラを使用して、密なボクセル3D再構成のエンドツーエンドの方法を提案します。
この方法には、エッジ機能を強化するための新しいイベント表現が組み込まれており、提案された機能強化モデルがより効果的に学習できるようにします。
さらに、ベンチマークとしてしきい値の最適化で達成された最適な再構成結果を使用して、将来の関連作業のガイドラインとして最適なバイナリゼーションしきい値選択原則を導入しました。
私たちの方法は、ベースライン法と比較して、再構築の精度が54.6%改善されます。

要約(オリジナル)

Neuromorphic cameras, also known as event cameras, are asynchronous brightness-change sensors that can capture extremely fast motion without suffering from motion blur, making them particularly promising for 3D reconstruction in extreme environments. However, existing research on 3D reconstruction using monocular neuromorphic cameras is limited, and most of the methods rely on estimating physical priors and employ complex multi-step pipelines. In this work, we propose an end-to-end method for dense voxel 3D reconstruction using neuromorphic cameras that eliminates the need to estimate physical priors. Our method incorporates a novel event representation to enhance edge features, enabling the proposed feature-enhancement model to learn more effectively. Additionally, we introduced Optimal Binarization Threshold Selection Principle as a guideline for future related work, using the optimal reconstruction results achieved with threshold optimization as the benchmark. Our method achieves a 54.6% improvement in reconstruction accuracy compared to the baseline method.

arxiv情報

著者 Chuanzhi Xu,Langyi Chen,Haodong Chen,Vera Chung,Qiang Qu
発行日 2025-03-26 12:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards End-to-End Neuromorphic Voxel-based 3D Object Reconstruction Without Physical Priors はコメントを受け付けていません