FairSense-AI: Responsible AI Meets Sustainability

要約

この論文では、FairSense-AI:テキストと画像の両方でバイアスを検出および緩和するように設計されたマルチモーダルフレームワークを紹介します。
大規模な言語モデル(LLMS)とビジョン言語モデル(VLM)を活用することにより、フェアセンス – aiは、コンテンツに表示される可能性のある偏見またはステレオタイプの微妙な形を発見し、ユーザーに公平性向上のためのバイアススコア、説明的強調、自動化された推奨事項を提供します。
さらに、FairSense-AIは、MIT AIリスクリポジトリやNIST AIリスク管理フレームワークなどのフレームワークと整合するAIリスク評価コンポーネントを統合し、倫理的および安全性の懸念の構造化された識別を可能にします。
このプラットフォームは、モデルの剪定や混合精度計算などの技術を介してエネルギー効率のために最適化されているため、環境フットプリントが削減されます。
一連のケーススタディとアプリケーションを通じて、公平性の社会的側面と大規模なAIの展開における持続可能性の差し迫った必要性の両方に対処することにより、フェアセンスがどのように責任あるAIの使用を促進するかを示します。
https://vectorinstitute.github.io/fairsense-ai、https://pypi.org/project/fair-sense-ai/

要約(オリジナル)

In this paper, we introduce FairSense-AI: a multimodal framework designed to detect and mitigate bias in both text and images. By leveraging Large Language Models (LLMs) and Vision-Language Models (VLMs), FairSense-AI uncovers subtle forms of prejudice or stereotyping that can appear in content, providing users with bias scores, explanatory highlights, and automated recommendations for fairness enhancements. In addition, FairSense-AI integrates an AI risk assessment component that aligns with frameworks like the MIT AI Risk Repository and NIST AI Risk Management Framework, enabling structured identification of ethical and safety concerns. The platform is optimized for energy efficiency via techniques such as model pruning and mixed-precision computation, thereby reducing its environmental footprint. Through a series of case studies and applications, we demonstrate how FairSense-AI promotes responsible AI use by addressing both the social dimension of fairness and the pressing need for sustainability in large-scale AI deployments. https://vectorinstitute.github.io/FairSense-AI, https://pypi.org/project/fair-sense-ai/ (Sustainability , Responsible AI , Large Language Models , Vision Language Models , Ethical AI , Green AI)

arxiv情報

著者 Shaina Raza,Mukund Sayeeganesh Chettiar,Matin Yousefabadi,Tahniat Khan,Marcelo Lotif
発行日 2025-03-05 16:24:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | FairSense-AI: Responsible AI Meets Sustainability はコメントを受け付けていません

SEB-Naver: A SE(2)-based Local Navigation Framework for Car-like Robots on Uneven Terrain

要約

不均一な地形での自動車のようなロボットの自律的なナビゲーションは、特に移動性評価とモーション計画のための地形関連の運動学モデリングにおいて、フラットな地形と比較してユニークな課題をもたらします。
このペーパーでは、これらの課題を克服するために設計された新規SE(2)ベースのローカルナビゲーションフレームワークであるSeb-Naverを紹介します。
まず、SE(2)グリッドの効率的なトラバース性評価方法を提案し、GPU並列コンピューティングを活用して、ローカルマップのリアルタイムの更新とメンテナンスを可能にします。
第二に、微分の平坦性に触発されて、地形に関連する運動学モデルを統合する最適化ベースの軌道計画方法を提示し、計画効率と軌道の品質の両方を大幅に改善します。
最後に、これらのコンポーネントをSEBネーバーに統合し、リアルタイムの地形評価と軌跡の最適化を達成します。
広範なシミュレーションと現実世界の実験は、アプローチの有効性と効率性を示しています。
コードはhttps://github.com/zju-fast-lab/seb_naverにあります。

要約(オリジナル)

Autonomous navigation of car-like robots on uneven terrain poses unique challenges compared to flat terrain, particularly in traversability assessment and terrain-associated kinematic modelling for motion planning. This paper introduces SEB-Naver, a novel SE(2)-based local navigation framework designed to overcome these challenges. First, we propose an efficient traversability assessment method for SE(2) grids, leveraging GPU parallel computing to enable real-time updates and maintenance of local maps. Second, inspired by differential flatness, we present an optimization-based trajectory planning method that integrates terrain-associated kinematic models, significantly improving both planning efficiency and trajectory quality. Finally, we unify these components into SEB-Naver, achieving real-time terrain assessment and trajectory optimization. Extensive simulations and real-world experiments demonstrate the effectiveness and efficiency of our approach. The code is at https://github.com/ZJU-FAST-Lab/seb_naver.

arxiv情報

著者 Xiaoying Li,Long Xu,Xiaolin Huang,Donglai Xue,Zhihao Zhang,Zhichao Han,Chao Xu,Yanjun Cao,Fei Gao
発行日 2025-03-05 05:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SEB-Naver: A SE(2)-based Local Navigation Framework for Car-like Robots on Uneven Terrain はコメントを受け付けていません

A Multi-Sensor Fusion Approach for Rapid Orthoimage Generation in Large-Scale UAV Mapping

要約

無人航空機(UAV)からの大規模なオルソイメージの急速な生成は、航空マッピングの分野で長年の研究の焦点となっています。
グローバルポジショニングシステム(GPS)、慣性測定ユニット(IMU)、4Dミリ波レーダー、カメラを統合するマルチセンサーUAVシステムは、この問題の効果的な解決策を提供できます。
このホワイトペーパーでは、マルチセンサーデータを利用して、時間性能、システムの堅牢性、および地理的参照精度の観点から、従来のオルソイメージ生成方法の制限を克服します。
一致する速度と精度を高め、必要な機能の数を削減し、運動(SFM)プロセスの構造の正確な参照を提供するために、事前に最適化された機能マッチング方法が導入されています。
提案された方法は、機能のマッチングが難しい農地のような低テクスチャシーンで堅牢性を示します。
実験では、私たちのアプローチが短時間で正確な機能を一致させる正確な機能を達成することを示しています。
提案されたドローンシステムは、農地の検出と管理を効果的に支援します。

要約(オリジナル)

Rapid generation of large-scale orthoimages from Unmanned Aerial Vehicles (UAVs) has been a long-standing focus of research in the field of aerial mapping. A multi-sensor UAV system, integrating the Global Positioning System (GPS), Inertial Measurement Unit (IMU), 4D millimeter-wave radar and camera, can provide an effective solution to this problem. In this paper, we utilize multi-sensor data to overcome the limitations of conventional orthoimage generation methods in terms of temporal performance, system robustness, and geographic reference accuracy. A prior-pose-optimized feature matching method is introduced to enhance matching speed and accuracy, reducing the number of required features and providing precise references for the Structure from Motion (SfM) process. The proposed method exhibits robustness in low-texture scenes like farmlands, where feature matching is difficult. Experiments show that our approach achieves accurate feature matching orthoimage generation in a short time. The proposed drone system effectively aids in farmland detection and management.

arxiv情報

著者 Jialei He,Zhihao Zhan,Zhituo Tu,Xiang Zhu,Jie Yuan
発行日 2025-03-05 03:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | A Multi-Sensor Fusion Approach for Rapid Orthoimage Generation in Large-Scale UAV Mapping はコメントを受け付けていません

Multiaccuracy and Multicalibration via Proxy Groups

要約

予測機械学習アルゴリズムの使用がハイステークスの意思決定で増加するにつれて、これらのアルゴリズムが機密グループ全体で公平であることが不可欠です。
残念ながら、現実世界のアプリケーションの公平性の測定と実施は、機密性の高いグループデータの欠落または不完全なグループのために困難な場合があります。
これらの設定では、パリティベースの公平性の概念のみでのみ、実用的かつ効果的な解決策として、プロキシに敏感な属性が提案されています。
マルチカーシーやマルチブランド化など、より新しい柔軟なフレームワークのための敏感なグループデータが欠落している場合、公平性を評価して制御する方法を知ることは未開拓のままです。
この作業では、敏感なグループデータがない場合、プロキシに敏感な属性を使用して、真のマルチカーシーとマルチカリブリの実用的な上限を導き出し、モデルの潜在的な最悪の場合の公平性違反に関する洞察を提供することを実証することにより、このギャップに対処します。
さらに、モデルを調整して、プロキシに敏感な属性全体でマルチカルチュラシーとマルチローブ化を満たすことが、これらの違反を真の、しかし未知の、敏感なグループに対して大幅に軽減できることを示しています。
実際のデータセットでのいくつかの実験を通じて、敏感なグループ情報が不完全または利用できない場合でも、近似マルチカーシーとマルチキャブラメントを達成できることを示しています。

要約(オリジナル)

As the use of predictive machine learning algorithms increases in high-stakes decision-making, it is imperative that these algorithms are fair across sensitive groups. Unfortunately, measuring and enforcing fairness in real-world applications can be challenging due to missing or incomplete sensitive group data. Proxy-sensitive attributes have been proposed as a practical and effective solution in these settings, but only for parity-based fairness notions. Knowing how to evaluate and control for fairness with missing sensitive group data for newer and more flexible frameworks, such as multiaccuracy and multicalibration, remains unexplored. In this work, we address this gap by demonstrating that in the absence of sensitive group data, proxy-sensitive attributes can provably be used to derive actionable upper bounds on the true multiaccuracy and multicalibration, providing insights into a model’s potential worst-case fairness violations. Additionally, we show that adjusting models to satisfy multiaccuracy and multicalibration across proxy-sensitive attributes can significantly mitigate these violations for the true, but unknown, sensitive groups. Through several experiments on real-world datasets, we illustrate that approximate multiaccuracy and multicalibration can be achieved even when sensitive group information is incomplete or unavailable.

arxiv情報

著者 Beepul Bharti,Mary Versa Clemens-Sewall,Paul H. Yi,Jeremias Sulam
発行日 2025-03-05 04:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Multiaccuracy and Multicalibration via Proxy Groups はコメントを受け付けていません

MCiteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs

要約

マルチモーダル大手言語モデル(MLLM)は、多様なモダリティの統合に進んでいますが、しばしば幻覚に苦しんでいます。
この問題を軽減する有望な解決策は、引用を含むテキストを生成し、検証のための透明なチェーンを提供することです。
ただし、既存の作業は、主にテキストのみのコンテンツの引用の生成に焦点を当てており、マルチモーダルコンテキストの課題と機会を見落としています。
このギャップに対処するために、MLLMSのマルチモーダル引用テキスト生成能力を評価および分析するために設計された最初のベンチマークであるMcIteBenchを紹介します。
私たちのベンチマークは、アカデミックペーパーとレビューとrebuttalの相互作用から派生したデータで構成され、多様な情報源とマルチモーダルコンテンツを備えています。
引用の品質、ソースの信頼性、回答の精度など、複数の次元からモデルを包括的に評価します。
広範な実験を通じて、MLLMはマルチモーダル引用テキスト生成と闘っていることがわかります。
また、モデルのパフォーマンスの深い分析を実施し、ボトルネックがマルチモーダルコンテンツを理解するのではなく、正しいソースに起因することにあることを明らかにしています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have advanced in integrating diverse modalities but frequently suffer from hallucination. A promising solution to mitigate this issue is to generate text with citations, providing a transparent chain for verification. However, existing work primarily focuses on generating citations for text-only content, overlooking the challenges and opportunities of multimodal contexts. To address this gap, we introduce MCiteBench, the first benchmark designed to evaluate and analyze the multimodal citation text generation ability of MLLMs. Our benchmark comprises data derived from academic papers and review-rebuttal interactions, featuring diverse information sources and multimodal content. We comprehensively evaluate models from multiple dimensions, including citation quality, source reliability, and answer accuracy. Through extensive experiments, we observe that MLLMs struggle with multimodal citation text generation. We also conduct deep analyses of models’ performance, revealing that the bottleneck lies in attributing the correct sources rather than understanding the multimodal content.

arxiv情報

著者 Caiyu Hu,Yikai Zhang,Tinghui Zhu,Yiwei Ye,Yanghua Xiao
発行日 2025-03-05 03:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | MCiteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs はコメントを受け付けていません

OkraLong: A Flexible Retrieval-Augmented Framework for Long-Text Query Processing

要約

大規模な言語モデル(LLMS)は、エンタープライズドキュメント分析や財務報告の理解などのアプリケーションで見られるように、長いテキストクエリを効率的に処理する際に課題に遭遇します。
従来のソリューションでは、長いコンテキストの処理または検索の高等発電(RAG)を採用していますが、禁止されている入力費用または不完全な情報に苦しんでいます。
最近の進歩により、コンテキストの圧縮と動的検索ループが採用されていますが、それでも重要な詳細を犠牲にしたり、反復コストを負担したりします。
これらの制限に対処するために、処理ワークフロー全体を柔軟に最適化する新しいフレームワークであるOkralongを提案します。
以前の静的または粗粒の適応戦略とは異なり、Okralongは、アナライザー、オーガナイザー、執行者の3つの相乗効果コンポーネントを通じて微細に粒のオーケストレーションを採用しています。
アナライザーは、ワークフローを動的にスケジュールする際にオーガナイザーを導くタスク状態を特徴付けます。
執行者は実行を実行し、最終的な答えを生成します。
実験結果は、Okralongが回答の精度を高めるだけでなく、さまざまなデータセット全体で費用対効果を達成することを示しています。

要約(オリジナル)

Large Language Models (LLMs) encounter challenges in efficiently processing long-text queries, as seen in applications like enterprise document analysis and financial report comprehension. While conventional solutions employ long-context processing or Retrieval-Augmented Generation (RAG), they suffer from prohibitive input expenses or incomplete information. Recent advancements adopt context compression and dynamic retrieval loops, but still sacrifice critical details or incur iterative costs. To address these limitations, we propose OkraLong, a novel framework that flexibly optimizes the entire processing workflow. Unlike prior static or coarse-grained adaptive strategies, OkraLong adopts fine-grained orchestration through three synergistic components: analyzer, organizer and executor. The analyzer characterizes the task states, which guide the organizer in dynamically scheduling the workflow. The executor carries out the execution and generates the final answer. Experimental results demonstrate that OkraLong not only enhances answer accuracy but also achieves cost-effectiveness across a variety of datasets.

arxiv情報

著者 Yulong Hui,Yihao Liu,Yao Lu,Huanchen Zhang
発行日 2025-03-05 02:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | OkraLong: A Flexible Retrieval-Augmented Framework for Long-Text Query Processing はコメントを受け付けていません

MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment

要約

パーソナライズされた製品検索は、ユーザーの好みと検索意図に合ったアイテムを取得およびランク付けすることを目的としています。
その効果にもかかわらず、既存のアプローチは通常、ユーザーのクエリが実際の動機を完全に捉えていると仮定します。
ただし、現実世界のeコマースプラットフォームの分析により、ユーザーは検索する前に関連する相談に頻繁に関与していることが明らかになり、モチベーションとニーズに基づいて相談を通じて意図を改善することが示されています。
相談における暗黙の動機は、パーソナライズされた検索の重要な強化要因です。
この未開拓の領域には、コンテキストの動機を簡潔なクエリとの調整、カテゴリテキストのギャップの埋め、シーケンス履歴内のフィルタリングノイズなど、新しい課題があります。
これらに対処するために、モチベーションを意図したパーソナライズされた検索(マップ)メソッドを提案します。
クエリと相談をLLMSを介して統一されたセマンティックスペースに埋め込み、注意の専門家(MOAE)の混合物を利用して重要なセマンティクスに優先順位を付け、デュアルアラインメントを導入します。
(2)双方向の注意は、モチベーションに対応する埋め込みとユーザーの好みを統合します。
実際のデータと合成データの広範な実験では、マップが検索タスクとランキングタスクの両方で既存の方法を上回ることを示しています。

要約(オリジナル)

Personalized product search aims to retrieve and rank items that match users’ preferences and search intent. Despite their effectiveness, existing approaches typically assume that users’ query fully captures their real motivation. However, our analysis of a real-world e-commerce platform reveals that users often engage in relevant consultations before searching, indicating they refine intents through consultations based on motivation and need. The implied motivation in consultations is a key enhancing factor for personalized search. This unexplored area comes with new challenges including aligning contextual motivations with concise queries, bridging the category-text gap, and filtering noise within sequence history. To address these, we propose a Motivation-Aware Personalized Search (MAPS) method. It embeds queries and consultations into a unified semantic space via LLMs, utilizes a Mixture of Attention Experts (MoAE) to prioritize critical semantics, and introduces dual alignment: (1) contrastive learning aligns consultations, reviews, and product features; (2) bidirectional attention integrates motivation-aware embeddings with user preferences. Extensive experiments on real and synthetic data show MAPS outperforms existing methods in both retrieval and ranking tasks.

arxiv情報

著者 Weicong Qin,Yi Xu,Weijie Yu,Chenglei Shen,Ming He,Jianping Fan,Xiao Zhang,Jun Xu
発行日 2025-03-05 05:52:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment はコメントを受け付けていません

STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks

要約

スパイクニューラルネットワーク(SNN)は、生物学的妥当性とエネルギー効率のために大きな注目を集めており、人工ニューラルネットワーク(ANN)の有望な代替品になっています。
ただし、SNNとANNSのパフォーマンスギャップは、SNNの広範な採用を妨げる大きな課題のままです。
この論文では、空間的な注意アグリゲーターSNN(STAA-SNN)フレームワークを提案します。これは、空間的依存性と時間的依存関係の両方に動的に焦点を当ててキャプチャします。
まず、SNN専用に設計されたスパイク駆動型の自己触媒メカニズムを紹介します。
さらに、潜在的な時間的関係を着信機能に統合するためのポジションエンコードを先駆的に組み込みます。
空間的情報集約については、ステップに注意を払って、さまざまなステップで関連する機能を選択的に増幅します。
最後に、ローカルオプティマを回避するためのタイムステップのランダムドロップアウト戦略を実装します。
その結果、STAA-SNNは空間的および時間的依存関係の両方を効果的にキャプチャし、モデルが複雑なパターンを分析し、正確な予測を行うことができます。
このフレームワークは、多様なデータセット全体で並外れたパフォーマンスを実証し、強力な一般化機能を示しています。
特に、STAA-SNNは、神経形態のデータセットCIFAR10-DVで最新の結果を達成し、静的データセットCIFAR-10、CIFAR-100、およびイメージェットで97.14%、82.05%、70.40%の顕著なパフォーマンスを実現します。
さらに、私たちのモデルは、0.33 \%から2.80 \%の範囲のパフォーマンスの改善を示し、時間ステップが少なくなります。
モデルのコードはGitHubで入手できます。

要約(オリジナル)

Spiking Neural Networks (SNNs) have gained significant attention due to their biological plausibility and energy efficiency, making them promising alternatives to Artificial Neural Networks (ANNs). However, the performance gap between SNNs and ANNs remains a substantial challenge hindering the widespread adoption of SNNs. In this paper, we propose a Spatial-Temporal Attention Aggregator SNN (STAA-SNN) framework, which dynamically focuses on and captures both spatial and temporal dependencies. First, we introduce a spike-driven self-attention mechanism specifically designed for SNNs. Additionally, we pioneeringly incorporate position encoding to integrate latent temporal relationships into the incoming features. For spatial-temporal information aggregation, we employ step attention to selectively amplify relevant features at different steps. Finally, we implement a time-step random dropout strategy to avoid local optima. As a result, STAA-SNN effectively captures both spatial and temporal dependencies, enabling the model to analyze complex patterns and make accurate predictions. The framework demonstrates exceptional performance across diverse datasets and exhibits strong generalization capabilities. Notably, STAA-SNN achieves state-of-the-art results on neuromorphic datasets CIFAR10-DVS, with remarkable performances of 97.14%, 82.05% and 70.40% on the static datasets CIFAR-10, CIFAR-100 and ImageNet, respectively. Furthermore, our model exhibits improved performance ranging from 0.33\% to 2.80\% with fewer time steps. The code for the model is available on GitHub.

arxiv情報

著者 Tianqing Zhang,Kairong Yu,Xian Zhong,Hongwei Wang,Qi Xu,Qiang Zhang
発行日 2025-03-05 03:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks はコメントを受け付けていません

Near-infrared Image Deblurring and Event Denoising with Synergistic Neuromorphic Imaging

要約

夜間のダイナミックおよびその他の非常に暗い条件におけるイメージングの分野は、近年、印象的で変革的な進歩を見てきました。これは、新しいセンシングアプローチの台頭、たとえば近赤外(NIR)カメラの高感度とイベントカメラを最小限に抑えるイベントカメラの台頭によって推進されています。
ただし、近赤外カメラの不適切な暴露比は、歪みやぼやけの影響を受けやすくなります。
イベントカメラは、夜間の弱い信号にも非常に敏感ですが、干渉する傾向があり、多くの場合、かなりのノイズを生成し、観測と分析を大幅に分解します。
ここでは、NIRイメージングとイベントベースの技術と組み合わせた低光光イメージングの新しいフレームワークを開発します。これは、NIRイメージの脱bluringとイベントの除去を共同で実現できる相乗的神経形成イメージングと呼ばれます。
NIR画像のクロスモーダル機能と、スペクトルの一貫性と高次相互作用を介して目に見えるイベントのクロスモーダル機能を活用して、NIRの画像とイベントは同時に融合、強化、ブートストラップされます。
実際および現実的にシミュレートされたシーケンスの実験は、私たちの方法の有効性を示し、実際のシナリオで他の方法よりも精度と堅牢性が優れていることを示しています。
この研究は、NIRの画像とイベントの両方を強化するための推進力を与えます。

要約(オリジナル)

The fields of imaging in the nighttime dynamic and other extremely dark conditions have seen impressive and transformative advancements in recent years, partly driven by the rise of novel sensing approaches, e.g., near-infrared (NIR) cameras with high sensitivity and event cameras with minimal blur. However, inappropriate exposure ratios of near-infrared cameras make them susceptible to distortion and blur. Event cameras are also highly sensitive to weak signals at night yet prone to interference, often generating substantial noise and significantly degrading observations and analysis. Herein, we develop a new framework for low-light imaging combined with NIR imaging and event-based techniques, named synergistic neuromorphic imaging, which can jointly achieve NIR image deblurring and event denoising. Harnessing cross-modal features of NIR images and visible events via spectral consistency and higher-order interaction, the NIR images and events are simultaneously fused, enhanced, and bootstrapped. Experiments on real and realistically simulated sequences demonstrate the effectiveness of our method and indicate better accuracy and robustness than other methods in practical scenarios. This study gives impetus to enhance both NIR images and events, which paves the way for high-fidelity low-light imaging and neuromorphic reasoning.

arxiv情報

著者 Chao Qu,Shuo Zhu,Yuhang Wang,Zongze Wu,Xiaoyu Chen,Edmund Y. Lam,Jing Han
発行日 2025-03-05 03:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Near-infrared Image Deblurring and Event Denoising with Synergistic Neuromorphic Imaging はコメントを受け付けていません

ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points

要約

アーキテクチャプログラムに基づいて構築された新しい学習フレームワークであるArcproを紹介し、非常にまばらで低品質のポイント雲から構造化された3D抽象化を回復します。
具体的には、ドメイン固有の言語(DSL)を設計して、プログラムとして構築構造を階層的に表現し、メッシュに効率的に変換できます。
フィードフォワードプロセスを使用してデータ合成をトレーニングし、ネットワークが逆予測を行うことを可能にすることにより、フィードフォワードおよび逆手続きモデリングを橋渡しします。
ポイントプログラムペアでエンコーダーデコーダーをトレーニングして、非構造化ポイントクラウドからアーキテクチャプログラムへのマッピングを確立します。3D畳み込みエンコーダがポイントクラウド機能を抽出し、トランスデコーダーがトークン化されたフォームのプログラムを自動再生します。
私たちの方法による推論は非常に効率的であり、もっともらしく忠実な3D抽象化を生成します。
包括的な実験は、Arcproが従来の建築プロキシの再構成と学習ベースの抽象化方法の両方を上回ることを示しています。
さらに、マルチビューイメージと自然言語の入力を使用する可能性をさらに調査します。

要約(オリジナル)

We introduce ArcPro, a novel learning framework built on architectural programs to recover structured 3D abstractions from highly sparse and low-quality point clouds. Specifically, we design a domain-specific language (DSL) to hierarchically represent building structures as a program, which can be efficiently converted into a mesh. We bridge feedforward and inverse procedural modeling by using a feedforward process for training data synthesis, allowing the network to make reverse predictions. We train an encoder-decoder on the points-program pairs to establish a mapping from unstructured point clouds to architectural programs, where a 3D convolutional encoder extracts point cloud features and a transformer decoder autoregressively predicts the programs in a tokenized form. Inference by our method is highly efficient and produces plausible and faithful 3D abstractions. Comprehensive experiments demonstrate that ArcPro outperforms both traditional architectural proxy reconstruction and learning-based abstraction methods. We further explore its potential to work with multi-view image and natural language inputs.

arxiv情報

著者 Qirui Huang,Runze Zhang,Kangjun Liu,Minglun Gong,Hao Zhang,Hui Huang
発行日 2025-03-05 04:49:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points はコメントを受け付けていません