AI-Driven Code Refactoring: Using Graph Neural Networks to Enhance Software Maintainability

要約

この研究では、グラフニューラルネットワーク(GNNS)をコードリファクタリングの変革ツールとして調査します。抽象的構文ツリー(AST)を使用して、ソフトウェアの保守性を高めます。
CodeSearchNetから200万個のスニペットのデータセットとカスタム75000ファイルのGithub Python Corpusを分析し、GNNをルールベースのSonarqubeとDecision Treesと比較します。
メトリックには、環状複雑さ(10未満のターゲット)、カップリング(5未満のターゲット)、およびリファクタリング精度が含まれます。
GNNSは92%の精度を達成し、複雑さを35%減らし、33%減少し、Sonarqube(78%、16%)と決定木(85%、25%)を上回ります。
前処理は、構文エラーの60%を固定しました。
棒グラフ、テーブル、およびASTビジュアルは結果を明確にします。
これにより、ソフトウェアエンジニアリングに不可欠なクリーンなコードベースへのスケーラブルなAI駆動型パスが提供されます。

要約(オリジナル)

This study explores Graph Neural Networks (GNNs) as a transformative tool for code refactoring, using abstract syntax trees (ASTs) to boost software maintainability. It analyzes a dataset of 2 million snippets from CodeSearchNet and a custom 75000-file GitHub Python corpus, comparing GNNs against rule-based SonarQube and decision trees. Metrics include cyclomatic complexity (target below 10), coupling (target below 5), and refactoring precision. GNNs achieve 92% accuracy, reducing complexity by 35% and coupling by 33%, outperforming SonarQube (78%, 16%) and decision trees (85%, 25%). Preprocessing fixed 60% of syntax errors. Bar graphs, tables, and AST visuals clarify results. This offers a scalable AI-driven path to cleaner codebases, which is crucial for software engineering.

arxiv情報

著者 Gopichand Bandarupalli
発行日 2025-04-14 16:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | AI-Driven Code Refactoring: Using Graph Neural Networks to Enhance Software Maintainability はコメントを受け付けていません

LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

要約

科学方程式の発見は、科学的進歩の歴史の基本的な課題であり、自然現象を管理する法律の導出を可能にします。
最近、大規模な言語モデル(LLM)は、仮説生成のために埋め込まれた科学的知識を活用する可能性があるため、このタスクに関心を集めています。
ただし、既存のベンチマークはLLMSによる暗記の影響を受けやすい一般的な方程式に依存しており、発見を反映しない膨張パフォーマンスメトリックにつながるため、これらのメソッドの真の発見機能を評価することは依然として困難です。
このペーパーでは、LLM-Srbenchを紹介します。これは、LLMベースの科学方程式発見方法を評価するために些細な記憶を防ぐために特別に設計された4つの科学ドメインにわたって239の挑戦的な問題を伴う包括的なベンチマークです。
私たちのベンチマークは、2つの主要なカテゴリで構成されています。LSR-Transformは、一般的な物理モデルをあまり一般的でない数学的表現に変換して、記憶された形式を超えて推論をテストすることと、データ駆動型の推論を必要とする合成の発見主導の問題を導入するLSR-Synthです。
オープンLLMとクローズドLLMの両方を使用して、いくつかの最先端の方法を広範囲に評価することにより、これまでのところ最高のパフォーマンスシステムが31.5%の象徴的な精度しか達成されないことがわかります。
これらの調査結果は、科学的方程式の発見の課題を強調し、LLM-Srbenchを将来の研究の貴重なリソースとして位置づけています。

要約(オリジナル)

Scientific equation discovery is a fundamental task in the history of scientific progress, enabling the derivation of laws governing natural phenomena. Recently, Large Language Models (LLMs) have gained interest for this task due to their potential to leverage embedded scientific knowledge for hypothesis generation. However, evaluating the true discovery capabilities of these methods remains challenging, as existing benchmarks often rely on common equations that are susceptible to memorization by LLMs, leading to inflated performance metrics that do not reflect discovery. In this paper, we introduce LLM-SRBench, a comprehensive benchmark with 239 challenging problems across four scientific domains specifically designed to evaluate LLM-based scientific equation discovery methods while preventing trivial memorization. Our benchmark comprises two main categories: LSR-Transform, which transforms common physical models into less common mathematical representations to test reasoning beyond memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven problems requiring data-driven reasoning. Through extensive evaluation of several state-of-the-art methods, using both open and closed LLMs, we find that the best-performing system so far achieves only 31.5% symbolic accuracy. These findings highlight the challenges of scientific equation discovery, positioning LLM-SRBench as a valuable resource for future research.

arxiv情報

著者 Parshin Shojaee,Ngoc-Hieu Nguyen,Kazem Meidani,Amir Barati Farimani,Khoa D Doan,Chandan K Reddy
発行日 2025-04-14 17:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models はコメントを受け付けていません

Predicting Crack Nucleation and Propagation in Brittle Materials Using Deep Operator Networks with Diverse Trunk Architectures

要約

位相フィールドモデリングは、エネルギーの最小化問題として骨折の問題を再定式化し、アドホックの仮定に依存することなく、亀裂核形成、伝播、マージ、分岐など、破壊プロセスの包括的な特性評価を可能にします。
ただし、位相フィールド骨折問題の数値解は、高い計算コストによって特徴付けられます。
この課題に対処するために、この論文では、ブランチネットワークとトランクネットワークで構成されるディープニューラルオペレーター(DeepONET)を採用して、脆性骨折の問題を解決しています。
トランクネットワーク構成が異なる3つの異なるアプローチを検討します。
最初のアプローチでは、2段階のディープネットの有効性を実証し、学習タスクが簡素化されます。
2番目のアプローチでは、物理学に基づいたディープネットを採用しています。これにより、エネルギーの数学的表現がトランクネットワークの損失に統合され、物理的な一貫性が強化されます。
物理学の統合により、トレーニングに必要なデータサイズが大幅に小さくなります。
3番目のアプローチでは、トランク内のニューラルネットワークをコルモゴロフアーノルドネットワークに置き換え、物理学の損失なしに訓練します。
これらの方法を使用して、規定された末端変位の下で1次元の均質なバーの亀裂核形成をモデル化するだけでなく、張力の伝播と分岐を、張力とせん断荷重にさらされるさまざまなノッチの長さを持つ単一のエッジが発生した標本で分岐します。
ネットワークがソリューションフィールドを正確に予測し、予測フィールドのエラーが亀裂の近くに局在することを示します。

要約(オリジナル)

Phase-field modeling reformulates fracture problems as energy minimization problems and enables a comprehensive characterization of the fracture process, including crack nucleation, propagation, merging, and branching, without relying on ad-hoc assumptions. However, the numerical solution of phase-field fracture problems is characterized by a high computational cost. To address this challenge, in this paper, we employ a deep neural operator (DeepONet) consisting of a branch network and a trunk network to solve brittle fracture problems. We explore three distinct approaches that vary in their trunk network configurations. In the first approach, we demonstrate the effectiveness of a two-step DeepONet, which results in a simplification of the learning task. In the second approach, we employ a physics-informed DeepONet, whereby the mathematical expression of the energy is integrated into the trunk network’s loss to enforce physical consistency. The integration of physics also results in a substantially smaller data size needed for training. In the third approach, we replace the neural network in the trunk with a Kolmogorov-Arnold Network and train it without the physics loss. Using these methods, we model crack nucleation in a one-dimensional homogeneous bar under prescribed end displacements, as well as crack propagation and branching in single edge-notched specimens with varying notch lengths subjected to tensile and shear loading. We show that the networks predict the solution fields accurately, and the error in the predicted fields is localized near the crack.

arxiv情報

著者 Elham Kiyani,Manav Manav,Nikhil Kadivar,Laura De Lorenzis,George Em Karniadakis
発行日 2025-04-14 17:01:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.comp-ph | Predicting Crack Nucleation and Propagation in Brittle Materials Using Deep Operator Networks with Diverse Trunk Architectures はコメントを受け付けていません

Can We Edit LLMs for Long-Tail Biomedical Knowledge?

要約

知識編集は、内部知識を変更することにより、大規模な言語モデル(LLMS)を更新するための効果的なアプローチとして浮上しています。
ただし、生物医学のドメインへの適用は、まれで頻繁な情報が一般的である生物医学的知識の長期尾の分布により、独自の課題に直面しています。
この論文では、最初の包括的な研究を実施して、長期尾の生物医学的知識を編集するための知識編集方法の有効性を調査します。
我々の結果は、既存の編集方法は長期尾の生物医学的知識に対するLLMSのパフォーマンスを向上させることができるが、編集後も長期尾の知識に関するパフォーマンスが高周波の人気知識よりも劣っていることを示しています。
私たちのさらなる分析により、長期尾の生物医学的知識には、1つの主題と関係が複数のオブジェクトにリンクするか、1対多数の知識が含まれていることが明らかになりました。
この1対多くの知識のこの高い有病率は、LLMSの長期尾の生物医学的知識の理解を改善する際の知識編集の有効性を制限し、このパフォーマンスギャップを埋めるためのカスタマイズされた戦略の必要性を強調しています。

要約(オリジナル)

Knowledge editing has emerged as an effective approach for updating large language models (LLMs) by modifying their internal knowledge. However, their application to the biomedical domain faces unique challenges due to the long-tailed distribution of biomedical knowledge, where rare and infrequent information is prevalent. In this paper, we conduct the first comprehensive study to investigate the effectiveness of knowledge editing methods for editing long-tail biomedical knowledge. Our results indicate that, while existing editing methods can enhance LLMs’ performance on long-tail biomedical knowledge, their performance on long-tail knowledge remains inferior to that on high-frequency popular knowledge, even after editing. Our further analysis reveals that long-tail biomedical knowledge contains a significant amount of one-to-many knowledge, where one subject and relation link to multiple objects. This high prevalence of one-to-many knowledge limits the effectiveness of knowledge editing in improving LLMs’ understanding of long-tail biomedical knowledge, highlighting the need for tailored strategies to bridge this performance gap.

arxiv情報

著者 Xinhao Yi,Jake Lever,Kevin Bryson,Zaiqiao Meng
発行日 2025-04-14 17:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can We Edit LLMs for Long-Tail Biomedical Knowledge? はコメントを受け付けていません

LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

要約

大規模な言語モデル(LLM)の最近の進歩により、人間レベルの説得能力にアプローチすることができました。
しかし、このような可能性は、LLM主導の説得の安全リスク、特に操作、欺ception、脆弱性の搾取、および他の多くの有害な戦術による非倫理的な影響の可能性についての懸念も提起します。
この作業では、2つの重要な側面を通じてLLM説得の安全性の体系的な調査を提示します。(1)LLMSが非倫理的な説得タスクを適切に拒否し、実行中の非倫理的戦略を避け、最初の説得目標が倫理的に中立に見える場合を含む、(2)人格の特徴や外部圧力に影響を与える要因に影響を与えるかなど。
この目的のために、3つの段階、すなわち説得シーンの作成、説得力のある会話シミュレーション、説得の安全性評価で構成される説得の安全性の評価のための最初の包括的なフレームワークであるPersuSafetyを紹介します。
Persusafetyは、6つの多様な非倫理的説得のトピックと15の一般的な非倫理的戦略をカバーしています。
広く使用されている8つのLLMにわたる広範な実験を通じて、有害な説得タスクの特定に失敗したり、さまざまな非倫理的説得戦略を活用したりするなど、ほとんどのLLMで重大な安全性の懸念が観察されます。
私たちの研究では、説得などのプログレッシブおよび目標主導の会話の安全性の整合を改善するためにより多くの注意が必要です。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have enabled them to approach human-level persuasion capabilities. However, such potential also raises concerns about the safety risks of LLM-driven persuasion, particularly their potential for unethical influence through manipulation, deception, exploitation of vulnerabilities, and many other harmful tactics. In this work, we present a systematic investigation of LLM persuasion safety through two critical aspects: (1) whether LLMs appropriately reject unethical persuasion tasks and avoid unethical strategies during execution, including cases where the initial persuasion goal appears ethically neutral, and (2) how influencing factors like personality traits and external pressures affect their behavior. To this end, we introduce PersuSafety, the first comprehensive framework for the assessment of persuasion safety which consists of three stages, i.e., persuasion scene creation, persuasive conversation simulation, and persuasion safety assessment. PersuSafety covers 6 diverse unethical persuasion topics and 15 common unethical strategies. Through extensive experiments across 8 widely used LLMs, we observe significant safety concerns in most LLMs, including failing to identify harmful persuasion tasks and leveraging various unethical persuasion strategies. Our study calls for more attention to improve safety alignment in progressive and goal-driven conversations such as persuasion.

arxiv情報

著者 Minqian Liu,Zhiyang Xu,Xinyi Zhang,Heajun An,Sarvech Qadir,Qi Zhang,Pamela J. Wisniewski,Jin-Hee Cho,Sang Won Lee,Ruoxi Jia,Lifu Huang
発行日 2025-04-14 17:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models はコメントを受け付けていません

How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective

要約

推奨システム(RS)は、多くの場合、人気バイアスに悩まされています。
典型的に長尾のデータセットで推奨モデルをトレーニングするとき、モデルはこのバイアスを継承するだけでなく、しばしば悪化させる傾向があり、その結果、推奨リストに人気のあるアイテムが過剰に表現されます。
この研究は、この現象の根本原因を暴露するために包括的な経験的および理論的分析を実施し、2つのコアの洞察をもたらします。1)アイテムの人気は、推奨モデルによって予測されるスコアマトリックスの主要なスペクトルで記憶されます。
2)寸法崩壊現象は、主要なスペクトルの相対的な顕著性を増幅し、それによって人気バイアスを強化します。
これらの洞察に基づいて、私たちは、主要な特異値の大きさを罰するために、スペクトルノーマイライザーを活用する新しい紛争戦略を提案します。
スコアマトリックスのスペクトルプロパティを活用することにより、スペクトル標準の計算を促進するための効率的なアルゴリズムを開発しました。
提案された方法の優位性を検証するために、7つの現実世界のデータセットと3つのテストパラダイムにわたる広範な実験が実施されています。

要約(オリジナル)

Recommendation Systems (RS) are often plagued by popularity bias. When training a recommendation model on a typically long-tailed dataset, the model tends to not only inherit this bias but often exacerbate it, resulting in over-representation of popular items in the recommendation lists. This study conducts comprehensive empirical and theoretical analyses to expose the root causes of this phenomenon, yielding two core insights: 1) Item popularity is memorized in the principal spectrum of the score matrix predicted by the recommendation model; 2) The dimension collapse phenomenon amplifies the relative prominence of the principal spectrum, thereby intensifying the popularity bias. Building on these insights, we propose a novel debiasing strategy that leverages a spectral norm regularizer to penalize the magnitude of the principal singular value. We have developed an efficient algorithm to expedite the calculation of the spectral norm by exploiting the spectral property of the score matrix. Extensive experiments across seven real-world datasets and three testing paradigms have been conducted to validate the superiority of the proposed method.

arxiv情報

著者 Siyi Lin,Chongming Gao,Jiawei Chen,Sheng Zhou,Binbin Hu,Yan Feng,Chun Chen,Can Wang
発行日 2025-04-14 17:40:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective はコメントを受け付けていません

Weight Ensembling Improves Reasoning in Language Models

要約

推論モデルのトレーニング中に発生する障害モードを調査します。そこでは、世代の多様性が崩壊し始め、最適ではないテスト時間スケーリングにつながります。
特に、パス@1レートは、監視されたFinetuning(SFT)中に確実に改善されますが、パス@Kは急速に劣化します。
驚くべきことに、最新のSFTチェックポイントの重みを早期チェックポイント(Wise-ftとも呼ばれる)を補間するという単純な介入は、パス@Kもほぼ完全に回復し、パス@1を改善します。
Wise-ftバリアントは、より良いテスト時間スケーリング(Best@K、多数決)を達成し、強化学習によってさらに調整された場合、より少ないデータで優れた結果を達成します。
最後に、Wise-FTは、温度スケーリングなどの多様性を誘発するデコード戦略によってのみ達成できない補完的なパフォーマンスの向上を提供することがわかります。
テスト分布に対するPass@1の期待と分散に関して、Pass@Kのバイアス分散トレードオフを正式化します。
Wise-ftはバイアスと分散を同時に減らすことができ、温度スケーリングは本質的にバイアスと分散の間のトレードオフを減らすことができます。

要約(オリジナル)

We investigate a failure mode that arises during the training of reasoning models, where the diversity of generations begins to collapse, leading to suboptimal test-time scaling. Notably, the Pass@1 rate reliably improves during supervised finetuning (SFT), but Pass@k rapidly deteriorates. Surprisingly, a simple intervention of interpolating the weights of the latest SFT checkpoint with an early checkpoint, otherwise known as WiSE-FT, almost completely recovers Pass@k while also improving Pass@1. The WiSE-FT variant achieves better test-time scaling (Best@k, majority vote) and achieves superior results with less data when tuned further by reinforcement learning. Finally, we find that WiSE-FT provides complementary performance gains that cannot be achieved only through diversity-inducing decoding strategies, like temperature scaling. We formalize a bias-variance tradeoff of Pass@k with respect to the expectation and variance of Pass@1 over the test distribution. We find that WiSE-FT can reduce bias and variance simultaneously, while temperature scaling inherently trades-off between bias and variance.

arxiv情報

著者 Xingyu Dang,Christina Baek,Kaiyue Wen,Zico Kolter,Aditi Raghunathan
発行日 2025-04-14 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Weight Ensembling Improves Reasoning in Language Models はコメントを受け付けていません

Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study

要約

ハードウェア、コンピューターグラフィックス、AIの最近の開発により、AR/VRヘッドマウントディスプレイ(HMD)がスマートフォンやタブレットなどの日常的なデバイスになることができるようになります。
HMDS内のアイトラッカーは、視線ベースの研究と相互作用を促進することが可能であるため、このようなセットアップに特別な機会を提供します。
ただし、ユーザーの視線情報を見積もるには、多くの場合、ユーザー認証のためのゴールドスタンダード生体認証と見なされるIRISテクスチャを含む生の画像とビデオが必要であり、プライバシーの懸念を引き起こします。
視線追跡コミュニティでの以前の研究は、視線の推定などのユーティリティタスクを正確に保持しながら、虹彩テクスチャの難読化に焦点を当てていました。
これらの試みにもかかわらず、最先端のアプローチを評価する包括的なベンチマークはありません。
このペーパーでは、すべてを考慮して、ぼやけ、ノイシング、ダウンサンプリング、ゴムシートモデル、およびアイリススタイルの転送をベンチマークして、ユーザーのアイデンティティを難読化し、2つのデータセットに対する輸送攻撃のリスクに対する画質、プライバシー、ユーティリティ、リスクに対する影響を比較します。
私たちは、ユーティリティタスクとして目のセグメンテーションと視線の推定を使用し、プライバシー保護の尺度としてIRIS認識の精度の低下、および攻撃のリスクを推定するための誤った受け入れ率を使用します。
私たちの実験は、ぼやけやノイズなどの標準的な画像処理方法が、深い学習ベースのタスクにわずかな影響を与えることを示しています。
ダウンサンプリング、ゴムシートモデル、およびIRISスタイルの転送は、ユーザー識別子の隠れ、IRISスタイルの転送に効果的であり、計算コストが高くなり、両方のユーティリティタスクで他の人を上回り、スプーフィング攻撃に対してより弾力性があります。
私たちの分析は、プライバシー、ユーティリティ、および計算の負担をバランスさせるための普遍的な最適なアプローチがないことを示しています。
したがって、実務家は、各アプローチの長所と短所、および最適なプライバシー効果のトレードオフに到達するために、それらの可能な組み合わせを考慮することをお勧めします。

要約(オリジナル)

Recent developments in hardware, computer graphics, and AI may soon enable AR/VR head-mounted displays (HMDs) to become everyday devices like smartphones and tablets. Eye trackers within HMDs provide a special opportunity for such setups as it is possible to facilitate gaze-based research and interaction. However, estimating users’ gaze information often requires raw eye images and videos that contain iris textures, which are considered a gold standard biometric for user authentication, and this raises privacy concerns. Previous research in the eye-tracking community focused on obfuscating iris textures while keeping utility tasks such as gaze estimation accurate. Despite these attempts, there is no comprehensive benchmark that evaluates state-of-the-art approaches. Considering all, in this paper, we benchmark blurring, noising, downsampling, rubber sheet model, and iris style transfer to obfuscate user identity, and compare their impact on image quality, privacy, utility, and risk of imposter attack on two datasets. We use eye segmentation and gaze estimation as utility tasks, and reduction in iris recognition accuracy as a measure of privacy protection, and false acceptance rate to estimate risk of attack. Our experiments show that canonical image processing methods like blurring and noising cause a marginal impact on deep learning-based tasks. While downsampling, rubber sheet model, and iris style transfer are effective in hiding user identifiers, iris style transfer, with higher computation cost, outperforms others in both utility tasks, and is more resilient against spoof attacks. Our analyses indicate that there is no universal optimal approach to balance privacy, utility, and computation burden. Therefore, we recommend practitioners consider the strengths and weaknesses of each approach, and possible combinations of those to reach an optimal privacy-utility trade-off.

arxiv情報

著者 Mengdi Wang,Efe Bozkir,Enkelejda Kasneci
発行日 2025-04-14 14:29:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study はコメントを受け付けていません

Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures

要約

スパースビューRGB入力からのリアルタイムフリービューのヒューマンレンダリングは、センサー不足と厳しい時間予算のために困難な作業です。
効率を確保するために、最近の方法は、テクスチャスペースで動作する2D CNNを活用して、プリミティブのレンダリングを学習します。
ただし、彼らは幾何学と外観を共同で学習するか、ジオメトリ推定のためのまばらな画像情報を完全に無視し、目に見えない体のポーズに対する視覚的な品質と堅牢性を大幅に害します。
これらの問題に対処するために、コアデンタングルでは、外観合成からの粗い幾何学的変形推定をコアしている二重の未処理のテクスチャを提示し、堅牢でフォトリアリスティックな4Kレンダリングをリアルタイムで可能にします。
具体的には、最初に、最初の未測定のテクスチャーからヒトテンプレートの粗い変形を推定する新しい画像条件付きテンプレート変形ネットワークを導入します。
この更新されたジオメトリは、2番目のより正確なテクスチャの展開を適用するために使用されます。
結果として得られるテクスチャマップは、アーティファクトが少なく、入力ビューとより良い整合性があります。これは、Gaussian Splatsに代表されるより細かいレベルのジオメトリと外観の学習に役立ちます。
定量的および定性的実験における提案された方法の有効性と効率を検証し、他の最先端の方法を大幅に上回ります。
プロジェクトページ:https://vcai.mpi-inf.mpg.de/projects/dut/

要約(オリジナル)

Real-time free-view human rendering from sparse-view RGB inputs is a challenging task due to the sensor scarcity and the tight time budget. To ensure efficiency, recent methods leverage 2D CNNs operating in texture space to learn rendering primitives. However, they either jointly learn geometry and appearance, or completely ignore sparse image information for geometry estimation, significantly harming visual quality and robustness to unseen body poses. To address these issues, we present Double Unprojected Textures, which at the core disentangles coarse geometric deformation estimation from appearance synthesis, enabling robust and photorealistic 4K rendering in real-time. Specifically, we first introduce a novel image-conditioned template deformation network, which estimates the coarse deformation of the human template from a first unprojected texture. This updated geometry is then used to apply a second and more accurate texture unprojection. The resulting texture map has fewer artifacts and better alignment with input views, which benefits our learning of finer-level geometry and appearance represented by Gaussian splats. We validate the effectiveness and efficiency of the proposed method in quantitative and qualitative experiments, which significantly surpasses other state-of-the-art methods. Project page: https://vcai.mpi-inf.mpg.de/projects/DUT/

arxiv情報

著者 Guoxing Sun,Rishabh Dabral,Heming Zhu,Pascal Fua,Christian Theobalt,Marc Habermann
発行日 2025-04-14 14:38:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures はコメントを受け付けていません

LMFormer: Lane based Motion Prediction Transformer

要約

モーション予測は、自律運転において重要な役割を果たします。
この研究では、軌道予測タスクのためのレーン対応トランスネットワークであるLMFormerを示しています。
以前の研究とは対照的に、私たちの研究は、車線に動的に優先順位を付けるための簡単なメカニズムを提供し、そのようなメカニズムがネットワークの学習行動に説明可能性を導入することを示しています。
さらに、LMFormerは、レーン構造の長距離依存関係を学習するために、交差点、レーンマージ、およびレーンスプリットでレーン接続情報を使用します。
さらに、予測された軌道を改良するという問題に対処し、積み重ねられた変圧器層を介した反復精製の効率的な方法を提案します。
ベンチマークについては、NuscenesデータセットのLMFormerを評価し、複数のメトリックでSOTAパフォーマンスを達成することを実証します。
さらに、ディープシナリオデータセットは、クロスダタセットネットワークのパフォーマンスを示すだけでなく、LMFormerの統一機能も示して、複数のデータセットでトレーニングし、パフォーマンスを向上させます。

要約(オリジナル)

Motion prediction plays an important role in autonomous driving. This study presents LMFormer, a lane-aware transformer network for trajectory prediction tasks. In contrast to previous studies, our work provides a simple mechanism to dynamically prioritize the lanes and shows that such a mechanism introduces explainability into the learning behavior of the network. Additionally, LMFormer uses the lane connection information at intersections, lane merges, and lane splits, in order to learn long-range dependency in lane structure. Moreover, we also address the issue of refining the predicted trajectories and propose an efficient method for iterative refinement through stacked transformer layers. For benchmarking, we evaluate LMFormer on the nuScenes dataset and demonstrate that it achieves SOTA performance across multiple metrics. Furthermore, the Deep Scenario dataset is used to not only illustrate cross-dataset network performance but also the unification capabilities of LMFormer to train on multiple datasets and achieve better performance.

arxiv情報

著者 Harsh Yadav,Maximilian Schaefer,Kun Zhao,Tobias Meisen
発行日 2025-04-14 14:43:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | LMFormer: Lane based Motion Prediction Transformer はコメントを受け付けていません