Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs

要約

大規模な言語モデル(LLMS)では、コードと推論が互いに強化されます。コードは、推論をサポートする抽象、モジュール式、ロジック駆動型の構造を提供します。一方、推論は、高レベルの目標を、より高度なコードインテリジェンスを促進するより小さな実行可能なステップに変換します。
この研究では、コードが推論を強化するための構造化された媒体としてどのように機能するかを調べます。検証可能な実行パスを提供し、論理的な分解を実施し、ランタイム検証を可能にします。
また、推論の改善がコードインテリジェンスを基本的な完了から高度な機能に変換し、モデルが計画とデバッグを通じて複雑なソフトウェアエンジニアリングタスクに対処できるようにする方法を探ります。
最後に、私たちは重要な課題を特定し、この相乗効果を強化するために将来の研究の方向性を提案し、最終的に両方の分野でのLLMのパフォーマンスを改善します。

要約(オリジナル)

In large language models (LLMs), code and reasoning reinforce each other: code offers an abstract, modular, and logic-driven structure that supports reasoning, while reasoning translates high-level goals into smaller, executable steps that drive more advanced code intelligence. In this study, we examine how code serves as a structured medium for enhancing reasoning: it provides verifiable execution paths, enforces logical decomposition, and enables runtime validation. We also explore how improvements in reasoning have transformed code intelligence from basic completion to advanced capabilities, enabling models to address complex software engineering tasks through planning and debugging. Finally, we identify key challenges and propose future research directions to strengthen this synergy, ultimately improving LLM’s performance in both areas.

arxiv情報

著者 Dayu Yang,Tianyang Liu,Daoan Zhang,Antoine Simoulin,Xiaoyi Liu,Yuwei Cao,Zhaopu Teng,Xin Qian,Grey Yang,Jiebo Luo,Julian McAuley
発行日 2025-02-26 18:55:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs はコメントを受け付けていません

Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy

要約

最近の大規模な言語モデル(LLMS)の顕著な進歩により、トレーニングデータの外側にある非常に敏感なデータを持つドメインでそれらを利用することに関心が高まっています。
この目的のために、検索された生成(RAG)は特に効果的です。外部の知識ソースから関連情報を直接提供することでLLMSを支援します。
ただし、追加のプライバシーセーフガードがなければ、RAGは外部データソースから機密情報を漏らすリスクを出力します。
この作業では、データプライバシーの正式な保証である差動プライバシー(DP)の下でRAGを探ります。
差別的にプライベートなぼろきれを伴う主な課題は、中程度のプライバシー予算内で長い正確な回答を生成する方法です。
これに対処し、機密情報を必要とし、他のトークンに非プライベートLLMを使用するトークンにのみプライバシー予算をスマートに費やすアルゴリズムを提案します。
当社の広範な経験的評価は、私たちのアルゴリズムが、異なるモデルとデータセットにわたって$ \ epsilon \約10ドルの合理的なプライバシー予算の下で、非ラグベースラインを上回ることを明らかにしています。

要約(オリジナル)

With the recent remarkable advancement of large language models (LLMs), there has been a growing interest in utilizing them in the domains with highly sensitive data that lies outside their training data. For this purpose, retrieval-augmented generation (RAG) is particularly effective — it assists LLMs by directly providing relevant information from the external knowledge sources. However, without extra privacy safeguards, RAG outputs risk leaking sensitive information from the external data source. In this work, we explore RAG under differential privacy (DP), a formal guarantee of data privacy. The main challenge with differentially private RAG is how to generate long accurate answers within a moderate privacy budget. We address this by proposing an algorithm that smartly spends privacy budget only for the tokens that require the sensitive information and uses the non-private LLM for other tokens. Our extensive empirical evaluations reveal that our algorithm outperforms the non-RAG baseline under a reasonable privacy budget of $\epsilon\approx 10$ across different models and datasets.

arxiv情報

著者 Tatsuki Koga,Ruihan Wu,Kamalika Chaudhuri
発行日 2025-02-26 18:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy はコメントを受け付けていません

Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

要約

ペイウォール、ライセンス、著作権規則は、多くの場合、科学的知識の広範な普及と再利用を制限します。
私たちは、学術的なテキストで科学的知識を抽出することが法的および技術的に実行可能であるという立場をとっています。
テキストの埋め込みなどの現在の方法は、事実上の内容を確実に保存することができず、単純な言い換えは法的に健全ではないかもしれません。
コミュニティに、新しいアイデアを採用するように促します。学術文書をLLMSを使用して知識単位に変換します。
これらのユニットは、スタイルコンテンツのないエンティティ、属性、および関係をキャプチャする構造化データを使用します。
(1)ドイツの著作権法と米国のフェアユースの教義の法的分析に基づいて、著作権で保護された研究テキストから知識を共有するための法的防御可能なフレームワークを形成し、(2)元のテキストからのMCQパフォーマンスによって測定された元のテキストからのほとんど(〜95%)の事実知識を4つの研究領域にまたがって著作権を獲得したテキストから測定します。
著作権から科学的知識を解放することは、言語モデルが著作権で保護されたテキストから重要な事実を再利用できるようにすることにより、科学的研究と教育の変革的利益を約束します。
これをサポートするために、研究文書を知識単位に変換するためのオープンソースツールを共有します。
全体として、私たちの仕事は、著作権を尊重しながら、科学的知識へのアクセスを民主化することの実現可能性を仮定しています。

要約(オリジナル)

Paywalls, licenses and copyright rules often restrict the broad dissemination and reuse of scientific knowledge. We take the position that it is both legally and technically feasible to extract the scientific knowledge in scholarly texts. Current methods, like text embeddings, fail to reliably preserve factual content, and simple paraphrasing may not be legally sound. We urge the community to adopt a new idea: convert scholarly documents into Knowledge Units using LLMs. These units use structured data capturing entities, attributes and relationships without stylistic content. We provide evidence that Knowledge Units: (1) form a legally defensible framework for sharing knowledge from copyrighted research texts, based on legal analyses of German copyright law and U.S. Fair Use doctrine, and (2) preserve most (~95%) factual knowledge from original text, measured by MCQ performance on facts from the original copyrighted text across four research domains. Freeing scientific knowledge from copyright promises transformative benefits for scientific research and education by allowing language models to reuse important facts from copyrighted text. To support this, we share open-source tools for converting research documents into Knowledge Units. Overall, our work posits the feasibility of democratizing access to scientific knowledge while respecting copyright.

arxiv情報

著者 Christoph Schuhmann,Gollam Rabby,Ameya Prabhu,Tawsif Ahmed,Andreas Hochlehnert,Huu Nguyen,Nick Akinci Heidrich,Ludwig Schmidt,Robert Kaczmarczyk,Sören Auer,Jenia Jitsev,Matthias Bethge
発行日 2025-02-26 18:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs はコメントを受け付けていません

Norm Growth and Stability Challenges in Localized Sequential Knowledge Editing

要約

この調査では、ローカライズされた更新が大規模な言語モデル(LLMS)に、特に知識編集のコンテキストでの影響を調査します。これは、より広範なモデル機能を変更することなく特定の事実を組み込むまたは変更することを目的としたタスクです。
まず、継続的なトレーニング、完全な微調整、ロラベースの微調整などのさまざまなトレーニング後の介入にわたって、更新されたマトリックスのフロベニウス規範が常に増加することを示します。
この標準の増加は、モデルでマトリックスのサブセットのみが更新されるローカライズされた知識編集に特に有害です。
微調整、ハイパーネットワークベースのアプローチ、位置と編集の方法など、さまざまな編集技術にわたって一貫した現象を明らかにします。
このような成長は、特に分離されたマトリックスが更新され、モデルの残りの部分が静的なままである場合、モデルのバランスを破壊し、潜在的な不安定性と下流のパフォーマンスの低下につながります。
中間活性化ベクトルをより深く調査すると、内部活性化の標準が減少し、これらの活性化が占める部分空間のシフトが伴うことがわかります。
私たちの論文では、継続的かつローカライズされた順次知識の編集と、モデルの安定性と有用性を維持するためのその意味で、技術的な課題を強調しています。

要約(オリジナル)

This study investigates the impact of localized updates to large language models (LLMs), specifically in the context of knowledge editing – a task aimed at incorporating or modifying specific facts without altering broader model capabilities. We first show that across different post-training interventions like continuous pre-training, full fine-tuning and LORA-based fine-tuning, the Frobenius norm of the updated matrices always increases. This increasing norm is especially detrimental for localized knowledge editing, where only a subset of matrices are updated in a model . We reveal a consistent phenomenon across various editing techniques, including fine-tuning, hypernetwork-based approaches, and locate-and-edit methods: the norm of the updated matrix invariably increases with successive updates. Such growth disrupts model balance, particularly when isolated matrices are updated while the rest of the model remains static, leading to potential instability and degradation of downstream performance. Upon deeper investigations of the intermediate activation vectors, we find that the norm of internal activations decreases and is accompanied by shifts in the subspaces occupied by these activations, which shows that these activation vectors now occupy completely different regions in the representation space compared to the unedited model. With our paper, we highlight the technical challenges with continuous and localized sequential knowledge editing and their implications for maintaining model stability and utility.

arxiv情報

著者 Akshat Gupta,Christine Fang,Atahan Ozdemir,Maochuan Lu,Ahmed Alaa,Thomas Hartvigsen,Gopala Anumanchipalli
発行日 2025-02-26 18:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Norm Growth and Stability Challenges in Localized Sequential Knowledge Editing はコメントを受け付けていません

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

要約

オープンワールド設定でさまざまなタスクを実行できるジェネラリストロボットは、目標を達成するために必要な手順についての理由だけでなく、タスクの実行中に複雑な命令、プロンプト、さらにはフィードバックを処理できる必要があります。
複雑な指示(たとえば、「私にベジタリアンのサンドイッチを作っていただけませんか?」または「私はそれが好きではありません」)には、個々のステップを物理的に実行する能力だけでなく、物理的な世界で複雑なコマンドとフィードバックを配置する能力が必要です。
この作業では、階層構造でビジョン言語モデルを使用するシステム、複雑なプロンプトに対する最初の推論とユーザーフィードバックを使用して、タスクを満たすための最も適切な次のステップを推定し、低レベルのアクションでそのステップを実行するシステムについて説明します。
単純なコマンドを満たすことができる直接的な指示に従うこととは対照的に(「カップをピックアップする」)、システムは複雑なプロンプトを介して推論し、タスクの実行中に状況フィードバックを組み込むことができます(「それはゴミではない」)。
シングルアーム、デュアルアーム、デュアルアームモバイルロボットを含む3つのロボットプラットフォームでシステムを評価し、乱雑なテーブルのクリーニング、サンドイッチ、食料品の買い物などのタスクを処理する能力を実証します。

要約(オリジナル)

Generalist robots that can perform a range of different tasks in open-world settings must be able to not only reason about the steps needed to accomplish their goals, but also process complex instructions, prompts, and even feedback during task execution. Intricate instructions (e.g., ‘Could you make me a vegetarian sandwich?’ or ‘I don’t like that one’) require not just the ability to physically perform the individual steps, but the ability to situate complex commands and feedback in the physical world. In this work, we describe a system that uses vision-language models in a hierarchical structure, first reasoning over complex prompts and user feedback to deduce the most appropriate next step to fulfill the task, and then performing that step with low-level actions. In contrast to direct instruction following methods that can fulfill simple commands (‘pick up the cup’), our system can reason through complex prompts and incorporate situated feedback during task execution (‘that’s not trash’). We evaluate our system across three robotic platforms, including single-arm, dual-arm, and dual-arm mobile robots, demonstrating its ability to handle tasks such as cleaning messy tables, making sandwiches, and grocery shopping.

arxiv情報

著者 Lucy Xiaoyang Shi,Brian Ichter,Michael Equi,Liyiming Ke,Karl Pertsch,Quan Vuong,James Tanner,Anna Walling,Haohuan Wang,Niccolo Fusai,Adrian Li-Bell,Danny Driess,Lachy Groom,Sergey Levine,Chelsea Finn
発行日 2025-02-26 18:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models はコメントを受け付けていません

R.I.P.: Better Models by Survival of the Fittest Prompts

要約

トレーニングデータ品質は、最終的なモデル品質の最も重要なドライバーの1つです。
この作業では、低品質の入力プロンプトが高い分散と低品質の応答をもたらすという仮定に基づいて、データの整合性を評価する方法を紹介します。
これは、拒否された応答の品質と、選択された選好ペアと拒否された選好ペアの間の報酬のギャップを測定することによって達成されます。
私たちの方法、拒否命令の好み(RIP)を使用して、既存のトレーニングセットからのプロンプトをフィルタリングしたり、高品質の合成データセットを作成して、フィルター処理されていないデータと比較してさまざまなベンチマークで大きなパフォーマンスの向上をもたらします。
llama 3.1-8b-instructを使用して、RIPはAlpacaeval2 LCの勝利率を9.4%、アリーナハードは8.7%、Wildbenchは9.9%改善します。
llama 3.3-70b-instructを使用して、RIPはリーダーボードで18位から6位から6位までのアリーナハードを67.5から82.9に改善します。

要約(オリジナル)

Training data quality is one of the most important drivers of final model quality. In this work, we introduce a method for evaluating data integrity based on the assumption that low-quality input prompts result in high variance and low quality responses. This is achieved by measuring the rejected response quality and the reward gap between the chosen and rejected preference pair. Our method, Rejecting Instruction Preferences (RIP) can be used to filter prompts from existing training sets, or to make high quality synthetic datasets, yielding large performance gains across various benchmarks compared to unfiltered data. Using Llama 3.1-8B-Instruct, RIP improves AlpacaEval2 LC Win Rate by 9.4%, Arena-Hard by 8.7%, and WildBench by 9.9%. Using Llama 3.3-70B-Instruct, RIP improves Arena-Hard from 67.5 to 82.9, which is from 18th place to 6th overall in the leaderboard.

arxiv情報

著者 Ping Yu,Weizhe Yuan,Olga Golovneva,Tianhao Wu,Sainbayar Sukhbaatar,Jason Weston,Jing Xu
発行日 2025-02-26 18:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | R.I.P.: Better Models by Survival of the Fittest Prompts はコメントを受け付けていません

The Prompt Report: A Systematic Survey of Prompt Engineering Techniques

要約

生成人工知能(GENAI)システムは、多様な産業や研究領域全体にますます展開されています。
開発者とエンドユーザーは、プロンプトとプロンプトエンジニアリングを使用して、これらのシステムと対話します。
迅速なエンジニアリングは広く採用され、広範囲に研究されている分野ですが、対立する用語と、比較的最近の出現により効果的なプロンプトを構成するものの断片化された存在論的理解に苦しんでいます。
プロンプトの技術の分類を組み立て、そのアプリケーションを分析することにより、迅速なエンジニアリングの構造化された理解を確立します。
33の語彙用語の詳細な語彙、58 LLMプロンプトの技術の分類、および他のモダリティの40のテクニックを提示します。
さらに、CHATGPTなどの最先端(SOTA)LLMを促すためのアドバイスなど、迅速なエンジニアリングのベストプラクティスとガイドラインを提供しています。
さらに、自然言語の接頭辞プロムティングに関する文献全体のメタ分析を提示します。
これらの取り組みの集大成として、このペーパーでは、これまでの迅速なエンジニアリングに関する最も包括的な調査を提示します。

要約(オリジナル)

Generative Artificial Intelligence (GenAI) systems are increasingly being deployed across diverse industries and research domains. Developers and end-users interact with these systems through the use of prompting and prompt engineering. Although prompt engineering is a widely adopted and extensively researched area, it suffers from conflicting terminology and a fragmented ontological understanding of what constitutes an effective prompt due to its relatively recent emergence. We establish a structured understanding of prompt engineering by assembling a taxonomy of prompting techniques and analyzing their applications. We present a detailed vocabulary of 33 vocabulary terms, a taxonomy of 58 LLM prompting techniques, and 40 techniques for other modalities. Additionally, we provide best practices and guidelines for prompt engineering, including advice for prompting state-of-the-art (SOTA) LLMs such as ChatGPT. We further present a meta-analysis of the entire literature on natural language prefix-prompting. As a culmination of these efforts, this paper presents the most comprehensive survey on prompt engineering to date.

arxiv情報

著者 Sander Schulhoff,Michael Ilie,Nishant Balepur,Konstantine Kahadze,Amanda Liu,Chenglei Si,Yinheng Li,Aayush Gupta,HyoJung Han,Sevien Schulhoff,Pranav Sandeep Dulepet,Saurav Vidyadhara,Dayeon Ki,Sweta Agrawal,Chau Pham,Gerson Kroiz,Feileen Li,Hudson Tao,Ashay Srivastava,Hevander Da Costa,Saloni Gupta,Megan L. Rogers,Inna Goncearenco,Giuseppe Sarli,Igor Galynker,Denis Peskoff,Marine Carpuat,Jules White,Shyamal Anadkat,Alexander Hoyle,Philip Resnik
発行日 2025-02-26 18:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The Prompt Report: A Systematic Survey of Prompt Engineering Techniques はコメントを受け付けていません

The NeRF Signature: Codebook-Aided Watermarking for Neural Radiance Fields

要約

ニューラル放射輝度(NERF)は、3Dコンテンツ表現の重要な形態として注目を集めています。
NERFベースの創造物の急増により、著作権保護の必要性が重要な問題として浮上しています。
デジタル透かしをnerfに埋め込むためのいくつかのアプローチが提案されていますが、しばしば重要なモデルレベルの考慮事項を無視し、かなりの時間オーバーヘッドを発生させ、ユーザーの不便とともに知覚性と堅牢性の低下をもたらします。
このホワイトペーパーでは、画像の透かしに関する以前の基準をモデルレベルに拡張し、NERFの新しい透かし療法方法であるNerf Signatureを提案します。
モデル構造を変更しないコードブック支援署名埋め込み(CSE)を使用して、モデルレベルでの知覚性と堅牢性の向上を維持します。
さらに、最適化後、CSEを介して目的の署名を埋め込むことができ、NERFの所有者が新しいバイナリ署名を使用する場合は微調整は必要ありません。
次に、署名を特定の視点からより高い堅牢性のためにレンダリングするパッチに署名を隠すために、共同ポーズパッチの暗号化暗号化透かし戦略を導入します。
さらに、知覚性を高めるために、高い視覚的複雑さパッチに署名を埋め込む複雑さを意識したキー選択(CAKS)スキームを探ります。
実験結果は、私たちの方法が、知覚性と堅牢性の観点から他のベースライン方法よりも優れていることを示しています。
ソースコードは、https://github.com/luo-ziyuan/nerf_signatureで入手できます。

要約(オリジナル)

Neural Radiance Fields (NeRF) have been gaining attention as a significant form of 3D content representation. With the proliferation of NeRF-based creations, the need for copyright protection has emerged as a critical issue. Although some approaches have been proposed to embed digital watermarks into NeRF, they often neglect essential model-level considerations and incur substantial time overheads, resulting in reduced imperceptibility and robustness, along with user inconvenience. In this paper, we extend the previous criteria for image watermarking to the model level and propose NeRF Signature, a novel watermarking method for NeRF. We employ a Codebook-aided Signature Embedding (CSE) that does not alter the model structure, thereby maintaining imperceptibility and enhancing robustness at the model level. Furthermore, after optimization, any desired signatures can be embedded through the CSE, and no fine-tuning is required when NeRF owners want to use new binary signatures. Then, we introduce a joint pose-patch encryption watermarking strategy to hide signatures into patches rendered from a specific viewpoint for higher robustness. In addition, we explore a Complexity-Aware Key Selection (CAKS) scheme to embed signatures in high visual complexity patches to enhance imperceptibility. The experimental results demonstrate that our method outperforms other baseline methods in terms of imperceptibility and robustness. The source code is available at: https://github.com/luo-ziyuan/NeRF_Signature.

arxiv情報

著者 Ziyuan Luo,Anderson Rocha,Boxin Shi,Qing Guo,Haoliang Li,Renjie Wan
発行日 2025-02-26 13:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The NeRF Signature: Codebook-Aided Watermarking for Neural Radiance Fields はコメントを受け付けていません

SCA3D: Enhancing Cross-modal 3D Retrieval via 3D Shape and Caption Paired Data Augmentation

要約

クロスモーダル3D検索タスクは、テキストの説明と3D形状の間の相互マッチングを達成することを目的としています。
これは、特にロボット工学と具体化された人工知能(AI)アプリケーションの領域内で、自然言語と3D環境の間の相互作用を強化する可能性があります。
ただし、3Dデータの希少性と費用は、既存のクロスモーダル3D検索方法のパフォーマンスを制約します。
これらの方法は、限られた数の3D形状から派生した機能に大きく依存しており、その結果、多様なシナリオ全体で一般化能力が低下します。
この課題に対処するために、クロスモーダル3D検索のための新しい3D形状とキャプションオンラインデータ増強方法であるSCA3Dを紹介します。
私たちのアプローチでは、LLAVAモデルを使用してコンポーネントライブラリを作成し、データセット内のすべての3D形状の各セグメント化された部分にキャプションを付けます。
特に、新しいセマンティック機能を含む広範な新しい3Dテキストペアの生成を促進します。
インター距離と内部の両方の距離を使用して、さまざまなコンポーネントを新しい3D形状に揃えて、コンポーネントが重複せず、密接に適合していることを確認します。
さらに、テキストテンプレートを使用して、各コンポーネントのキャプションを処理し、新しいテキストの説明を生成します。
また、Unimodalエンコーダーを使用して、濃縮データセットに基づいて3D形状とテキストの埋め込みを抽出します。
次に、Earth Moverの距離(EMD)を使用して細粒のクロスモーダル類似性を計算し、対照学習とクロスモーダルマッチングを強化し、テキストと3D形状の間の双方向の検索を可能にします。
広範な実験では、SCA3DがText2shape Datasetで以前の作業を上回ることを示しており、20.03から27.22に形状からテキストのRR@1スコア、および13.12から16.67のテキストツーシェイプRR@1スコアを上げます。
コードはhttps://github.com/3dagentworld/sca3dにあります。

要約(オリジナル)

The cross-modal 3D retrieval task aims to achieve mutual matching between text descriptions and 3D shapes. This has the potential to enhance the interaction between natural language and the 3D environment, especially within the realms of robotics and embodied artificial intelligence (AI) applications. However, the scarcity and expensiveness of 3D data constrain the performance of existing cross-modal 3D retrieval methods. These methods heavily rely on features derived from the limited number of 3D shapes, resulting in poor generalization ability across diverse scenarios. To address this challenge, we introduce SCA3D, a novel 3D shape and caption online data augmentation method for cross-modal 3D retrieval. Our approach uses the LLaVA model to create a component library, captioning each segmented part of every 3D shape within the dataset. Notably, it facilitates the generation of extensive new 3D-text pairs containing new semantic features. We employ both inter and intra distances to align various components into a new 3D shape, ensuring that the components do not overlap and are closely fitted. Further, text templates are utilized to process the captions of each component and generate new text descriptions. Besides, we use unimodal encoders to extract embeddings for 3D shapes and texts based on the enriched dataset. We then calculate fine-grained cross-modal similarity using Earth Mover’s Distance (EMD) and enhance cross-modal matching with contrastive learning, enabling bidirectional retrieval between texts and 3D shapes. Extensive experiments show our SCA3D outperforms previous works on the Text2Shape dataset, raising the Shape-to-Text RR@1 score from 20.03 to 27.22 and the Text-to-Shape RR@1 score from 13.12 to 16.67. Codes can be found in https://github.com/3DAgentWorld/SCA3D.

arxiv情報

著者 Junlong Ren,Hao Wu,Hui Xiong,Hao Wang
発行日 2025-02-26 13:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SCA3D: Enhancing Cross-modal 3D Retrieval via 3D Shape and Caption Paired Data Augmentation はコメントを受け付けていません

RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features

要約

レーダーデータの固有のノイズの多い特性は、3Dオブジェクト検出の効果的な表現を見つける上で課題をもたらします。
この論文では、Ladardistillを提案します。Radardistillは、Ladardistillを提案します。これは、Lidarデータを活用することでレーダーデータの表現を改善できる新しい知識蒸留(KD)メソッドです。
Radardistillは、Cross-Modality Alignment(CMA)、アクティベーションベースの特徴蒸留(AFD)、および提案ベースの特徴蒸留(PFD)の3つの重要なコンポーネントを使用して、LIDAR機能の望ましい特性をレーダー機能に成功裏に転送します。
CMAは、複数の層の拡張操作を使用することにより、レーダー機能の密度を高め、Lidarからレーダーへの非効率的な知識移転の課題に効果的に対処します。
AFDは、ライダー機能の領域に基づいて知識を選択的に転送し、活性化強度が事前定義されたしきい値を超える領域に特に焦点を当てています。
同様に、PFDはレーダーネットワークをガイドして、オブジェクト提案内のLIDARネットワークから機能を選択的に模倣します。
Nuscenesデータセットで実施された比較分析は、RadardistillがRadarのみのオブジェクト検出タスクの最先端(SOTA)パフォーマンスを達成し、MAPで20.5%、NDSで43.7%を記録することを示しています。
また、Radardistillは、カメラレーダー融合モデルのパフォーマンスを大幅に向上させます。

要約(オリジナル)

The inherent noisy and sparse characteristics of radar data pose challenges in finding effective representations for 3D object detection. In this paper, we propose RadarDistill, a novel knowledge distillation (KD) method, which can improve the representation of radar data by leveraging LiDAR data. RadarDistill successfully transfers desirable characteristics of LiDAR features into radar features using three key components: Cross-Modality Alignment (CMA), Activation-based Feature Distillation (AFD), and Proposal-based Feature Distillation (PFD). CMA enhances the density of radar features by employing multiple layers of dilation operations, effectively addressing the challenge of inefficient knowledge transfer from LiDAR to radar. AFD selectively transfers knowledge based on regions of the LiDAR features, with a specific focus on areas where activation intensity exceeds a predefined threshold. PFD similarly guides the radar network to selectively mimic features from the LiDAR network within the object proposals. Our comparative analyses conducted on the nuScenes datasets demonstrate that RadarDistill achieves state-of-the-art (SOTA) performance for radar-only object detection task, recording 20.5% in mAP and 43.7% in NDS. Also, RadarDistill significantly improves the performance of the camera-radar fusion model.

arxiv情報

著者 Geonho Bang,Kwangjin Choi,Jisong Kim,Dongsuk Kum,Jun Won Choi
発行日 2025-02-26 13:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features はコメントを受け付けていません