ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models

要約

視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習する際に、拡散ベースのテキストからイメージ(T2I)モデルなどの最新の生成モデルに大きな課題をもたらします。
既存の方法には、解釈可能な根本的な本質的な概念を確実に抽出する体系的な方法がありません。
この課題に対処するために、T2Iモデルのみを使用して単一の画像から固有の概念を自動的に体系的に抽出する新しいフレームワークである、本質的な概念抽出の略で氷を提示します。
氷は2つの重要な段階で構成されています。
最初の段階では、ICEは、関連するテキストベースの概念と画像内の対応するマスクを特定するために、自動概念ローカリゼーションモジュールを考案します。
この重要な段階は、概念の初期化を合理化し、その後の分析のための正確なガイダンスを提供します。
第2段階は、識別された各マスクをより深く掘り下げ、オブジェクトレベルの概念を内因性の概念と一般的な概念に分解します。
この分解により、視覚要素のより詳細で解釈可能な故障が可能になります。
私たちのフレームワークは、単一の画像からの本質的な概念抽出に関する優れたパフォーマンスを監視していない方法で示しています。
プロジェクトページ:https://visual-ai.github.io/ice

要約(オリジナル)

The inherent ambiguity in defining visual concepts poses significant challenges for modern generative models, such as the diffusion-based Text-to-Image (T2I) models, in accurately learning concepts from a single image. Existing methods lack a systematic way to reliably extract the interpretable underlying intrinsic concepts. To address this challenge, we present ICE, short for Intrinsic Concept Extraction, a novel framework that exclusively utilises a T2I model to automatically and systematically extract intrinsic concepts from a single image. ICE consists of two pivotal stages. In the first stage, ICE devises an automatic concept localization module to pinpoint relevant text-based concepts and their corresponding masks within the image. This critical stage streamlines concept initialization and provides precise guidance for subsequent analysis. The second stage delves deeper into each identified mask, decomposing the object-level concepts into intrinsic concepts and general concepts. This decomposition allows for a more granular and interpretable breakdown of visual elements. Our framework demonstrates superior performance on intrinsic concept extraction from a single image in an unsupervised manner. Project page: https://visual-ai.github.io/ice

arxiv情報

著者 Fernando Julio Cendra,Kai Han
発行日 2025-04-21 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models はコメントを受け付けていません

DRAWER: Digital Reconstruction and Articulation With Environment Realism

要約

現実世界のデータから仮想デジタルレプリカを作成すると、ゲームやロボット工学などのドメイン全体で重要な可能性が解除されます。
この論文では、静的な屋内シーンのビデオをフォトリアリスティックでインタラクティブなデジタル環境に変換する新しいフレームワークである引き出しを提示します。
私たちのアプローチは、2つの主要な貢献に焦点を当てています。(i)微調整された幾何学的な詳細でシーンを再構築するデュアルシーン表現に基づく再構成モジュールと、(ii)明確なタイプとヒンジの位置を識別する明確な形状を識別し、シミュレーション可能なシェープと外観を再構築し、シンガーに統合します。
結果として得られる仮想環境は、ゲームエンジンとロボットシミュレーションプラットフォームと互換性があり、リアルタイムでフォトリアリスティックでインタラクティブで実行されます。
引き出しを使用して、非現実的なエンジンでインタラクティブなゲームを自動的に作成し、ロボット工学アプリケーションのリアルからリアルへの転送を可能にすることにより、引き出しの可能性を示します。

要約(オリジナル)

Creating virtual digital replicas from real-world data unlocks significant potential across domains like gaming and robotics. In this paper, we present DRAWER, a novel framework that converts a video of a static indoor scene into a photorealistic and interactive digital environment. Our approach centers on two main contributions: (i) a reconstruction module based on a dual scene representation that reconstructs the scene with fine-grained geometric details, and (ii) an articulation module that identifies articulation types and hinge positions, reconstructs simulatable shapes and appearances and integrates them into the scene. The resulting virtual environment is photorealistic, interactive, and runs in real time, with compatibility for game engines and robotic simulation platforms. We demonstrate the potential of DRAWER by using it to automatically create an interactive game in Unreal Engine and to enable real-to-sim-to-real transfer for robotics applications.

arxiv情報

著者 Hongchi Xia,Entong Su,Marius Memmel,Arhan Jain,Raymond Yu,Numfor Mbiziwo-Tiapo,Ali Farhadi,Abhishek Gupta,Shenlong Wang,Wei-Chiu Ma
発行日 2025-04-21 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DRAWER: Digital Reconstruction and Articulation With Environment Realism はコメントを受け付けていません

Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

要約

マルチビューの理解、効果的なナビゲーション、操作、3Dシーンの理解のために多様な視点で視覚情報を調整する能力は、具体化されたエージェントとして使用されるマルチモーダルの大手言語モデル(MLLM)の基本的な課題です。
最近のMLLMは、高レベルの推論と計画の印象的な進歩を示していますが、マルチビューの幾何学的な一貫性とクロスビューの対応に直面したとき、それらは頻繁に不足しています。
マルチビューシーンの推論におけるMLLMの課題を包括的に評価するために、90の多様な現実世界のシーンで2,100人以上の人間が慎重に注釈されたマルチビューの質問回答ペアのベンチマークであるAll-Anglesベンチを提案します。
6つのタスク(カウント、属性識別、相対距離、相対方向、オブジェクト操作、およびカメラポーズ推定)は、モデルの幾何学的対応と、ビュー全体で一貫して情報を調整する能力をテストします。
私たちの広範な実験、Gemini-2.0-Flash、Claude-3.7-Sonnetを含む27の代表MLLMのベンチマーク、および人間の評価者に対するGPT-4oは、実質的なパフォーマンスギャップを明らかにし、現在のMLLMが人間レベルの能力とはほど遠いことを示しています。
詳細な分析を通じて、MLLMは特に2つの側面でパフォーマンスが低いことを示します。(1)部分的に閉塞されたビューのクロスビュー対応と(2)粗いカメラのポーズの確立。
これらの調査結果は、より強力なマルチビューの認識を埋め込むドメイン固有の改良またはモジュールの必要性を強調しています。
私たちのオールアングルベンチは貴重な洞察を提供し、MLLMと人間レベルのマルチビューの理解のギャップを埋めることに貢献していると考えています。
プロジェクトとベンチマークは、https://danielchyeh.github.io/all-angles-bench/で公開されています。

要約(オリジナル)

Multi-view understanding, the ability to reconcile visual information across diverse viewpoints for effective navigation, manipulation, and 3D scene comprehension, is a fundamental challenge in Multi-Modal Large Language Models (MLLMs) to be used as embodied agents. While recent MLLMs have shown impressive advances in high-level reasoning and planning, they frequently fall short when confronted with multi-view geometric consistency and cross-view correspondence. To comprehensively evaluate the challenges of MLLMs in multi-view scene reasoning, we propose All-Angles Bench, a benchmark of over 2,100 human carefully annotated multi-view question-answer pairs across 90 diverse real-world scenes. Our six tasks (counting, attribute identification, relative distance, relative direction, object manipulation, and camera pose estimation) specifically test model’s geometric correspondence and the capacity to align information consistently across views. Our extensive experiments, benchmark on 27 representative MLLMs including Gemini-2.0-Flash, Claude-3.7-Sonnet, and GPT-4o against human evaluators reveals a substantial performance gap, indicating that current MLLMs remain far from human-level proficiency. Through in-depth analysis, we show that MLLMs are particularly underperforming under two aspects: (1) cross-view correspondence for partially occluded views and (2) establishing the coarse camera poses. These findings highlight the necessity of domain-specific refinements or modules that embed stronger multi-view awareness. We believe that our All-Angles Bench offers valuable insights and contribute to bridging the gap between MLLMs and human-level multi-view understanding. The project and benchmark are publicly available at https://danielchyeh.github.io/All-Angles-Bench/.

arxiv情報

著者 Chun-Hsiao Yeh,Chenyu Wang,Shengbang Tong,Ta-Ying Cheng,Rouyu Wang,Tianzhe Chu,Yuexiang Zhai,Yubei Chen,Shenghua Gao,Yi Ma
発行日 2025-04-21 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs はコメントを受け付けていません

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

要約

視覚的推論は、人間の知能のコアコンポーネントであり、高度なマルチモーダルモデルの重要な機能です。
しかし、マルチモーダルの大手言語モデル(MLLM)の現在の推論評価は、多くの場合、テキストの説明に依存し、言語ベースの推論ショートカットを許可し、本物のビジョン中心の推論を測定できません。
これに対処するために、visulogicを紹介します。6つのカテゴリにわたる1,000の人間検証問題のベンチマーク(定量的シフト、空間関係、属性の比較)。
これらのさまざまなタイプの質問を評価して、複数の視点からMLLMの視覚的推論能力を評価できます。
このベンチマークで主要なMLLMを評価し、結果を分析して一般的な障害モードを特定します。
ほとんどのモデルは、25%のランダムベースラインをわずかに上回る30%の精度のみを下回り、人間が視覚的推論における重要なギャップを歓迎する51.4%をはるかに下回っています。
さらに、さらなる進捗をサポートするために、補足トレーニングデータセットと強化学習ベースラインを提供します。

要約(オリジナル)

Visual reasoning is a core component of human intelligence and a critical capability for advanced multimodal models. Yet current reasoning evaluations of multimodal large language models (MLLMs) often rely on text descriptions and allow language-based reasoning shortcuts, failing to measure genuine vision-centric reasoning. To address this, we introduce VisuLogic: a benchmark of 1,000 human-verified problems across six categories (e.g., quantitative shifts, spatial relations, attribute comparisons). These various types of questions can be evaluated to assess the visual reasoning capabilities of MLLMs from multiple perspectives. We evaluate leading MLLMs on this benchmark and analyze their results to identify common failure modes. Most models score below 30% accuracy-only slightly above the 25% random baseline and far below the 51.4% achieved by humans-revealing significant gaps in visual reasoning. Furthermore, we provide a supplementary training dataset and a reinforcement-learning baseline to support further progress.

arxiv情報

著者 Weiye Xu,Jiahao Wang,Weiyun Wang,Zhe Chen,Wengang Zhou,Aijun Yang,Lewei Lu,Houqiang Li,Xiaohua Wang,Xizhou Zhu,Wenhai Wang,Jifeng Dai,Jinguo Zhu
発行日 2025-04-21 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models はコメントを受け付けていません

StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

要約

3Dガウスのスプラッティング(3DG)は、フォトリアリスティックシーンの再構築に優れていますが、テクスチャの断片化、意味的な不整合、および抽象的な美学への限定的な適応性による様式化されたシナリオ(例:漫画、ゲーム)と闘っています。
Multi-Modal Styleコンディショニング、マルチレベルのセマンティックアライメント、および知覚品質の向上を統合する3D GSスタイル転送の全体的なフレームワークであるStyleme3Dを提案します。
主要な洞察には、次のものが含まれます。(1)RGB属性のみを最適化すると、スタイリライゼーション中の幾何学的な完全性が保存されます。
(2)コヒーレントなスタイルの転送には、低、中、高レベルのセマンティクスを解き放つことが重要です。
(3)孤立したオブジェクトと複雑なシーン全体のスケーラビリティは、実際の展開に不可欠です。
styleme3dは、4つの新しいコンポーネントを導入します。動的スタイルスコア蒸留(DSSD)、セマンティックアライメントのための安定した拡散の潜在スペースを活用します。
ローカライズされたコンテンツを意識したテクスチャ転送用のコントラストスタイル記述子(CSD)。
スタイルの詳細と構造的一貫性を切り離すための同時に最適化されたスケール(SOS)。
3Dガウス品質評価(3DG-QA)は、アーティファクトを抑制し、視覚的な調和を強化するために、人間の評価データで訓練された微分可能な美学です。
NERF合成データセット(オブジェクト)およびタントDB(シーン)データセットで評価されたStyleme3Dは、幾何学的な詳細(彫刻の彫刻など)を維持し、シーン全体でスタイルの一貫性を確保する(例えば、ランドスケープでの一貫した照明)を維持し、現実の照明を維持します。
この作業は、光リアリスティックな3D GSと芸術的なスタイリライゼーションを橋渡しし、ゲーム、仮想世界、デジタルアートのアプリケーションのロックを解除します。

要約(オリジナル)

3D Gaussian Splatting (3DGS) excels in photorealistic scene reconstruction but struggles with stylized scenarios (e.g., cartoons, games) due to fragmented textures, semantic misalignment, and limited adaptability to abstract aesthetics. We propose StyleMe3D, a holistic framework for 3D GS style transfer that integrates multi-modal style conditioning, multi-level semantic alignment, and perceptual quality enhancement. Our key insights include: (1) optimizing only RGB attributes preserves geometric integrity during stylization; (2) disentangling low-, medium-, and high-level semantics is critical for coherent style transfer; (3) scalability across isolated objects and complex scenes is essential for practical deployment. StyleMe3D introduces four novel components: Dynamic Style Score Distillation (DSSD), leveraging Stable Diffusion’s latent space for semantic alignment; Contrastive Style Descriptor (CSD) for localized, content-aware texture transfer; Simultaneously Optimized Scale (SOS) to decouple style details and structural coherence; and 3D Gaussian Quality Assessment (3DG-QA), a differentiable aesthetic prior trained on human-rated data to suppress artifacts and enhance visual harmony. Evaluated on NeRF synthetic dataset (objects) and tandt db (scenes) datasets, StyleMe3D outperforms state-of-the-art methods in preserving geometric details (e.g., carvings on sculptures) and ensuring stylistic consistency across scenes (e.g., coherent lighting in landscapes), while maintaining real-time rendering. This work bridges photorealistic 3D GS and artistic stylization, unlocking applications in gaming, virtual worlds, and digital art.

arxiv情報

著者 Cailin Zhuang,Yaoqi Hu,Xuanyang Zhang,Wei Cheng,Jiacheng Bao,Shengqi Liu,Yiying Yang,Xianfang Zeng,Gang Yu,Ming Li
発行日 2025-04-21 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians はコメントを受け付けていません

Analysing the Robustness of Vision-Language-Models to Common Corruptions

要約

Vision-Language Models(VLMS)は、視覚的およびテキストコンテンツについて理解と推論において印象的な能力を実証しています。
ただし、一般的なイメージの腐敗に対する堅牢性は未調査のままです。
この作業では、Imagenet-Cベンチマークからの19の腐敗タイプにわたるVLM堅牢性の最初の包括的な分析を紹介します。
腐敗がそれぞれシーンのテキストの理解とオブジェクトベースの推論にどのように影響するかを体系的に評価するために、TextVQA-CとGQA-Cの2つの新しいベンチマークを導入します。
私たちの分析では、変圧器ベースのVLMがタスク全体で明確な脆弱性パターンを示すことが明らかになりました。テキスト認識はぼやけや雪の腐敗の下で最も著しく悪化しますが、オブジェクトの推論は、霜や衝動騒音などの腐敗に対する感度が高いことを示しています。
これらの観察結果をさまざまな腐敗の周波数ドメイン特性に接続し、低周波処理に対する変圧器の固有のバイアスが、それらの違いの堅牢性パターンをどのように説明するかを明らかにします。
私たちの調査結果は、実際のアプリケーション向けに、より多くの腐敗と頑丈なビジョン言語モデルを開発するための貴重な洞察を提供します。

要約(オリジナル)

Vision-language models (VLMs) have demonstrated impressive capabilities in understanding and reasoning about visual and textual content. However, their robustness to common image corruptions remains under-explored. In this work, we present the first comprehensive analysis of VLM robustness across 19 corruption types from the ImageNet-C benchmark, spanning four categories: noise, blur, weather, and digital distortions. We introduce two new benchmarks, TextVQA-C and GQA-C, to systematically evaluate how corruptions affect scene text understanding and object-based reasoning, respectively. Our analysis reveals that transformer-based VLMs exhibit distinct vulnerability patterns across tasks: text recognition deteriorates most severely under blur and snow corruptions, while object reasoning shows higher sensitivity to corruptions such as frost and impulse noise. We connect these observations to the frequency-domain characteristics of different corruptions, revealing how transformers’ inherent bias toward low-frequency processing explains their differential robustness patterns. Our findings provide valuable insights for developing more corruption-robust vision-language models for real-world applications.

arxiv情報

著者 Muhammad Usama,Syeda Aishah Asim,Syed Bilal Ali,Syed Talal Wasim,Umair Bin Mansoor
発行日 2025-04-21 17:07:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Analysing the Robustness of Vision-Language-Models to Common Corruptions はコメントを受け付けていません

Generative AI Act II: Test Time Scaling Drives Cognition Engineering

要約

生成AI(2020-2023)の「Act I」と呼ばれる可能性のある大規模な言語モデルの第1世代は、大規模なパラメーターとデータスケーリングを通じて顕著な成功を達成しましたが、知識の遅延、浅い推論、制約された認知プロセスなどの基本的な制限を示しました。
この時代に、AIとの主要なインターフェースとして迅速なエンジニアリングが登場し、自然言語による対話レベルのコミュニケーションを可能にしました。
現在、モデルがテストタイムスケーリング技術を通じて知識網状システム(潜在空間)から思考建設エンジンに移行している「Act II」(2024-Present)の出現を目撃しています。
この新しいパラダイムは、言語ベースの思考を通じてAIとのマインドレベルのつながりを確立します。
この論文では、認知工学の概念的基盤を明確にし、この瞬間がその発展に重要である理由を説明します。
包括的なチュートリアルと最適化された実装を通じて、これらの高度なアプローチを体系的に分解し、認知工学へのアクセスを民主化し、すべての開業医がAIの第2法に参加できるようにします。
githubリポジトリのテスト時間スケーリングに関する定期的に更新された論文コレクション:https://github.com/gair-nlp/cognition-engineering

要約(オリジナル)

The first generation of Large Language Models – what might be called ‘Act I’ of generative AI (2020-2023) – achieved remarkable success through massive parameter and data scaling, yet exhibited fundamental limitations such as knowledge latency, shallow reasoning, and constrained cognitive processes. During this era, prompt engineering emerged as our primary interface with AI, enabling dialogue-level communication through natural language. We now witness the emergence of ‘Act II’ (2024-present), where models are transitioning from knowledge-retrieval systems (in latent space) to thought-construction engines through test-time scaling techniques. This new paradigm establishes a mind-level connection with AI through language-based thoughts. In this paper, we clarify the conceptual foundations of cognition engineering and explain why this moment is critical for its development. We systematically break down these advanced approaches through comprehensive tutorials and optimized implementations, democratizing access to cognition engineering and enabling every practitioner to participate in AI’s second act. We provide a regularly updated collection of papers on test-time scaling in the GitHub Repository: https://github.com/GAIR-NLP/cognition-engineering

arxiv情報

著者 Shijie Xia,Yiwei Qin,Xuefeng Li,Yan Ma,Run-Ze Fan,Steffi Chern,Haoyang Zou,Fan Zhou,Xiangkun Hu,Jiahe Jin,Yanheng He,Yixin Ye,Yixiu Liu,Pengfei Liu
発行日 2025-04-21 10:38:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Generative AI Act II: Test Time Scaling Drives Cognition Engineering はコメントを受け付けていません

Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling

要約

タスク指向のダイアログ(TOD)システムの重要なコンポーネントである意図検出は、複雑な相互関係を備えた統合可能なツールの急速な流入に適応する上で大きな課題に直面しています。
ゼロショットの再定式化やLLMベースの動的認識などの既存のアプローチは、目に見えない意図に遭遇したときのパフォーマンスの劣化と闘い、誤ったタスクルーティングにつながります。
目に見えないタスクでのモデルの一般化パフォーマンスを強化するために、意図検出タスクのグループ相対ポリシー最適化(GRPO)トレーニング中に、報酬ベースのカリキュラムサンプリング(RCS)と組み合わせた強化学習(RL)を採用しています。
実験は、RLトレーニングモデルが一般化において監視された微調整(SFT)ベースラインを大幅に上回ることを示しています。
また、RCSの導入により、トレーニング中の困難なケースにモデルを集中させることにより、意図検出におけるRLの有効性を大幅に強化します。
さらに、RLに考え方のチェーン(COT)プロセスを組み込むことは、特に複雑な意図検出タスクの一般化を改善し、挑戦的なシナリオにおける思考の重要性を強調しています。
この作業は、意図検出タスクの一般化を進め、適応可能なダイアログシステムを展開するための実用的な洞察を提供します。

要約(オリジナル)

Intent detection, a critical component in task-oriented dialogue (TOD) systems, faces significant challenges in adapting to the rapid influx of integrable tools with complex interrelationships. Existing approaches, such as zero-shot reformulations and LLM-based dynamic recognition, struggle with performance degradation when encountering unseen intents, leading to erroneous task routing. To enhance the model’s generalization performance on unseen tasks, we employ Reinforcement Learning (RL) combined with a Reward-based Curriculum Sampling (RCS) during Group Relative Policy Optimization (GRPO) training in intent detection tasks. Experiments demonstrate that RL-trained models substantially outperform supervised fine-tuning (SFT) baselines in generalization. Besides, the introduction of the RCS, significantly bolsters the effectiveness of RL in intent detection by focusing the model on challenging cases during training. Moreover, incorporating Chain-of-Thought (COT) processes in RL notably improves generalization in complex intent detection tasks, underscoring the importance of thought in challenging scenarios. This work advances the generalization of intent detection tasks, offering practical insights for deploying adaptable dialogue systems.

arxiv情報

著者 Zihao Feng,Xiaoxue Wang,Ziwei Bai,Donghang Su,Bowen Wu,Qun Yu,Baoxun Wang
発行日 2025-04-21 03:29:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling はコメントを受け付けていません

BadApex: Backdoor Attack Based on Adaptive Optimization Mechanism of Black-box Large Language Models

要約

以前の挿入ベースおよび言い換えベースの背景は、攻撃の有効性に大きな成功を収めていますが、毒されたテキストとクリーンテキストの間のテキストの品質と意味的な一貫性を無視しています。
最近の研究では、LLMSを導入して中毒のテキストを生成し、ステルス性、セマンティックな一貫性、およびテキストの品質を改善しますが、手作りのプロンプトは専門家の経験に依存しており、防御後の迅速な適応性と攻撃パフォーマンスの重大な課題に直面しています。
この論文では、ブラックボックス大手言語モデル(BADAPEX)の適応最適化メカニズムに基づいた新しいバックドア攻撃を提案します。これは、ブラックボックスLLMを活用して洗練されたプロンプトを介して毒テキストを生成します。
具体的には、生成エージェントと修正エージェントを使用して、初期迅速な繰り返しを繰り返し改善するように適応的な最適化メカニズムが設計されています。
生成エージェントは、初期プロンプトに基づいて毒テキストを生成します。
次に、修正エージェントは毒されたテキストの品質を評価し、新しいプロンプトを改良します。
上記のプロセスのいくつかの反復の後、洗練されたプロンプトを使用して、LLMを介して毒テキストを生成します。
6つのバックドア攻撃と2つの防御を備えた3つのデータセットで広範な実験を行います。
広範な実験結果は、BadApexが最先端の攻撃を大幅に上回ることを示しています。
迅速な適応性、セマンティックの一貫性、およびテキストの品質を改善します。
さらに、2つの防御方法が適用される場合、平均攻撃成功率(ASR)はまだ96.75%までです。

要約(オリジナル)

Previous insertion-based and paraphrase-based backdoors have achieved great success in attack efficacy, but they ignore the text quality and semantic consistency between poisoned and clean texts. Although recent studies introduce LLMs to generate poisoned texts and improve the stealthiness, semantic consistency, and text quality, their hand-crafted prompts rely on expert experiences, facing significant challenges in prompt adaptability and attack performance after defenses. In this paper, we propose a novel backdoor attack based on adaptive optimization mechanism of black-box large language models (BadApex), which leverages a black-box LLM to generate poisoned text through a refined prompt. Specifically, an Adaptive Optimization Mechanism is designed to refine an initial prompt iteratively using the generation and modification agents. The generation agent generates the poisoned text based on the initial prompt. Then the modification agent evaluates the quality of the poisoned text and refines a new prompt. After several iterations of the above process, the refined prompt is used to generate poisoned texts through LLMs. We conduct extensive experiments on three dataset with six backdoor attacks and two defenses. Extensive experimental results demonstrate that BadApex significantly outperforms state-of-the-art attacks. It improves prompt adaptability, semantic consistency, and text quality. Furthermore, when two defense methods are applied, the average attack success rate (ASR) still up to 96.75%.

arxiv情報

著者 Zhengxian Wu,Juan Wen,Wanli Peng,Ziwei Zhang,Yinghan Zhou,Yiming Xue
発行日 2025-04-21 03:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | BadApex: Backdoor Attack Based on Adaptive Optimization Mechanism of Black-box Large Language Models はコメントを受け付けていません

SLAM&Render: A Benchmark for the Intersection Between Neural Rendering, Gaussian Splatting and SLAM

要約

元々、ニューラル放射輝度フィールド(NERF)やガウスのスプラッティングなど、新しいビューの合成とシーンレンダリング用に開発されたモデルと方法は、同時局在とマッピング(SLAM)の表現としてますます採用されています。
ただし、既存のデータセットには、マルチモダリティやスラムのシーケンシャルや、視点での一般化やニューラルレンダリングの照明条件など、両方のフィールドの特定の課題を含めることができません。
このギャップを埋めるために、Slam&Renderを紹介します。これは、スラムと新しいビューレンダリングの交差点でメソッドをベンチマークするように設計された新しいデータセットです。
これは、同期されたRGB、深さ、IMU、ロボットの運動学データ、およびグラウンドトゥルースポーズストリームを備えた40のシーケンスで構成されています。
ロボットの運動学的データをリリースすることにより、データセットは、ロボットマニピュレーターに適用されたときに、新しいスラム戦略の評価も可能にします。
データセットシーケンスは、4つの異なる照明条件下で消費者と産業のオブジェクトを特徴とする5つの異なるセットアップに及び、シーンごとの個別のトレーニングとテストの軌跡、およびオブジェクトの再配置を備えています。
文献からいくつかのベースラインで得られた実験結果は、この新興研究分野の関連ベンチマークとしてSlam&Renderを検証します。

要約(オリジナル)

Models and methods originally developed for novel view synthesis and scene rendering, such as Neural Radiance Fields (NeRF) and Gaussian Splatting, are increasingly being adopted as representations in Simultaneous Localization and Mapping (SLAM). However, existing datasets fail to include the specific challenges of both fields, such as multimodality and sequentiality in SLAM or generalization across viewpoints and illumination conditions in neural rendering. To bridge this gap, we introduce SLAM&Render, a novel dataset designed to benchmark methods in the intersection between SLAM and novel view rendering. It consists of 40 sequences with synchronized RGB, depth, IMU, robot kinematic data, and ground-truth pose streams. By releasing robot kinematic data, the dataset also enables the assessment of novel SLAM strategies when applied to robot manipulators. The dataset sequences span five different setups featuring consumer and industrial objects under four different lighting conditions, with separate training and test trajectories per scene, as well as object rearrangements. Our experimental results, obtained with several baselines from the literature, validate SLAM&Render as a relevant benchmark for this emerging research area.

arxiv情報

著者 Samuel Cerezo,Gaetano Meli,Tomás Berriel Martins,Kirill Safronov,Javier Civera
発行日 2025-04-21 08:33:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SLAM&Render: A Benchmark for the Intersection Between Neural Rendering, Gaussian Splatting and SLAM はコメントを受け付けていません