A Survey on Event-driven 3D Reconstruction: Development under Different Categories

要約

イベントカメラは、時間分解能が高い、遅延が低く、ダイナミックレンジが高いため、3D再構成の注目を集めています。
ピクセルあたりの輝度が非同期に変化し、速い動きと挑戦的な照明条件下での正確な再構築が可能になります。
この調査では、ステレオ、モノクラー、マルチモーダルシステムなどのイベント駆動型の3D再構成方法の包括的なレビューを提供します。
さらに、幾何学、学習ベース、ハイブリッドアプローチに基づいて最近の開発を分類します。
ニューラル放射輝度フィールドやイベントデータを使用した3Dガウスのスプラッティングなどの新たな傾向もカバーされています。
関連する作品は、分野内の革新と進歩を説明するために時系列に構成されています。
将来の研究をサポートするために、データセット、実験、評価、イベント表現などの重要な研究のギャップと将来の研究の方向性も強調しています。

要約(オリジナル)

Event cameras have gained increasing attention for 3D reconstruction due to their high temporal resolution, low latency, and high dynamic range. They capture per-pixel brightness changes asynchronously, allowing accurate reconstruction under fast motion and challenging lighting conditions. In this survey, we provide a comprehensive review of event-driven 3D reconstruction methods, including stereo, monocular, and multimodal systems. We further categorize recent developments based on geometric, learning-based, and hybrid approaches. Emerging trends, such as neural radiance fields and 3D Gaussian splatting with event data, are also covered. The related works are structured chronologically to illustrate the innovations and progression within the field. To support future research, we also highlight key research gaps and future research directions in dataset, experiment, evaluation, event representation, etc.

arxiv情報

著者 Chuanzhi Xu,Haoxian Zhou,Haodong Chen,Vera Chung,Qiang Qu
発行日 2025-03-25 15:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | A Survey on Event-driven 3D Reconstruction: Development under Different Categories はコメントを受け付けていません

Splitting Answer Set Programs with respect to Intensionality Statements (Extended Version)

要約

ロジックプログラムを分割すると、安定したモデルをサブプログラムの同様のタスクに計算するタスクを減らすことができます。
これを使用して、パフォーマンスの解決を増やし、プログラムの正確性を証明できます。
述語間の依存関係だけでなく、それらの議論や文脈の間の依存関係を考慮することにより、この手法が適用可能な条件を一般化します。
これにより、以前の結果が適用されなかった実際に一般的に使用される分割プログラムが可能になります。

要約(オリジナル)

Splitting a logic program allows us to reduce the task of computing its stable models to similar tasks for its subprograms. This can be used to increase solving performance and prove program correctness. We generalize the conditions under which this technique is applicable, by considering not only dependencies between predicates but also their arguments and context. This allows splitting programs commonly used in practice to which previous results were not applicable.

arxiv情報

著者 Jorge Fandinno,Yuliya Lierler
発行日 2025-03-25 15:27:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO | Splitting Answer Set Programs with respect to Intensionality Statements (Extended Version) はコメントを受け付けていません

Localized Concept Erasure for Text-to-Image Diffusion Models Using Training-Free Gated Low-Rank Adaptation

要約

微調整ベースの概念の消去は、残りの概念を維持しながらターゲットの概念を削除することにより、テキストから画像への拡散モデルから有害な内容の生成を防ぐことにおける有望な結果を実証しています。
概念の消去後に拡散モデルの生成能力を維持するには、ターゲットの概念が画像に局所的に表示され、他の領域を無傷のままにしたときに、ターゲット概念を含む画像領域のみを削除する必要があります。
ただし、以前の芸術は、特定の領域に表示されるローカライズされたターゲット概念を消去するために、他の画像領域の忠実度を妥協し、それによって画像生成の全体的なパフォーマンスを低下させることがよくあります。
これらの制限に対処するために、最初にローカライズされた概念消去と呼ばれるフレームワークを導入します。これにより、他の領域を保存しながら、画像にターゲット概念を含む特定の領域のみを削除できます。
ローカライズされた概念消去のソリューションとして、拡散モデルに軽量モジュールを注入するコンセプト消去(Gloce)のゲートローランク適応と呼ばれるトレーニングフリーアプローチを提案します。
Gloceは、低ランクマトリックスとシンプルなゲートで構成されており、トレーニングなしの概念のいくつかの世代のステップによってのみ決定されます。
グロースをイメージの埋め込みに直接適用し、ターゲットの概念のみをアクティブにするためにゲートを設計することにより、ターゲットと残りの概念が画像内で共存する場合でも、ターゲット概念の領域のみを選択的に削除できます。
大規模な実験により、グロースは、ローカライズされたターゲットの概念を消去した後のテキストプロンプトに対する画像の忠実度を改善するだけでなく、有効性、特異性、堅牢性の先行芸術を大きなマージンで上回り、大量概念の消去に拡張することができます。

要約(オリジナル)

Fine-tuning based concept erasing has demonstrated promising results in preventing generation of harmful contents from text-to-image diffusion models by removing target concepts while preserving remaining concepts. To maintain the generation capability of diffusion models after concept erasure, it is necessary to remove only the image region containing the target concept when it locally appears in an image, leaving other regions intact. However, prior arts often compromise fidelity of the other image regions in order to erase the localized target concept appearing in a specific area, thereby reducing the overall performance of image generation. To address these limitations, we first introduce a framework called localized concept erasure, which allows for the deletion of only the specific area containing the target concept in the image while preserving the other regions. As a solution for the localized concept erasure, we propose a training-free approach, dubbed Gated Low-rank adaptation for Concept Erasure (GLoCE), that injects a lightweight module into the diffusion model. GLoCE consists of low-rank matrices and a simple gate, determined only by several generation steps for concepts without training. By directly applying GLoCE to image embeddings and designing the gate to activate only for target concepts, GLoCE can selectively remove only the region of the target concepts, even when target and remaining concepts coexist within an image. Extensive experiments demonstrated GLoCE not only improves the image fidelity to text prompts after erasing the localized target concepts, but also outperforms prior arts in efficacy, specificity, and robustness by large margin and can be extended to mass concept erasure.

arxiv情報

著者 Byung Hyun Lee,Sungjin Lim,Se Young Chun
発行日 2025-03-25 15:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Localized Concept Erasure for Text-to-Image Diffusion Models Using Training-Free Gated Low-Rank Adaptation はコメントを受け付けていません

FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization

要約

モデルのマージは、マルチタスク学習(MTL)の有望なアプローチとして浮上しており、従来の微調整に代わるデータ効率の良い代替品を提供しています。
ただし、オープンソースのAIエコシステムの急速な発展と微調整された基礎モデルの可用性の向上により、既存のモデルのマージメソッドは2つの重要な制限に直面しています。
これらの課題に対処するために、モデルの合併を制約された最適化問題として策定し、新しいアプローチを導入します:フランクウルフマージング(FWマルジング)。
Frank-Wolfe Optimizationに触発されたこのアプローチは、プールで最も関連性の高いモデルを選択して、目的関数の線形近似を最小限に抑え、Frank-Wolfeアップデートと同様のローカルマージを実行します。
目的関数は、ターゲットマージモデルの目的の動作をキャプチャするように設計されており、微調整された候補モデルは制約セットを定義します。
さらに重要なことに、FWマルジングは、既存のマージメソッドの直交技術として機能し、それらとシームレスに統合して精度のパフォーマンスをさらに向上させることです。
私たちの実験では、多様なモデルソース全体のFWマルジングスケールがあり、16の無関係なモデルで安定したままであり、20のCVタスクで16の関連モデルで15.3%を改善し、データ情報の統合方法の線形オーバーヘッドとは異なり、一定のメモリオーバーヘッドを維持します。
最先端のアプローチと比較して、FWマルジングは、データフリーのマージ法を32.8%上回り、20 VITモデルをマージするとデータ情報に基づいたアダマーグを8.39%上回ります。
私たちのコードは、github.com/hmarkc/fw-mergingでオープンソーリングされています。

要約(オリジナル)

Model merging has emerged as a promising approach for multi-task learning (MTL), offering a data-efficient alternative to conventional fine-tuning. However, with the rapid development of the open-source AI ecosystem and the increasing availability of fine-tuned foundation models, existing model merging methods face two key limitations: (i) They are primarily designed for in-house fine-tuned models, making them less adaptable to diverse model sources with partially unknown model and task information, (ii) They struggle to scale effectively when merging numerous model checkpoints. To address these challenges, we formulate model merging as a constrained optimization problem and introduce a novel approach: Frank-Wolfe Merging (FW-Merging). Inspired by Frank-Wolfe optimization, our approach iteratively selects the most relevant model in the pool to minimize a linear approximation of the objective function and then executes a local merging similar to the Frank-Wolfe update. The objective function is designed to capture the desired behavior of the target-merged model, while the fine-tuned candidate models define the constraint set. More importantly, FW-Merging serves as an orthogonal technique for existing merging methods, seamlessly integrating with them to further enhance accuracy performance. Our experiments show that FW-Merging scales across diverse model sources, remaining stable with 16 irrelevant models and improving by 15.3% with 16 relevant models on 20 CV tasks, while maintaining constant memory overhead, unlike the linear overhead of data-informed merging methods. Compared with the state-of-the-art approaches, FW-Merging surpasses the data-free merging method by 32.8% and outperforms the data-informed Adamerging by 8.39% when merging 20 ViT models. Our code is open-sourced at github.com/hmarkc/FW-Merging.

arxiv情報

著者 Hao Mark Chen,Shell Xu Hu,Wayne Luk,Timothy Hospedales,Hongxiang Fan
発行日 2025-03-25 15:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization はコメントを受け付けていません

Gemma 3 Technical Report

要約

Gemma 3は、1〜270億のパラメーターの範囲で、軽量オープンモデルのGemmaファミリーに追加されたマルチモーダルを追加します。
このバージョンは、ビジョン理解能力、言語のより広いカバレッジ、およびより長いコンテキスト(少なくとも128Kトークン)を紹介します。
また、モデルのアーキテクチャを変更して、長いコンテキストで爆発する傾向があるKVキャッシュメモリを減らします。
これは、ローカルとグローバルな注意層の比率を高め、ローカルの注意を短くすることによって達成されます。
Gemma 3モデルは蒸留で訓練されており、事前に訓練されたおよび命令の両方の微調整されたバージョンの両方でGemma 2に優れた性能を達成します。
特に、私たちの新しいトレーニング後のレシピは、数学、チャット、指導の公開、多言語能力を大幅に改善し、Gemma2-27B-ITおよびGemma3-27Bと競争力を与えます。
すべてのモデルをコミュニティにリリースします。

要約(オリジナル)

We introduce Gemma 3, a multimodal addition to the Gemma family of lightweight open models, ranging in scale from 1 to 27 billion parameters. This version introduces vision understanding abilities, a wider coverage of languages and longer context – at least 128K tokens. We also change the architecture of the model to reduce the KV-cache memory that tends to explode with long context. This is achieved by increasing the ratio of local to global attention layers, and keeping the span on local attention short. The Gemma 3 models are trained with distillation and achieve superior performance to Gemma 2 for both pre-trained and instruction finetuned versions. In particular, our novel post-training recipe significantly improves the math, chat, instruction-following and multilingual abilities, making Gemma3-4B-IT competitive with Gemma2-27B-IT and Gemma3-27B-IT comparable to Gemini-1.5-Pro across benchmarks. We release all our models to the community.

arxiv情報

著者 Gemma Team,Aishwarya Kamath,Johan Ferret,Shreya Pathak,Nino Vieillard,Ramona Merhej,Sarah Perrin,Tatiana Matejovicova,Alexandre Ramé,Morgane Rivière,Louis Rouillard,Thomas Mesnard,Geoffrey Cideron,Jean-bastien Grill,Sabela Ramos,Edouard Yvinec,Michelle Casbon,Etienne Pot,Ivo Penchev,Gaël Liu,Francesco Visin,Kathleen Kenealy,Lucas Beyer,Xiaohai Zhai,Anton Tsitsulin,Robert Busa-Fekete,Alex Feng,Noveen Sachdeva,Benjamin Coleman,Yi Gao,Basil Mustafa,Iain Barr,Emilio Parisotto,David Tian,Matan Eyal,Colin Cherry,Jan-Thorsten Peter,Danila Sinopalnikov,Surya Bhupatiraju,Rishabh Agarwal,Mehran Kazemi,Dan Malkin,Ravin Kumar,David Vilar,Idan Brusilovsky,Jiaming Luo,Andreas Steiner,Abe Friesen,Abhanshu Sharma,Abheesht Sharma,Adi Mayrav Gilady,Adrian Goedeckemeyer,Alaa Saade,Alex Feng,Alexander Kolesnikov,Alexei Bendebury,Alvin Abdagic,Amit Vadi,András György,André Susano Pinto,Anil Das,Ankur Bapna,Antoine Miech,Antoine Yang,Antonia Paterson,Ashish Shenoy,Ayan Chakrabarti,Bilal Piot,Bo Wu,Bobak Shahriari,Bryce Petrini,Charlie Chen,Charline Le Lan,Christopher A. Choquette-Choo,CJ Carey,Cormac Brick,Daniel Deutsch,Danielle Eisenbud,Dee Cattle,Derek Cheng,Dimitris Paparas,Divyashree Shivakumar Sreepathihalli,Doug Reid,Dustin Tran,Dustin Zelle,Eric Noland,Erwin Huizenga,Eugene Kharitonov,Frederick Liu,Gagik Amirkhanyan,Glenn Cameron,Hadi Hashemi,Hanna Klimczak-Plucińska,Harman Singh,Harsh Mehta,Harshal Tushar Lehri,Hussein Hazimeh,Ian Ballantyne,Idan Szpektor,Ivan Nardini,Jean Pouget-Abadie,Jetha Chan,Joe Stanton,John Wieting,Jonathan Lai,Jordi Orbay,Joseph Fernandez,Josh Newlan,Ju-yeong Ji,Jyotinder Singh,Kat Black,Kathy Yu,Kevin Hui,Kiran Vodrahalli,Klaus Greff,Linhai Qiu,Marcella Valentine,Marina Coelho,Marvin Ritter,Matt Hoffman,Matthew Watson,Mayank Chaturvedi,Michael Moynihan,Min Ma,Nabila Babar,Natasha Noy,Nathan Byrd,Nick Roy,Nikola Momchev,Nilay Chauhan,Noveen Sachdeva,Oskar Bunyan,Pankil Botarda,Paul Caron,Paul Kishan Rubenstein,Phil Culliton,Philipp Schmid,Pier Giuseppe Sessa,Pingmei Xu,Piotr Stanczyk,Pouya Tafti,Rakesh Shivanna,Renjie Wu,Renke Pan,Reza Rokni,Rob Willoughby,Rohith Vallu,Ryan Mullins,Sammy Jerome,Sara Smoot,Sertan Girgin,Shariq Iqbal,Shashir Reddy,Shruti Sheth,Siim Põder,Sijal Bhatnagar,Sindhu Raghuram Panyam,Sivan Eiger,Susan Zhang,Tianqi Liu,Trevor Yacovone,Tyler Liechty,Uday Kalra,Utku Evci,Vedant Misra,Vincent Roseberry,Vlad Feinberg,Vlad Kolesnikov,Woohyun Han,Woosuk Kwon,Xi Chen,Yinlam Chow,Yuvein Zhu,Zichuan Wei,Zoltan Egyed,Victor Cotruta,Minh Giang,Phoebe Kirk,Anand Rao,Kat Black,Nabila Babar,Jessica Lo,Erica Moreira,Luiz Gustavo Martins,Omar Sanseviero,Lucas Gonzalez,Zach Gleicher,Tris Warkentin,Vahab Mirrokni,Evan Senter,Eli Collins,Joelle Barral,Zoubin Ghahramani,Raia Hadsell,Yossi Matias,D. Sculley,Slav Petrov,Noah Fiedel,Noam Shazeer,Oriol Vinyals,Jeff Dean,Demis Hassabis,Koray Kavukcuoglu,Clement Farabet,Elena Buchatskaya,Jean-Baptiste Alayrac,Rohan Anil,Dmitry,Lepikhin,Sebastian Borgeaud,Olivier Bachem,Armand Joulin,Alek Andreev,Cassidy Hardin,Robert Dadashi,Léonard Hussenot
発行日 2025-03-25 15:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Gemma 3 Technical Report はコメントを受け付けていません

UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility

要約

無人航空機(UAV)に例示された低高度の移動性は、輸送、物流、農業などのさまざまなドメインにわたって変革的な進歩を導入しました。
柔軟な視点と迅速な操縦性を活用して、UAVは従来のシステムの認識と行動の能力を拡張し、学界や産業からの広範な注目を集めています。
ただし、現在のUAV操作は、主に人間のコントロールに依存しており、単純なシナリオでは自律性が限られており、より複雑な環境とタスクに必要な知性と適応性が欠けています。
大規模な言語モデル(LLMS)の出現は、顕著な問題解決と一般化能力を示しており、UAVインテリジェンスを進めるための有望な経路を提供します。
このペーパーでは、UAVシステムの基本的なコンポーネントと機能の概要から始まり、LLMテクノロジーの最先端の概要から始まるLLMSとUAVの統合について説明します。
その後、UAVが利用できるマルチモーダルデータリソースを体系的に強調し、トレーニングと評価を重要なサポートを提供します。
さらに、UAVとLLMが収束する重要なタスクとアプリケーションシナリオを分類および分析します。
最後に、エージェントUAVへの参照ロードマップが提案されており、UAVが自律的な知覚、記憶、推論、およびツール利用を通じてエージェントインテリジェンスを実現できるようにすることを目指しています。
関連リソースは、https://github.com/hub-tian/uavs_meet_llmsで入手できます。

要約(オリジナル)

Low-altitude mobility, exemplified by unmanned aerial vehicles (UAVs), has introduced transformative advancements across various domains, like transportation, logistics, and agriculture. Leveraging flexible perspectives and rapid maneuverability, UAVs extend traditional systems’ perception and action capabilities, garnering widespread attention from academia and industry. However, current UAV operations primarily depend on human control, with only limited autonomy in simple scenarios, and lack the intelligence and adaptability needed for more complex environments and tasks. The emergence of large language models (LLMs) demonstrates remarkable problem-solving and generalization capabilities, offering a promising pathway for advancing UAV intelligence. This paper explores the integration of LLMs and UAVs, beginning with an overview of UAV systems’ fundamental components and functionalities, followed by an overview of the state-of-the-art in LLM technology. Subsequently, it systematically highlights the multimodal data resources available for UAVs, which provide critical support for training and evaluation. Furthermore, it categorizes and analyzes key tasks and application scenarios where UAVs and LLMs converge. Finally, a reference roadmap towards agentic UAVs is proposed, aiming to enable UAVs to achieve agentic intelligence through autonomous perception, memory, reasoning, and tool utilization. Related resources are available at https://github.com/Hub-Tian/UAVs_Meet_LLMs.

arxiv情報

著者 Yonglin Tian,Fei Lin,Yiduo Li,Tengchao Zhang,Qiyao Zhang,Xuan Fu,Jun Huang,Xingyuan Dai,Yutong Wang,Chunwei Tian,Bai Li,Yisheng Lv,Levente Kovács,Fei-Yue Wang
発行日 2025-03-25 15:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility はコメントを受け付けていません

Simulating Tracking Data to Advance Sports Analytics Research

要約

高度な分析により、特に野球のようなエピソードスポーツでは、スポーツチームの運営方法が変わりました。
サッカーやアイスホッケーなどの継続的な侵略スポーツへの影響は、ゲームの複雑さの増加と高解像度のゲーム追跡データへのアクセスが制限されているため、限られています。
このデモでは、Google Research Football環境からシミュレートされたサッカー追跡データを収集および利用して、継続的な追跡データ向けに設計されたモデルの開発をサポートする方法を提示します。
データは、実際の追跡データを代表するスキーマに保存され、高レベルの機能とイベントを抽出するプロセスを提供します。
シミュレートされたデータの有効性を紹介するために、確立された追跡データモデルの例を含めます。
公的に利用可能な追跡データの希少性に対処し、人工知能とスポーツ分析の交差点での研究のサポートを提供します。

要約(オリジナル)

Advanced analytics have transformed how sports teams operate, particularly in episodic sports like baseball. Their impact on continuous invasion sports, such as soccer and ice hockey, has been limited due to increased game complexity and restricted access to high-resolution game tracking data. In this demo, we present a method to collect and utilize simulated soccer tracking data from the Google Research Football environment to support the development of models designed for continuous tracking data. The data is stored in a schema that is representative of real tracking data and we provide processes that extract high-level features and events. We include examples of established tracking data models to showcase the efficacy of the simulated data. We address the scarcity of publicly available tracking data, providing support for research at the intersection of artificial intelligence and sports analytics.

arxiv情報

著者 David Radke,Kyle Tilbury
発行日 2025-03-25 16:18:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Simulating Tracking Data to Advance Sports Analytics Research はコメントを受け付けていません

Guidelines For The Choice Of The Baseline in XAI Attribution Methods

要約

人工知能の幅広い採用を考えると、AIモデルが信頼性が高く、信頼できる、公平であるという証拠を提供することが不可欠です。
この目的のために、説明可能なAIの新たな分野は、このような要件を調査するための技術を開発し、この技術の普及を推進する誇大広告を相殺します。
この問題の多くの側面の中で、このペーパーでは、通常は「ベースライン」と呼ばれる「ニュートラルな」刺激に依存して、ネットワーク入力に特徴属性マップを導出することを目的としたベースライン属性方法に焦点を当てています。
ベースラインの選択は、ネットワークの動作の説明を決定するため、重要です。
このフレームワークでは、このペーパーでは、ベースラインの選択の意味に光を当て、タスクに最適なベースラインを特定するためのシンプルで効果的な方法を提供するという2つの目標があります。
これを達成するために、ベースラインは定義上、自然に検索ドメインになる決定境界にあるため、決定境界サンプリング方法を提案します。
実験は合成例で実行され、最先端の方法に依存して検証されています。
実験範囲に限定されているにもかかわらず、この貢献は、明確なガイドラインとベースライン選択のための簡単なプロキシを提供し、曖昧さを減らし、深いモデルの信頼性と信頼を高めるための単純なプロキシを提供するため、関連しています。

要約(オリジナル)

Given the broad adoption of artificial intelligence, it is essential to provide evidence that AI models are reliable, trustable, and fair. To this end, the emerging field of eXplainable AI develops techniques to probe such requirements, counterbalancing the hype pushing the pervasiveness of this technology. Among the many facets of this issue, this paper focuses on baseline attribution methods, aiming at deriving a feature attribution map at the network input relying on a ‘neutral’ stimulus usually called ‘baseline’. The choice of the baseline is crucial as it determines the explanation of the network behavior. In this framework, this paper has the twofold goal of shedding light on the implications of the choice of the baseline and providing a simple yet effective method for identifying the best baseline for the task. To achieve this, we propose a decision boundary sampling method, since the baseline, by definition, lies on the decision boundary, which naturally becomes the search domain. Experiments are performed on synthetic examples and validated relying on state-of-the-art methods. Despite being limited to the experimental scope, this contribution is relevant as it offers clear guidelines and a simple proxy for baseline selection, reducing ambiguity and enhancing deep models’ reliability and trust.

arxiv情報

著者 Cristian Morasso,Giorgio Dolci,Ilaria Boscolo Galazzo,Sergey M. Plis,Gloria Menegaz
発行日 2025-03-25 16:25:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Guidelines For The Choice Of The Baseline in XAI Attribution Methods はコメントを受け付けていません

Thinking agents for zero-shot generalization to qualitatively novel tasks

要約

知的な生物は、生涯または進化のいずれかで、これまでに遭遇したことのない真の新しい問題を解決することができます。
この能力の重要な要素は、環境の相互作用がなくても、新しい問題に対する可能な解決策を計画および評価するために、「考え」、つまり、オブジェクト、概念、行動を精神的に操作する能力です。
(メンタルシミュレーションによる)溶媒符のゼロショットでありながら、本当に質的に斬新な問題を生成するために、環境の組み合わせの性質を使用します。環境の要素の特定の組み合わせを差し控えながらエージェントを訓練します。
したがって、この組み合わせに基づいた新しいテストタスクは、トレーニング中にエージェントが個々の要素(およびそのペアワイズインタラクション)にさらされているため、精神的にシミュレートできるが、真に斬新であることが保証されています。
エージェントの前提と思考後のパフォーマンスの違いに基づいてタスクを選択することにより、メンタルシミュレーション能力を使用するために世界モデルを備えたエージェントを訓練する方法を提案します。
小説「Wewheldの問題」でテストすると、結果のエージェントは代替シナリオをシミュレートし、結果の情報を使用して実際の環境でその動作を導き、単一の実際の環境試験(ゼロショット)で新しいタスクを解決しました。

要約(オリジナル)

Intelligent organisms can solve truly novel problems which they have never encountered before, either in their lifetime or their evolution. An important component of this capacity is the ability to “think”, that is, to mentally manipulate objects, concepts and behaviors in order to plan and evaluate possible solutions to novel problems, even without environment interaction. To generate problems that are truly qualitatively novel, while still solvable zero-shot (by mental simulation), we use the combinatorial nature of environments: we train the agent while withholding a specific combination of the environment’s elements. The novel test task, based on this combination, is thus guaranteed to be truly novel, while still mentally simulable since the agent has been exposed to each individual element (and their pairwise interactions) during training. We propose a method to train agents endowed with world models to make use their mental simulation abilities, by selecting tasks based on the difference between the agent’s pre-thinking and post-thinking performance. When tested on the novel, withheld problem, the resulting agent successfully simulated alternative scenarios and used the resulting information to guide its behavior in the actual environment, solving the novel task in a single real-environment trial (zero-shot).

arxiv情報

著者 Thomas Miconi,Kevin McKee,Yicong Zheng,Jed McCaleb
発行日 2025-03-25 16:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | Thinking agents for zero-shot generalization to qualitatively novel tasks はコメントを受け付けていません

Bitstream Collisions in Neural Image Compression via Adversarial Perturbations

要約

ニューラル画像圧縮(NIC)は、古典的な圧縮技術の有望な代替手段として浮上しており、圧縮比を改善しています。
標準化と実用的な展開に向けた進歩にもかかわらず、その堅牢性とセキュリティの探求は最小限に抑えられています。
この研究は、意味的に異なる画像が同一の圧縮ビットストリームを生成するNIC(ビットストリーム衝突)の予期しない脆弱性を明らかにしています。
新しいWhitebox敵対的な攻撃アルゴリズムを利用して、このホワイトペーパーでは、慎重に作成された摂動を意味的に異なる画像に追加すると、圧縮されたビットストリームが正確に衝突する可能性があることが示されています。
衝突の脆弱性は、特にセキュリティが批判的なアプリケーションにおいて、NICの実用的な使いやすさに脅威をもたらします。
衝突の原因が分析され、シンプルでありながら効果的な緩和方法が提示されます。

要約(オリジナル)

Neural image compression (NIC) has emerged as a promising alternative to classical compression techniques, offering improved compression ratios. Despite its progress towards standardization and practical deployment, there has been minimal exploration into it’s robustness and security. This study reveals an unexpected vulnerability in NIC – bitstream collisions – where semantically different images produce identical compressed bitstreams. Utilizing a novel whitebox adversarial attack algorithm, this paper demonstrates that adding carefully crafted perturbations to semantically different images can cause their compressed bitstreams to collide exactly. The collision vulnerability poses a threat to the practical usability of NIC, particularly in security-critical applications. The cause of the collision is analyzed, and a simple yet effective mitigation method is presented.

arxiv情報

著者 Jordan Madden,Lhamo Dorje,Xiaohua Li
発行日 2025-03-25 16:29:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Bitstream Collisions in Neural Image Compression via Adversarial Perturbations はコメントを受け付けていません