HardNet: Hard-Constrained Neural Networks with Universal Approximation Guarantees

要約

入出力関係の事前知識や仕様を機械学習モデルに組み込むことは、限られたデータからの汎化を強化し、適合した出力を導くことから、大きな注目を集めている。しかし、既存のアプローチのほとんどは、正則化によって違反にペナルティを与えることでソフトな制約を使用しており、特にセーフティクリティカルなアプリケーションで不可欠な要件である、学習分布から離れた入力に対する制約の充足は保証されていない。一方、ニューラルネットワークにハード制約を課すと、その表現力が妨げられ、性能に悪影響を及ぼす可能性がある。この問題に対処するために、我々は、モデルの能力を犠牲にすることなく、ハード制約を本質的に満たすニューラルネットワークを構築するための実用的なフレームワークであるHardNetを提案する。推論時にのみ出力を修正するアプローチとは異なり、HardNetはハード制約を保証したエンドツーエンドの学習を可能にし、性能の向上につながる。我々の知る限り、HardNetは1つ以上の入力依存不等式制約を強制する効率的なフォワードパスを持つ最初の手法である。HardNetは、ネットワークの出力に微分可能な閉形式の強制レイヤーを付加することで、標準的なアルゴリズムを用いたネットワークパラメーターの制約のない最適化を可能にする。さらに、HardNetが表現力豊かで、ニューラルネットワークの普遍的な近似能力を保持していることを示す。我々は、区分的制約を伴う学習、実現可能性が保証された最適化ソルバーの学習、セーフティクリティカルなシステムにおける制御ポリシーの最適化など、様々なアプリケーションにおいてHardNetの汎用性と有効性を実証する。

要約(オリジナル)

Incorporating prior knowledge or specifications of input-output relationships into machine learning models has attracted significant attention, as it enhances generalization from limited data and leads to conforming outputs. However, most existing approaches use soft constraints by penalizing violations through regularization, which offers no guarantee of constraint satisfaction, especially on inputs far from the training distribution — an essential requirement in safety-critical applications. On the other hand, imposing hard constraints on neural networks may hinder their representational power, adversely affecting performance. To address this, we propose HardNet, a practical framework for constructing neural networks that inherently satisfy hard constraints without sacrificing model capacity. Unlike approaches that modify outputs only at inference time, HardNet enables end-to-end training with hard constraint guarantees, leading to improved performance. To the best of our knowledge, HardNet is the first method with an efficient forward pass to enforce more than one input-dependent inequality constraint. It allows unconstrained optimization of the network parameters using standard algorithms by appending a differentiable closed-form enforcement layer to the network’s output. Furthermore, we show that HardNet is expressive and retains the universal approximation capabilities of neural networks. We demonstrate the versatility and effectiveness of HardNet across various applications: learning with piecewise constraints, learning optimization solvers with guaranteed feasibility, and optimizing control policies in safety-critical systems.

arxiv情報

著者 Youngjae Min,Navid Azizan
発行日 2025-06-03 17:40:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML | HardNet: Hard-Constrained Neural Networks with Universal Approximation Guarantees はコメントを受け付けていません

Towards Automated Semantic Interpretability in Reinforcement Learning via Vision-Language Models

要約

強化学習(RL)における意味解釈可能性は、エージェントの決定を理解可能かつ検証可能にすることで、透明性と検証可能性を実現する。しかし、これを達成するためには、人間が理解可能な概念で構成された特徴空間が必要であり、従来は人間の仕様に依存していたため、未知の環境への一般化に失敗する可能性がある。iTRACEは、まず意味的に意味のある特徴を抽出し、次にそれを解釈可能な木を介して政策にマッピングする。VLMをRLループで実行することの非現実性に対処するため、その出力を軽量モデルに抽出する。iTRACEは、同じ解釈可能な特徴を使用するMLPのベースラインを上回り、CNNベースのポリシーの性能に匹敵する。

要約(オリジナル)

Semantic interpretability in Reinforcement Learning (RL) enables transparency and verifiability by making the agent’s decisions understandable and verifiable. Achieving this, however, requires a feature space composed of human-understandable concepts, which traditionally rely on human specification and may fail to generalize to unseen environments. We introduce interpretable Tree-based Reinforcement learning via Automated Concept Extraction (iTRACE), an automated framework that leverages pre-trained vision-language models (VLM) for semantic feature extraction and interpretable tree-based models for policy optimization. iTRACE first extracts semantically meaningful features, then maps them to policies via interpretable trees. To address the impracticality of running VLMs in RL loops, we distill their outputs into a lightweight model. By leveraging Vision-Language Models (VLMs) to automate tree-based reinforcement learning, iTRACE eliminates the need for human annotation traditionally required by interpretable models, while also addressing the limitations of VLMs alone, such as their lack of grounding in action spaces and inability to directly optimize policies. iTRACE outperforms MLP baselines that use the same interpretable features and matches the performance of CNN-based policies, producing verifiable, semantically interpretable, and human-aligned behaviors without requiring human annotation.

arxiv情報

著者 Zhaoxin Li,Zhang Xi-Jia,Batuhan Altundas,Letian Chen,Rohan Paleja,Matthew Gombolay
発行日 2025-06-03 17:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Towards Automated Semantic Interpretability in Reinforcement Learning via Vision-Language Models はコメントを受け付けていません

Not Every AI Problem is a Data Problem: We Should Be Intentional About Data Scaling

要約

大規模言語モデルの学習とスケーリングにはますます多くのデータが必要になるが、取得すべきデータを探すのではなく、どのような種類のタスクがデータスケーリングの恩恵を受けやすいかを考えるべきである。我々は、意図的にデータを取得すべきである。我々は、データの構成パターンや構造パターンといったデータそのものの形状が、データスケーリングにおいてどのタスクを優先すべきかを決定し、データスケーリングが非効率的、あるいは不十分なタスクに対する次世代の計算パラダイムの開発を形作る、と主張している。

要約(オリジナル)

While Large Language Models require more and more data to train and scale, rather than looking for any data to acquire, we should consider what types of tasks are more likely to benefit from data scaling. We should be intentional in our data acquisition. We argue that the shape of the data itself, such as its compositional and structural patterns, informs which tasks to prioritize in data scaling, and shapes the development of the next generation of compute paradigms for tasks where data scaling is inefficient, or even insufficient.

arxiv情報

著者 Tanya Rodchenko,Natasha Noy,Nino Scherrer
発行日 2025-06-03 17:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Not Every AI Problem is a Data Problem: We Should Be Intentional About Data Scaling はコメントを受け付けていません

PoLAR: Polar-Decomposed Low-Rank Adapter Representation

要約

大規模モデルの低ランク適応は、部分空間の線形代数ランクを大きく下回る低い安定ランクに悩まされ、微調整性能を劣化させることを示す。割り当てられた部分空間の利用不足を緩和するために、我々はPoLARを提案する。PoLARは、極分解に着想を得たパラメータ化であり、低ランク更新を、スティーフェル多様体に制約された2つの方向行列と、制約のないスケール行列に分解する。我々の理論は、PoLARが正統的な低ランク適応問題において指数関数的に速い収束率をもたらすことを示している。このパラメタリゼーションとリーマン最適化を組み合わせることで、一般的な言語理解、常識的推論、数学的問題解決をテストする3つの異なるベンチマークにおいて、ベースモデルのサイズが350Mから27Bの範囲で、一貫した効果が得られる。

要約(オリジナル)

We show that low-rank adaptation of large-scale models suffers from a low stable rank that is well below the linear algebraic rank of the subspace, degrading fine-tuning performance. To mitigate the underutilization of the allocated subspace, we propose PoLAR, a parameterization inspired by the polar decomposition that factorizes the low-rank update into two direction matrices constrained to Stiefel manifolds and an unconstrained scale matrix. Our theory shows that PoLAR yields an exponentially faster convergence rate on a canonical low-rank adaptation problem. Pairing the parameterization with Riemannian optimization leads to consistent gains on three different benchmarks testing general language understanding, commonsense reasoning, and mathematical problem solving with base model sizes ranging from 350M to 27B.

arxiv情報

著者 Kai Lion,Liang Zhang,Bingcong Li,Niao He
発行日 2025-06-03 17:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, eess.SP, math.OC | PoLAR: Polar-Decomposed Low-Rank Adapter Representation はコメントを受け付けていません

Entity-Augmented Neuroscience Knowledge Retrieval Using Ontology and Semantic Understanding Capability of LLM

要約

神経科学の研究論文は、膨大な知識の宝庫です。既存の情報を正確に検索し、この膨大な文献から新たな知見を発見することは、この分野を発展させるために不可欠である。しかし、知識が複数の情報源に分散している場合、現在の最先端の検索手法では必要な情報を抽出するのに苦労することが多い。知識グラフ(KG)は、複数のソースからの知識を統合しリンクさせることができるが、神経科学におけるKG構築のための既存の方法は、多くの場合、ラベル付きデータに依存し、領域の専門知識を必要とする。神経科学のような専門的な領域において、大規模なラベル付きデータを取得することは大きな課題である。本研究では、大規模言語モデル(LLM)、神経科学オントロジー、テキスト埋め込みを利用し、ラベル付けされていない大規模神経科学研究コーパスからKGを構築する新しい手法を提案する。知識グラフを構築するために、LLMによって特定された神経科学テキストセグメントの意味的関連性を分析する。また、KGから知識を抽出するために、エンティティを増強した情報検索アルゴリズムを導入する。提案するアプローチを評価するためにいくつかの実験を行い、その結果、我々の手法がラベル付けされていない神経科学研究コーパスからの知識発見を大幅に向上させることが実証された。エンティティ抽出において0.84のF1スコアを達成し、KGから得られた知識は54%以上の質問に対する回答を改善する。

要約(オリジナル)

Neuroscience research publications encompass a vast wealth of knowledge. Accurately retrieving existing information and discovering new insights from this extensive literature is essential for advancing the field. However, when knowledge is dispersed across multiple sources, current state-of-the-art retrieval methods often struggle to extract the necessary information. A knowledge graph (KG) can integrate and link knowledge from multiple sources, but existing methods for constructing KGs in neuroscience often rely on labeled data and require domain expertise. Acquiring large-scale, labeled data for a specialized area like neuroscience presents significant challenges. This work proposes novel methods for constructing KG from unlabeled large-scale neuroscience research corpus utilizing large language models (LLM), neuroscience ontology, and text embeddings. We analyze the semantic relevance of neuroscience text segments identified by LLM for building the knowledge graph. We also introduce an entity-augmented information retrieval algorithm to extract knowledge from the KG. Several experiments were conducted to evaluate the proposed approaches, and the results demonstrate that our methods significantly enhance knowledge discovery from the unlabeled neuroscience research corpus. It achieves an F1 score of 0.84 for entity extraction, and the knowledge obtained from the KG improves answers to over 54% of the questions.

arxiv情報

著者 Pralaypati Ta,Sriram Venkatesaperumal,Keerthi Ram,Mohanasankar Sivaprakasam
発行日 2025-06-03 17:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Entity-Augmented Neuroscience Knowledge Retrieval Using Ontology and Semantic Understanding Capability of LLM はコメントを受け付けていません

Causal Estimation of Tokenisation Bias

要約

現代の言語モデルは通常、サブワード列に対して学習されるが、最終的には文字列に対して確率を定義する。理想的には、トークナイザー(文字列をサブワードにマップする)の選択は、基礎となる文字列に割り当てられる確率に影響を与えるべきではない。このミスマッチをトークン化バイアスと定義する。この研究では、トークン化バイアスの1つの特殊なタイプを定量化する。トークン化器の語彙にサブワード(例えば、$langle hello \rangle$)を含めるか含めないかが、学習済みモデルが対応する文字(例えば、 \textit{“hello”})に割り当てる確率に与える影響である。各モデルが1つのトークナイザーのみで学習されるため、この効果を推定するのは困難である。我々は、トークン化バイアスを因果効果として設定し、回帰不連続デザインを使って推定することで、この問題に対処する。具体的には、トークン化アルゴリズムがサブワードをランク付けし、最初の$K$をトークナイザーの語彙に加えるという事実を利用する。K$は任意のカットオフポイントである。このように、このカットオフポイント付近で類似したサブワードを比較することで、因果効果を推定することができる。実験的に、トークン化はスケール、語彙、トークナイザーを問わず、一貫してモデルの出力に影響を与えることがわかった。注目すべきは、小さなモデルの語彙にサブワードが存在すると、その文字の確率が最大17倍まで増加する可能性があることで、トークン化が言語モデリングにおける重要な設計上の選択であることを強調している。

要約(オリジナル)

Modern language models are typically trained over subword sequences, but ultimately define probabilities over character-strings. Ideally, the choice of the tokeniser — which maps character-strings to subwords — should not affect the probability assigned to the underlying character-string; in practice, it does. We define this mismatch as tokenisation bias. In this work, we quantify one particular type of tokenisation bias: the effect of including or not a subword (e.g., $\langle hello \rangle$) in a tokeniser’s vocabulary on the probability a trained model assigns to the corresponding characters (i.e., \textit{“hello”}). Estimating this effect is challenging because each model is trained with only one tokeniser. We address this by framing tokenisation bias as a causal effect and estimating it using the regression discontinuity design. Specifically, we exploit the fact that tokenisation algorithms rank subwords and add the first $K$ to a tokeniser’s vocabulary, where $K$ is an arbitrary cutoff point. As such, we can estimate a causal effect by comparing similar subwords around this cutoff. Experimentally, we find that tokenisation consistently affects models’ outputs across scales, vocabularies, and tokenisers. Notably, a subword’s presence in a small model’s vocabulary may increase its characters’ probability by up to 17 times, highlighting tokenisation as a key design choice in language modelling.

arxiv情報

著者 Pietro Lesci,Clara Meister,Thomas Hofmann,Andreas Vlachos,Tiago Pimentel
発行日 2025-06-03 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Causal Estimation of Tokenisation Bias はコメントを受け付けていません

FORLA:Federated Object-centric Representation Learning with Slot Attention

要約

異種のラベルなしデータセット間で効率的な視覚表現を学習することは、連携学習における中心的な課題である。効果的な連合表現は、教師なしでのドメイン固有因子の分離を行いながら、クライアント間で共同して有益な特徴を必要とする。我々は、教師なしスロットアテンションを用いた、オブジェクト中心の連合表現学習とクライアント間での特徴適応のための新しいフレームワークであるFORLAを紹介する。本手法の核となるのは、基礎モデルから特徴を適応させるためにクライアント間で協調的に訓練された共有特徴アダプタと、適応された特徴を再構成するために学習する共有スロット注意モジュールである。このアダプタを最適化するために、2分岐の生徒-教師アーキテクチャを設計する。各クライアントにおいて、生徒デコーダは基礎モデルから完全な特徴を再構成することを学習し、教師デコーダは適応された低次元の対応する特徴を再構成する。共有スロットアテンションモジュールは、クライアント間でオブジェクトレベルの表現を整合させることで、領域横断的な学習の橋渡しをする。複数の実世界データセットでの実験により、我々のフレームワークはオブジェクト発見において集中型ベースラインを上回るだけでなく、ドメイン間でうまく汎化するコンパクトで普遍的な表現を学習することが示された。本研究は、分散された概念を持つクロスドメインデータから、スケーラブルで教師なし視覚表現を学習するための効果的なツールとして、連合スロットアテンションを強調する。

要約(オリジナル)

Learning efficient visual representations across heterogeneous unlabeled datasets remains a central challenge in federated learning. Effective federated representations require features that are jointly informative across clients while disentangling domain-specific factors without supervision. We introduce FORLA, a novel framework for federated object-centric representation learning and feature adaptation across clients using unsupervised slot attention. At the core of our method is a shared feature adapter, trained collaboratively across clients to adapt features from foundation models, and a shared slot attention module that learns to reconstruct the adapted features. To optimize this adapter, we design a two-branch student-teacher architecture. In each client, a student decoder learns to reconstruct full features from foundation models, while a teacher decoder reconstructs their adapted, low-dimensional counterpart. The shared slot attention module bridges cross-domain learning by aligning object-level representations across clients. Experiments in multiple real-world datasets show that our framework not only outperforms centralized baselines on object discovery but also learns a compact, universal representation that generalizes well across domains. This work highlights federated slot attention as an effective tool for scalable, unsupervised visual representation learning from cross-domain data with distributed concepts.

arxiv情報

著者 Guiqiu Liao,Matjaz Jogan,Eric Eaton,Daniel A. Hashimoto
発行日 2025-06-03 14:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | FORLA:Federated Object-centric Representation Learning with Slot Attention はコメントを受け付けていません

Open-world Machine Learning: A Systematic Review and Future Directions

要約

機械学習は、多くのアプリケーションで目覚ましい成功を収めている。しかし、既存の研究は、環境が静止しており、モデルが一度導入されれば固定されるという閉じた世界の仮定に基づいている。現実のアプリケーションの多くでは、オープンな環境は複雑でダイナミックで未知数に満ちているため、この基本的かつ素朴な仮定は成り立たないかもしれない。そのような場合、未知のものを排除し、新規性を発見し、そしてそれらを継続的に学習することで、モデルを安全なものとし、生物システムがそうであるように継続的に進化させることができる。本稿では、未知の拒絶、新規性の発見、継続的な学習を統一的なパラダイムで調査することで、オープンワールド機械学習の全体像を提示する。現在の方法論の課題、原理、限界について詳細に議論する。さらに、広く使用されているベンチマーク、測定基準、および性能について要約する。最後に、この分野のさらなる進歩のためのいくつかの潜在的な方向性について議論する。オープンワールド機械学習という新たなパラダイムを包括的に紹介することで、研究者がそれぞれの分野でより強力なAIシステムを構築し、人工知能の発展を促進する一助となることを目指している。

要約(オリジナル)

Machine learning has achieved remarkable success in many applications. However, existing studies are largely based on the closed-world assumption, which assumes that the environment is stationary, and the model is fixed once deployed. In many real-world applications, this fundamental and rather naive assumption may not hold because an open environment is complex, dynamic, and full of unknowns. In such cases, rejecting unknowns, discovering novelties, and then continually learning them, could enable models to be safe and evolve continually as biological systems do. This article presents a holistic view of open-world machine learning by investigating unknown rejection, novelty discovery, and continual learning in a unified paradigm. The challenges, principles, and limitations of current methodologies are discussed in detail. Furthermore, widely used benchmarks, metrics, and performances are summarized. Finally, we discuss several potential directions for further progress in the field. By providing a comprehensive introduction to the emerging open-world machine learning paradigm, this article aims to help researchers build more powerful AI systems in their respective fields, and to promote the development of artificial general intelligence.

arxiv情報

著者 Fei Zhu,Shijie Ma,Zhen Cheng,Xu-Yao Zhang,Zhaoxiang Zhang,Dacheng Tao,Cheng-Lin Liu
発行日 2025-06-03 15:11:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Open-world Machine Learning: A Systematic Review and Future Directions はコメントを受け付けていません

MMLA: Multi-Environment, Multi-Species, Low-Altitude Drone Dataset

要約

ドローン画像におけるリアルタイムの野生生物検出は、重要な生態学的モニタリングや保全モニタリングをサポートする。しかし、YOLOのような標準的な検出モデルは、しばしば場所を超えて一般化できず、希少種との闘いに苦戦するため、自動化されたドローン配備での使用が制限される。我々は、3つのサイト(ケニアのOl Pejeta ConservancyとMpala Research Centre、オハイオ州のThe Wilds)で収集された、6つの種(シマウマ、キリン、オナガザル、アフリカンワイルドドッグ)を対象とした、新しいマルチ環境、マルチ種、低高度のドローンデータセットであるMMLAを発表する。このデータセットには、37本の高解像度ビデオからの811Kアノテーションが含まれている。ベースラインのYOLOモデルは、場所によって性能に差が見られる一方、MMLA上でYOLOv11mを微調整することで、mAP50はベースラインより52ポイント向上し、82%に改善した。この結果は、自律型ドローンシステムにおいてロバストな動物検出を可能にするためには、多様なトレーニングデータが必要であることを強調している。

要約(オリジナル)

Real-time wildlife detection in drone imagery supports critical ecological and conservation monitoring. However, standard detection models like YOLO often fail to generalize across locations and struggle with rare species, limiting their use in automated drone deployments. We present MMLA, a novel multi-environment, multi-species, low-altitude drone dataset collected across three sites (Ol Pejeta Conservancy and Mpala Research Centre in Kenya, and The Wilds in Ohio), featuring six species (zebras, giraffes, onagers, and African wild dogs). The dataset contains 811K annotations from 37 high-resolution videos. Baseline YOLO models show performance disparities across locations while fine-tuning YOLOv11m on MMLA improves mAP50 to 82%, a 52-point gain over baseline. Our results underscore the need for diverse training data to enable robust animal detection in autonomous drone systems.

arxiv情報

著者 Jenna Kline,Samuel Stevens,Guy Maalouf,Camille Rondeau Saint-Jean,Dat Nguyen Ngoc,Majid Mirmehdi,David Guerin,Tilo Burghardt,Elzbieta Pastucha,Blair Costelloe,Matthew Watson,Thomas Richardson,Ulrik Pagh Schultz Lundquist
発行日 2025-06-03 15:13:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | MMLA: Multi-Environment, Multi-Species, Low-Altitude Drone Dataset はコメントを受け付けていません

HaploOmni: Unified Single Transformer for Multimodal Video Understanding and Generation

要約

言語モデルの進歩に伴い、統一されたマルチモーダル理解と生成は、モデルアーキテクチャが分離したコンポーネントから統一された単一モデルフレームワークへと進化し、大きな進歩を遂げている。本稿では、統一的なマルチモーダル理解と生成のための単一変換器を構築するための効率的な学習パラダイムを探求する。具体的には、能力を拡張するための事前知識を利用したマルチモーダルウォームアップ戦略を提案する。クロスモーダル互換性の課題に対処するため、特徴量の事前スケーリングとマルチモーダルAdaLN技術を導入する。提案された技術を統合し、新しい単一マルチモーダル変換器であるHaploOmniを発表する。限られた学習コストで、HaploOmniは複数の画像・動画像理解・生成ベンチマークにおいて、先進的な統一モデルを凌駕する性能を達成する。すべてのコードはhttps://github.com/Tencent/HaploVLM。

要約(オリジナル)

With the advancement of language models, unified multimodal understanding and generation have made significant strides, with model architectures evolving from separated components to unified single-model frameworks. This paper explores an efficient training paradigm to build a single transformer for unified multimodal understanding and generation. Specifically, we propose a multimodal warmup strategy utilizing prior knowledge to extend capabilities. To address cross-modal compatibility challenges, we introduce feature pre-scaling and multimodal AdaLN techniques. Integrating the proposed technologies, we present the HaploOmni, a new single multimodal transformer. With limited training costs, HaploOmni achieves competitive performance across multiple image and video understanding and generation benchmarks over advanced unified models. All codes will be made public at https://github.com/Tencent/HaploVLM.

arxiv情報

著者 Yicheng Xiao,Lin Song,Rui Yang,Cheng Cheng,Zunnan Xu,Zhaoyang Zhang,Yixiao Ge,Xiu Li,Ying Shan
発行日 2025-06-03 15:14:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | HaploOmni: Unified Single Transformer for Multimodal Video Understanding and Generation はコメントを受け付けていません