GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration

要約

GPTQv2は、大規模変換器アーキテクチャを圧縮するための新しい微調整不要の量子化手法である。各層を独立に較正する従来のGPTQ法とは異なり、量子化された層の出力を常に全精度モデルの正確な出力に一致させることで、非対称較正と呼ぶ方式を実現する。このような方式は、前の層で蓄積された量子化誤差を効果的に減らすことができる。我々は最適脳圧縮を用いてこの問題を解析し、近い形の解を導出する。この新しい解は、量子化誤差だけでなく、蓄積された非対称誤差も明示的に最小化する。さらに、解の計算を並列化するために、チャネル並列化、ニューロン分解、行列融合のためのコレスキー再定式化など、様々な技術を利用する。その結果、GPTQv2は実装が容易で、GPTQより20行多いコードを使用するだけで、低ビット量子化での性能が向上しました。驚くべきことに、1つのGPUで405Bの言語変換器と、90%の事前学習Imagenet精度を達成したランクファーストビジョントランスフォーマーEVA-02を量子化することができます。コードはgithub.com/Intelligent-Computing-Lab-Yale/GPTQv2にあります。

要約(オリジナル)

We introduce GPTQv2, a novel finetuning-free quantization method for compressing large-scale transformer architectures. Unlike the previous GPTQ method, which independently calibrates each layer, we always match the quantized layer’s output to the exact output in the full-precision model, resulting in a scheme that we call asymmetric calibration. Such a scheme can effectively reduce the quantization error accumulated in previous layers. We analyze this problem using optimal brain compression to derive a close-formed solution. The new solution explicitly minimizes the quantization error as well as the accumulated asymmetry error. Furthermore, we utilize various techniques to parallelize the solution calculation, including channel parallelization, neuron decomposition, and Cholesky reformulation for matrix fusion. As a result, GPTQv2 is easy to implement, simply using 20 more lines of code than GPTQ but improving its performance under low-bit quantization. Remarkably, on a single GPU, we quantize a 405B language transformer as well as EVA-02 the rank first vision transformer that achieves 90% pretraining Imagenet accuracy. Code is available at github.com/Intelligent-Computing-Lab-Yale/GPTQv2.

arxiv情報

著者 Yuhang Li,Ruokai Yin,Donghyun Lee,Shiting Xiao,Priyadarshini Panda
発行日 2025-04-04 11:31:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration はコメントを受け付けていません

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

要約

大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキストモダリティを統合する複雑さのため、音声ベースのタスクへの適用は依然として困難である。本稿では、音声とテキストのインターリーブシーケンスをシームレスに処理するミックスモーダルモデルIchigoを紹介する。トークン化された早期融合アプローチを利用し、Ichigoは音声を個別のトークンに量子化し、音声とテキストの両方のモダリティに対して統一された変換器ベースのアーキテクチャを採用する。この手法により、個別のアダプタを必要とせず、モダリティを超えた共同推論と生成が可能となる。多言語音声認識データセットでの事前学習と、キュレーションされたインストラクションデータセットでの微調整を含む、包括的な学習方法を提示する。Ichigoは、音声質問応答ベンチマークにおいて最先端の性能を示し、既存のオープンソース音声言語モデルを凌駕し、カスケードシステムと同等の結果を達成した。特筆すべきは、Ichigoの最初のトークン生成までの待ち時間が111ミリ秒と、現在のモデルよりも大幅に短いことである。我々のアプローチは、マルチモーダルAIの分野を発展させるだけでなく、小規模な研究チームがオープンソースの音声言語モデルに効果的に貢献するためのフレームワークを提供します。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized natural language processing, but their application to speech-based tasks remains challenging due to the complexities of integrating audio and text modalities. This paper introduces Ichigo, a mixed-modal model that seamlessly processes interleaved sequences of speech and text. Utilizing a tokenized early-fusion approach, Ichigo quantizes speech into discrete tokens and employs a uniform transformer-based architecture for both speech and text modalities. This method enables joint reasoning and generation across modalities without the need for separate adapters. We present a comprehensive training methodology, including pre-training on multilingual speech recognition datasets and fine-tuning on a curated instruction dataset. Ichigo demonstrates state-of-the-art performance on speech question-answering benchmarks, outperforming existing open-source speech language models and achieving comparable results to cascaded systems. Notably, Ichigo exhibits a latency of just 111 ms to first token generation, significantly lower than current models. Our approach not only advances the field of multimodal AI but also provides a framework for smaller research teams to contribute effectively to open-source speech-language models.

arxiv情報

著者 Alan Dao,Dinh Bach Vu,Huy Hoang Ha
発行日 2025-04-04 08:29:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS | Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant はコメントを受け付けていません

Why do LLMs attend to the first token?

要約

大規模言語モデル(LLM)は、シーケンスの最初のトークンに集中する傾向があり、いわゆるアテンション・シンク(attention sink)が発生する。多くの研究がこの現象を詳細に研究しており、この現象を利用したり緩和したりする様々な方法を提案している。アテンション・シンクは、数量化の困難さ、セキュリティの問題、ストリーミング・アテンションなどと関連している。しかし、多くの研究がアテンション・シンクが発生する条件や発生しない条件を提示している一方で、重要な疑問にはまだ浅い答えしか得られていない:なぜLLMはそのようなパターンを学習し、どのように利用されているのだろうか?本研究では、このメカニズムがLLMにオーバーミキシングを回避する方法を提供することを理論的・実証的に論証し、トランスフォーマーにおける情報伝播の仕組みを数学的に研究する既存の研究につなげる。我々は理論的直観を検証するために実験を行い、コンテキストの長さ、深さ、データのパッキングなどの選択がどのようにシンクの振る舞いに影響するかを示す。この研究が、なぜLLMにおいてアテンションシンクが有用なのかについて新たな実用的視点を提供し、訓練中に形成されるアテンションパターンについてのより良い理解につながることを期待している。

要約(オリジナル)

Large Language Models (LLMs) tend to attend heavily to the first token in the sequence — creating a so-called attention sink. Many works have studied this phenomenon in detail, proposing various ways to either leverage or alleviate it. Attention sinks have been connected to quantisation difficulties, security issues, and streaming attention. Yet, while many works have provided conditions in which they occur or not, a critical question remains shallowly answered: Why do LLMs learn such patterns and how are they being used? In this work, we argue theoretically and empirically that this mechanism provides a method for LLMs to avoid over-mixing, connecting this to existing lines of work that study mathematically how information propagates in Transformers. We conduct experiments to validate our theoretical intuitions and show how choices such as context length, depth, and data packing influence the sink behaviour. We hope that this study provides a new practical perspective on why attention sinks are useful in LLMs, leading to a better understanding of the attention patterns that form during training.

arxiv情報

著者 Federico Barbero,Álvaro Arroyo,Xiangming Gu,Christos Perivolaropoulos,Michael Bronstein,Petar Veličković,Razvan Pascanu
発行日 2025-04-04 07:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Why do LLMs attend to the first token? はコメントを受け付けていません

A Survey of Large Language Models in Mental Health Disorder Detection on Social Media

要約

メンタルヘルス問題の検出と介入は、世界的に重要な研究テーマであり、ソーシャルメディアデータはメンタルヘルス研究の重要なリソースとして認識されている。しかし、ソーシャルメディア上のメンタルヘルス問題検出のために大規模言語モデル(LLM)をどのように活用するかは大きな課題である。そこで本稿では、ソーシャルメディアデータ分析におけるLLMアプリケーションの可能性を探ることを目的とし、うつ病や不安障害といった最も一般的な精神障害だけでなく、精神病性障害や外向性障害も取り込み、テキストデータ分析や精神障害の検出といった異なる次元からLLMの適用方法をまとめ、現在の研究の主な課題と欠点を明らかにする。さらに、一般的なデータセットの概要や評価指標も提供している。本稿の調査は、メンタルヘルス分野の研究者に包括的な参照枠を提供するとともに、メンタルヘルス検出におけるLLMの大きな可能性を示し、将来のメンタルヘルス介入におけるLLMのさらなる応用を促進する。

要約(オリジナル)

The detection and intervention of mental health issues represent a critical global research focus, and social media data has been recognized as an important resource for mental health research. However, how to utilize Large Language Models (LLMs) for mental health problem detection on social media poses significant challenges. Hence, this paper aims to explore the potential of LLM applications in social media data analysis, focusing not only on the most common psychological disorders such as depression and anxiety but also incorporating psychotic disorders and externalizing disorders, summarizing the application methods of LLM from different dimensions, such as text data analysis and detection of mental disorders, and revealing the major challenges and shortcomings of current research. In addition, the paper provides an overview of popular datasets, and evaluation metrics. The survey in this paper provides a comprehensive frame of reference for researchers in the field of mental health, while demonstrating the great potential of LLMs in mental health detection to facilitate the further application of LLMs in future mental health interventions.

arxiv情報

著者 Zhuohan Ge,Nicole Hu,Darian Li,Yubo Wang,Shihao Qi,Yuming Xu,Han Shi,Jason Zhang
発行日 2025-04-04 02:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, I.2.7 | A Survey of Large Language Models in Mental Health Disorder Detection on Social Media はコメントを受け付けていません

RBT4DNN: Requirements-based Testing of Neural Networks

要約

ディープニューラルネットワーク(DNN)のテストは、障害が重大な結果をもたらす可能性のある重要なシステムの信頼性と安全性にとって極めて重要です。ロバスト性のテストスイートを作成するための様々な技術が開発されているが、DNNのための要件ベースのテストはほとんど未開拓のままである。この研究では、意味的特徴空間で定式化された構造化された自然言語要求を用いて、要求の前提条件でテキスト条件潜在拡散モデルを促し、関連する後条件を用いて、テスト対象のDNNの出力を判定するテストオラクルを定義することで、テストスイートを作成する要求ベースのテストスイート生成手法を提案する。我々は、事前に訓練された生成モデルの微調整された変種を用いて、このアプローチを調査する。MNIST、CelebA-HQ、ImageNet、および自律走行車のデータセットを用いた実験により、生成されたテスト・スイートが現実的で、多様で、前提条件と整合性があり、欠陥を明らかにできることが実証された。

要約(オリジナル)

Deep neural network (DNN) testing is crucial for the reliability and safety of critical systems, where failures can have severe consequences. Although various techniques have been developed to create robustness test suites, requirements-based testing for DNNs remains largely unexplored – yet such tests are recognized as an essential component of software validation of critical systems. In this work, we propose a requirements-based test suite generation method that uses structured natural language requirements formulated in a semantic feature space to create test suites by prompting text-conditional latent diffusion models with the requirement precondition and then using the associated postcondition to define a test oracle to judge outputs of the DNN under test. We investigate the approach using fine-tuned variants of pre-trained generative models. Our experiments on the MNIST, CelebA-HQ, ImageNet, and autonomous car driving datasets demonstrate that the generated test suites are realistic, diverse, consistent with preconditions, and capable of revealing faults.

arxiv情報

著者 Nusrat Jahan Mozumder,Felipe Toledo,Swaroopa Dola,Matthew B. Dwyer
発行日 2025-04-04 01:24:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.SE | RBT4DNN: Requirements-based Testing of Neural Networks はコメントを受け付けていません

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

要約

トーキングヘッド合成は、バーチャルアバターや人間とコンピュータのインタラクションに不可欠である。しかし、既存の手法のほとんどは、単一の主要なモダリティからの制御を受け付けるように制限されており、実用的な有用性が制限されています。この目的のために、トーキングヘッド映像生成のための複数信号制御と単一信号制御の両方をサポートするエンドツーエンドの映像拡散フレームワークである୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛を紹介します。マルチ制御では、複数のブランチを持つ並列マンバ構造を設計し、それぞれが特定の顔領域を制御するために個別の駆動信号を利用する。ゲート機構はすべての分岐に適用され、ビデオ生成の柔軟な制御を提供する。制御された映像の時間的・空間的な自然な調整を保証するために、各ブランチにおいて両次元にわたる特徴トークンを操作する駆動信号を可能にするマンバ構造を採用する。さらに、各駆動信号がマンバ構造内の対応する顔領域を独立して制御できるようにするマスクドロップ戦略を導入し、制御の競合を防ぐ。実験結果は、私たちの方法が多様な信号によって駆動される自然な顔のビデオを生成し、マンバ層が競合することなく複数の駆動モダリティをシームレスに統合することを実証しています。このプロジェクトのウェブサイトは 〚https://harlanhong.github.io/publications/actalker/index.html 〛 にあります。

要約(オリジナル)

Talking head synthesis is vital for virtual avatars and human-computer interaction. However, most existing methods are typically limited to accepting control from a single primary modality, restricting their practical utility. To this end, we introduce \textbf{ACTalker}, an end-to-end video diffusion framework that supports both multi-signals control and single-signal control for talking head video generation. For multiple control, we design a parallel mamba structure with multiple branches, each utilizing a separate driving signal to control specific facial regions. A gate mechanism is applied across all branches, providing flexible control over video generation. To ensure natural coordination of the controlled video both temporally and spatially, we employ the mamba structure, which enables driving signals to manipulate feature tokens across both dimensions in each branch. Additionally, we introduce a mask-drop strategy that allows each driving signal to independently control its corresponding facial region within the mamba structure, preventing control conflicts. Experimental results demonstrate that our method produces natural-looking facial videos driven by diverse signals and that the mamba layer seamlessly integrates multiple driving modalities without conflict. The project website can be found at \href{https://harlanhong.github.io/publications/actalker/index.html}{HERE}.

arxiv情報

著者 Fa-Ting Hong,Zunnan Xu,Zixiang Zhou,Jun Zhou,Xiu Li,Qin Lin,Qinglin Lu,Dan Xu
発行日 2025-04-04 06:51:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation はコメントを受け付けていません

Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis

要約

非言語的コミュニケーションは、発話の意味を伝えるのに役立つ意味豊かなジェスチャーで構成されることが多い。このような意味的な共話ジェスチャーを生成することは、既存の神経システムにとって大きな課題であった。既存の神経システムは、リズミカルなビートジェスチャーを生成することはできるが、意味的に意味のあるジェスチャーを生成することに苦戦している。そこで我々は、自然で意味豊かなジェスチャーを生成するために、RAG(Retrieval Augmented Generation)を活用した拡散ベースのジェスチャー生成アプローチであるRAG-Gestureを提案する。我々の神経明示的ジェスチャー生成アプローチは、解釈可能な言語知識に基づいた意味的ジェスチャーを生成するように設計されている。これは、明示的なドメイン知識を用いて、発話ジェスチャーのデータベースから模範的なモーションを検索することで実現される。一旦検索されると、これらの意味的な模範ジェスチャーを、DDIM反転と検索ガイダンスを用いて、拡散ベースのジェスチャー生成パイプラインに注入する。さらに、ガイダンスの制御パラダイムを提案し、各検索挿入が生成シーケンスに与える影響量をユーザが調節できるようにする。我々の比較評価により、最近のジェスチャー生成アプローチに対する我々のアプローチの有効性が実証された。読者は、我々のプロジェクト・ページで結果を探索することが望まれる。

要約(オリジナル)

Non-verbal communication often comprises of semantically rich gestures that help convey the meaning of an utterance. Producing such semantic co-speech gestures has been a major challenge for the existing neural systems that can generate rhythmic beat gestures, but struggle to produce semantically meaningful gestures. Therefore, we present RAG-Gesture, a diffusion-based gesture generation approach that leverages Retrieval Augmented Generation (RAG) to produce natural-looking and semantically rich gestures. Our neuro-explicit gesture generation approach is designed to produce semantic gestures grounded in interpretable linguistic knowledge. We achieve this by using explicit domain knowledge to retrieve exemplar motions from a database of co-speech gestures. Once retrieved, we then inject these semantic exemplar gestures into our diffusion-based gesture generation pipeline using DDIM inversion and retrieval guidance at the inference time without any need of training. Further, we propose a control paradigm for guidance, that allows the users to modulate the amount of influence each retrieval insertion has over the generated sequence. Our comparative evaluations demonstrate the validity of our approach against recent gesture generation approaches. The reader is urged to explore the results on our project page.

arxiv情報

著者 M. Hamza Mughal,Rishabh Dabral,Merel C. J. Scholman,Vera Demberg,Christian Theobalt
発行日 2025-04-04 07:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis はコメントを受け付けていません

Quattro: Transformer-Accelerated Iterative Linear Quadratic Regulator Framework for Fast Trajectory Optimization

要約

リアルタイム最適制御は、ロボット工学の基本的な課題である。代表的な軌道最適化アルゴリズムの1つである反復線形2次レギュレータ(iLQR)は、本質的に逐次的な計算の性質による制限に直面しており、ロボットシステムのリアルタイム制御の効率性と適用性を制限している。既存の並列実装は上記の制限を克服することを目的としているが、一般的に追加の計算反復と高性能ハードウェアを必要とし、実用的な改善はわずかである。本論文では、中間的なフィードバックとフィードフォワード行列を予測するために、アルゴリズムとハードウェアの協調設計戦略を採用したトランスフォーマアクセラレーションiLQRフレームワークであるQuattroを紹介する。これにより、精度を犠牲にすることなく、リソースに制約のあるデバイス上で効果的な並列計算が可能となる。カートポール・システムとクアドローター・システムでの実験では、アルゴリズム・レベルの加速が、反復あたりそれぞれ、最大5.3$times$と27$times$の値を示した。モデル予測制御(MPC)フレームワークに統合すると、Quattroは、従来のiLQRを適用したものと比較して、カートポールで2.8$times$、クアドローターで17.8$times$の全体的な高速化を達成する。Transformer推論は、性能を最大化するためにFPGA上に配置され、GPUより11$times$以上の電力削減と低いハードウェアリソースオーバーヘッドで、一般的な組み込みCPUよりさらに最大20.8$times$のスピードアップを達成する。

要約(オリジナル)

Real-time optimal control remains a fundamental challenge in robotics, especially for nonlinear systems with stringent performance requirements. As one of the representative trajectory optimization algorithms, the iterative Linear Quadratic Regulator (iLQR) faces limitations due to their inherently sequential computational nature, which restricts the efficiency and applicability of real-time control for robotic systems. While existing parallel implementations aim to overcome the above limitations, they typically demand additional computational iterations and high-performance hardware, leading to only modest practical improvements. In this paper, we introduce Quattro, a transformer-accelerated iLQR framework employing an algorithm-hardware co-design strategy to predict intermediate feedback and feedforward matrices. It facilitates effective parallel computations on resource-constrained devices without sacrificing accuracy. Experiments on cart-pole and quadrotor systems show an algorithm-level acceleration of up to 5.3$\times$ and 27$\times$ per iteration, respectively. When integrated into a Model Predictive Control (MPC) framework, Quattro achieves overall speedups of 2.8$\times$ for the cart-pole and 17.8$\times$ for the quadrotor compared to the one that applies traditional iLQR. Transformer inference is deployed on FPGA to maximize performance, achieving further up to 20.8$\times$ speedup over prevalent embedded CPUs with over 11$\times$ power reduction than GPU and low hardware resource overhead.

arxiv情報

著者 Yue Wang,Haoyu Wang,Zhaoxing Li
発行日 2025-04-03 23:57:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Quattro: Transformer-Accelerated Iterative Linear Quadratic Regulator Framework for Fast Trajectory Optimization はコメントを受け付けていません

Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

要約

強化学習(RL)は、近年、大規模言語モデルの推論能力を向上させる強い可能性を示し、現在、視覚言語モデル(VLM)に積極的に拡張されている。しかしながら、VLMにおける既存のRLアプリケーションは、多くの場合、再現性とアクセシビリティを妨げる、高度に設計されたフレームワークに依存しており、標準化された評価プロトコルがないため、結果の比較やトレーニングダイナミクスの解釈が困難である。本研究では、VLMにおけるRLのための透明でゼロからのフレームワークを導入し、複数のモデルやデータセットで検証された、最小かつ機能的な4段階のパイプラインを提供する。さらに、標準化された評価スキームを提案し、トレーニングダイナミクスと反射行動を評価する。視覚的推論タスクに関する広範な実験により、重要な経験的知見が明らかになった:応答の長さはランダムシードに敏感であり、反射は出力の長さと相関し、RLは高品質なデータであっても、汎化において教師付き微調整(SFT)を一貫して上回る。これらの発見は、提案されたフレームワークとともに、再現可能なベースラインを確立し、RLベースのVLM研究への幅広い関与を支援することを目的としている。

要約(オリジナル)

Reinforcement learning (RL) has recently shown strong potential in improving the reasoning capabilities of large language models and is now being actively extended to vision-language models (VLMs). However, existing RL applications in VLMs often rely on heavily engineered frameworks that hinder reproducibility and accessibility, while lacking standardized evaluation protocols, making it difficult to compare results or interpret training dynamics. This work introduces a transparent, from-scratch framework for RL in VLMs, offering a minimal yet functional four-step pipeline validated across multiple models and datasets. In addition, a standardized evaluation scheme is proposed to assess training dynamics and reflective behaviors. Extensive experiments on visual reasoning tasks uncover key empirical findings: response length is sensitive to random seeds, reflection correlates with output length, and RL consistently outperforms supervised fine-tuning (SFT) in generalization, even with high-quality data. These findings, together with the proposed framework, aim to establish a reproducible baseline and support broader engagement in RL-based VLM research.

arxiv情報

著者 Yan Ma,Steffi Chern,Xuyang Shen,Yiran Zhong,Pengfei Liu
発行日 2025-04-04 01:07:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG | Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme はコメントを受け付けていません

Computing High-dimensional Confidence Sets for Arbitrary Distributions

要約

mathbb{R}^d$上の任意の分布の高密度領域を学習する問題を研究する。目標とする被覆率パラメータ$delta$と、任意の分布$D$へのサンプルアクセスが与えられたとき、$S$が$D$を$delta$被覆するような信頼度集合$Sを出力したい。\left[(y)∕∕right]∕ge∕delta$となり、$S$の体積ができるだけ小さくなる。これは高次元統計における中心的な問題であり、信頼集合の発見、不確実性の定量化、およびサポート推定に応用される。 最も一般的な設定では、この問題は統計的に難解であるため、VC次元が有界の概念クラス$C$からの集合との競合に注意を限定する。アルゴリズムは、任意の分布$D$からのサンプルが与えられたとき、$D$の$δ$カバレッジを達成する集合を多項式時間で出力し、その体積が、必要なカバレッジ$δ$を持つ$C$の最小集合と競合するとき、クラス$C$と競合する。この問題は、$C$が全てのユークリッド球の集合であるという基本的な設定においてさえ、計算上困難である。コアセットに基づく既存のアルゴリズムは、$exp( \tilde{O}( d/ Γlog d))$倍で最良のボールの体積と競合するボールを多項式時間で求める。 我々の主な結果は、その体積が$exp( \tilde{O}(d^{2/3}))$ 因子で、所望のカバレッジを持つ最適なボールと競合する信頼集合を見つけるアルゴリズムである。このアルゴリズムは不適切である(楕円体を出力する)。

要約(オリジナル)

We study the problem of learning a high-density region of an arbitrary distribution over $\mathbb{R}^d$. Given a target coverage parameter $\delta$, and sample access to an arbitrary distribution $D$, we want to output a confidence set $S \subset \mathbb{R}^d$ such that $S$ achieves $\delta$ coverage of $D$, i.e., $\mathbb{P}_{y \sim D} \left[ y \in S \right] \ge \delta$, and the volume of $S$ is as small as possible. This is a central problem in high-dimensional statistics with applications in finding confidence sets, uncertainty quantification, and support estimation. In the most general setting, this problem is statistically intractable, so we restrict our attention to competing with sets from a concept class $C$ with bounded VC-dimension. An algorithm is competitive with class $C$ if, given samples from an arbitrary distribution $D$, it outputs in polynomial time a set that achieves $\delta$ coverage of $D$, and whose volume is competitive with the smallest set in $C$ with the required coverage $\delta$. This problem is computationally challenging even in the basic setting when $C$ is the set of all Euclidean balls. Existing algorithms based on coresets find in polynomial time a ball whose volume is $\exp(\tilde{O}( d/ \log d))$-factor competitive with the volume of the best ball. Our main result is an algorithm that finds a confidence set whose volume is $\exp(\tilde{O}(d^{2/3}))$ factor competitive with the optimal ball having the desired coverage. The algorithm is improper (it outputs an ellipsoid). Combined with our computational intractability result for proper learning balls within an $\exp(\tilde{O}(d^{1-o(1)}))$ approximation factor in volume, our results provide an interesting separation between proper and (improper) learning of confidence sets.

arxiv情報

著者 Chao Gao,Liren Shan,Vaidehi Srinivas,Aravindan Vijayaraghavan
発行日 2025-04-03 16:05:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH | Computing High-dimensional Confidence Sets for Arbitrary Distributions はコメントを受け付けていません