Deep Fusion: Capturing Dependencies in Contrastive Learning via Transformer Projection Heads

要約

対照学習 (CL) は、ラベルなしのデータを使用して特徴抽出モデルをトレーニングするための強力な方法として登場しました。
最近の研究では、線形投影ヘッドのポストバックボーンを組み込むとモデルのパフォーマンスが大幅に向上することが示唆されています。
この研究では、CL フレームワーク内のプロジェクション ヘッドとしてトランス モデルの使用を調査し、エンベディング間の長距離依存関係をキャプチャするトランスの能力を活用してパフォーマンスをさらに向上させることを目的としています。
私たちの主な貢献は 4 つあります。まず、対比学習のためのプロジェクション ヘッドの役割におけるトランスフォーマーの新しいアプリケーションを導入し、この種の最初の試みを示します。
第 2 に、私たちの実験は、注意メカニズムがより深い層にある同じクラスのサンプル間の正しい関係依存関係を徐々に捕捉する、魅力的な「ディープ フュージョン」現象を明らかにしました。
第三に、この「ディープフュージョン」動作を説明しサポートする理論的フレームワークを提供します。
最後に、実験結果を通じて、フィードフォワード層を使用する既存のアプローチと比較して、モデルが優れたパフォーマンスを達成することを実証します。

要約(オリジナル)

Contrastive Learning (CL) has emerged as a powerful method for training feature extraction models using unlabeled data. Recent studies suggest that incorporating a linear projection head post-backbone significantly enhances model performance. In this work, we investigate the use of a transformer model as a projection head within the CL framework, aiming to exploit the transformer’s capacity for capturing long-range dependencies across embeddings to further improve performance. Our key contributions are fourfold: First, we introduce a novel application of transformers in the projection head role for contrastive learning, marking the first endeavor of its kind. Second, our experiments reveal a compelling ‘Deep Fusion’ phenomenon where the attention mechanism progressively captures the correct relational dependencies among samples from the same class in deeper layers. Third, we provide a theoretical framework that explains and supports this ‘Deep Fusion’ behavior. Finally, we demonstrate through experimental results that our model achieves superior performance compared to the existing approach of using a feed-forward layer.

arxiv情報

著者 Huanran Li,Daniel Pimentel-Alarcón
発行日 2024-10-07 16:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Learning to Steer Markovian Agents under Model Uncertainty

要約

適応する人口に対するインセンティブを設計することは、さまざまな経済用途やその他の分野で普遍的な問題です。
この研究では、エージェントの基礎となる学習ダイナミクスについての事前知識を持たずに、マルチエージェント システムを望ましいポリシーに向けて誘導するための追加の報酬を設計する方法を研究します。
既存の研究の制限を動機として、\emph{マルコフエージェント}と呼ばれる学習ダイナミクスの新しい一般的なカテゴリを検討します。
ステアリング問題に対して、モデルベースの非エピソード強化学習 (RL) 定式化を導入します。
重要なのは、エージェントの学習ダイナミクスに関するモデル固有の不確実性を処理する \emph{履歴依存} ステアリング戦略の学習に焦点を当てていることです。
妥当なコストで良好なステアリング結果を達成するという要望をコード化する新しい目的関数を導入します。
理論的には、エージェントを望ましいポリシーに導くためのステアリング戦略が存在する条件を特定します。
私たちの理論的貢献を補完するために、私たちは目的を近似的に解決するための経験的アルゴリズムを提供し、歴史に依存した戦略を学習する際の課題に効果的に取り組みます。
私たちは経験的評価を通じてアルゴリズムの有効性を実証します。

要約(オリジナル)

Designing incentives for an adapting population is a ubiquitous problem in a wide array of economic applications and beyond. In this work, we study how to design additional rewards to steer multi-agent systems towards desired policies \emph{without} prior knowledge of the agents’ underlying learning dynamics. Motivated by the limitation of existing works, we consider a new and general category of learning dynamics called \emph{Markovian agents}. We introduce a model-based non-episodic Reinforcement Learning (RL) formulation for our steering problem. Importantly, we focus on learning a \emph{history-dependent} steering strategy to handle the inherent model uncertainty about the agents’ learning dynamics. We introduce a novel objective function to encode the desiderata of achieving a good steering outcome with reasonable cost. Theoretically, we identify conditions for the existence of steering strategies to guide agents to the desired policies. Complementing our theoretical contributions, we provide empirical algorithms to approximately solve our objective, which effectively tackles the challenge in learning history-dependent strategies. We demonstrate the efficacy of our algorithms through empirical evaluations.

arxiv情報

著者 Jiawei Huang,Vinzenz Thoma,Zebang Shen,Heinrich H. Nax,Niao He
発行日 2024-10-07 16:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, stat.ML | コメントする

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks

要約

私たちは、安全性を重視した最新の LLM であっても、単純な適応ジェイルブレイク攻撃に対しては堅牢ではないことを示します。
まず、脱獄のために logprob へのアクセスをうまく活用する方法を示します。最初に敵対的プロンプト テンプレート (場合によってはターゲット LLM に適合する) を設計し、次にサフィックスにランダム検索を適用して、ターゲット logprob (トークンなど) を最大化します。
「確かに」)、複数回の再起動が必要になる可能性があります。
このようにして、GPT-4 の審査員によると、Vicuna-13B、Mistral-7B、Phi-3-Mini、Nemotron-4-340B、Llama-2-Chat に対して 100% の攻撃成功率を達成しました。
7B/13B/70B、Llama-3-Instruct-8B、Gemma-7B、GPT-3.5、GPT-4o、および GCG 攻撃に対して敵対的に訓練された HarmBench の R2D2。
また、転送攻撃または事前入力攻撃によって 100% の成功率で、logprob を公開しないすべての Claude モデルをジェイルブレイクする方法も示します。
さらに、毒されたモデル内のトロイの木馬文字列を見つけるために、制限されたトークンのセットでランダム検索を使用する方法を示します。このタスクは、ジェイルブレイクと多くの類似点を共有します。これは、SaTML’24 で 1 位を獲得したアルゴリズムです。
トロイの木馬検出コンテスト。
これらの攻撃の背後にある共通のテーマは、適応性が重要であるということです。さまざまなモデルはさまざまなプロンプト テンプレートに対して脆弱であり (たとえば、R2D2 はコンテキスト内の学習プロンプトに非常に敏感です)、一部のモデルには API に基づいた固有の脆弱性があります (たとえば、クロードの事前入力など)
)、一部の設定では、事前の知識に基づいてトークン検索スペースを制限することが重要です(トロイの木馬の検出など)。
再現性を目的として、コード、ログ、ジェイルブレイク アーティファクトを JailbreakBench 形式で https://github.com/tml-epfl/llm-adaptive-attachs に提供しています。

要約(オリジナル)

We show that even the most recent safety-aligned LLMs are not robust to simple adaptive jailbreaking attacks. First, we demonstrate how to successfully leverage access to logprobs for jailbreaking: we initially design an adversarial prompt template (sometimes adapted to the target LLM), and then we apply random search on a suffix to maximize a target logprob (e.g., of the token ‘Sure’), potentially with multiple restarts. In this way, we achieve 100% attack success rate — according to GPT-4 as a judge — on Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, and R2D2 from HarmBench that was adversarially trained against the GCG attack. We also show how to jailbreak all Claude models — that do not expose logprobs — via either a transfer or prefilling attack with a 100% success rate. In addition, we show how to use random search on a restricted set of tokens for finding trojan strings in poisoned models — a task that shares many similarities with jailbreaking — which is the algorithm that brought us the first place in the SaTML’24 Trojan Detection Competition. The common theme behind these attacks is that adaptivity is crucial: different models are vulnerable to different prompting templates (e.g., R2D2 is very sensitive to in-context learning prompts), some models have unique vulnerabilities based on their APIs (e.g., prefilling for Claude), and in some settings, it is crucial to restrict the token search space based on prior knowledge (e.g., for trojan detection). For reproducibility purposes, we provide the code, logs, and jailbreak artifacts in the JailbreakBench format at https://github.com/tml-epfl/llm-adaptive-attacks.

arxiv情報

著者 Maksym Andriushchenko,Francesco Croce,Nicolas Flammarion
発行日 2024-10-07 16:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, stat.ML | コメントする

Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law

要約

他のクラスの深層学習システムと同様に、基礎モデルのトレーニング プロセスは、トレーニング セットにわたる再構成エラーを最小限に抑えることに基づいています。
このため、トレーニング サンプルの暗記とその後の再現の影響を受けやすくなります。
この論文では、モデルの重みがトレーニング データの圧縮表現を具体化する、圧縮としてのトレーニングの観点を導入します。
著作権の観点から見ると、この観点は、ウェイトが潜在的に保護されている一連の作品の複製または派生作品とみなされる可能性があることを意味します。
私たちは、基礎モデルによって生成された出力の著作権のこの枠組みから生じる技術的および法的課題を、実務者や研究者への影響も含めて調査します。
私たちは、この問題に対して情報中心のアプローチを採用することが、これらの新たな複雑な法的問題に取り組むための有望な道筋となることを実証します。

要約(オリジナル)

The training process of foundation models as for other classes of deep learning systems is based on minimizing the reconstruction error over a training set. For this reason, they are susceptible to the memorization and subsequent reproduction of training samples. In this paper, we introduce a training-as-compressing perspective, wherein the model’s weights embody a compressed representation of the training data. From a copyright standpoint, this point of view implies that the weights could be considered a reproduction or a derivative work of a potentially protected set of works. We investigate the technical and legal challenges that emerge from this framing of the copyright of outputs generated by foundation models, including their implications for practitioners and researchers. We demonstrate that adopting an information-centric approach to the problem presents a promising pathway for tackling these emerging complex legal issues.

arxiv情報

著者 Giorgio Franceschelli,Claudia Cevenini,Mirco Musolesi
発行日 2024-10-07 16:40:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | コメントする

LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation

要約

大規模言語モデル (LLM) と視覚言語モデル (VLM) の進歩に基づいて、最近の研究では、ロボット操作タスクの統合ソリューションとして視覚言語アクション (VLA) モデルが導入されました。
これらのモデルは、カメラ画像と自然言語によるタスク指示を入力として受け取り、ロボットが指定されたタスクを実行するための制御アクションを直接生成し、意思決定能力と人間のユーザーとの対話の両方を大幅に向上させます。
ただし、VLA モデルのデータ駆動型の性質は、解釈可能性の欠如と相まって、その有効性と堅牢性の保証を困難な課題にしています。
これは、信頼性の高いテストおよび評価プラットフォームの必要性を浮き彫りにしています。
この目的のために、この研究では、VLA モデルを評価するために特別に設計された包括的で効率的なプラットフォームである LADEV を提案します。
まず、自然言語入力からシミュレーション環境を自動的に生成し、手動調整の必要性を軽減し、テスト効率を大幅に向上させる言語駆動型のアプローチを紹介します。
次に、VLA モデルに対する言語入力の影響をさらに評価するために、テスト用の多様な自然言語タスク命令を生成する言い換えメカニズムを実装します。
最後に、評価プロセスを迅速化するために、VLA モデルの大規模テストを実行するためのバッチ スタイルの方法を導入します。
LADEV を使用して、いくつかの最先端の VLA モデルで実験を行い、これらのモデルを評価するためのツールとしての有効性を実証しました。
私たちの結果は、LADEV がテスト効率を向上させるだけでなく、VLA モデルを評価するための強固なベースラインを確立し、よりインテリジェントで高度なロボット システムの開発への道を開くことを示しました。

要約(オリジナル)

Building on the advancements of Large Language Models (LLMs) and Vision Language Models (VLMs), recent research has introduced Vision-Language-Action (VLA) models as an integrated solution for robotic manipulation tasks. These models take camera images and natural language task instructions as input and directly generate control actions for robots to perform specified tasks, greatly improving both decision-making capabilities and interaction with human users. However, the data-driven nature of VLA models, combined with their lack of interpretability, makes the assurance of their effectiveness and robustness a challenging task. This highlights the need for a reliable testing and evaluation platform. For this purpose, in this work, we propose LADEV, a comprehensive and efficient platform specifically designed for evaluating VLA models. We first present a language-driven approach that automatically generates simulation environments from natural language inputs, mitigating the need for manual adjustments and significantly improving testing efficiency. Then, to further assess the influence of language input on the VLA models, we implement a paraphrase mechanism that produces diverse natural language task instructions for testing. Finally, to expedite the evaluation process, we introduce a batch-style method for conducting large-scale testing of VLA models. Using LADEV, we conducted experiments on several state-of-the-art VLA models, demonstrating its effectiveness as a tool for evaluating these models. Our results showed that LADEV not only enhances testing efficiency but also establishes a solid baseline for evaluating VLA models, paving the way for the development of more intelligent and advanced robotic systems.

arxiv情報

著者 Zhijie Wang,Zhehua Zhou,Jiayang Song,Yuheng Huang,Zhan Shu,Lei Ma
発行日 2024-10-07 16:49:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

CAnDOIT: Causal Discovery with Observational and Interventional Data from Time-Series

要約

因果関係の研究は、科学の多くの分野だけでなく、インテリジェント システムの多くの実際的な応用にとっても最も重要です。
特に、隠れた要因を含む状況での因果関係を特定することは、観察データのみに依存して因果モデルを構築する手法にとって大きな課題です。
この論文では、観察時系列データと介入時系列データの両方を使用して因果モデルを再構築する因果発見手法である CAnDOIT を提案します。
因果分析における介入データの使用は、シナリオが非常に複雑であり、正しい因果構造を明らかにするには観察データだけでは不十分なことが多いロボット工学などの実世界のアプリケーションにとって非常に重要です。
この方法の検証は、最初はランダムに生成された合成モデルで実行され、その後、ロボット操作環境での因果構造学習のよく知られたベンチマークで実行されます。
実験は、このアプローチが介入からのデータを効果的に処理し、それを活用して因果分析の精度を高めることができることを示しています。
CAnDOIT の Python 実装も開発されており、GitHub: https://github.com/lcastri/causalflow で公開されています。

要約(オリジナル)

The study of cause-and-effect is of the utmost importance in many branches of science, but also for many practical applications of intelligent systems. In particular, identifying causal relationships in situations that include hidden factors is a major challenge for methods that rely solely on observational data for building causal models. This paper proposes CAnDOIT, a causal discovery method to reconstruct causal models using both observational and interventional time-series data. The use of interventional data in the causal analysis is crucial for real-world applications, such as robotics, where the scenario is highly complex and observational data alone are often insufficient to uncover the correct causal structure. Validation of the method is performed initially on randomly generated synthetic models and subsequently on a well-known benchmark for causal structure learning in a robotic manipulation environment. The experiments demonstrate that the approach can effectively handle data from interventions and exploit them to enhance the accuracy of the causal analysis. A Python implementation of CAnDOIT has also been developed and is publicly available on GitHub: https://github.com/lcastri/causalflow.

arxiv情報

著者 Luca Castri,Sariah Mghames,Marc Hanheide,Nicola Bellotto
発行日 2024-10-07 17:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, stat.ML | コメントする

Learning Successor Features with Distributed Hebbian Temporal Memory

要約

この論文では、非定常で部分的に観測可能な環境における不確実性の下での意思決定のためのオンライン一時記憶学習の課題に対処するための新しいアプローチを紹介します。
提案されたアルゴリズムである分散ヘビアン時間記憶 (DHTM) は、ファクター グラフ形式主義と多成分ニューロン モデルに基づいています。
DHTM は、逐次的なデータの関係を取得し、将来の観測に関する累積的な予測を行い、後続特徴 (SF) を形成することを目的としています。
新皮質の神経生理学的モデルにインスピレーションを得たこのアルゴリズムは、分散表現、スパース遷移行列、ローカル ヘビアンのような学習ルールを利用して、RNN や HMM などの従来の時間記憶アルゴリズムの不安定性と遅い学習プロセスを克服します。
実験結果は、非定常データセットの場合、DHTM が LSTM および生物学にヒントを得た HMM のようなアルゴリズムである CSCG よりも優れていることを示しています。
私たちの調査結果は、DHTM が動的環境におけるオンライン配列学習と計画の課題に対処するための有望なアプローチであることを示唆しています。

要約(オリジナル)

This paper presents a novel approach to address the challenge of online temporal memory learning for decision-making under uncertainty in non-stationary, partially observable environments. The proposed algorithm, Distributed Hebbian Temporal Memory (DHTM), is based on factor graph formalism and a multicomponent neuron model. DHTM aims to capture sequential data relationships and make cumulative predictions about future observations, forming Successor Features (SF). Inspired by neurophysiological models of the neocortex, the algorithm utilizes distributed representations, sparse transition matrices, and local Hebbian-like learning rules to overcome the instability and slow learning process of traditional temporal memory algorithms like RNN and HMM. Experimental results demonstrate that DHTM outperforms LSTM and a biologically inspired HMM-like algorithm, CSCG, in the case of non-stationary datasets. Our findings suggest that DHTM is a promising approach for addressing the challenges of online sequence learning and planning in dynamic environments.

arxiv情報

著者 Evgenii Dzhivelikian,Petr Kuderov,Aleksandr I. Panov
発行日 2024-10-07 17:27:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | コメントする

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

要約

大規模言語モデル (LLM) の最近の進歩により、特に数学における形式的推論能力への関心が高まっています。
GSM8K ベンチマークは、小学校レベルの問題におけるモデルの数学的推論を評価するために広く使用されています。
GSM8K 上の LLM のパフォーマンスは近年大幅に向上しましたが、その数学的推論能力が本当に進歩したかどうかは依然として不明瞭であり、報告されたメトリクスの信頼性について疑問が生じています。
これらの懸念に対処するために、私たちはいくつかの SOTA オープン モデルとクローズド モデルについて大規模な調査を実施しました。
既存の評価の制限を克服するために、多様な質問セットの生成を可能にするシンボリック テンプレートから作成された改良されたベンチマークである GSM-Symbolic を導入します。
GSM-Symbolic は、より制御可能な評価を可能にし、モデルの推論能力を測定するための重要な洞察とより信頼性の高いメトリクスを提供します。私たちの調査結果では、LLM が同じ質問の異なるインスタンス化に応答するときに顕著な差異を示すことが明らかになりました。
具体的には、GSM-Symbolic ベンチマークで質問内の数値のみを変更すると、すべてのモデルのパフォーマンスが低下します。
さらに、これらのモデルにおける数学的推論の脆弱性を調査し、質問内の文節の数が増加するにつれてパフォーマンスが大幅に低下することを示します。
この低下の原因は、現在の LLM が真の論理的推論を実行できないためであると私たちは仮説を立てています。
彼らはトレーニング データから推論ステップを複製します。
質問に関連すると思われる 1 つの句を追加すると、その句が最終的な答えに必要な推論チェーンに寄与していないにもかかわらず、すべての最先端のモデルで大幅なパフォーマンスの低下 (最大 65%) が発生します。
全体として、私たちの研究は、数学的推論における LLM の機能と限界について、より微妙な理解を提供します。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn’t contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs’ capabilities and limitations in mathematical reasoning.

arxiv情報

著者 Iman Mirzadeh,Keivan Alizadeh,Hooman Shahrokhi,Oncel Tuzel,Samy Bengio,Mehrdad Farajtabar
発行日 2024-10-07 17:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Regression Conformal Prediction under Bias

要約

不確実性の定量化は、影響の大きいアプリケーションの機械学習アルゴリズムの不完全な予測を説明するために重要です。
等角予測 (CP) は、有効な範囲で調整された予測間隔を生成する、不確実性を定量化するための強力なフレームワークです。
この研究では、CP 間隔がバイアス (グランド トゥルース値からの予測の体系的な偏差) によってどのように影響を受けるかを研究します。これは、現実世界の多くのアプリケーションでよく見られる現象です。
我々は、2 つの異なるタイプの調整の間隔の長さに及ぼすバイアスの影響を調査します。対称調整は、間隔の両側が均等に調整される従来の方法であり、非対称調整は、間隔を正方向に不均等に調整できるより柔軟な方法です。
またはマイナス方向。
対称および非対称の調整が回帰タスクの CP 間隔の「狭さ」にどのような影響を与えるかを特徴付ける理論的および経験的分析を紹介します。
特に、絶対残差および分位数ベースの不適合スコアについては、次のことを証明します。1) 対称的に調整された区間の長さの上限は、$2|b|$ ずつ増加します。ここで、$b$ は、バイアスを表すグローバルに適用されるスカラー値です。2) 非対称的に調整されます。
間隔の長さはバイアスの影響を受けません。3) 非対称に調整された間隔の長さが対称のものよりも小さいことが保証される条件。
私たちの分析は、予測がグランドトゥルース値からの大幅なドリフトを示したとしても、非対称的に調整された間隔はドリフトがまったく起こらなかったかのように同じ間隔の厳密さと有効性を維持できる一方、対称的なものは長さを大幅に膨張させることを示唆しています。
スパースビューコンピュータ断層撮影 (CT) 再構成と時系列天気予報という 2 つの現実世界の予測タスクを使用して、理論的結果を実証します。
私たちの取り組みは、よりバイアスに強い機械学習システムへの道を切り開きます。

要約(オリジナル)

Uncertainty quantification is crucial to account for the imperfect predictions of machine learning algorithms for high-impact applications. Conformal prediction (CP) is a powerful framework for uncertainty quantification that generates calibrated prediction intervals with valid coverage. In this work, we study how CP intervals are affected by bias – the systematic deviation of a prediction from ground truth values – a phenomenon prevalent in many real-world applications. We investigate the influence of bias on interval lengths of two different types of adjustments — symmetric adjustments, the conventional method where both sides of the interval are adjusted equally, and asymmetric adjustments, a more flexible method where the interval can be adjusted unequally in positive or negative directions. We present theoretical and empirical analyses characterizing how symmetric and asymmetric adjustments impact the ‘tightness’ of CP intervals for regression tasks. Specifically for absolute residual and quantile-based non-conformity scores, we prove: 1) the upper bound of symmetrically adjusted interval lengths increases by $2|b|$ where $b$ is a globally applied scalar value representing bias, 2) asymmetrically adjusted interval lengths are not affected by bias, and 3) conditions when asymmetrically adjusted interval lengths are guaranteed to be smaller than symmetric ones. Our analyses suggest that even if predictions exhibit significant drift from ground truth values, asymmetrically adjusted intervals are still able to maintain the same tightness and validity of intervals as if the drift had never happened, while symmetric ones significantly inflate the lengths. We demonstrate our theoretical results with two real-world prediction tasks: sparse-view computed tomography (CT) reconstruction and time-series weather forecasting. Our work paves the way for more bias-robust machine learning systems.

arxiv情報

著者 Matt Y. Cheung,Tucker J. Netherton,Laurence E. Court,Ashok Veeraraghavan,Guha Balakrishnan
発行日 2024-10-07 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.ME, stat.ML, stat.TH | コメントする

PhotoReg: Photometrically Registering 3D Gaussian Splatting Models

要約

環境の正確な表現を構築することは、インテリジェント ロボットが展開中に意思決定を行うために重要です。
フォトリアリスティックな環境モデルの進歩により、ロボットが超リアルな再構成を開発できるようになり、これを使用して人間が直感的に検査できる画像を生成できます。
特に、最近導入された \ac{3DGS} は、最大数百万のプリミティブ楕円体でシーンを記述しており、リアルタイムでレンダリングできます。
\ac{3DGS} は急速に注目を集めています。
しかし、重要な未解決の問題が依然として残っています。複数の \ac{3DGS} を単一の一貫したモデルに融合するにはどうすればよいでしょうか?
この問題を解決すると、ロボット チームが周囲の \ac{3DGS} モデルを共同で構築できるようになります。
この研究の重要な洞察は、3D 構造からリアルな 2D 画像をレンダリングするフォトリアリスティックな再構成と、画像ペアから 3D 構造を予測する \emph{3D 基礎モデル} の間の {二重性} を活用することです。
この目的を達成するために、私たちは複数の写真のようにリアルな \ac{3DGS} モデルを 3D 基礎モデルに登録するフレームワークである PhotoReg を開発します。
\ac{3DGS} モデルは通常、単眼カメラの画像から構築されるため、\emph{任意のスケール} を持ちます。
これを解決するために、PhotoReg は、さまざまな \ac{3DGS} モデル内の深さの推定を考慮することで、これらのモデル間のスケールの一貫性を積極的に強化します。
次に、きめの細かい測光損失を使用して位置合わせを繰り返し調整し、高品質の融合 \ac{3DGS} モデルを生成します。
当社では、標準ベンチマーク データセットと、2 台の四足ロボットを含むカスタム収集データセットの両方で PhotoReg を厳密に評価しています。
コードは \url{ziweny11.github.io/photoreg} でリリースされています。

要約(オリジナル)

Building accurate representations of the environment is critical for intelligent robots to make decisions during deployment. Advances in photorealistic environment models have enabled robots to develop hyper-realistic reconstructions, which can be used to generate images that are intuitive for human inspection. In particular, the recently introduced \ac{3DGS}, which describes the scene with up to millions of primitive ellipsoids, can be rendered in real time. \ac{3DGS} has rapidly gained prominence. However, a critical unsolved problem persists: how can we fuse multiple \ac{3DGS} into a single coherent model? Solving this problem will enable robot teams to jointly build \ac{3DGS} models of their surroundings. A key insight of this work is to leverage the {duality} between photorealistic reconstructions, which render realistic 2D images from 3D structure, and \emph{3D foundation models}, which predict 3D structure from image pairs. To this end, we develop PhotoReg, a framework to register multiple photorealistic \ac{3DGS} models with 3D foundation models. As \ac{3DGS} models are generally built from monocular camera images, they have \emph{arbitrary scale}. To resolve this, PhotoReg actively enforces scale consistency among the different \ac{3DGS} models by considering depth estimates within these models. Then, the alignment is iteratively refined with fine-grained photometric losses to produce high-quality fused \ac{3DGS} models. We rigorously evaluate PhotoReg on both standard benchmark datasets and our custom-collected datasets, including with two quadruped robots. The code is released at \url{ziweny11.github.io/photoreg}.

arxiv情報

著者 Ziwen Yuan,Tianyi Zhang,Matthew Johnson-Roberson,Weiming Zhi
発行日 2024-10-07 13:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする