Still More Shades of Null: An Evaluation Suite for Responsible Missing Value Imputation

要約

データの欠落は、科学コミュニティにとって持続的な関心の実際的な課題です。
このホワイトペーパーでは、責任ある欠損値の代入のための評価スイートであるShades-of-nullを紹介します。
私たちの作品は2つの方法で斬新です(i)ルービンのクラシックがランダムに欠け、ランダム(MAR)が欠落し、ランダム(MNAR)の欠落を完全に超えて、マルチメカニズムの欠落を含めるために、ランダム(MAR)で欠落していない現実的で社会的に依存する欠落のシナリオをモデル化します(データに異なる欠落パターンが存在する場合)。
品質と帰属の公平性、ならびに、Imputation後のデータでトレーニングおよびテストされたモデルの予測パフォーマンス、公平性、および安定性について。
29,736の実験パイプラインを含む大規模な経験的研究を実施するために、ヌルの色合いを使用し、すべての欠落タイプに最適なパフォーマンスの最良の補完アプローチはありませんが、不足したシナリオ、interの選択、および予測モデルのアーキテクチャの組み合わせに基づいて、予測パフォーマンス、公平性、安定性の間に興味深いトレードオフが生じることがわかります。
研究者が、もっともらしい、社会的に意味のあるシナリオで、幅広いメトリックの欠損価値の補完方法を厳密に評価できるようにするために、私たちは公開されています。

要約(オリジナル)

Data missingness is a practical challenge of sustained interest to the scientific community. In this paper, we present Shades-of-Null, an evaluation suite for responsible missing value imputation. Our work is novel in two ways (i) we model realistic and socially-salient missingness scenarios that go beyond Rubin’s classic Missing Completely at Random (MCAR), Missing At Random (MAR) and Missing Not At Random (MNAR) settings, to include multi-mechanism missingness (when different missingness patterns co-exist in the data) and missingness shift (when the missingness mechanism changes between training and test) (ii) we evaluate imputers holistically, based on imputation quality and imputation fairness, as well as on the predictive performance, fairness and stability of the models that are trained and tested on the data post-imputation. We use Shades-of-Null to conduct a large-scale empirical study involving 29,736 experimental pipelines, and find that while there is no single best-performing imputation approach for all missingness types, interesting trade-offs arise between predictive performance, fairness and stability, based on the combination of missingness scenario, imputer choice, and the architecture of the predictive model. We make Shades-of-Null publicly available, to enable researchers to rigorously evaluate missing value imputation methods on a wide range of metrics in plausible and socially meaningful scenarios.

arxiv情報

著者 Falaah Arif Khan,Denys Herasymuk,Nazar Protsiv,Julia Stoyanovich
発行日 2025-03-18 17:46:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | Still More Shades of Null: An Evaluation Suite for Responsible Missing Value Imputation はコメントを受け付けていません

Counterfactual Generative Modeling with Variational Causal Inference

要約

介入の下で個人の反事実上の結果を推定することは、結果が高次元(遺伝子式、顔の画像など)であり、共変量が比較的限られている場合、従来の因果推論と監督された学習アプローチの困難な作業です。
この場合、反事実的治療下での結果を予測するには、共変量に加えて観察された結果に含まれる個々の情報を活用することが重要です。
反事実的な生成モデリングで変分推論を使用した以前の研究は、条件付き変動自動エンコーダー定式化内の神経適応とモデルのバリアントに焦点を当てています。
この作業では、新しい変動ベイジアン因果推論フレームワークとその理論的バッキングを提示して、反事実的な生成モデリングタスクを適切に処理します。これにより、反事実的なサンプルなしでトレーニング中に反事実的な監督を行うことができ、逆の効果の正確な識別を助ける不拡張外の騒音誘ductionを促進します。
実験では、複数のベンチマークでの反事実的生成モデリングの最先端モデルと比較して、フレームワークの利点を実証します。

要約(オリジナル)

Estimating an individual’s counterfactual outcomes under interventions is a challenging task for traditional causal inference and supervised learning approaches when the outcome is high-dimensional (e.g. gene expressions, facial images) and covariates are relatively limited. In this case, to predict one’s outcomes under counterfactual treatments, it is crucial to leverage individual information contained in the observed outcome in addition to the covariates. Prior works using variational inference in counterfactual generative modeling have been focusing on neural adaptations and model variants within the conditional variational autoencoder formulation, which we argue is fundamentally ill-suited to the notion of counterfactual in causal inference. In this work, we present a novel variational Bayesian causal inference framework and its theoretical backings to properly handle counterfactual generative modeling tasks, through which we are able to conduct counterfactual supervision end-to-end during training without any counterfactual samples, and encourage disentangled exogenous noise abduction that aids the correct identification of causal effect in counterfactual generations. In experiments, we demonstrate the advantage of our framework compared to state-of-the-art models in counterfactual generative modeling on multiple benchmarks.

arxiv情報

著者 Yulun Wu,Louie McConnell,Claudia Iriondo
発行日 2025-03-18 17:48:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.ST, stat.ML, stat.TH | Counterfactual Generative Modeling with Variational Causal Inference はコメントを受け付けていません

Sparse Autoencoders for Hypothesis Generation

要約

テキストデータ(見出しなど)とターゲット変数(たとえば、クリック)との間の解釈可能な関係を仮定する一般的な方法である仮説について説明します。
仮説には3つのステップがあります。(1)テキスト埋め込みでスパースオートエンコーダーをトレーニングして、データ分布を説明する解釈可能な機能を作成し、(2)ターゲット変数を予測する選択機能、(3)LLMを使用して各機能の自然な言語解釈(驚きまたはショックを受けた」)を生成します。
各解釈は、ターゲット変数を予測するものについての仮説として機能します。
ベースラインと比較して、私たちの方法は、合成データセットの参照仮説をよりよく識別し(F1で少なくとも+0.06)、最近のLLMベースの方法よりも1〜2桁の計算量が少ないにもかかわらず、実際のデータセットでより予測的な仮説(〜の2倍の重要な結果)を生成します。
仮説はまた、2つのよく研究されたタスクで新しい発見を生み出します。議会のスピーチの党派的な違いを説明し、オンライン見出しとの関与の要因を特定します。

要約(オリジナル)

We describe HypotheSAEs, a general method to hypothesize interpretable relationships between text data (e.g., headlines) and a target variable (e.g., clicks). HypotheSAEs has three steps: (1) train a sparse autoencoder on text embeddings to produce interpretable features describing the data distribution, (2) select features that predict the target variable, and (3) generate a natural language interpretation of each feature (e.g., ‘mentions being surprised or shocked’) using an LLM. Each interpretation serves as a hypothesis about what predicts the target variable. Compared to baselines, our method better identifies reference hypotheses on synthetic datasets (at least +0.06 in F1) and produces more predictive hypotheses on real datasets (~twice as many significant findings), despite requiring 1-2 orders of magnitude less compute than recent LLM-based methods. HypotheSAEs also produces novel discoveries on two well-studied tasks: explaining partisan differences in Congressional speeches and identifying drivers of engagement with online headlines.

arxiv情報

著者 Rajiv Movva,Kenny Peng,Nikhil Garg,Jon Kleinberg,Emma Pierson
発行日 2025-03-18 17:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Sparse Autoencoders for Hypothesis Generation はコメントを受け付けていません

Deep Jansen-Rit Parameter Inference for Model-Driven Analysis of Brain Activity

要約

効果的な接続(EC)を正確にモデリングすることは、脳が感覚情報をどのように処理および統合するかを理解するために重要です。
しかし、それは、脳波(EEG)から得られた複雑な神経ダイナミクスと騒々しい測定のために、恐るべき課題のままです。
モデル駆動型ECは、神経活動の生成モデルを実験データに適合させることにより、ローカル(脳領域内)およびグローバル(脳領域間)ECパラメーターを実現します。
このアプローチは、神経発達障害の調査など、さまざまなアプリケーションの有望なルートを提供します。
ただし、現在のアプローチは全脳分析にスケーリングできず、非常に騒音に敏感です。
この作業では、3つの深い学習アーキテクチャを採用しています – 変圧器、長期記憶(LSTM)ネットワーク、および畳み込みニューラルネットワークと双方向LSTM(CNN-BILSTM)ネットワーク – 逆モデリングと、シミュレーションベースの推論とヤンセンリットニューラルマスモデル(JR-NMM)パラメーターがシミュレーションEEGデータから推定されます。
シナプスのゲインや時間定数など、主要なローカルパラメーターの信頼できる推定を実証します。
ただし、ローカルJR-NMM接続のような他のパラメーターは、誘発関連の電位(ERP)から確実に評価することはできません。
また、ERPに対するJR-NMMパラメーターの影響を特徴付けるために感度分析を実施し、それらの学習性を評価します。
私たちの結果は、学習可能なJR-NMMパラメーターのサブセットを推定するための深部学習アプローチの実現可能性を示しています。

要約(オリジナル)

Accurately modeling effective connectivity (EC) is critical for understanding how the brain processes and integrates sensory information. Yet, it remains a formidable challenge due to complex neural dynamics and noisy measurements such as those obtained from the electroencephalogram (EEG). Model-driven EC infers local (within a brain region) and global (between brain regions) EC parameters by fitting a generative model of neural activity onto experimental data. This approach offers a promising route for various applications, including investigating neurodevelopmental disorders. However, current approaches fail to scale to whole-brain analyses and are highly noise-sensitive. In this work, we employ three deep-learning architectures–a transformer, a long short-term memory (LSTM) network, and a convolutional neural network and bidirectional LSTM (CNN-BiLSTM) network–for inverse modeling and compare their performance with simulation-based inference in estimating the Jansen-Rit neural mass model (JR-NMM) parameters from simulated EEG data under various noise conditions. We demonstrate a reliable estimation of key local parameters, such as synaptic gains and time constants. However, other parameters like local JR-NMM connectivity cannot be evaluated reliably from evoked-related potentials (ERP). We also conduct a sensitivity analysis to characterize the influence of JR-NMM parameters on ERP and evaluate their learnability. Our results show the feasibility of deep-learning approaches to estimate the subset of learnable JR-NMM parameters.

arxiv情報

著者 Deepa Tilwani,Christian O’Reilly
発行日 2025-03-18 17:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.NC | Deep Jansen-Rit Parameter Inference for Model-Driven Analysis of Brain Activity はコメントを受け付けていません

Gricean Norms as a Basis for Effective Collaboration

要約

効果的な人間とのコラボレーションは、AIエージェントの明示的な指示に従う能力だけでなく、曖昧さ、不完全性、無効性、コミュニケーションにおける無関係性をナビゲートする能力にもかかっています。
Griceanの会話および推論の規範は、不明確な指示を協同組合の原則と整列させることにより、コラボレーションを促進します。
グライスの規範と認知フレームワーク(共通の基盤、関連性理論、心の理論)を大規模な言語モデル(LLM)ベースのエージェントに統合する規範的な枠組みを提案します。
規範的な枠組みは、griceanの格言を、推論とともに、曖昧な、不完全、無効、または無関係な指示を解釈するグライスの規範として推論とともに採用しています。
このフレームワーク内で、人間と協力するように設計されたLamoids、GPT-4パワーエージェントを導入します。
人間とのコラボレーションにおけるグライスの規範の影響を評価するために、ラモイドの2つのバージョンを評価します。1つは規範を持つものとないものです。
私たちの実験では、ラモイドが人間と協力して、明確で不明確な自然言語の両方の指示を解釈することにより、グリッドの世界(ドア、キー、宝石)で共有された目標を達成します。
我々の結果は、グライスの規範を持つラモイドがタスクの精度が高いことを示し、規範のないラモイドよりもより明確で正確で、文脈的に関連する反応を生成することを明らかにしています。
この改善は、エージェントの実用的な推論を強化し、LLMベースのエージェントでの効果的な人間とaiのコラボレーションを促進し、コンテキストを認識するコミュニケーションを可能にする規範的なフレームワークに由来します。

要約(オリジナル)

Effective human-AI collaboration hinges not only on the AI agent’s ability to follow explicit instructions but also on its capacity to navigate ambiguity, incompleteness, invalidity, and irrelevance in communication. Gricean conversational and inference norms facilitate collaboration by aligning unclear instructions with cooperative principles. We propose a normative framework that integrates Gricean norms and cognitive frameworks — common ground, relevance theory, and theory of mind — into large language model (LLM) based agents. The normative framework adopts the Gricean maxims of quantity, quality, relation, and manner, along with inference, as Gricean norms to interpret unclear instructions, which are: ambiguous, incomplete, invalid, or irrelevant. Within this framework, we introduce Lamoids, GPT-4 powered agents designed to collaborate with humans. To assess the influence of Gricean norms in human-AI collaboration, we evaluate two versions of a Lamoid: one with norms and one without. In our experiments, a Lamoid collaborates with a human to achieve shared goals in a grid world (Doors, Keys, and Gems) by interpreting both clear and unclear natural language instructions. Our results reveal that the Lamoid with Gricean norms achieves higher task accuracy and generates clearer, more accurate, and contextually relevant responses than the Lamoid without norms. This improvement stems from the normative framework, which enhances the agent’s pragmatic reasoning, fostering effective human-AI collaboration and enabling context-aware communication in LLM-based agents.

arxiv情報

著者 Fardin Saad,Pradeep K. Murukannaiah,Munindar P. Singh
発行日 2025-03-18 17:54:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA | Gricean Norms as a Basis for Effective Collaboration はコメントを受け付けていません

Engineering Scientific Assistants using Interactive Structured Induction of Programs

要約

私たちは、ドメインスペシャリストへの科学アシスタントとして機能する可能性のあるソフトウェアの構築に興味があります。
緊急のソリューションを必要とする複雑な問題に対処する方法の特定を加速するために、そのようなアシスタントが必要になると予想されます。
この論文では、私たちの焦点は特定の科学的問題ではなく、そのような「科学アクセラレータ」のソフトウェアエンジニアリングにあります。
「コードなし」のテクニックの最近の開発は、科学者が単に大規模な言語モデル(LLM)と会話するだけでソリューションを単純に仮定できることを示唆しているように思われます。
ただし、複雑な科学的問題については、LLMテクノロジーの現在の状態を考えると、これはありそうにないようです。
実行可能と思われるのは、ソフトウェアエンジニアがLLMSを使用して、自然言語で表明された専門家の要件を含む、ドメイン専門家が使用するプログラムを迅速に構築できることです。
ソフトウェアエンジニアとLLMが科学データ分析のために「アシスタント」を協力して構築する「構造化された」誘導プログラミングのインタラクティブな形式の設計を提案します。
このペーパーでは、ソフトウェアエンジニアとLLMの間の相互作用を実装するために「2ウェイイテラスビリティ」プロトコルを適応させるIstrucindと呼ばれる簡単な実装について説明しています。
2つの異なる非自明の科学データ分析タスクでツールをテストします。
具体的には、ISTrucindによって構築されたシステムを、手動で構築されたシステムと、次の寸法に沿った低コード/コードなしのメソッドによって構築されたシステムを比較します。(a)プログラムパフォーマンス。
(b)プログラムの品質。
(c)プログラミングの取り組み。
結果は、ISTRUCINDにより、ソフトウェアエンジニアがより良いプログラムを開発できるようになり、インタラクティブな構造化された誘導が科学アシスタントの迅速な構築に有用な役割を果たすことを示唆しています。

要約(オリジナル)

We are interested in the construction of software that can act as scientific assistants to domain specialists. It is expected that such assistants will be needed to accelerate the identification of ways to address complex problems requiring urgent solutions. In this paper, our focus is not on a specific scientific problem, but on the software-engineering of such ‘science accelerators’. Recent developments in ‘No Code’ techniques would seem to suggest that scientist can simply hypothesise solutions simply by conversing with a large language model (LLM). However, for complex scientific problems, this seems unlikely given the current state of LLM technology. What does appear feasible is that a software engineer can use LLMs to rapidly construct programs for use by a domain-specialist, including the specialist’s requirements expressed in natural language. We propose the design of an interactive form of ‘structured’ inductive programming in which a software-engineer and an LLM collaboratively construct an ‘assistant’ for a scientific data analysis. The paper describes a simple implementation called iStrucInd that adapts a ‘2-way Intelligibility’ protocol to implement the interaction between the software engineer and the LLM. We test the tool on two different non-trivial scientific data analysis tasks. Specifically, we compare the system constructed by iStrucInd against systems constructed manually and by Low Code/No Code methods along dimensions of: (a) program performance; (b) program quality; and (c) programming effort. The results show iStrucInd allows a software engineer to develop better programs faster suggesting interactive structured induction can play a useful role in the rapid construction of scientific assistants.

arxiv情報

著者 Shraddha Surana,Ashwin Srinivasan
発行日 2025-03-18 17:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Engineering Scientific Assistants using Interactive Structured Induction of Programs はコメントを受け付けていません

Measuring AI Ability to Complete Long Tasks

要約

AIベンチマークの急速な進歩にもかかわらず、ベンチマークパフォーマンスの実際の意味は不明のままです。
人間の能力の観点からAIシステムの機能を定量化するために、新しいメトリックを提案します:50%-Task-Completion Time Horizo​​n。
これは、人間が通常、AIモデルが50%の成功率で完了できるタスクを完了するために通常取る時間です。
最初に、リベンチ、hcast、66の新しい短いタスクの組み合わせに関する関連するドメインの専門知識を持つ人間をタイミングしました。
これらのタスクでは、Claude 3.7 Sonnetなどの現在のフロンティアAIモデルの50%の期間は約50分です。
さらに、フロンティアAIタイムホライズンは2019年以来約7か月ごとに2倍になっていますが、この傾向は2024年に加速している可能性があります。AIモデルの時間の増加は、より大きな信頼性と間違いに適応する能力と、より良い論理的推論とツール使用能力と組み合わせて、主に間違いに適応する能力によって駆動されるようです。
外部の妥当性の程度を含む結果の限界と、危険な能力に対する自律性の増加の意味について説明します。
これらの結果が実際のソフトウェアタスクに一般化された場合、この傾向の外挿により、5年以内にAIシステムが現在1か月に人間がかかる多くのソフトウェアタスクを自動化できると予測します。

要約(オリジナル)

Despite rapid progress on AI benchmarks, the real-world meaning of benchmark performance remains unclear. To quantify the capabilities of AI systems in terms of human capabilities, we propose a new metric: 50%-task-completion time horizon. This is the time humans typically take to complete tasks that AI models can complete with 50% success rate. We first timed humans with relevant domain expertise on a combination of RE-Bench, HCAST, and 66 novel shorter tasks. On these tasks, current frontier AI models such as Claude 3.7 Sonnet have a 50% time horizon of around 50 minutes. Furthermore, frontier AI time horizon has been doubling approximately every seven months since 2019, though the trend may have accelerated in 2024. The increase in AI models’ time horizons seems to be primarily driven by greater reliability and ability to adapt to mistakes, combined with better logical reasoning and tool use capabilities. We discuss the limitations of our results — including their degree of external validity — and the implications of increased autonomy for dangerous capabilities. If these results generalize to real-world software tasks, extrapolation of this trend predicts that within 5 years, AI systems will be capable of automating many software tasks that currently take humans a month.

arxiv情報

著者 Thomas Kwa,Ben West,Joel Becker,Amy Deng,Katharyn Garcia,Max Hasin,Sami Jawhar,Megan Kinniment,Nate Rush,Sydney Von Arx,Ryan Bloom,Thomas Broadley,Haoxing Du,Brian Goodrich,Nikola Jurkovic,Luke Harold Miles,Seraphina Nix,Tao Lin,Neev Parikh,David Rein,Lucas Jun Koba Sato,Hjalmar Wijk,Daniel M. Ziegler,Elizabeth Barnes,Lawrence Chan
発行日 2025-03-18 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Measuring AI Ability to Complete Long Tasks はコメントを受け付けていません

Bracket Diffusion: HDR Image Generation by Consistent LDR Denoising

要約

複数のブラックボックス、事前に訓練されたLDR画像拡散モデルの協調アクションを使用して、HDR画像の生成を実証します。
事前に訓練されたLDR生成拡散モデルに依存することは、第一に、それらを再訓練するのに利用可能な十分に大きなHDR画像データセットがないため、それがほとんどのモデルを再訓練することは、ほとんどの計算予算では不可能です。
代わりに、単一のHDR画像を生成するために、「露出ブラケット」と呼ばれるLDR画像のセットを伝統的に融合するHDR画像キャプチャ文献からインスピレーションを求めています。
複数の除去プロセスを操作して、有効なHDR結果を形成する複数のLDRブラケットを生成します。
この作業を行うための鍵は、拡散プロセスに一貫性の用語を導入してブラケットを結合し、量子化エラーによる違いの可能性を考慮しながら共有する露出範囲間で同意するようにすることです。
HDRでは、最先端の無条件で条件付きまたは復元型(LDR2HDR)生成モデリングの結果を示しています。

要約(オリジナル)

We demonstrate generating HDR images using the concerted action of multiple black-box, pre-trained LDR image diffusion models. Relying on a pre-trained LDR generative diffusion models is vital as, first, there is no sufficiently large HDR image dataset available to re-train them, and, second, even if it was, re-training such models is impossible for most compute budgets. Instead, we seek inspiration from the HDR image capture literature that traditionally fuses sets of LDR images, called ‘exposure brackets”, to produce a single HDR image. We operate multiple denoising processes to generate multiple LDR brackets that together form a valid HDR result. The key to making this work is to introduce a consistency term into the diffusion process to couple the brackets such that they agree across the exposure range they share while accounting for possible differences due to the quantization error. We demonstrate state-of-the-art unconditional and conditional or restoration-type (LDR2HDR) generative modeling results, yet in HDR.

arxiv情報

著者 Mojtaba Bemana,Thomas Leimkühler,Karol Myszkowski,Hans-Peter Seidel,Tobias Ritschel
発行日 2025-03-18 14:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, eess.IV | Bracket Diffusion: HDR Image Generation by Consistent LDR Denoising はコメントを受け付けていません

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

要約

視覚的理解と生成に必要な異なる表現スペースは、大規模な言語モデルの自己回帰パラダイム内でそれらを統合する上で課題となります。
再建のために訓練された視力トークナイザーは、低レベルの知覚的な詳細をキャプチャすることに優れており、視覚生成に適していますが、タスクを理解するための高レベルのセマンティック表現がありません。
逆に、対照的な学習を介してトレーニングされたビジョンエンコーダーは言語とよく一致しますが、生成タスクのピクセル空間にデコードするのに苦労しています。
このギャップを埋めるために、DualTokenを提案します。これは、単一のトークン剤内の理解と生成の両方の表現を統合する方法です。
ただし、単一のトークナイザーに再構成とセマンティックの目標を直接統合すると、競合が生じ、再構成の品質とセマンティックパフォーマンスの両方でパフォーマンスが低下します。
単一のコードブックにセマンティック情報と知覚情報の両方を処理するように強制する代わりに、デュアルトークンは、高レベルと低レベルの機能用の個別のコードブックを導入し、固有の対立を相乗的な関係に効果的に変換することにより、それらを解き放ちます。
その結果、DualTokenは、再構成とセマンティックタスクの両方で最先端のパフォーマンスを達成しながら、下流のMLLMの理解と生成タスクで顕著な有効性を示しています。
特に、デュアルトークンは、統一されたトークナイザーとして、2つの異なるタイプビジョンエンコーダーの素朴な組み合わせを上回り、統一されたMLLM内で優れた性能を提供することを示しています。

要約(オリジナル)

The differing representation spaces required for visual understanding and generation pose a challenge in unifying them within the autoregressive paradigm of large language models. A vision tokenizer trained for reconstruction excels at capturing low-level perceptual details, making it well-suited for visual generation but lacking high-level semantic representations for understanding tasks. Conversely, a vision encoder trained via contrastive learning aligns well with language but struggles to decode back into the pixel space for generation tasks. To bridge this gap, we propose DualToken, a method that unifies representations for both understanding and generation within a single tokenizer. However, directly integrating reconstruction and semantic objectives in a single tokenizer creates conflicts, leading to degraded performance in both reconstruction quality and semantic performance. Instead of forcing a single codebook to handle both semantic and perceptual information, DualToken disentangles them by introducing separate codebooks for high and low-level features, effectively transforming their inherent conflict into a synergistic relationship. As a result, DualToken achieves state-of-the-art performance in both reconstruction and semantic tasks while demonstrating remarkable effectiveness in downstream MLLM understanding and generation tasks. Notably, we also show that DualToken, as a unified tokenizer, surpasses the naive combination of two distinct types vision encoders, providing superior performance within a unified MLLM.

arxiv情報

著者 Wei Song,Yuran Wang,Zijia Song,Yadong Li,Haoze Sun,Weipeng Chen,Zenan Zhou,Jianhua Xu,Jiaqi Wang,Kaicheng Yu
発行日 2025-03-18 14:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies はコメントを受け付けていません

BiTrack: Bidirectional Offline 3D Multi-Object Tracking Using Camera-LiDAR Data

要約

リアルタイムマルチオブジェクトトラッキング(MOT)と比較して、オフラインのマルチオブジェクト追跡(OMOT)は、2D-3D検出融合、誤ったリンク補正、およびフルトラックの最適化を実行することに利点がありますが、境界ボックスの不整合と追跡評価、編集、および改良による課題に対処する必要があります。
このペーパーでは、カメラライダーデータから最適な追跡結果を達成するために、2D-3D検出融合、初期軌道生成、および双方向の軌道の再最適化のモジュールを含む3D OMOTフレームワーク「Bitrack」を提案します。
この論文の斬新さには、3つの倍率が含まれます。(1)密度ベースの類似性メトリックを使用して2D-3D検出結果の正確な融合を実現するポイントレベルオブジェクト登録手法の開発。
(2)頂点ベースの類似性メトリックと虚偽のアラーム除去およびトラックリカバリメカニズムを利用して、信頼できる双方向オブジェクトの軌跡を生成する一連のデータ関連および追跡管理スキルの開発。
(3)異なる忠実さのトラックフラグメントを貪欲に再編成する軌跡の再最適化スキームの開発と、各軌道を完了とスムージングテクニックで改良します。
Kittiデータセットの実験結果は、Bitrackが正確さと効率の観点から3D OMOTタスクの最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Compared with real-time multi-object tracking (MOT), offline multi-object tracking (OMOT) has the advantages to perform 2D-3D detection fusion, erroneous link correction, and full track optimization but has to deal with the challenges from bounding box misalignment and track evaluation, editing, and refinement. This paper proposes ‘BiTrack’, a 3D OMOT framework that includes modules of 2D-3D detection fusion, initial trajectory generation, and bidirectional trajectory re-optimization to achieve optimal tracking results from camera-LiDAR data. The novelty of this paper includes threefold: (1) development of a point-level object registration technique that employs a density-based similarity metric to achieve accurate fusion of 2D-3D detection results; (2) development of a set of data association and track management skills that utilizes a vertex-based similarity metric as well as false alarm rejection and track recovery mechanisms to generate reliable bidirectional object trajectories; (3) development of a trajectory re-optimization scheme that re-organizes track fragments of different fidelities in a greedy fashion, as well as refines each trajectory with completion and smoothing techniques. The experiment results on the KITTI dataset demonstrate that BiTrack achieves the state-of-the-art performance for 3D OMOT tasks in terms of accuracy and efficiency.

arxiv情報

著者 Kemiao Huang,Yinqi Chen,Meiying Zhang,Qi Hao
発行日 2025-03-18 14:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | BiTrack: Bidirectional Offline 3D Multi-Object Tracking Using Camera-LiDAR Data はコメントを受け付けていません