CoLLM: A Large Language Model for Composed Image Retrieval

要約

構成された画像検索(CIR)は、マルチモーダルクエリに基づいて画像を取得することを目的とする複雑なタスクです。
典型的なトレーニングデータは、参照画像を含むトリプレット、望ましい変更のテキストの説明、および獲得に時間がかかり、時間がかかるターゲット画像で構成されています。
CIRデータセットの希少性により、合成トリプレットを利用したり、遍在するWebがクロールした画像キャプションペアを使用してビジョン言語モデル(VLMS)を活用したりするゼロショットアプローチにつながりました。
ただし、これらの方法には大きな制限があります。合成トリプレットは、限られたスケール、多様性の欠如、不自然な修正テキストに苦しんでいますが、画像キャプションのペアは、トリプレットデータがないためにマルチモーダルクエリの学習を埋め込むジョイントを妨害します。
さらに、既存のアプローチは、ビジョンと言語のモダリティの洗練された融合と理解を要求する複雑で微妙な修正テキストと格闘しています。
これらの制限に効果的に対処するワンストップフレームワークであるCollmを提示します。
私たちのアプローチは、画像キャプションのペアからフライでトリプレットを生成し、手動注釈なしで監視されたトレーニングを可能にします。
大規模な言語モデル(LLM)を活用して、参照画像と変更テキストの共同埋め込みを生成し、より深いマルチモーダル融合を促進します。
さらに、3.4mのサンプルで構成される大規模なデータセットであるマルチテキストCIR(MTCIR)を導入し、既存のCIRベンチマーク(CIRRおよびファッションIQ)を改良して評価の信頼性を高めます。
実験結果は、COLLMが複数のCIRベンチマークと設定にわたって最先端のパフォーマンスを達成することを示しています。
MTCIRは競争力のある結果をもたらし、パフォーマンスを最大15%改善します。
洗練されたベンチマークは、CIRモデルのより信頼性の高い評価メトリックを提供し、この重要な分野の進歩に貢献しています。

要約(オリジナル)

Composed Image Retrieval (CIR) is a complex task that aims to retrieve images based on a multimodal query. Typical training data consists of triplets containing a reference image, a textual description of desired modifications, and the target image, which are expensive and time-consuming to acquire. The scarcity of CIR datasets has led to zero-shot approaches utilizing synthetic triplets or leveraging vision-language models (VLMs) with ubiquitous web-crawled image-caption pairs. However, these methods have significant limitations: synthetic triplets suffer from limited scale, lack of diversity, and unnatural modification text, while image-caption pairs hinder joint embedding learning of the multimodal query due to the absence of triplet data. Moreover, existing approaches struggle with complex and nuanced modification texts that demand sophisticated fusion and understanding of vision and language modalities. We present CoLLM, a one-stop framework that effectively addresses these limitations. Our approach generates triplets on-the-fly from image-caption pairs, enabling supervised training without manual annotation. We leverage Large Language Models (LLMs) to generate joint embeddings of reference images and modification texts, facilitating deeper multimodal fusion. Additionally, we introduce Multi-Text CIR (MTCIR), a large-scale dataset comprising 3.4M samples, and refine existing CIR benchmarks (CIRR and Fashion-IQ) to enhance evaluation reliability. Experimental results demonstrate that CoLLM achieves state-of-the-art performance across multiple CIR benchmarks and settings. MTCIR yields competitive results, with up to 15% performance improvement. Our refined benchmarks provide more reliable evaluation metrics for CIR models, contributing to the advancement of this important field.

arxiv情報

著者 Chuong Huynh,Jinyu Yang,Ashish Tawari,Mubarak Shah,Son Tran,Raffay Hamid,Trishul Chilimbi,Abhinav Shrivastava
発行日 2025-03-25 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | CoLLM: A Large Language Model for Composed Image Retrieval はコメントを受け付けていません

SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining

要約

LIDARの表現学習は、費用と労働集約的な人間の注釈への依存を減らすための有望なアプローチとして浮上しています。
既存の方法は、主にLidarセンサーとカメラセンサーの間の空間的アライメントに焦点を当てていますが、運転シナリオの動きとシーンの連続性をキャプチャするために重要な時間的ダイナミクスを見落としていることがよくあります。
この制限に対処するために、Superflow ++を提案します。これは、連続したLidar-Cameraペアを使用して、前後のタスクと下流の両方のタスクの空間的キューを統合する新しいフレームワークです。
Superflow ++は、4つの重要なコンポーネントを導入します。(1)カメラビュー全体でセマンティック情報を統合するビューの一貫性アラインメントモジュール、(2)さまざまな点雲の密度全体で特徴の堅牢性を高めるための密な球形とスパルの一貫性の正規化メカニズム、(3)aの一時的な票を補うための一時的な票を補うための一時的な関係を促進するフローベースの造影学習アプローチ
予測の一貫性。
11の不均一なLIDARデータセットでの広範な評価は、スーパーフロー++が多様なタスクと運転条件で最新の方法を上回ることを示しています。
さらに、事前トレーニング中に2Dバックボーンと3Dバックボーンの両方をスケーリングすることにより、スケーラブルな3Dファンデーションモデルの開発に関するより深い洞察を提供する緊急特性を明らかにします。
強力な一般化可能性と計算効率により、Superflow ++は、自律運転におけるデータ効率の高いLIDARベースの認識のための新しいベンチマークを確立します。
このコードは、https://github.com/xiangxu-0103/superflowで公開されています

要約(オリジナル)

LiDAR representation learning has emerged as a promising approach to reducing reliance on costly and labor-intensive human annotations. While existing methods primarily focus on spatial alignment between LiDAR and camera sensors, they often overlook the temporal dynamics critical for capturing motion and scene continuity in driving scenarios. To address this limitation, we propose SuperFlow++, a novel framework that integrates spatiotemporal cues in both pretraining and downstream tasks using consecutive LiDAR-camera pairs. SuperFlow++ introduces four key components: (1) a view consistency alignment module to unify semantic information across camera views, (2) a dense-to-sparse consistency regularization mechanism to enhance feature robustness across varying point cloud densities, (3) a flow-based contrastive learning approach that models temporal relationships for improved scene understanding, and (4) a temporal voting strategy that propagates semantic information across LiDAR scans to improve prediction consistency. Extensive evaluations on 11 heterogeneous LiDAR datasets demonstrate that SuperFlow++ outperforms state-of-the-art methods across diverse tasks and driving conditions. Furthermore, by scaling both 2D and 3D backbones during pretraining, we uncover emergent properties that provide deeper insights into developing scalable 3D foundation models. With strong generalizability and computational efficiency, SuperFlow++ establishes a new benchmark for data-efficient LiDAR-based perception in autonomous driving. The code is publicly available at https://github.com/Xiangxu-0103/SuperFlow

arxiv情報

著者 Xiang Xu,Lingdong Kong,Hui Shuai,Wenwei Zhang,Liang Pan,Kai Chen,Ziwei Liu,Qingshan Liu
発行日 2025-03-25 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining はコメントを受け付けていません

Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models

要約

事前に訓練された2D拡散モデルから合成的に生成された3Dサンプルを活用することにより、オブジェクトとオブジェクトの空間関係(OOR)と呼ばれるオブジェクトペア間の3D空間関係を学習する方法を提示します。
2D拡散モデルによって合成された画像は、本質的にもっともらしく現実的なOORキューをキャプチャし、3Dデータセットを収集して、さまざまな無制限のオブジェクトカテゴリのOORを学習するための効率的な方法を可能にすると仮定します。
私たちのアプローチは、もっともらしいOORキューをキャプチャする多様な画像を合成することから始まります。これを3Dサンプルに向上させます。
オブジェクトペアのもっともらしい3Dサンプルの多様なコレクションを活用して、スコアベースのOOR拡散モデルをトレーニングして、相対的な空間的関係の分布を学習します。
さらに、ペアワイズ関係全体で一貫性を強制し、オブジェクトの衝突を防止することにより、ペアワイズOORをマルチオブジェクトOORに拡張します。
広範な実験は、OOR拡散モデルを使用した実際の3Dシーンアレンジメントタスクへの適用性とともに、さまざまなオブジェクトとオブジェクトの空間的関係にわたる方法の堅牢性を示しています。

要約(オリジナル)

We present a method for learning 3D spatial relationships between object pairs, referred to as object-object spatial relationships (OOR), by leveraging synthetically generated 3D samples from pre-trained 2D diffusion models. We hypothesize that images synthesized by 2D diffusion models inherently capture plausible and realistic OOR cues, enabling efficient ways to collect a 3D dataset to learn OOR for various unbounded object categories. Our approach begins by synthesizing diverse images that capture plausible OOR cues, which we then uplift into 3D samples. Leveraging our diverse collection of plausible 3D samples for the object pairs, we train a score-based OOR diffusion model to learn the distribution of their relative spatial relationships. Additionally, we extend our pairwise OOR to multi-object OOR by enforcing consistency across pairwise relations and preventing object collisions. Extensive experiments demonstrate the robustness of our method across various object-object spatial relationships, along with its applicability to real-world 3D scene arrangement tasks using the OOR diffusion model.

arxiv情報

著者 Sangwon Beak,Hyeonwoo Kim,Hanbyul Joo
発行日 2025-03-25 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models はコメントを受け付けていません

PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model

要約

現在の観察と行動から将来の状態を予測する世界モデルに関心が高まるにつれて、部分レベルのダイナミクスの正確なモデリングは、さまざまなアプリケーションにますます関連するようになりました。
Puppet-Masterなどの既存のアプローチは、2Dビデオ表現の制限と遅い処理時間のために、実際の使用を実用的ではない、微調整する大規模な訓練前のビデオ拡散モデルに依存しています。
これらの課題を克服するために、静的オブジェクトのマルチビュー画像からの外観、ジオメトリ、および部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークであるPartrmを提示します。
Partrmは、大規模な3Dガウス再構成モデ​​ルに基づいており、静的オブジェクトの外観とジオメトリに関する広範な知識を活用しています。
4Dのデータ不足に対処するために、PARTDRAG-4Dデータセットを導入し、20,000を超える州でパートレベルのダイナミクスのマルチビュー観測を提供します。
さまざまな粒度でダイナミクスをキャプチャするマルチスケールのドラッグ埋め込みモジュールで、相互作用条件のモデルの理解を強化します。
微調整中の壊滅的な忘却を防ぐために、動きと外観の学習に順番に焦点を当てた2段階のトレーニングプロセスを実装します。
実験結果は、Partrmが部分レベルのモーション学習に新しい最先端の最先端を確立し、ロボット工学の操作タスクに適用できることを示しています。
私たちのコード、データ、モデルは、将来の研究を促進するために公開されています。

要約(オリジナル)

As interest grows in world models that predict future states from current observations and actions, accurately modeling part-level dynamics has become increasingly relevant for various applications. Existing approaches, such as Puppet-Master, rely on fine-tuning large-scale pre-trained video diffusion models, which are impractical for real-world use due to the limitations of 2D video representation and slow processing times. To overcome these challenges, we present PartRM, a novel 4D reconstruction framework that simultaneously models appearance, geometry, and part-level motion from multi-view images of a static object. PartRM builds upon large 3D Gaussian reconstruction models, leveraging their extensive knowledge of appearance and geometry in static objects. To address data scarcity in 4D, we introduce the PartDrag-4D dataset, providing multi-view observations of part-level dynamics across over 20,000 states. We enhance the model’s understanding of interaction conditions with a multi-scale drag embedding module that captures dynamics at varying granularities. To prevent catastrophic forgetting during fine-tuning, we implement a two-stage training process that focuses sequentially on motion and appearance learning. Experimental results show that PartRM establishes a new state-of-the-art in part-level motion learning and can be applied in manipulation tasks in robotics. Our code, data, and models are publicly available to facilitate future research.

arxiv情報

著者 Mingju Gao,Yike Pan,Huan-ang Gao,Zongzheng Zhang,Wenyi Li,Hao Dong,Hao Tang,Li Yi,Hao Zhao
発行日 2025-03-25 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model はコメントを受け付けていません

EventFly: Event Camera Perception from Ground to the Sky

要約

イベントベースの密集した知覚におけるクロスプラットフォーム適応は、車両、ドローン、四足類などの多様な設定にイベントカメラを展開するために重要です。
この作業では、イベントカメラの知覚における堅牢なクロスプラットフォーム適応のフレームワークであるEventFlyを紹介します。
私たちのアプローチは、3つの重要なコンポーネントで構成されています。i)イベントアクティベーションPriot(EAP)は、ターゲットドメインの高活性化領域を識別して予測エントロピーを最小限に抑え、自信を持ってドメイン適応予測を促進します。
ii)EventBlend、EAP駆動型の類似性と密度マップに基づいて、ソースとターゲットのイベントボクセルグリッドを統合するデータミックス戦略で、特徴アライメントを強化します。
およびiii)イベントマッチ、ソース、ターゲット、およびブレンドドメインから機能を整列させるデュアルディスクリミネーター手法で、ドメインに不変の学習を改善します。
クロスプラットフォームの適応能力を総合的に評価するために、車両、ドローン、および四足動物を介して多様なサンプルを備えた大規模なベンチマークであるExpoを紹介します。
広範な実験は当社の有効性を検証し、一般的な適応方法よりも大きな利益を示しています。
この作品が、多様で複雑な環境で、より適応的で高性能なイベントの認識への道を開くことができることを願っています。

要約(オリジナル)

Cross-platform adaptation in event-based dense perception is crucial for deploying event cameras across diverse settings, such as vehicles, drones, and quadrupeds, each with unique motion dynamics, viewpoints, and class distributions. In this work, we introduce EventFly, a framework for robust cross-platform adaptation in event camera perception. Our approach comprises three key components: i) Event Activation Prior (EAP), which identifies high-activation regions in the target domain to minimize prediction entropy, fostering confident, domain-adaptive predictions; ii) EventBlend, a data-mixing strategy that integrates source and target event voxel grids based on EAP-driven similarity and density maps, enhancing feature alignment; and iii) EventMatch, a dual-discriminator technique that aligns features from source, target, and blended domains for better domain-invariant learning. To holistically assess cross-platform adaptation abilities, we introduce EXPo, a large-scale benchmark with diverse samples across vehicle, drone, and quadruped platforms. Extensive experiments validate our effectiveness, demonstrating substantial gains over popular adaptation methods. We hope this work can pave the way for more adaptive, high-performing event perception across diverse and complex environments.

arxiv情報

著者 Lingdong Kong,Dongyue Lu,Xiang Xu,Lai Xing Ng,Wei Tsang Ooi,Benoit R. Cottereau
発行日 2025-03-25 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | EventFly: Event Camera Perception from Ground to the Sky はコメントを受け付けていません

Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations

要約

大規模な言語モデルの出現は、科学的知識の構造化された探求のための新しい可能性を提供します。
科学的発見を孤立したアイデアやコンテンツと見なすのではなく、破壊的な洞察を形作る際の方法の組み合わせの役割を強調する構造化されたアプローチを提案します。
具体的には、知識単位、特に方法論的設計に結び付けられたものがどのようにモデル化され、再結合されて研究のブレークスルーをもたらすかを調査します。
提案されたフレームワークは、2つの重要な課題に対処しています。
まず、問題駆動型のコンテキスト内で歴史的に破壊的な方法の組み合わせの際立った特徴を特定するための対照的な学習ベースのメカニズムを紹介します。
第二に、LLMの考え方の能力を活用して新しい問題の声明の有望な知識の組み合わせを特定する推論ガイド付きモンテカルロ検索アルゴリズムを提案します。複数のドメインにわたる包括的な研究は、革新の構造的ダイナミクスをモデル化し、高虐殺の可能性との組み合わせを継続的に強調することができることを示しています。
この研究は、構造化された推論と歴史的データモデリングに基づいた計算誘導科学的観念のための新しいパスを提供します。

要約(オリジナル)

The emergence of large language models offers new possibilities for structured exploration of scientific knowledge. Rather than viewing scientific discovery as isolated ideas or content, we propose a structured approach that emphasizes the role of method combinations in shaping disruptive insights. Specifically, we investigate how knowledge unit–especially those tied to methodological design–can be modeled and recombined to yield research breakthroughs. Our proposed framework addresses two key challenges. First, we introduce a contrastive learning-based mechanism to identify distinguishing features of historically disruptive method combinations within problem-driven contexts. Second, we propose a reasoning-guided Monte Carlo search algorithm that leverages the chain-of-thought capability of LLMs to identify promising knowledge recombinations for new problem statements.Empirical studies across multiple domains show that the framework is capable of modeling the structural dynamics of innovation and successfully highlights combinations with high disruptive potential. This research provides a new path for computationally guided scientific ideation grounded in structured reasoning and historical data modeling.

arxiv情報

著者 Junlan Chen,Kexin Zhang,Daifeng Li,Yangyang Feng,Yuxuan Zhang,Bowen Deng
発行日 2025-03-25 14:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Structuring Scientific Innovation: A Framework for Modeling and Discovering Impactful Knowledge Combinations はコメントを受け付けていません

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

要約

現在のビジョン言語モデル(VLM)は、視覚的な質問応答など、さまざまなタスク全体で例外的な能力を示しています。
ユーザーエクスペリエンスを向上させるために、最近の研究では、ユーザーが提供する概念を理解するためにVLMパーソナライズを調査しています。
ただし、主に単一の概念パーソナライズに焦点を当て、複数の概念の存在と相互作用を無視して、実際の適用性を制限します。
このペーパーでは、最初のマルチコンセプトパーソナライゼーションパラダイムであるMC-llavaを提案します。
具体的には、MC-Lolavaはマルチコンセプト指導チューニング戦略を採用しており、単一のトレーニングステップで複数の概念を効果的に統合しています。
共同トレーニングに関連するコストを削減するために、視覚トークン情報を使用してコンセプトトークンを初期化するパーソナライズされたテキストプロンプトを提案します。
さらに、推論中にパーソナライズされた視覚プロンプトを導入し、認識と接地機能を強化するための位置信頼マップを集約します。
マルチコンセプトパーソナライゼーションの研究を進めるために、さらに高品質の命令チューニングデータセットを提供します。
映画から複数の文字やオブジェクトを使用して画像を慎重に収集し、優れた多様性を特徴とするマルチコンセプトシナリオ用の質問回答サンプルを手動で生成します。
包括的な定性的および定量的実験は、MC-Lovaが印象的なマルチコンセプトパーソナライズされた応答を達成できることを示しており、VLMSがより優れたユーザー固有のアシスタントになる方法を開催しています。
コードとデータセットは、https://github.com/arctanxarc/mc-llava}で公開されます。

要約(オリジナル)

Current vision-language models (VLMs) show exceptional abilities across diverse tasks, such as visual question answering. To enhance user experience, recent studies investigate VLM personalization to understand user-provided concepts. However, they mainly focus on single-concept personalization, neglecting the existence and interplay of multiple concepts, which limits real-world applicability. This paper proposes the first multi-concept personalization paradigm, MC-LLaVA. Specifically, MC-LLaVA employs a multi-concept instruction tuning strategy, effectively integrating multiple concepts in a single training step. To reduce the costs related to joint training, we propose a personalized textual prompt that uses visual token information to initialize concept tokens. Additionally, we introduce a personalized visual prompt during inference, aggregating location confidence maps for enhanced recognition and grounding capabilities. To advance multi-concept personalization research, we further contribute a high-quality instruction tuning dataset. We carefully collect images with multiple characters and objects from movies and manually generate question-answer samples for multi-concept scenarios, featuring superior diversity. Comprehensive qualitative and quantitative experiments demonstrate that MC-LLaVA can achieve impressive multi-concept personalized responses, paving the way for VLMs to become better user-specific assistants. The code and dataset will be publicly available at https://github.com/arctanxarc/MC-LLaVA}.

arxiv情報

著者 Ruichuan An,Sihan Yang,Ming Lu,Renrui Zhang,Kai Zeng,Yulin Luo,Jiajun Cao,Hao Liang,Ying Chen,Qi She,Shanghang Zhang,Wentao Zhang
発行日 2025-03-25 13:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MC-LLaVA: Multi-Concept Personalized Vision-Language Model はコメントを受け付けていません

Aether: Geometric-Aware Unified World Modeling

要約

幾何学的再構築と生成モデリングの統合は、人間のような空間的推論が可能なAIシステムを開発する上で重要な課題のままです。
このペーパーでは、3つのコア機能を共同で最適化することにより、世界モデルでジオメトリを意識する推論を可能にする統一されたフレームワークであるAotherを提案します。
タスクインターレーブ機能学習を通じて、Aetherは再構築、予測、および計画目標を通じて相乗的な知識共有を実現します。
ビデオ生成モデルに基づいて、私たちのフレームワークは、トレーニング中に実際のデータを観察しないにもかかわらず、前例のない合成からリアルへの一般化を示しています。
さらに、私たちのアプローチは、本質的な幾何学的モデリングのおかげで、アクションフォローと再構成の両方のタスクでゼロショットの一般化を達成します。
驚くべきことに、実際のデータがなくても、その再構成パフォーマンスは、ドメイン固有のモデルのパフォーマンスと同等であるか、さらに優れています。
さらに、Aetherはカメラの軌跡を形状に基づいたアクションスペースとして採用し、効果的なアクションコンディショニングされた予測と視覚計画を可能にします。
私たちの仕事が、身体的に季節限定の世界モデリングとそのアプリケーションで新しいフロンティアを探索するようコミュニティに促すことを願っています。

要約(オリジナル)

The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance is comparable with or even better than that of domain-specific models. Additionally, Aether employs camera trajectories as geometry-informed action spaces, enabling effective action-conditioned prediction and visual planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.

arxiv情報

著者 Aether Team,Haoyi Zhu,Yifan Wang,Jianjun Zhou,Wenzheng Chang,Yang Zhou,Zizun Li,Junyi Chen,Chunhua Shen,Jiangmiao Pang,Tong He
発行日 2025-03-25 15:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Aether: Geometric-Aware Unified World Modeling はコメントを受け付けていません

LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL

要約

スキーマリンクは、テキスト間タスク、特に実際の大規模なマルチデータベースシナリオで人間レベルのパフォーマンスを達成する上で重要なボトルネックです。
スキーマのリンクに対処することは、2つの主要な課題に直面しています。(1)データベースの取得:無関係なものを除外しながら、マルチデータベース設定の大きなスキーマプールから正しいデータベースを選択します。
(2)スキーマアイテムの接地:SQL生成の大規模で冗長なスキーマ内から関連するテーブルと列を正確に識別します。
これに対処するために、スキーマリンクに体系的に対処することにより、既存のベースラインを実際の環境に効果的に適応できる新しいフレームワークであるLinkalignを紹介します。
私たちのフレームワークは、3つの重要なステップで構成されています。マルチラウンドセマンティック強化された検索と課題1の分離、およびチャレンジ2のスキーマ抽出強化。クモと鳥のベンチマークにリンクするスキーマの方法のパフォーマンスを評価し、既存のテキストからSQLモデルを実際の環境に適応させる能力を評価します。
実験では、リンキラインがマルチデータベース設定の既存のベースラインを上回り、その有効性と堅牢性を示していることが示されています。
一方、私たちの方法は、長い考え方の推論LLMSを使用しているモデルを除くモデルの中で最も高くランク付けされています。
この作業は、現在の研究と現実世界のシナリオの間のギャップを埋め、堅牢でスケーラブルなスキーマリンクの実用的なソリューションを提供します。
コードはhttps://github.com/satissss/linkalignで入手できます。

要約(オリジナル)

Schema linking is a critical bottleneck in achieving human-level performance in Text-to-SQL tasks, particularly in real-world large-scale multi-database scenarios. Addressing schema linking faces two major challenges: (1) Database Retrieval: selecting the correct database from a large schema pool in multi-database settings, while filtering out irrelevant ones. (2) Schema Item Grounding: accurately identifying the relevant tables and columns from within a large and redundant schema for SQL generation. To address this, we introduce LinkAlign, a novel framework that can effectively adapt existing baselines to real-world environments by systematically addressing schema linking. Our framework comprises three key steps: multi-round semantic enhanced retrieval and irrelevant information isolation for Challenge 1, and schema extraction enhancement for Challenge 2. We evaluate our method performance of schema linking on the SPIDER and BIRD benchmarks, and the ability to adapt existing Text-to-SQL models to real-world environments on the SPIDER 2.0-lite benchmark. Experiments show that LinkAlign outperforms existing baselines in multi-database settings, demonstrating its effectiveness and robustness. On the other hand, our method ranks highest among models excluding those using long chain-of-thought reasoning LLMs. This work bridges the gap between current research and real-world scenarios, providing a practical solution for robust and scalable schema linking. The codes are available at https://github.com/Satissss/LinkAlign.

arxiv情報

著者 Yihan Wang,Peiyu Liu
発行日 2025-03-25 11:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL はコメントを受け付けていません

Learning to segment anatomy and lesions from disparately labeled sources in brain MRI

要約

脳磁気共鳴画像(MRI)の病変とともに健康な組織構造のセグメント化は、病変が解剖学の破壊と共同ラベル付けされたトレーニングデータセットの欠如により、今日のアルゴリズムの課題のままです。
このホワイトペーパーでは、病変に起因する混乱に対して堅牢になり、誤ってラベル付けされたトレーニングセット、つまり共同ラベル付きサンプルを必要とせずに、両方を自動的にセグメント化する方法からトレーニングできる方法を提案します。
以前の研究とは対照的に、マルチシーケンスの獲得を活用し、情報を注意メカニズムと統合するために、2つのパスで健康な組織と病変のセグメンテーションを分離します。
推論中、画像固有の適応は、健康な組織予測に対する病変領域の悪影響を減らします。
トレーニング中、メタ学習を通じて適応を考慮し、共同トレーニングを使用して、散らばったトレーニング画像から学習します。
私たちのモデルは、最先端のセグメンテーション方法と比較して、公開されている脳膠芽腫データセットのいくつかの解剖学的構造と病変のパフォーマンスの向上を示しています。

要約(オリジナル)

Segmenting healthy tissue structures alongside lesions in brain Magnetic Resonance Images (MRI) remains a challenge for today’s algorithms due to lesion-caused disruption of the anatomy and lack of jointly labeled training datasets, where both healthy tissues and lesions are labeled on the same images. In this paper, we propose a method that is robust to lesion-caused disruptions and can be trained from disparately labeled training sets, i.e., without requiring jointly labeled samples, to automatically segment both. In contrast to prior work, we decouple healthy tissue and lesion segmentation in two paths to leverage multi-sequence acquisitions and merge information with an attention mechanism. During inference, an image-specific adaptation reduces adverse influences of lesion regions on healthy tissue predictions. During training, the adaptation is taken into account through meta-learning and co-training is used to learn from disparately labeled training images. Our model shows an improved performance on several anatomical structures and lesions on a publicly available brain glioblastoma dataset compared to the state-of-the-art segmentation methods.

arxiv情報

著者 Meva Himmetoglu,Ilja Ciernik,Ender Konukoglu
発行日 2025-03-25 10:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Learning to segment anatomy and lesions from disparately labeled sources in brain MRI はコメントを受け付けていません