ObjectClear: Complete Object Removal via Object-Effect Attention

要約

オブジェクトの削除には、ターゲットオブジェクトだけでなく、影や反射などの効果も排除する必要があります。
ただし、拡散ベースの開始方法は、多くの場合、アーティファクト、幻覚コンテンツ、背景を変え、オブジェクト効果を正確に除去するのに苦労します。
この課題に対処するために、オブジェクト効果の有無にかかわらずペアの画像を提供するオブジェクト効果削除の新しいデータセットと、オブジェクトと関連する視覚アーティファクトの両方の正確なマスクを提供します。
データセットは、高品質のキャプチャされたシミュレーションデータで構成され、多様なオブジェクトカテゴリと複雑なマルチオブジェクトシーンをカバーしています。
Oberに基づいて、新しいフレームワークであるObjectClearを提案します。これには、注意マスクを学習し、バックグラウンドの再構築から前景除去を効果的に切り離すことにより、オブジェクト効果の注意メカニズムを組み込んで前景除去領域に導くオブジェクト効果の注意メカニズムが組み込まれています。
さらに、予測される注意マップは、推論中に注意誘導融合戦略を可能にし、背景の詳細​​を大幅に保存します。
広範な実験は、ObjectClearが既存の方法を上回り、特に複雑なシナリオでオブジェクト効果の除去の品質と背景の忠実度を改善することを実証しています。

要約(オリジナル)

Object removal requires eliminating not only the target object but also its effects, such as shadows and reflections. However, diffusion-based inpainting methods often produce artifacts, hallucinate content, alter background, and struggle to remove object effects accurately. To address this challenge, we introduce a new dataset for OBject-Effect Removal, named OBER, which provides paired images with and without object effects, along with precise masks for both objects and their associated visual artifacts. The dataset comprises high-quality captured and simulated data, covering diverse object categories and complex multi-object scenes. Building on OBER, we propose a novel framework, ObjectClear, which incorporates an object-effect attention mechanism to guide the model toward the foreground removal regions by learning attention masks, effectively decoupling foreground removal from background reconstruction. Furthermore, the predicted attention map enables an attention-guided fusion strategy during inference, greatly preserving background details. Extensive experiments demonstrate that ObjectClear outperforms existing methods, achieving improved object-effect removal quality and background fidelity, especially in complex scenarios.

arxiv情報

著者 Jixin Zhao,Shangchen Zhou,Zhouxia Wang,Peiqing Yang,Chen Change Loy
発行日 2025-05-28 17:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ObjectClear: Complete Object Removal via Object-Effect Attention はコメントを受け付けていません

SPIRAL: Semantic-Aware Progressive LiDAR Scene Generation

要約

最近の拡散モデルを活用して、LIDARベースの大規模な3Dシーン生成は大きな成功を収めています。
最近のボクセルベースのアプローチでは、幾何学的構造とセマンティックラベルの両方を生成できますが、既存のレンジビュー方法は、ラベルのないライダーシーンの生成に限定されています。
過去のセグメンテーションモデルに依存してセマンティックマップを予測すると、多くの場合、最適ではないクロスモーダルの一貫性が得られます。
計算効率や単純化されたネットワーク設計などの範囲ビュー表現の利点を維持しながらこの制限に対処するために、深さ、反射率画像、セマンティックマップを同時に生成する新しいレンジビューライダー拡散モデルであるSpiralを提案します。
さらに、生成されたラベル付きレンジビューデータの品質を評価するために、新しいセマンティックアウェアメトリックを導入します。
SemantickittiおよびNuscenesデータセットの実験は、Spiralが最小のパラメーターサイズで最先端のパフォーマンスを達成し、生成モデルとセグメンテーションモデルを組み合わせた2段階の方法を上回ることを示しています。
さらに、スパイラルによって生成された範囲画像は、下流のセグメンテーショントレーニングでの合成データ増強に効果的に使用できることを検証し、LIDARデータのラベル付けの取り組みを大幅に削減できます。

要約(オリジナル)

Leveraging recent diffusion models, LiDAR-based large-scale 3D scene generation has achieved great success. While recent voxel-based approaches can generate both geometric structures and semantic labels, existing range-view methods are limited to producing unlabeled LiDAR scenes. Relying on pretrained segmentation models to predict the semantic maps often results in suboptimal cross-modal consistency. To address this limitation while preserving the advantages of range-view representations, such as computational efficiency and simplified network design, we propose Spiral, a novel range-view LiDAR diffusion model that simultaneously generates depth, reflectance images, and semantic maps. Furthermore, we introduce novel semantic-aware metrics to evaluate the quality of the generated labeled range-view data. Experiments on the SemanticKITTI and nuScenes datasets demonstrate that Spiral achieves state-of-the-art performance with the smallest parameter size, outperforming two-step methods that combine the generative and segmentation models. Additionally, we validate that range images generated by Spiral can be effectively used for synthetic data augmentation in the downstream segmentation training, significantly reducing the labeling effort on LiDAR data.

arxiv情報

著者 Dekai Zhu,Yixuan Hu,Youquan Liu,Dongyue Lu,Lingdong Kong,Slobodan Ilic
発行日 2025-05-28 17:55:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SPIRAL: Semantic-Aware Progressive LiDAR Scene Generation はコメントを受け付けていません

Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation

要約

トーキングヘッドやトーキングボディジェネレーションなどのオーディオ駆動型の人間のアニメーション方法は、同期された顔の動きと魅力的な視覚的品質のビデオを生成する際に顕著な進歩を遂げました。
ただし、既存の方法は主に単一の人間のアニメーションに焦点を当て、マルチストリームオーディオ入力との闘いで、オーディオと人の間の誤った結合問題に直面しています。
さらに、指示に従う機能に制限を示します。
この問題を解決するために、この論文では、マルチパーソンの会話ビデオ生成という新しいタスクを提案し、マルチパーソン世代の課題に対処するための新しいフレームワークであるMultiTalkを紹介します。
具体的には、オーディオインジェクションのために、いくつかのスキームを調査し、オーディオおよび個人の結合問題を解決するために、ラベル回転位置埋め込み(L-Rope)メソッドを提案します。
さらに、トレーニング中に、基本モデルの指導中の能力を維持するためには、部分パラメータートレーニングとマルチタスクトレーニングが重要であることがわかります。
MultiTalkは、トーキングヘッド、トーキングボディ、マルチパーソンデータセットなど、いくつかのデータセットの他のメソッドと比較して優れたパフォーマンスを実現し、アプローチの強力な生成能力を実証しています。

要約(オリジナル)

Audio-driven human animation methods, such as talking head and talking body generation, have made remarkable progress in generating synchronized facial movements and appealing visual quality videos. However, existing methods primarily focus on single human animation and struggle with multi-stream audio inputs, facing incorrect binding problems between audio and persons. Additionally, they exhibit limitations in instruction-following capabilities. To solve this problem, in this paper, we propose a novel task: Multi-Person Conversational Video Generation, and introduce a new framework, MultiTalk, to address the challenges during multi-person generation. Specifically, for audio injection, we investigate several schemes and propose the Label Rotary Position Embedding (L-RoPE) method to resolve the audio and person binding problem. Furthermore, during training, we observe that partial parameter training and multi-task training are crucial for preserving the instruction-following ability of the base model. MultiTalk achieves superior performance compared to other methods on several datasets, including talking head, talking body, and multi-person datasets, demonstrating the powerful generation capabilities of our approach.

arxiv情報

著者 Zhe Kong,Feng Gao,Yong Zhang,Zhuoliang Kang,Xiaoming Wei,Xunliang Cai,Guanying Chen,Wenhan Luo
発行日 2025-05-28 17:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation はコメントを受け付けていません

Sherlock: Self-Correcting Reasoning in Vision-Language Models

要約

推論ビジョン言語モデル(VLM)は、複雑なマルチモーダルタスクで有望なパフォーマンスを示しています。
しかし、それらは依然として重要な課題に直面しています。推論エラーに非常に敏感であり、注釈付きデータまたは正確な検証因子を必要とし、特定のドメインを超えて一般化するのに苦労しています。
これらの制限に対処するために、推論VLMを強化する戦略として自己修正を調査します。
最初に、VLMSの自己修正能力を推論している詳細な分析を実施し、重要なギャップを特定します。
調査結果に基づいて、Sherlock、自己修正および自己改善トレーニングフレームワークを紹介します。
Sherlockは、軌道レベルの自己修正目標、視覚的摂動に基づく優先データ構築方法、および優先チューニング用の動的$ \ベータ$を導入します。
モデルがランダムにサンプリングされた注釈付きデータのみを使用して自己修正機能を取得すると、外部の監督なしで自己改善を続けます。
Llama3.2-vision-11bモデルに基づいて構築されたSherlockは、8つのベンチマークで顕著な結果を達成し、直接生成で平均精度が64.1、自己修正後65.4に達します。
注釈付きデータの20%未満を使用しながら、Llava-Cot(63.2)、Mulberry(63.9)、およびLlamav-O1(63.4)よりも優れています。

要約(オリジナル)

Reasoning Vision-Language Models (VLMs) have shown promising performance on complex multimodal tasks. However, they still face significant challenges: they are highly sensitive to reasoning errors, require large volumes of annotated data or accurate verifiers, and struggle to generalize beyond specific domains. To address these limitations, we explore self-correction as a strategy to enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning VLMs’ self-correction abilities and identify key gaps. Based on our findings, we introduce Sherlock, a self-correction and self-improvement training framework. Sherlock introduces a trajectory-level self-correction objective, a preference data construction method based on visual perturbation, and a dynamic $\beta$ for preference tuning. Once the model acquires self-correction capabilities using only 20k randomly sampled annotated data, it continues to self-improve without external supervision. Built on the Llama3.2-Vision-11B model, Sherlock achieves remarkable results across eight benchmarks, reaching an average accuracy of 64.1 with direct generation and 65.4 after self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and LlamaV-o1 (63.4) while using less than 20% of the annotated data.

arxiv情報

著者 Yi Ding,Ruqi Zhang
発行日 2025-05-28 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | Sherlock: Self-Correcting Reasoning in Vision-Language Models はコメントを受け付けていません

VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models

要約

最近の大規模な視覚言語モデル(LVLMS)は、より細かい粒度の視覚的知覚とエンコーディングを組み込むことにより、高度なマルチモーダル理解を持っています。
ただし、このような方法は、視覚的なトークンシーケンスが長くなるため、かなりの計算コストが発生し、リアルタイムの展開に課題をもたらします。
これを緩和するために、以前の研究では、視覚エンコーダの出力層または言語モデルの初期層のいずれかで、重要でない視覚トークンの剪定を調査しました。
この作業では、これらの設計の選択を再検討し、視覚エンコードと言語デコード段階全体で視覚トークンがどのように処理されるかについての包括的な経験的研究を通じて、それらの有効性を再評価します。
これらの洞察に導かれて、VSCANを提案します。VSCANは、次のようにトークンの冗長性に対処する2段階の視覚トークン削減フレームワークであると提案します。
4つのLVLMにわたる広範な実験結果は、推論の加速におけるVSCANの有効性を検証し、16のベンチマークでの現在の最先端よりも優れたパフォーマンスを実証します。
特に、LLAVA-Next-7Bに適用すると、VSCANは、元のパフォーマンスの95.4%を保持しながら、Prefillingで2.91 $ \ Times $ speedupとFlopsの10ドルのTimes $削減を達成します。

要約(オリジナル)

Recent Large Vision-Language Models (LVLMs) have advanced multi-modal understanding by incorporating finer-grained visual perception and encoding. However, such methods incur significant computational costs due to longer visual token sequences, posing challenges for real-time deployment. To mitigate this, prior studies have explored pruning unimportant visual tokens either at the output layer of the visual encoder or at the early layers of the language model. In this work, we revisit these design choices and reassess their effectiveness through comprehensive empirical studies of how visual tokens are processed throughout the visual encoding and language decoding stages. Guided by these insights, we propose VScan, a two-stage visual token reduction framework that addresses token redundancy by: (1) integrating complementary global and local scans with token merging during visual encoding, and (2) introducing pruning at intermediate layers of the language model. Extensive experimental results across four LVLMs validate the effectiveness of VScan in accelerating inference and demonstrate its superior performance over current state-of-the-arts on sixteen benchmarks. Notably, when applied to LLaVA-NeXT-7B, VScan achieves a 2.91$\times$ speedup in prefilling and a 10$\times$ reduction in FLOPs, while retaining 95.4% of the original performance.

arxiv情報

著者 Ce Zhang,Kaixin Ma,Tianqing Fang,Wenhao Yu,Hongming Zhang,Zhisong Zhang,Yaqi Xie,Katia Sycara,Haitao Mi,Dong Yu
発行日 2025-05-28 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models はコメントを受け付けていません

3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

要約

人間は、時間的および空間的経験を越えて長期的なメモリを活用することにより、複雑なタスクの実行に優れています。
対照的に、現在の大規模な言語モデル(LLMS)は、動的なマルチルーム3D環境で効果的に計画し、行動するのに苦労しています。
この制限の一部は、LLMSの適切な3D空間的メモリモデリングがないためであると仮定します。
これに対処するために、最初に3DMEMベンチを紹介します。これは、3D環境での長期記憶上で推論するエージェントの能力を評価するために設計された、26,000を超える軌跡と2,892の具体化されたタスク、質問回答、キャプションを含む包括的なベンチマークです。
第二に、LLMSでの空間的推論と行動の具体化された空間的推論と行動のための新しい動的メモリ管理と融合モデルである3DLLM-MEMを提案します。
私たちのモデルは、過去の観測と相互作用を保存するエピソードメモリから最も有用な空間的および時間的特徴に選択的に出席し、融合するためのクエリとして、現在の観測を表すワーキングメモリトークンを使用します。
私たちのアプローチにより、エージェントは、複雑で長期の環境でメモリ効率を維持しながら、タスク関連情報に集中することができます。
実験結果は、3DLLM-MEMがさまざまなタスクにわたって最先端のパフォーマンスを達成し、3DMEMベンチの最も挑戦的な野生の具体化されたタスクの成功率の最強のベースラインを16.5%上回ることを示しています。

要約(オリジナル)

Humans excel at performing complex tasks by leveraging long-term memory across temporal and spatial experiences. In contrast, current Large Language Models (LLMs) struggle to effectively plan and act in dynamic, multi-room 3D environments. We posit that part of this limitation is due to the lack of proper 3D spatial-temporal memory modeling in LLMs. To address this, we first introduce 3DMem-Bench, a comprehensive benchmark comprising over 26,000 trajectories and 2,892 embodied tasks, question-answering and captioning, designed to evaluate an agent’s ability to reason over long-term memory in 3D environments. Second, we propose 3DLLM-Mem, a novel dynamic memory management and fusion model for embodied spatial-temporal reasoning and actions in LLMs. Our model uses working memory tokens, which represents current observations, as queries to selectively attend to and fuse the most useful spatial and temporal features from episodic memory, which stores past observations and interactions. Our approach allows the agent to focus on task-relevant information while maintaining memory efficiency in complex, long-horizon environments. Experimental results demonstrate that 3DLLM-Mem achieves state-of-the-art performance across various tasks, outperforming the strongest baselines by 16.5% in success rate on 3DMem-Bench’s most challenging in-the-wild embodied tasks.

arxiv情報

著者 Wenbo Hu,Yining Hong,Yanjun Wang,Leison Gao,Zibu Wei,Xingcheng Yao,Nanyun Peng,Yonatan Bitton,Idan Szpektor,Kai-Wei Chang
発行日 2025-05-28 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model はコメントを受け付けていません

Training Free Stylized Abstraction

要約

様式化された抽象化は、視覚的に誇張されているが意味的に忠実な被験者の表現を合成し、認識と知覚的な歪みのバランスをとります。
構造的な忠実度を優先する画像間翻訳とは異なり、様式化された抽象化は、文体的な発散を受け入れながら、特に分散型の個人にとって挑戦的な文体的な発散を受け入れながら、アイデンティティキューの選択的保持を要求します。
ID関連の特徴を抽出するためのビジョン言語モデル(VLLM)の推論時間スケーリングを使用して、単一の画像から様式化された抽象化を生成するトレーニングフリーのフレームワークと、スタイルに依存したプライアーに基づいて構造を再構築する新しいクロスドメイン補正フロー反転戦略を提案します。
私たちの方法は、スタイルを意識した一時的なスケジューリングを通じて構造修復を動的に適応させ、主題とスタイルの両方を称える高忠実度の再構築を可能にします。
微調整せずにマルチラウンドの抽象化を目指した生成をサポートします。
このタスクを評価するために、ピクセルレベルの類似性が失敗する抽象スタイルに適したGPTベースのヒト整列メトリックであるStyleBenchを紹介します。
多様な抽象化(レゴ、ニットドール、サウスパークなど)にわたる実験は、完全にオープンソースのセットアップで、目に見えないアイデンティティとスタイルに強い一般化を示しています。

要約(オリジナル)

Stylized abstraction synthesizes visually exaggerated yet semantically faithful representations of subjects, balancing recognizability with perceptual distortion. Unlike image-to-image translation, which prioritizes structural fidelity, stylized abstraction demands selective retention of identity cues while embracing stylistic divergence, especially challenging for out-of-distribution individuals. We propose a training-free framework that generates stylized abstractions from a single image using inference-time scaling in vision-language models (VLLMs) to extract identity-relevant features, and a novel cross-domain rectified flow inversion strategy that reconstructs structure based on style-dependent priors. Our method adapts structural restoration dynamically through style-aware temporal scheduling, enabling high-fidelity reconstructions that honor both subject and style. It supports multi-round abstraction-aware generation without fine-tuning. To evaluate this task, we introduce StyleBench, a GPT-based human-aligned metric suited for abstract styles where pixel-level similarity fails. Experiments across diverse abstraction (e.g., LEGO, knitted dolls, South Park) show strong generalization to unseen identities and styles in a fully open-source setup.

arxiv情報

著者 Aimon Rahman,Kartik Narayan,Vishal M. Patel
発行日 2025-05-28 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Training Free Stylized Abstraction はコメントを受け付けていません

Zero-Shot Vision Encoder Grafting via LLM Surrogates

要約

ビジョン言語モデル(VLMS)は通常、控えめなサイズのビジョンエンコーダーと大きな言語モデル(LLM)、例えばLLAMA-70Bとペアになり、トレーニング中にデコーダーを主要な計算負担にします。
コストを削減するために、潜在的な有望な戦略は、最初に小さな言語モデルを使用してビジョンエンコーダーをトレーニングしてから、大きな言語モデルに転送することです。
浅い層を直接継承することにより、大きなターゲットLLMと同じ埋め込みスペースと表現言語を共有する小さな「サロゲートモデル」を構築します。
サロゲートでトレーニングされたビジョンエンコーダーは、フルサイズのターゲットLLMに直接接続すると、ゼロショットグラフトと呼ばれるプロセスであるより大きなモデルに直接転送できます。グラフトされたペアは、エンコーダシュロゲートペアを上回り、一部のベンチマークでは、ターゲットLLMとの完全なデコーダートレーニングと同等のパフォーマンスを発揮します。
さらに、サロゲートトレーニングアプローチは、LLAMA-70Bをデコーダーとして使用すると、全体的なVLMトレーニングコストを約45%削減します。

要約(オリジナル)

Vision language models (VLMs) typically pair a modestly sized vision encoder with a large language model (LLM), e.g., Llama-70B, making the decoder the primary computational burden during training. To reduce costs, a potential promising strategy is to first train the vision encoder using a small language model before transferring it to the large one. We construct small ‘surrogate models’ that share the same embedding space and representation language as the large target LLM by directly inheriting its shallow layers. Vision encoders trained on the surrogate can then be directly transferred to the larger model, a process we call zero-shot grafting — when plugged directly into the full-size target LLM, the grafted pair surpasses the encoder-surrogate pair and, on some benchmarks, even performs on par with full decoder training with the target LLM. Furthermore, our surrogate training approach reduces overall VLM training costs by ~45% when using Llama-70B as the decoder.

arxiv情報

著者 Kaiyu Yue,Vasu Singla,Menglin Jia,John Kirchenbauer,Rifaa Qadri,Zikui Cai,Abhinav Bhatele,Furong Huang,Tom Goldstein
発行日 2025-05-28 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Zero-Shot Vision Encoder Grafting via LLM Surrogates はコメントを受け付けていません

GET: Goal-directed Exploration and Targeting for Large-Scale Unknown Environments

要約

大規模で構造化されていない環境でのオブジェクト検索は、特に屋外の自律探査などの動的または広大な設定で、ロボット工学の根本的な課題のままです。
このタスクには、堅牢な空間的推論と、以前の経験を活用する能力が必要です。
大規模な言語モデル(LLM)は強力なセマンティック機能を提供しますが、具体化されたコンテキストでの適用は、空間推論の根拠とメモリ統合と決定の一貫性のための不十分なメカニズムによって制限されます。
そのコアには、ロールベースのフィードバックループを介してリアルタイムの意思決定を促進し、タスク固有の基準と外部メモリを統合する推論モジュールです。
繰り返しのタスクについては、ガウス混合モデルに基づいて確率的タスクマップを維持し、環境が進化するにつれてオブジェクトロケーション前の継続的な更新を可能にします。実世界で実施される実験は、複数のLLMとタスクの設定にわたって検索効率と堅牢性を改善することを示しています。
これらの結果は、構造化されたLLM統合が、複雑な環境での具体化された意思決定に対するスケーラブルで一般化可能なアプローチを提供することを示唆しています。

要約(オリジナル)

Object search in large-scale, unstructured environments remains a fundamental challenge in robotics, particularly in dynamic or expansive settings such as outdoor autonomous exploration. This task requires robust spatial reasoning and the ability to leverage prior experiences. While Large Language Models (LLMs) offer strong semantic capabilities, their application in embodied contexts is limited by a grounding gap in spatial reasoning and insufficient mechanisms for memory integration and decision consistency.To address these challenges, we propose GET (Goal-directed Exploration and Targeting), a framework that enhances object search by combining LLM-based reasoning with experience-guided exploration. At its core is DoUT (Diagram of Unified Thought), a reasoning module that facilitates real-time decision-making through a role-based feedback loop, integrating task-specific criteria and external memory. For repeated tasks, GET maintains a probabilistic task map based on a Gaussian Mixture Model, allowing for continual updates to object-location priors as environments evolve.Experiments conducted in real-world, large-scale environments demonstrate that GET improves search efficiency and robustness across multiple LLMs and task settings, significantly outperforming heuristic and LLM-only baselines. These results suggest that structured LLM integration provides a scalable and generalizable approach to embodied decision-making in complex environments.

arxiv情報

著者 Lanxiang Zheng,Ruidong Mei,Mingxin Wei,Hao Ren,Hui Cheng
発行日 2025-05-28 10:29:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GET: Goal-directed Exploration and Targeting for Large-Scale Unknown Environments はコメントを受け付けていません

Something’s Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks

要約

最近のテーブル表現学習およびデータ発見方法は、データレイク内のテーブルユニオン検索(TUS)に取り組んでいます。
これらの方法は、実際のTUSタスクでの意味的理解を評価することを目的とするベンチマークを使用して一般的に評価されます。
しかし、顕著なTUSベンチマークの分析により、単純なベースラインが驚くほどうまく機能し、より洗練されたアプローチを上回ることができるいくつかの制限が明らかになります。
これは、現在のベンチマークスコアがデータセット固有の特性に大きく影響され、セマンティック理解から利益を効果的に分離できないことを示唆しています。
これに対処するために、セマンティックテーブルユニオン検索の進捗状況のより現実的で信頼できる評価を可能にするために、将来のベンチマークの重要な基準を提案します。

要約(オリジナル)

Recent table representation learning and data discovery methods tackle table union search (TUS) within data lakes, which involves identifying tables that can be unioned with a given query table to enrich its content. These methods are commonly evaluated using benchmarks that aim to assess semantic understanding in real-world TUS tasks. However, our analysis of prominent TUS benchmarks reveals several limitations that allow simple baselines to perform surprisingly well, often outperforming more sophisticated approaches. This suggests that current benchmark scores are heavily influenced by dataset-specific characteristics and fail to effectively isolate the gains from semantic understanding. To address this, we propose essential criteria for future benchmarks to enable a more realistic and reliable evaluation of progress in semantic table union search.

arxiv情報

著者 Allaa Boutaleb,Bernd Amann,Hubert Naacke,Rafael Angarita
発行日 2025-05-28 11:44:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, cs.IR, cs.LG | Something’s Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks はコメントを受け付けていません