TablePilot: Recommending Human-Preferred Tabular Data Analysis with Large Language Models

要約

多くのシナリオでは表形式のデータ分析が重要ですが、新しいテーブルの最も関連性の高いデータ分析クエリと結果を効率的に識別することは重要な課題です。
表形式データの複雑さ、多様な分析操作、および高品質の分析の需要により、プロセスは退屈になります。
これらの課題に対処するために、表形式のデータ分析ワークフローの新しいテーブルに合わせたクエリコードと表現のトリプレットを推奨することを目指しています。
このホワイトペーパーでは、テーブルパイロットを提示します。これは、ユーザープロファイルや以前の相互作用に依存することなく、大規模な言語モデルを活用して包括的かつ優れた分析結果を自律的に生成するための大規模な言語モデルを活用する先駆的な表パイロットを紹介します。
このフレームワークには、分析の準備と分析の最適化に重要な設計が組み込まれ、精度が向上します。
さらに、推奨の品質をさらに向上させ、人間の好みに合わせてより適切に整合するための新しい方法であるRec-Alignを提案します。
包括的な表形式データ分析の推奨用に特別に設計されたデータセットであるDARTの実験は、フレームワークの有効性を示しています。
GPT-4Oに基づいて、調整されたテーブルパイロットは77.0%のトップ5の推奨リコールを実現します。
人間の評価は、表形式データ分析ワークフローを最適化する際のその有効性をさらに強調しています。

要約(オリジナル)

Tabular data analysis is crucial in many scenarios, yet efficiently identifying the most relevant data analysis queries and results for a new table remains a significant challenge. The complexity of tabular data, diverse analytical operations, and the demand for high-quality analysis make the process tedious. To address these challenges, we aim to recommend query-code-result triplets tailored for new tables in tabular data analysis workflows. In this paper, we present TablePilot, a pioneering tabular data analysis framework leveraging large language models to autonomously generate comprehensive and superior analytical results without relying on user profiles or prior interactions. The framework incorporates key designs in analysis preparation and analysis optimization to enhance accuracy. Additionally, we propose Rec-Align, a novel method to further improve recommendation quality and better align with human preferences. Experiments on DART, a dataset specifically designed for comprehensive tabular data analysis recommendation, demonstrate the effectiveness of our framework. Based on GPT-4o, the tuned TablePilot achieves 77.0% top-5 recommendation recall. Human evaluations further highlight its effectiveness in optimizing tabular data analysis workflows.

arxiv情報

著者 Deyin Yi,Yihao Liu,Lang Cao,Mengyu Zhou,Haoyu Dong,Shi Han,Dongmei Zhang
発行日 2025-03-20 10:42:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TablePilot: Recommending Human-Preferred Tabular Data Analysis with Large Language Models はコメントを受け付けていません

The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement

要約

大規模な言語モデル(LLM)は最近、テキストベースのアシスタントから、行動を計画、推論、および繰り返し改善できる自律エージェントに変換されました。
数値報酬信号と検証剤は候補アクションを効果的にランク付けすることができますが、多くの場合、限られたコンテキストガイダンスを提供します。
対照的に、自然言語のフィードバックはLLMSの生成能力とよりよく調整され、より豊かで実用的な提案を提供します。
ただし、このフィードバックを効果的に解析して実装することは、LLMベースのエージェントにとって困難な場合があります。
この作業では、環境モデルと詳細な自然言語のフィードバックを生成する批評家モデルを探求する俳優モデルを含む、批評誘導改善(CGI)を紹介します。
批評家を訓練して、きめ細かい評価と実用的な修正を生み出し、俳優がこれらの批評を活用するために、私たちのアプローチは、ローカルオプティマを避けながら、代替戦略のより堅牢な調査を促進します。
3つのインタラクティブな環境での実験は、CGIが既存のベースラインを大幅に上回ることを示しています。
特に、小さな批評家モデルでさえ、フィードバックの品質でGPT-4を上回ります。
結果として得られる俳優は、最先端のパフォーマンスを達成し、LLMベースのエージェントの意思決定を強化するための明示的な反復ガイダンスの力を実証します。

要約(オリジナル)

Large language models (LLMs) have recently transformed from text-based assistants to autonomous agents capable of planning, reasoning, and iteratively improving their actions. While numerical reward signals and verifiers can effectively rank candidate actions, they often provide limited contextual guidance. In contrast, natural language feedback better aligns with the generative capabilities of LLMs, providing richer and more actionable suggestions. However, parsing and implementing this feedback effectively can be challenging for LLM-based agents. In this work, we introduce Critique-Guided Improvement (CGI), a novel two-player framework, comprising an actor model that explores an environment and a critic model that generates detailed nature language feedback. By training the critic to produce fine-grained assessments and actionable revisions, and the actor to utilize these critiques, our approach promotes more robust exploration of alternative strategies while avoiding local optima. Experiments in three interactive environments show that CGI outperforms existing baselines by a substantial margin. Notably, even a small critic model surpasses GPT-4 in feedback quality. The resulting actor achieves state-of-the-art performance, demonstrating the power of explicit iterative guidance to enhance decision-making in LLM-based agents.

arxiv情報

著者 Ruihan Yang,Fanghua Ye,Jian Li,Siyu Yuan,Yikai Zhang,Zhaopeng Tu,Xiaolong Li,Deqing Yang
発行日 2025-03-20 10:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement はコメントを受け付けていません

IPO: Your Language Model is Secretly a Preference Classifier

要約

人間のフィードバック(RLHF)からの強化学習は、大規模な言語モデル(LLM)を人間の好みに合わせるための主要な方法として浮上しています。
LLMは人間レベルの整合性を達成することができますが、外部の報酬モデルまたは人間標識の好みに依存するため、多くの場合、重要な計算および財務コストが発生します。
この作業では、生成LLMを優先分類器として活用する代替アプローチである暗黙の選好最適化(IPO)を提案します。
報酬ベンチを使用してLLMの優先分類能力について包括的な評価を実施し、さまざまなサイズ、アーキテクチャ、トレーニングレベルにわたってモデルを評価して仮説を検証します。
さらに、特定の命令の複数の応答を生成し、直接優先最適化(DPO)ベースのトレーニングの優先分類器としてモデル自体を採用することにより、LLMSの自己改善能力を調査します。
私たちの調査結果は、IPOを通じてトレーニングされたモデルが、好みを得るために最先端の報酬モデルを利用しているモデルに匹敵するパフォーマンスを達成することを示しています。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) has emerged as the primary method for aligning large language models (LLMs) with human preferences. While it enables LLMs to achieve human-level alignment, it often incurs significant computational and financial costs due to its reliance on training external reward models or human-labeled preferences. In this work, we propose Implicit Preference Optimization (IPO), an alternative approach that leverages generative LLMs as preference classifiers, thereby reducing the dependence on external human feedback or reward models to obtain preferences. We conduct a comprehensive evaluation on the preference classification ability of LLMs using RewardBench, assessing models across different sizes, architectures, and training levels to validate our hypothesis. Furthermore, we investigate the self-improvement capabilities of LLMs by generating multiple responses for a given instruction and employing the model itself as a preference classifier for Direct Preference Optimization (DPO)-based training. Our findings demonstrate that models trained through IPO achieve performance comparable to those utilizing state-of-the-art reward models for obtaining preferences.

arxiv情報

著者 Shivank Garg,Ayush Singh,Shweta Singh,Paras Chopra
発行日 2025-03-20 10:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | IPO: Your Language Model is Secretly a Preference Classifier はコメントを受け付けていません

Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content

要約

このペーパーでは、偽造された主張と誤報から派生したユーモアを研究するための新しいリソースである欺ceptiveユーモアデータセット(DHD)を紹介します。
ramp延する誤った情報の時代において、ユーモアが欺ceptionとどのように絡み合うかを理解することが不可欠です。
DHDは、誤った物語から生成されたユーモアを注入したコメントで構成されており、CHATGPT-4Oモデルを使用して、製造されたクレームと操作された情報を組み込んでいます。
各インスタンスには、微妙な風刺が1から高レベルの風刺の3までの範囲の風刺レベルでラベル付けされ、ダークユーモア、皮肉、社会的解説、言葉遊び、不条理の5つの異なるユーモアカテゴリに分類されます。
データセットは、英語、テルグ語、ヒンディー語、カンナダ、タミル語、およびコードミックスされたバリアント(Te-en、hi-en、ka-en、ta-en)を含む複数の言語に及び、価値のある多言語ベンチマークになります。
DHDを導入することにより、欺contexな文脈でユーモアを分析するための構造化された基盤を確立し、ユーモアが誤った情報と相互作用するだけでなく、その知覚と広がりにも影響する方法を探る新しい研究の方向への道を開いています。
提案されたデータセットの強力なベースラインを確立し、将来の研究の基盤を提供し、欺ceptiveユーモア検出モデルをベンチマークし、進歩させます。

要約(オリジナル)

This paper presents the Deceptive Humor Dataset (DHD), a novel resource for studying humor derived from fabricated claims and misinformation. In an era of rampant misinformation, understanding how humor intertwines with deception is essential. DHD consists of humor-infused comments generated from false narratives, incorporating fabricated claims and manipulated information using the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging from 1 for subtle satire to 3 for high-level satire and classified into five distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and Absurdity. The dataset spans multiple languages including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En, Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we establish a structured foundation for analyzing humor in deceptive contexts, paving the way for a new research direction that explores how humor not only interacts with misinformation but also influences its perception and spread. We establish strong baselines for the proposed dataset, providing a foundation for future research to benchmark and advance deceptive humor detection models.

arxiv情報

著者 Sai Kartheek Reddy Kasu,Shankar Biradar,Sunil Saumya
発行日 2025-03-20 10:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content はコメントを受け付けていません

Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models

要約

最近のマルチモーダル大手言語モデル(MLLM)は、大規模なビデオフレームに起因する計算オーバーヘッドによって挑戦されており、多くの場合、圧縮戦略を通じて緩和されています。
ただし、視覚コンテンツはユーザーの命令に等しく貢献していません。既存の戦略(\たとえば、平均プール)は必然的に潜在的に有用な情報の損失につながります。
これに取り組むために、MLLMS(HICOM)での条件付きトークン圧縮のためのハイブリッドレベルの命令注入戦略を提案し、ローカルレベルとグローバルレベルの両方からの圧縮を導く条件として命令を利用します。
これにより、圧縮がユーザー中心の情報の最大量を保持しながら、視覚的なトークンを減らして計算負担を最小限に抑えることが促進されます。
具体的には、命令条件は、ローカルレベルのグループ化された視覚トークンとグローバルレベルでの学習可能なトークンに注入され、条件付き圧縮を完了するために注意メカニズムを実施します。
ハイブリッドレベルの圧縮から、命令関連の視覚部品が強調表示されますが、LLMを理解しやすいように、時間空間構造も保存されます。
HICOMの可能性をさらに解き放つために、提案されたデータセットHICOM-248Kを使用して、新しい条件付きプリトレーニングステージを導入します。
実験では、HICOMがトークンを少なくした顕著なビデオ理解能力を取得し、3つの複数選択QAベンチマークでパフォーマンスを2.43 \%平均増加させ、SOTAメソッドと比較して78.8 \%トークンを節約できることを示しています。
このコードはhttps://github.com/lntzm/hicomで入手できます。

要約(オリジナル)

Recent Multi-modal Large Language Models (MLLMs) have been challenged by the computational overhead resulting from massive video frames, often alleviated through compression strategies. However, the visual content is not equally contributed to user instructions, existing strategies (\eg, average pool) inevitably lead to the loss of potentially useful information. To tackle this, we propose the Hybrid-level Instruction Injection Strategy for Conditional Token Compression in MLLMs (HICom), utilizing the instruction as a condition to guide the compression from both local and global levels. This encourages the compression to retain the maximum amount of user-focused information while reducing visual tokens to minimize computational burden. Specifically, the instruction condition is injected into the grouped visual tokens at the local level and the learnable tokens at the global level, and we conduct the attention mechanism to complete the conditional compression. From the hybrid-level compression, the instruction-relevant visual parts are highlighted while the temporal-spatial structure is also preserved for easier understanding of LLMs. To further unleash the potential of HICom, we introduce a new conditional pre-training stage with our proposed dataset HICom-248K. Experiments show that our HICom can obtain distinguished video understanding ability with fewer tokens, increasing the performance by 2.43\% average on three multiple-choice QA benchmarks and saving 78.8\% tokens compared with the SOTA method. The code is available at https://github.com/lntzm/HICom.

arxiv情報

著者 Zhihang Liu,Chen-Wei Xie,Pandeng Li,Liming Zhao,Longxiang Tang,Yun Zheng,Chuanbin Liu,Hongtao Xie
発行日 2025-03-20 11:09:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models はコメントを受け付けていません

Evaluating Test-Time Scaling LLMs for Legal Reasoning: OpenAI o1, DeepSeek-R1, and Beyond

要約

最近、Deepseek-R1やOpenai O1などの大規模な言語モデル(LLMS)のテスト時間スケーリングは、特に推論において、さまざまなドメインとタスクにわたって並外れた機能を実証しています。
これらのモデルは一般的な言語タスクで印象的なパフォーマンスを示していますが、法律のような専門分野での有効性は不明のままです。
これに対処するために、中国と英語の両方の法的タスクをカバーするさまざまな法的シナリオでLLMの予備評価を提示します。
私たちの分析には、9つのLLMSと17の法的タスクが含まれており、多国籍の法的判断や法的議論の推論など、新しく公開されたより複雑な課題に焦点を当てています。
私たちの調査結果は、DeepSeek-R1とOpenai O1が最も強力なモデルの1つであるにもかかわらず、彼らの法的推論能力がまだ欠けていることを示しています。
具体的には、これらのモデルは、7つの中国の法的推論タスクで80 \%未満で、2つの英語の法的推論タスクで80 \%未満のスコアを獲得しています。
これは、最も高度な推論モデルの中でさえ、法的推論能力が未発達のままであることを示唆しています。

要約(オリジナル)

Recently, Test-Time Scaling Large Language Models (LLMs), such as DeepSeek-R1 and OpenAI o1, have demonstrated exceptional capabilities across various domains and tasks, particularly in reasoning. While these models have shown impressive performance on general language tasks, their effectiveness in specialized fields like legal remains unclear. To address this, we present a preliminary evaluation of LLMs in various legal scenarios, covering both Chinese and English legal tasks. Our analysis includes 9 LLMs and 17 legal tasks, with a focus on newly published and more complex challenges such as multi-defendant legal judgments and legal argument reasoning. Our findings indicate that, despite DeepSeek-R1 and OpenAI o1 being among the most powerful models, their legal reasoning capabilities are still lacking. Specifically, these models score below 80\% on seven Chinese legal reasoning tasks and below 80\% on two English legal reasoning tasks. This suggests that, even among the most advanced reasoning models, legal reasoning abilities remain underdeveloped.

arxiv情報

著者 Yaoyao Yu,Leilei Gan,Yinghao Hu,Bin Wei,Kun Kuang,Fei Wu
発行日 2025-03-20 11:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Evaluating Test-Time Scaling LLMs for Legal Reasoning: OpenAI o1, DeepSeek-R1, and Beyond はコメントを受け付けていません

Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation

要約

不完全な発話書き換え(IUR)に関する既存のファッショナブルな生成方法は、コヒーレントな発話を生成する可能性がありますが、対話の文脈で重要なトークンに焦点を合わせることができないため、無関係で冗長なトークンが書き換えられた発話に含まれることが多いことがよくあります。
さらに、トレーニングデータセットの限られたサイズは、IURモデルの不十分なトレーニングにも寄与します。
最初の問題に対処するために、マルチタスク学習フレームワークEO-IUR(編集操作ガイド不完全な発話書き換え)を提案します。これは、シーケンスラベル付けモジュールによって生成された編集操作ラベルを導入して、重要なトークンに焦点を合わせて生成モデルをガイドします。
さらに、対話を表すためにトークンレベルの不均一なグラフを導入します。
2番目の問題に対処するために、2次元発話増強戦略、つまり操作ベースの不完全な発話増強とLLMベースの歴史的発話増強を編集することを提案します。
3つのデータセットでの実験結果は、EO-IURが、オープンドメインとタスク指向の対話の両方で、以前の最先端(SOTA)ベースラインよりも優れていることを示しています。
コードはhttps://github.com/dewset/eo-iurで入手できます。

要約(オリジナル)

Although existing fashionable generation methods on Incomplete Utterance Rewriting (IUR) can generate coherent utterances, they often result in the inclusion of irrelevant and redundant tokens in rewritten utterances due to their inability to focus on critical tokens in dialogue context. Furthermore, the limited size of the training datasets also contributes to the insufficient training of the IUR model. To address the first issue, we propose a multi-task learning framework EO-IUR (Editing Operation-guided Incomplete Utterance Rewriting) that introduces the editing operation labels generated by sequence labeling module to guide generation model to focus on critical tokens. Furthermore, we introduce a token-level heterogeneous graph to represent dialogues. To address the second issue, we propose a two-dimensional utterance augmentation strategy, namely editing operation-based incomplete utterance augmentation and LLM-based historical utterance augmentation. The experimental results on three datasets demonstrate that our EO-IUR outperforms previous state-of-the-art (SOTA) baselines in both open-domain and task-oriented dialogue. The code will be available at https://github.com/Dewset/EO-IUR.

arxiv情報

著者 Zhiyu Cao,Peifeng Li,Yaxin Fan,Qiaoming Zhu
発行日 2025-03-20 11:26:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation はコメントを受け付けていません

SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction

要約

大規模な言語モデル(LLMS)は、取得した世代(RAG)として知られる外部から取得された知識を組み込むことにより、生成パフォーマンスの改善を実証しました。
このアプローチの可能性にもかかわらず、既存の研究は、1)検索と生成コンポーネントを共同で評価することにより、RAGの有効性を評価します。
上記の制限に対処するために、この作業では、RAGフレームワーク内の情報ゲインを通じて検索品質を測定する自動評価方法を紹介します。
具体的には、検索された情報の正確性に関するLLMの内部信念を捉えるメトリックであるセマンティックの困惑(SEPER)を提案します。
検索後の困惑を減らす程度により、検索の有用性を定量化します。
広範な実験は、Seperが人間の好みと密接に整合するだけでなく、多様なRAGシナリオ全体で検索ユーティリティのより正確で効率的な評価を提供することを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated improved generation performance by incorporating externally retrieved knowledge, a process known as retrieval-augmented generation (RAG). Despite the potential of this approach, existing studies evaluate RAG effectiveness by 1) assessing retrieval and generation components jointly, which obscures retrieval’s distinct contribution, or 2) examining retrievers using traditional metrics such as NDCG, which creates a gap in understanding retrieval’s true utility in the overall generation process. To address the above limitations, in this work, we introduce an automatic evaluation method that measures retrieval quality through the lens of information gain within the RAG framework. Specifically, we propose Semantic Perplexity (SePer), a metric that captures the LLM’s internal belief about the correctness of the retrieved information. We quantify the utility of retrieval by the extent to which it reduces semantic perplexity post-retrieval. Extensive experiments demonstrate that SePer not only aligns closely with human preferences but also offers a more precise and efficient evaluation of retrieval utility across diverse RAG scenarios.

arxiv情報

著者 Lu Dai,Yijie Xu,Jinhui Ye,Hao Liu,Hui Xiong
発行日 2025-03-20 11:28:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction はコメントを受け付けていません

Meta-Learning Neural Mechanisms rather than Bayesian Priors

要約

子どもたちは、大規模な言語モデルが必要とするよりも数桁少ないデータにさらされているにもかかわらず、言語を獲得します。
メタ学習は、人間のような学習バイアスをニューラルネットワークアーキテクチャに統合する方法として提案されており、シンボリックモデルの構造化された一般化とニューラルネットワークモデルのスケーラビリティの両方を組み合わせています。
しかし、メタ学習はモデルに正確に何を吹き込んでいますか?
正式な言語のメタラーニングを調査し、以前の主張とは反対に、メタトレーニングモデルは、シンプルさを中心に編成されたデータセットでメタトレーニングを受けた場合、シンプルさベースのプライアーを学習していないことを発見しました。
むしろ、メタトレーニングの刷り込みがニューラルメカニズム(カウンターなど)をモデルにインプリントするという証拠を見つけます。これは、下流タスク上のネットワークの認知プリミティブのように機能します。
最も驚くべきことに、単一の正式な言語でのメタトレーニングは、正式な言語が有用な神経メカニズムの学習を奨励している場合、5000の異なる正式な言語でのメタトレーニングと同じくらいモデルに多くの改善を提供できることがわかります。
まとめると、私たちの調査結果は、効率的なメタ学習パラダイムと、象徴的な理論と神経メカニズムをリンクするという新しい理論的洞察に実際的な意味を提供します。

要約(オリジナル)

Children acquire language despite being exposed to several orders of magnitude less data than large language models require. Meta-learning has been proposed as a way to integrate human-like learning biases into neural-network architectures, combining both the structured generalizations of symbolic models with the scalability of neural-network models. But what does meta-learning exactly imbue the model with? We investigate the meta-learning of formal languages and find that, contrary to previous claims, meta-trained models are not learning simplicity-based priors when meta-trained on datasets organised around simplicity. Rather, we find evidence that meta-training imprints neural mechanisms (such as counters) into the model, which function like cognitive primitives for the network on downstream tasks. Most surprisingly, we find that meta-training on a single formal language can provide as much improvement to a model as meta-training on 5000 different formal languages, provided that the formal language incentivizes the learning of useful neural mechanisms. Taken together, our findings provide practical implications for efficient meta-learning paradigms and new theoretical insights into linking symbolic theories and neural mechanisms.

arxiv情報

著者 Michael Goodale,Salvador Mascarenhas,Yair Lakretz
発行日 2025-03-20 11:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Meta-Learning Neural Mechanisms rather than Bayesian Priors はコメントを受け付けていません

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

要約

ビデオ理解における印象的な進歩にもかかわらず、ほとんどの努力は粗いまたは視覚的なみのビデオタスクに限定されたままです。
ただし、実世界のビデオには、一連のイベントがまとまりのあるストーリーラインを形成するオムニモーダル情報(ビジョン、オーディオ、スピーチ)が含まれます。
きめ細かいイベント注釈と手動ラベルの高コストを備えたマルチモーダルビデオデータの欠如は、包括的なオムニモダリティビデオ認識に対する大きな障害です。
このギャップに対処するために、高品質のマルチモーダルビデオフィルタリング、意味的にコヒーレントなオムニモーダルイベント境界検出、およびクロスモーダル相関アウェアイベントキャプションで構成される自動パイプラインを提案します。
このようにして、正確な時間的境界と8.4kの高品質の長いビデオ内で詳細な関係認識キャプションを備えた105Kオムニモーダルイベントを含む史上初のビジョンオーディオ言語イベントのベンチマークであるロングベールを紹介します。
さらに、ロングベールを活用して、オムニモダリティの細い粒度の一時的なビデオ理解のためのビデオ大手言語モデル(LLM)を初めて有効にするベースラインを構築します。
広範な実験は、包括的なマルチモーダルビデオ理解を進める上でのロングベールの有効性と大きな可能性を示しています。

要約(オリジナル)

Despite impressive advancements in video understanding, most efforts remain limited to coarse-grained or visual-only video tasks. However, real-world videos encompass omni-modal information (vision, audio, and speech) with a series of events forming a cohesive storyline. The lack of multi-modal video data with fine-grained event annotations and the high cost of manual labeling are major obstacles to comprehensive omni-modality video perception. To address this gap, we propose an automatic pipeline consisting of high-quality multi-modal video filtering, semantically coherent omni-modal event boundary detection, and cross-modal correlation-aware event captioning. In this way, we present LongVALE, the first-ever Vision-Audio-Language Event understanding benchmark comprising 105K omni-modal events with precise temporal boundaries and detailed relation-aware captions within 8.4K high-quality long videos. Further, we build a baseline that leverages LongVALE to enable video large language models (LLMs) for omni-modality fine-grained temporal video understanding for the first time. Extensive experiments demonstrate the effectiveness and great potential of LongVALE in advancing comprehensive multi-modal video understanding.

arxiv情報

著者 Tiantian Geng,Jinrui Zhang,Qingni Wang,Teng Wang,Jinming Duan,Feng Zheng
発行日 2025-03-20 11:55:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos はコメントを受け付けていません