From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics

要約

大規模な言語モデル(LLMS)の進歩は、教師と学生の両方のサポートを自動化することにより、数学教育を強化するための新しい可能性を提供します。
以前の作業は数学の問題と高品質のディストラクタの生成に焦点を当てていますが、数学学習における視覚化の役割は未調査のままです。
図は数学的思考と問題解決に不可欠ですが、それらを手動で作成するには時間がかかり、ドメイン固有の専門知識が必要であり、スケーラビリティが制限されます。
LLMを使用してスケーラブルベクトルグラフィックス(SVG)を生成する最近の研究は、図作成を自動化するための有望なアプローチを示しています。
ピクセルベースの画像とは異なり、SVGはXMLを使用して幾何学的な図を表し、シームレスなスケーリングと適応性を可能にします。
Khan AcademyやIXLなどの教育プラットフォームは、すでにSVGを使用して数学の問題やヒントを表示しています。
この論文では、LLMSの使用を調査して、中間SVG表現を介してテキストのヒントに伴う数学関連の図を生成します。
(1)問題解決ヒントで数学図を自動的に生成し、その品質を評価する方法、(2)SVGが数学図の効果的な中間表現であるかどうか、(3)LLMSに正確なSVGベースの図を生成するために必要な促進戦略とフォーマットが必要なもの。
私たちの貢献には、数学ヒントのSVGベースの図を自動的に生成するタスクの定義、LLMプロンプトベースのパイプラインの開発、および図生成を改善するための重要な戦略の特定が含まれます。
さらに、さまざまなパイプラインのバリエーションを評価するために、視覚的な質問応答ベースの評価セットアップを紹介し、アブレーション研究を実施します。
数学図の作成を自動化することにより、問題解決と学習体験を向上させる正確で概念的に関連する視覚補助具を生徒と教師に提供することを目指しています。

要約(オリジナル)

Advances in large language models (LLMs) offer new possibilities for enhancing math education by automating support for both teachers and students. While prior work has focused on generating math problems and high-quality distractors, the role of visualization in math learning remains under-explored. Diagrams are essential for mathematical thinking and problem-solving, yet manually creating them is time-consuming and requires domain-specific expertise, limiting scalability. Recent research on using LLMs to generate Scalable Vector Graphics (SVG) presents a promising approach to automating diagram creation. Unlike pixel-based images, SVGs represent geometric figures using XML, allowing seamless scaling and adaptability. Educational platforms such as Khan Academy and IXL already use SVGs to display math problems and hints. In this paper, we explore the use of LLMs to generate math-related diagrams that accompany textual hints via intermediate SVG representations. We address three research questions: (1) how to automatically generate math diagrams in problem-solving hints and evaluate their quality, (2) whether SVG is an effective intermediate representation for math diagrams, and (3) what prompting strategies and formats are required for LLMs to generate accurate SVG-based diagrams. Our contributions include defining the task of automatically generating SVG-based diagrams for math hints, developing an LLM prompting-based pipeline, and identifying key strategies for improving diagram generation. Additionally, we introduce a Visual Question Answering-based evaluation setup and conduct ablation studies to assess different pipeline variations. By automating the math diagram creation, we aim to provide students and teachers with accurate, conceptually relevant visual aids that enhance problem-solving and learning experiences.

arxiv情報

著者 Jaewook Lee,Jeongah Lee,Wanyong Feng,Andrew Lan
発行日 2025-03-10 15:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics はコメントを受け付けていません

From Idea to Implementation: Evaluating the Influence of Large Language Models in Software Development — An Opinion Paper

要約

トランスアーキテクチャの導入は、自然言語処理(NLP)のターニングポイントでした。
変圧器(BERT)や生成事前訓練の変圧器(GPT)からの双方向エンコーダー表現などの変圧器アーキテクチャに基づくモデルは、ソフトウェア開発や教育などのさまざまなアプリケーションで広範な人気を獲得しています。
ChatGPTやBardなどの大規模な言語モデル(LLM)の可用性は、これらのモデルの途方もない可能性を紹介し、コード生成、デバッグ、ドキュメンテーション生成などのタスクのソフトウェア開発などのさまざまなドメインへの統合を促進しました。
この研究では、ソフトウェア開発のためのLLMSの経験に関する11人の専門家からの意見が収集され、分析されて、成功し責任ある統合を導く洞察を導き出しました。
専門家の全体的な意見は肯定的であり、専門家は生産性の向上やコーディング時間の短縮などの利点を特定しています。
過度の依存のリスクや倫理的考慮事項などの潜在的な懸念や課題も強調されています。

要約(オリジナル)

The introduction of transformer architecture was a turning point in Natural Language Processing (NLP). Models based on the transformer architecture such as Bidirectional Encoder Representations from Transformers (BERT) and Generative Pre-Trained Transformer (GPT) have gained widespread popularity in various applications such as software development and education. The availability of Large Language Models (LLMs) such as ChatGPT and Bard to the general public has showcased the tremendous potential of these models and encouraged their integration into various domains such as software development for tasks such as code generation, debugging, and documentation generation. In this study, opinions from 11 experts regarding their experience with LLMs for software development have been gathered and analysed to draw insights that can guide successful and responsible integration. The overall opinion of the experts is positive, with the experts identifying advantages such as increase in productivity and reduced coding time. Potential concerns and challenges such as risk of over-dependence and ethical considerations have also been highlighted.

arxiv情報

著者 Sargam Yadav,Asifa Mehmood Qureshi,Abhishek Kaushik,Shubham Sharma,Roisin Loughran,Subramaniam Kazhuparambil,Andrew Shaw,Mohammed Sabry,Niamh St John Lynch,. Nikhil Singh,Padraic O’Hara,Pranay Jaiswal,Roshan Chandru,David Lillis
発行日 2025-03-10 15:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | From Idea to Implementation: Evaluating the Influence of Large Language Models in Software Development — An Opinion Paper はコメントを受け付けていません

Is a Good Foundation Necessary for Efficient Reinforcement Learning? The Computational Role of the Base Model in Exploration

要約

アクティブな探査を活用する言語モデルのアライメント(または、補強学習)技術 – モデルが多様で有益な応答を生成するように意図的に奨励する – は、超人間の能力の約束を提供します。
ただし、言語モデルを使用した計算効率的な探索のためのアルゴリズムの設計プリミティブを設計する現在の理解は限られています。
強力な事前訓練を受けた生成モデルへのアクセスを活用して探索の効率を改善する方法をよりよく理解するために、言語モデルを使用してRLの新しい計算フレームワークを紹介します。このモデルでは、学習者がサンプリングオラクルを介してモデルと相互作用します。
線形ソフトマックスモデルのパラメーター化に焦点を当てて、効率的な調査の計算統計的トレードオフを明らかにする新しい結果を提供します。
データ効率には必要ではありませんが、フレームワーク内のあらゆるアルゴリズムのランタイムを下回るカバレッジが示されています。
2。推論時間探査:最適なデータ効率を取得し、事前に訓練されたモデルが十分なカバレッジを享受し、下限に合わせて計算上効率的である新しいアルゴリズム、スパンサンプリングを紹介します。
スパンサンプリングレバレッジは、事前に訓練されたモデルを使用して推論時間計算を行い、探索のための効果的な検索スペースを削減します。
3。トレーニング時間介入の不足:適切なポリシーを生成するトレーニング時間介入が多項式時間で同様の保証を達成できないことを示すことにより、上記の結果を対比します。
4。マルチターン探索の計算上の利点:最後に、追加の表現の仮定の下で、マルチターン探索を通じて改善されたランタイム(トークンレベルのカバレッジに置き換える)を達成できることを示します。

要約(オリジナル)

Language model alignment (or, reinforcement learning) techniques that leverage active exploration — deliberately encouraging the model to produce diverse, informative responses — offer the promise of super-human capabilities. However, current understanding of algorithm design primitives for computationally efficient exploration with language models is limited. To better understand how to leverage access to powerful pre-trained generative models to improve the efficiency of exploration, we introduce a new computational framework for RL with language models, in which the learner interacts with the model through a sampling oracle. Focusing on the linear softmax model parameterization, we provide new results that reveal the computational-statistical tradeoffs of efficient exploration: 1. Necessity of coverage: Coverage refers to the extent to which the pre-trained model covers near-optimal responses — a form of hidden knowledge. We show that coverage, while not necessary for data efficiency, lower bounds the runtime of any algorithm in our framework. 2. Inference-time exploration: We introduce a new algorithm, SpannerSampling, which obtains optimal data efficiency and is computationally efficient whenever the pre-trained model enjoys sufficient coverage, matching our lower bound. SpannerSampling leverages inference-time computation with the pre-trained model to reduce the effective search space for exploration. 3. Insufficiency of training-time interventions: We contrast the result above by showing that training-time interventions that produce proper policies cannot achieve similar guarantees in polynomial time. 4. Computational benefits of multi-turn exploration: Finally, we show that under additional representational assumptions, one can achieve improved runtime (replacing sequence-level coverage with token-level coverage) through multi-turn exploration.

arxiv情報

著者 Dylan J. Foster,Zakaria Mhammedi,Dhruv Rohatgi
発行日 2025-03-10 15:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.ST, stat.TH | Is a Good Foundation Necessary for Efficient Reinforcement Learning? The Computational Role of the Base Model in Exploration はコメントを受け付けていません

MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

要約

大規模な言語モデル(LLMS)は、既存の医療質問を振り回すベンチマークで印象的なパフォーマンスを示しています。
この高性能により、高度な方法を有意義に評価および区別することがますます困難になります。
MedagentsBenchは、標準テストでの強力なパフォーマンスにもかかわらず、現在のモデルがまだ苦労しているマルチステップの臨床的推論、診断の定式化、および治療計画の順に必要な挑戦的な医学的質問に焦点を当てたベンチマークです。
7つの確立された医療データセットからの引き出しで、私たちのベンチマークは、既存の評価における3つの重要な制限に対処しています。(1)基本モデルでさえ高性能、(2)研究全体で一貫性のないサンプリングと評価プロトコルを達成する簡単な質問の有病率、および(3)パフォーマンス、コスト、および推論時間の間の相互作用の体系的な分析の欠如。
さまざまなベースモデルと推論方法を使用した実験を通じて、最新の思考モデルであるDeepseek R1とOpenai O3が、複雑な医療推論タスクで並外れたパフォーマンスを示すことを実証します。
さらに、高度な検索ベースのエージェントメソッドは、従来のアプローチと比較して、有望なパフォーマンスとコストの比率を提供します。
私たちの分析では、複雑な質問に関するモデルファミリ間のかなりのパフォーマンスギャップが明らかになり、さまざまな計算制約の最適なモデル選択が識別されます。
当社のベンチマークおよび評価フレームワークは、https://github.com/gersteinlab/medagents-benchmarkで公開されています。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive performance on existing medical question-answering benchmarks. This high performance makes it increasingly difficult to meaningfully evaluate and differentiate advanced methods. We present MedAgentsBench, a benchmark that focuses on challenging medical questions requiring multi-step clinical reasoning, diagnosis formulation, and treatment planning-scenarios where current models still struggle despite their strong performance on standard tests. Drawing from seven established medical datasets, our benchmark addresses three key limitations in existing evaluations: (1) the prevalence of straightforward questions where even base models achieve high performance, (2) inconsistent sampling and evaluation protocols across studies, and (3) lack of systematic analysis of the interplay between performance, cost, and inference time. Through experiments with various base models and reasoning methods, we demonstrate that the latest thinking models, DeepSeek R1 and OpenAI o3, exhibit exceptional performance in complex medical reasoning tasks. Additionally, advanced search-based agent methods offer promising performance-to-cost ratios compared to traditional approaches. Our analysis reveals substantial performance gaps between model families on complex questions and identifies optimal model selections for different computational constraints. Our benchmark and evaluation framework are publicly available at https://github.com/gersteinlab/medagents-benchmark.

arxiv情報

著者 Xiangru Tang,Daniel Shao,Jiwoong Sohn,Jiapeng Chen,Jiayi Zhang,Jinyu Xiang,Fang Wu,Yilun Zhao,Chenglin Wu,Wenqi Shi,Arman Cohan,Mark Gerstein
発行日 2025-03-10 15:38:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning はコメントを受け付けていません

Advancing Vietnamese Information Retrieval with Learning Objective and Benchmark

要約

自然言語処理の急速な発展により、複数のタスクに対して多くの言語モデルが発明されています。
重要なタスクの1つは、関連するドキュメントを取得するためのモデルが必要な情報検索(IR)です。
多くの現実のアプリケーション、特に検索拡張生成(RAG)システムにおけるその重要性にもかかわらず、このタスクにはベトナムのベンチマークがありません。
この状況は、タスクに関する多くの既存のベトナム埋め込み言語モデルの評価と比較を引き起こし、ベトナムの自然言語処理(NLP)研究の進歩を遅らせます。
この作業では、ベトナムの研究コミュニティに情報検索の新しいベンチマークを提供することを目指しています。
さらに、ベトナムの埋め込みモデルを訓練するために使用されるインフォンセ損失関数に基づいた新しい目的関数も提示します。
私たちの機能は、情報検索タスクの起源よりも優れていることを目指しています。
最後に、テキスト埋め込みモデルのパフォーマンスに対する両方の目的関数の超パラメーターである温度の効果を分析します。

要約(オリジナル)

With the rapid development of natural language processing, many language models have been invented for multiple tasks. One important task is information retrieval (IR), which requires models to retrieve relevant documents. Despite its importance in many real-life applications, especially in retrieval augmented generation (RAG) systems, this task lacks Vietnamese benchmarks. This situation causes difficulty in assessing and comparing many existing Vietnamese embedding language models on the task and slows down the advancement of Vietnamese natural language processing (NLP) research. In this work, we aim to provide the Vietnamese research community with a new benchmark for information retrieval, which mainly focuses on retrieval and reranking tasks. Furthermore, we also present a new objective function based on the InfoNCE loss function, which is used to train our Vietnamese embedding model. Our function aims to be better than the origin in information retrieval tasks. Finally, we analyze the effect of temperature, a hyper-parameter in both objective functions, on the performance of text embedding models.

arxiv情報

著者 Phu-Vinh Nguyen,Minh-Nam Tran,Long Nguyen,Dien Dinh
発行日 2025-03-10 15:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | Advancing Vietnamese Information Retrieval with Learning Objective and Benchmark はコメントを受け付けていません

Less is more? Rewards in RL for Cyber Defence

要約

過去数年間、深い強化学習に基づいて、自律的なサイバー防衛エージェントへの関心の爆発が見られました。
このようなエージェントは通常、サイバーシミュレーターとしても知られているサイバージム環境で訓練されており、そのうち少なくとも32はすでに構築されています。
ほとんどの場合、すべてではないにしても、すべてのサイバージムは、さまざまな(国連)望ましい州と費用のかかる行動に対する多くの罰則またはインセンティブを組み合わせた密な「足場」報酬機能を提供します。
密集した報酬は、複雑な環境を探索するという課題を緩和するのに役立ちますが、環境の手順が比較的少ないと思われる戦略をもたらします。
また、エージェントが見つけることができるソリューションにバイアスをかけることも知られています。
これは、敵によって悪用されるまで政策の弱点が気付かない複雑なサイバー環境では特に問題です。
この作業では、まばらな報酬関数がより効果的なサイバー防衛エージェントをトレーニングできるかどうかを評価することにしました。
この目標に向けて、最初に、エージェントの訓練と評価に使用される標準のRLパラダイムを超えるグラウンドトゥルース評価スコアを提案することにより、既存の作業のいくつかの評価制限を分析します。
確立されたサイバージムを適応させて方法論とグラウンドトゥルーススコアに対応することにより、2つのまばらな報酬メカニズムを提案および評価し、それらを典型的な密な報酬と比較します。
私たちの評価では、2〜50ノードのネットワークサイズの範囲、および反応的および積極的な防御アクションの両方を考慮しています。
我々の結果は、まばらな報酬、特に妥協のないネットワーク状態に対する肯定的な強化により、より効果的なサイバー防衛エージェントのトレーニングが可能になることを示しています。
さらに、まばらな報酬が密集した報酬よりも安定したトレーニングを提供し、効果とトレーニングの安定性の両方が、さまざまなサイバー環境の考慮事項に堅牢であることを示しています。

要約(オリジナル)

The last few years have seen an explosion of interest in autonomous cyber defence agents based on deep reinforcement learning. Such agents are typically trained in a cyber gym environment, also known as a cyber simulator, at least 32 of which have already been built. Most, if not all cyber gyms provide dense ‘scaffolded’ reward functions which combine many penalties or incentives for a range of (un)desirable states and costly actions. Whilst dense rewards help alleviate the challenge of exploring complex environments, yielding seemingly effective strategies from relatively few environment steps; they are also known to bias the solutions an agent can find, potentially towards suboptimal solutions. This is especially a problem in complex cyber environments where policy weaknesses may not be noticed until exploited by an adversary. In this work we set out to evaluate whether sparse reward functions might enable training more effective cyber defence agents. Towards this goal we first break down several evaluation limitations in existing work by proposing a ground truth evaluation score that goes beyond the standard RL paradigm used to train and evaluate agents. By adapting a well-established cyber gym to accommodate our methodology and ground truth score, we propose and evaluate two sparse reward mechanisms and compare them with a typical dense reward. Our evaluation considers a range of network sizes, from 2 to 50 nodes, and both reactive and proactive defensive actions. Our results show that sparse rewards, particularly positive reinforcement for an uncompromised network state, enable the training of more effective cyber defence agents. Furthermore, we show that sparse rewards provide more stable training than dense rewards, and that both effectiveness and training stability are robust to a variety of cyber environment considerations.

arxiv情報

著者 Elizabeth Bates,Chris Hicks,Vasilios Mavroudis
発行日 2025-03-10 15:51:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Less is more? Rewards in RL for Cyber Defence はコメントを受け付けていません

Efficient Membership Inference Attacks by Bayesian Neural Network

要約

メンバーシップ推論攻撃(MIA)は、特定のモデルのトレーニングで特定のデータポイントが使用されたかどうかを推定することを目的としています。
以前の攻撃では、多くの場合、複数の参照モデルを使用して条件付きスコア分布を近似し、重要な計算オーバーヘッドにつながります。
最近の作業は、条件付きしきい値を推定するために分位の回帰を活用していますが、認識論的な不確実性を捉えることができず、低密度領域でバイアスをもたらします。
この作業では、ベイジアン推論を通じて条件付き攻撃を実行する新しいアプローチ – ベイジアンメンバーシップ推論攻撃(BMIA)を提案します。
特に、ラプラス近似により訓練された参照モデルをベイジアンニューラルネットワークに変換し、確率的モデルパラメーターによる条件付けスコア分布の直接推定を可能にします。
私たちの方法は、参照モデルのみを使用して認識論とleatoricの両方の不確実性に対処し、効率的で強力なMIAを可能にします。
5つのデータセットでの広範な実験は、BMIAの有効性と効率性を示しています。

要約(オリジナル)

Membership Inference Attacks (MIAs) aim to estimate whether a specific data point was used in the training of a given model. Previous attacks often utilize multiple reference models to approximate the conditional score distribution, leading to significant computational overhead. While recent work leverages quantile regression to estimate conditional thresholds, it fails to capture epistemic uncertainty, resulting in bias in low-density regions. In this work, we propose a novel approach – Bayesian Membership Inference Attack (BMIA), which performs conditional attack through Bayesian inference. In particular, we transform a trained reference model into Bayesian neural networks by Laplace approximation, enabling the direct estimation of the conditional score distribution by probabilistic model parameters. Our method addresses both epistemic and aleatoric uncertainty with only a reference model, enabling efficient and powerful MIA. Extensive experiments on five datasets demonstrate the effectiveness and efficiency of BMIA.

arxiv情報

著者 Zhenlong Liu,Wenyu Jiang,Feng Zhou,Hongxin Wei
発行日 2025-03-10 15:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Efficient Membership Inference Attacks by Bayesian Neural Network はコメントを受け付けていません

Distilling Knowledge into Quantum Vision Transformers for Biomedical Image Classification

要約

量子視力変圧器(QVITS)は、自己触媒メカニズム内の線形層をパラメーター化された量子ニューラルネットワーク(QNN)に置き換え、特徴表現を改善するための量子機械的特性を活用することにより、ビジョントランス(VITS)に基づいて構築されます。
このハイブリッドアプローチは、濃縮された特徴表現の結果としてモデルの複雑さが大幅に減少し、パラメーターが少ないため、優れたパフォーマンスを達成することを目的としています。
このホワイトペーパーでは、生物医学的画像分類のための新しいQVITモデルを提案し、さまざまなモダリティと分類タスクを網羅した、8つの多様なデータセットにわたる同等のVITに対するパフォーマンスを調査します。
ゼロから訓練されたモデルと、高品質の教師モデルからの知識蒸留(KD)を使用して事前に訓練されたモデルを評価します。
我々の発見は、QVITがゼロから訓練されたときに平均ROC AUC(0.863対0.846)と精度(0.710対0.687)を伴う同等のVITを上回ることを示しており、さらには複数のタスクで最先端の古典モデルと競合するが、GFLOPSおよび99.99%で89%削減されている一方で、最先端のクラシックモデルと競合することを示しています。
さらに、QVITとVITはKDに等しく反応し、QVITがモデルの複雑さを伴うトレーニング前のパフォーマンススケーリングを備えていることがわかります。
これは、コンピューター支援診断のためにQVITをKDで展開する有効性に関する最初の調査です。
私たちの結果は、生物医学的画像分析における量子機械学習(QML)の大きな可能性を強調しています。

要約(オリジナル)

Quantum vision transformers (QViTs) build on vision transformers (ViTs) by replacing linear layers within the self-attention mechanism with parameterised quantum neural networks (QNNs), harnessing quantum mechanical properties to improve feature representation. This hybrid approach aims to achieve superior performance, with significantly reduced model complexity as a result of the enriched feature representation, requiring fewer parameters. This paper proposes a novel QViT model for biomedical image classification and investigates its performance against comparable ViTs across eight diverse datasets, encompassing various modalities and classification tasks. We assess models trained from scratch and those pre-trained using knowledge distillation (KD) from high-quality teacher models. Our findings demonstrate that QViTs outperform comparable ViTs with average ROC AUC (0.863 vs 0.846) and accuracy (0.710 vs 0.687) when trained from scratch, and even compete with state-of-the-art classical models in multiple tasks, whilst being significantly more efficient (89% reduction in GFLOPs and 99.99% in parameter number). Additionally, we find that QViTs and ViTs respond equally well to KD, with QViT pre-training performance scaling with model complexity. This is the first investigation into the efficacy of deploying QViTs with KD for computer-aided diagnosis. Our results highlight the enormous potential of quantum machine learning (QML) in biomedical image analysis.

arxiv情報

著者 Thomas Boucher,Evangelos B. Mazomenos
発行日 2025-03-10 13:16:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Distilling Knowledge into Quantum Vision Transformers for Biomedical Image Classification はコメントを受け付けていません

ALLVB: All-in-One Long Video Understanding Benchmark

要約

画像からビデオの理解まで、マルチモーダルLLMS(MLLM)の機能はますます強力になっています。
ただし、ほとんどの既存のビデオ理解ベンチマークは比較的短いため、MLLMSの長いシーケンスモデリング機能を効果的に評価するには不十分です。
これは、MLLMの能力を徹底的に評価するための包括的で統合された長いビデオ理解ベンチマークの緊急の必要性を強調しています。
この目的のために、AllVB(オールインワンの長いビデオ理解ベンチマーク)を提案します。
ALLVBの主な貢献には、次のものが含まれます。1)9つの主要なビデオ理解タスクを統合します。
これらのタスクはビデオQA形式に変換され、単一のベンチマークがMLLMの9つの異なるビデオ理解機能を評価し、AllVBの汎用性、包括性、挑戦的な性質を強調します。
2)GPT-4Oを使用した完全に自動化された注釈パイプラインが設計されており、ベンチマークのメンテナンスと拡張を容易にする人間の品質管理のみが必要です。
3)16のカテゴリに1,376個のビデオが含まれており、平均してそれぞれ2時間近く、合計252kのQAがあります。
私たちの知る限り、それはビデオの数、平均期間、QAの数の観点から最大の長いビデオ理解ベンチマークです。
AllVBでさまざまな主流MLLMをテストしましたが、結果は、最も先進的な商業モデルでさえも改善の余地があることを示しています。
これは、ベンチマークの挑戦的な性質を反映しており、長いビデオ理解における開発の実質的な可能性を示しています。

要約(オリジナル)

From image to video understanding, the capabilities of Multi-modal LLMs (MLLMs) are increasingly powerful. However, most existing video understanding benchmarks are relatively short, which makes them inadequate for effectively evaluating the long-sequence modeling capabilities of MLLMs. This highlights the urgent need for a comprehensive and integrated long video understanding benchmark to assess the ability of MLLMs thoroughly. To this end, we propose ALLVB (ALL-in-One Long Video Understanding Benchmark). ALLVB’s main contributions include: 1) It integrates 9 major video understanding tasks. These tasks are converted into video QA formats, allowing a single benchmark to evaluate 9 different video understanding capabilities of MLLMs, highlighting the versatility, comprehensiveness, and challenging nature of ALLVB. 2) A fully automated annotation pipeline using GPT-4o is designed, requiring only human quality control, which facilitates the maintenance and expansion of the benchmark. 3) It contains 1,376 videos across 16 categories, averaging nearly 2 hours each, with a total of 252k QAs. To the best of our knowledge, it is the largest long video understanding benchmark in terms of the number of videos, average duration, and number of QAs. We have tested various mainstream MLLMs on ALLVB, and the results indicate that even the most advanced commercial models have significant room for improvement. This reflects the benchmark’s challenging nature and demonstrates the substantial potential for development in long video understanding.

arxiv情報

著者 Xichen Tan,Yuanjing Luo,Yunfan Ye,Fang Liu,Zhiping Cai
発行日 2025-03-10 13:18:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ALLVB: All-in-One Long Video Understanding Benchmark はコメントを受け付けていません

Goal Conditioned Reinforcement Learning for Photo Finishing Tuning

要約

写真仕上げのチューニングは、Adobe LightroomやDarktableなどの写真仕上げパイプラインの手動チューニングプロセスを自動化することを目的としています。
以前の研究では、ゼロオーダーの最適化を使用します。これは、パラメーターのセットが増加すると遅いか、ターゲット仕上げパイプラインの微分可能なプロキシに依存しています。
これらの課題を克服するために、条件として目標画像を使用してパラメーターを効率的に調整するための新しい目標条件付き強化学習フレームワークを提案します。
以前のアプローチとは異なり、私たちのチューニングフレームワークはプロキシに依存せず、写真仕上げパイプラインをブラックボックスとして扱います。
訓練された強化学習ポリシーを利用して、最適化ベースのアプローチでは通常200のクエリを取る一方で、わずか10クエリ内で目的のパラメーターのセットを効率的に見つけることができます。
さらに、当社のアーキテクチャは目標画像を利用して、パイプラインパラメーターの反復チューニングをガイドし、ピクセルに並べられたターゲット画像、スタイル画像、またはその他の視覚的に表現可能な目標の柔軟な条件付けを可能にします。
写真仕上げのチューニングと写真のスタイリライゼーションのチューニングタスクに関する詳細な実験を実施し、方法の利点を実証します。
プロジェクトWebサイト:https://openimaginglab.github.io/rlpixtuner/。

要約(オリジナル)

Photo finishing tuning aims to automate the manual tuning process of the photo finishing pipeline, like Adobe Lightroom or Darktable. Previous works either use zeroth-order optimization, which is slow when the set of parameters increases, or rely on a differentiable proxy of the target finishing pipeline, which is hard to train. To overcome these challenges, we propose a novel goal-conditioned reinforcement learning framework for efficiently tuning parameters using a goal image as a condition. Unlike previous approaches, our tuning framework does not rely on any proxy and treats the photo finishing pipeline as a black box. Utilizing a trained reinforcement learning policy, it can efficiently find the desired set of parameters within just 10 queries, while optimization based approaches normally take 200 queries. Furthermore, our architecture utilizes a goal image to guide the iterative tuning of pipeline parameters, allowing for flexible conditioning on pixel-aligned target images, style images, or any other visually representable goals. We conduct detailed experiments on photo finishing tuning and photo stylization tuning tasks, demonstrating the advantages of our method. Project website: https://openimaginglab.github.io/RLPixTuner/.

arxiv情報

著者 Jiarui Wu,Yujin Wang,Lingen Li,Zhang Fan,Tianfan Xue
発行日 2025-03-10 13:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Goal Conditioned Reinforcement Learning for Photo Finishing Tuning はコメントを受け付けていません