CLIP-IT: CLIP-based Pairing for Histology Images Classification

要約

マルチモーダル学習は、補完的なデータソースからの情報を統合することにより、医療画像分析を改善するための重要な約束を示しています。
これは、組織学の画像とテキストレポートに基づいたがん検出のために、ビジョン言語モデル(VLM)をトレーニングするために広く採用されています。
ただし、これらのVLMのトレーニングにおける主な制限の1つは、大規模なペアのデータセット、プライバシー、データ収集、注釈、メンテナンスコストに対する懸念を高める要件です。
この課題に対処するために、Clip-ITメソッドを紹介して、Vision Backboneモデルをトレーニングして、外部ソースからの特権的なテキスト情報と組織画像を組み合わせて分類します。
最初は、モダリティペアリングステップは、クリップベースのモデルに依存して、組織学の画像を外部ソースからの意味的に関連するテキストレポートデータと一致させ、手動でペアのサンプルを必要とせずに拡張マルチモーダルデータセットを作成します。
次に、推論中にテキストデータを必要とせずに、パフォーマンスを強化するために、ペアのテキストモダリティからユニモーダル画像分類器に知識を蒸留するマルチモーダルトレーニング手順を提案します。
パラメーター効率の高い微調整方法を使用して、メイン(画像)とペアの(テキスト)モダリティの間の不整合に効率的に対処します。
推論中、改善された単峰性組織分類剤が使用され、追加の計算の複雑さのみが最小限に抑えられます。
挑戦的なPCAM、CRC、およびBACHの組織学画像データセットに関する実験は、CLIP-ITが特権テキスト情報を活用し、組織学の単峰性分類器を上回るための費用対効果の高いアプローチを提供できることを示しています。

要約(オリジナル)

Multimodal learning has shown significant promise for improving medical image analysis by integrating information from complementary data sources. This is widely employed for training vision-language models (VLMs) for cancer detection based on histology images and text reports. However, one of the main limitations in training these VLMs is the requirement for large paired datasets, raising concerns over privacy, and data collection, annotation, and maintenance costs. To address this challenge, we introduce CLIP-IT method to train a vision backbone model to classify histology images by pairing them with privileged textual information from an external source. At first, the modality pairing step relies on a CLIP-based model to match histology images with semantically relevant textual report data from external sources, creating an augmented multimodal dataset without the need for manually paired samples. Then, we propose a multimodal training procedure that distills the knowledge from the paired text modality to the unimodal image classifier for enhanced performance without the need for the textual data during inference. A parameter-efficient fine-tuning method is used to efficiently address the misalignment between the main (image) and paired (text) modalities. During inference, the improved unimodal histology classifier is used, with only minimal additional computational complexity. Our experiments on challenging PCAM, CRC, and BACH histology image datasets show that CLIP-IT can provide a cost-effective approach to leverage privileged textual information and outperform unimodal classifiers for histology.

arxiv情報

著者 Banafsheh Karimian,Giulia Avanzato,Soufian Belharbi,Luke McCaffrey,Mohammadhadi Shateri,Eric Granger
発行日 2025-05-30 17:29:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CLIP-IT: CLIP-based Pairing for Histology Images Classification はコメントを受け付けていません

LegalEval-Q: A New Benchmark for The Quality Evaluation of LLM-Generated Legal Text

要約

大規模な言語モデル(LLM)が法的アプリケーションでますます使用されているため、現在の評価ベンチマークは、主に事実の正確さに焦点を当てる傾向があり、一方で、明確さ、コヒーレンス、用語などの重要な言語の品質の側面をほとんど無視しています。
このギャップに対処するために、3つのステップを提案します。最初に、明確さ、一貫性、用語に基づいて法的テキストの品質を評価するための回帰モデルを開発します。
第二に、私たちは特別な一連の法的質問を作成します。
第三に、この評価フレームワークを使用して49 LLMを分析します。
分析では、3つの重要な調査結果が特定されています。まず、140億パラメーターでモデルの品質レベルがオフになり、720億パラメーターで2.7ドル\%$のわずかな改善しかありません。
第二に、統計的有意性のしきい値が0.016を超えるように、量子化やコンテキストの長さなどのエンジニアリングの選択は無視できる影響を及ぼします。
第三に、推論モデルはベースアーキテクチャを一貫して上回ります。
私たちの研究の重要な結果は、ランキングリストとパレート分析のリリースです。これは、QWEN3シリーズをコストパフォーマンストレードオフの最適な選択肢として強調しています。
この作業は、法的LLMの標準化された評価プロトコルを確立するだけでなく、現在のトレーニングデータ改良アプローチの基本的な制限を明らかにします。
コードとモデルは、https://github.com/lyxx3rd/legaleval-qで入手できます。

要約(オリジナル)

As large language models (LLMs) are increasingly used in legal applications, current evaluation benchmarks tend to focus mainly on factual accuracy while largely neglecting important linguistic quality aspects such as clarity, coherence, and terminology. To address this gap, we propose three steps: First, we develop a regression model to evaluate the quality of legal texts based on clarity, coherence, and terminology. Second, we create a specialized set of legal questions. Third, we analyze 49 LLMs using this evaluation framework. Our analysis identifies three key findings: First, model quality levels off at 14 billion parameters, with only a marginal improvement of $2.7\%$ noted at 72 billion parameters. Second, engineering choices such as quantization and context length have a negligible impact, as indicated by statistical significance thresholds above 0.016. Third, reasoning models consistently outperform base architectures. A significant outcome of our research is the release of a ranking list and Pareto analysis, which highlight the Qwen3 series as the optimal choice for cost-performance tradeoffs. This work not only establishes standardized evaluation protocols for legal LLMs but also uncovers fundamental limitations in current training data refinement approaches. Code and models are available at: https://github.com/lyxx3rd/LegalEval-Q.

arxiv情報

著者 Li yunhan,Wu gengshen
発行日 2025-05-30 17:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | LegalEval-Q: A New Benchmark for The Quality Evaluation of LLM-Generated Legal Text はコメントを受け付けていません

Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning

要約

漢字認識(CCR)は、インテリジェントなドキュメント処理の基本的な技術です。
ラテン文字とは異なり、漢字はユニークな空間構造と構成ルールを示し、表現に細粒の意味情報を使用できます。
ただし、既存のアプローチは通常、自動回帰と編集距離後のプロセスに基づいており、通常、単一レベルの文字表現に依存しています。
このホワイトペーパーでは、対照的なパラダイムに基づいて階層的な多粒度画像テキストALIGNING(HI-GITA)フレームワークを提案します。
漢字の豊富なきめの細かいセマンティック情報を活用するために、画像側とテキスト側の両方でマルチ粒度エンコーダーを提案します。
具体的には、画像の多粒度エンコーダーは、文字画像から階層画像表現を抽出し、ローカライズされたストロークからホリスティック構造までのセマンティックキューをキャプチャします。
テキストの多粒度エンコーダーは、さまざまなレベルの粒度でストロークとラジカル配列表現を抽出します。
ストロークとラジカルの関係をより適切に把握するために、画像とテキストの側面にそれぞれ多粒度融合モジュールを導入します。
さらに、2つのモダリティを効果的に橋渡しするために、さらに、複数の粒度にわたって画像とテキストの表現を整列させる、細粒の分離された画像テキストの対照喪失をさらに導入します。
広範な実験は、提案されたHi-gitaが既存のゼロショットCCRメソッドを大幅に上回ることを示しています。
たとえば、手書きのキャラクターとラジカルゼロショット設定に約20%の精度改善がもたらされます。
コードとモデルはまもなくリリースされます。

要約(オリジナル)

Chinese Character Recognition (CCR) is a fundamental technology for intelligent document processing. Unlike Latin characters, Chinese characters exhibit unique spatial structures and compositional rules, allowing for the use of fine-grained semantic information in representation. However, existing approaches are usually based on auto-regressive as well as edit distance post-process and typically rely on a single-level character representation. In this paper, we propose a Hierarchical Multi-Granularity Image-Text Aligning (Hi-GITA) framework based on a contrastive paradigm. To leverage the abundant fine-grained semantic information of Chinese characters, we propose multi-granularity encoders on both image and text sides. Specifically, the Image Multi-Granularity Encoder extracts hierarchical image representations from character images, capturing semantic cues from localized strokes to holistic structures. The Text Multi-Granularity Encoder extracts stroke and radical sequence representations at different levels of granularity. To better capture the relationships between strokes and radicals, we introduce Multi-Granularity Fusion Modules on the image and text sides, respectively. Furthermore, to effectively bridge the two modalities, we further introduce a Fine-Grained Decoupled Image-Text Contrastive loss, which aligns image and text representations across multiple granularities. Extensive experiments demonstrate that our proposed Hi-GITA significantly outperforms existing zero-shot CCR methods. For instance, it brings about 20% accuracy improvement in handwritten character and radical zero-shot settings. Code and models will be released soon.

arxiv情報

著者 Yinglian Zhu,Haiyang Yu,Qizao Wang,Wei Lu,Xiangyang Xue,Bin Li
発行日 2025-05-30 17:39:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning はコメントを受け付けていません

Using Knowledge Graphs to harvest datasets for efficient CLIP model training

要約

高品質のクリップモデルのトレーニングには、通常、膨大なデータセットが必要であり、特に最大のクリップモデルでさえもうまくカバーしない領域でドメイン固有のモデルの開発を制限し、トレーニングコストを押し上げます。
これは、CLIPモデルのトレーニング手順をきめんゆかされた制御を必要とする科学研究の課題をもたらします。
この作業では、知識グラフで強化されたスマートWeb検索戦略を採用することにより、かなり少ないデータで堅牢なクリップモデルをゼロからトレーニングできることを示します。
具体的には、生物の専門家の基礎モデルをわずか10mの画像を使用して構築できることを実証します。
さらに、46mのテキストの説明と組み合わせた33mの画像を含むデータセットであるEntityNetを紹介します。これにより、一般的なクリップモデルのトレーニングが大幅に短期間でトレーニングを可能にします。

要約(オリジナル)

Training high-quality CLIP models typically requires enormous datasets, which limits the development of domain-specific models — especially in areas that even the largest CLIP models do not cover well — and drives up training costs. This poses challenges for scientific research that needs fine-grained control over the training procedure of CLIP models. In this work, we show that by employing smart web search strategies enhanced with knowledge graphs, a robust CLIP model can be trained from scratch with considerably less data. Specifically, we demonstrate that an expert foundation model for living organisms can be built using just 10M images. Moreover, we introduce EntityNet, a dataset comprising 33M images paired with 46M text descriptions, which enables the training of a generic CLIP model in significantly reduced time.

arxiv情報

著者 Simon Ging,Sebastian Walter,Jelena Bratulić,Johannes Dienert,Hannah Bast,Thomas Brox
発行日 2025-05-30 17:39:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.IR, cs.LG | Using Knowledge Graphs to harvest datasets for efficient CLIP model training はコメントを受け付けていません

VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software

要約

コンピューター支援設計(CAD)は、時間のかかる複雑なプロセスであり、複雑な3Dインターフェイスとの正確で長期のユーザーインタラクションが必要です。
AI駆動型のユーザーインターフェイス(UI)エージェントの最近の進歩は有望であることを示していますが、ほとんどの既存のデータセットとメソッドは、モバイルまたはWebアプリケーションの短くて低い複雑さのタスクに焦点を当てており、専門のエンジニアリングツールの要求を把握できません。
この作業では、精密タスクのUIインタラクション学習をエンジニアリングする最初の試みであるVideoCADを紹介します。
具体的には、VideoCADは、人間が作成したCAD設計から高忠実度UIアクションデータを収集するために自動化されたフレームワークを使用して生成されたCAD操作の41K以上の注釈付きビデオ録画で構成される大規模な合成データセットです。
既存のデータセットと比較して、VideoCADは、他のデータセットよりも最大20倍長い期間を持つ、実際のエンジニアリングタスクのUIインタラクション学習において数桁高い複雑さを提供します。
VideoCADの2つの重要なダウンストリームアプリケーションを示しています。プロの精度3D CADツールからのUIの相互作用と、マルチモーダル大手言語モデル(LLM)の空間推論とビデオ理解能力を評価するために設計された視覚的な質問(VQA)ベンチマーク。
UIの相互作用を学習するために、ビデオカドフォーマーを提案します。これは、ビデオからCAD相互作用を直接学習する最先端のモデルであり、複数の動作がベースラインを上回るよりも優れています。
VideoCADから派生したVideCadformerとVQAベンチマークの両方が、正確なアクション接地、マルチモーダルおよび空間的推論、および長老依存関係の必要性を含む、ビデオベースのUI理解の現在の状態における重要な課題を明らかにしています。

要約(オリジナル)

Computer-Aided Design (CAD) is a time-consuming and complex process, requiring precise, long-horizon user interactions with intricate 3D interfaces. While recent advances in AI-driven user interface (UI) agents show promise, most existing datasets and methods focus on short, low-complexity tasks in mobile or web applications, failing to capture the demands of professional engineering tools. In this work, we introduce VideoCAD, the first attempt at engineering UI interaction learning for precision tasks. Specifically, VideoCAD is a large-scale synthetic dataset consisting of over 41K annotated video recordings of CAD operations, generated using an automated framework for collecting high-fidelity UI action data from human-made CAD designs. Compared to existing datasets, VideoCAD offers an order of magnitude higher complexity in UI interaction learning for real-world engineering tasks, having up to a 20x longer time horizon than other datasets. We show two important downstream applications of VideoCAD: learning UI interactions from professional precision 3D CAD tools and a visual question-answering (VQA) benchmark designed to evaluate multimodal large language models’ (LLM) spatial reasoning and video understanding abilities. To learn the UI interactions, we propose VideoCADFormer – a state-of-the-art model in learning CAD interactions directly from video, which outperforms multiple behavior cloning baselines. Both VideoCADFormer and the VQA benchmark derived from VideoCAD reveal key challenges in the current state of video-based UI understanding, including the need for precise action grounding, multi-modal and spatial reasoning, and long-horizon dependencies.

arxiv情報

著者 Brandon Man,Ghadi Nehme,Md Ferdous Alam,Faez Ahmed
発行日 2025-05-30 17:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software はコメントを受け付けていません

Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck

要約

このペーパーでは、最先端の大規模な言語モデル(LLM)が私たちの視覚的世界に関する階層的な知識を欠いていることを明らかにしています。
この欠点により、LLMSはVision LLMSの階層的な視覚的理解のためのボトルネックになります(例えば、脊椎動物ではなくアネモネ魚を認識します)。
6つの分類法と4つの画像データセットから構築された約100万の4選択視覚質問(VQA)タスクを使用して、これらの調査結果に到達します。
興味深いことに、VQAタスクを使用してVision LLMを微調整すると、VQAタスクがVision LLMよりもLLMの階層的一貫性を改善するため、LLMSのボトルネック効果がある程度再確認されます。
LLMSが対応する分類学知識があるまで、Vision LLMに視覚概念を完全に階層的に理解させることができないと推測します。

要約(オリジナル)

This paper reveals that many state-of-the-art large language models (LLMs) lack hierarchical knowledge about our visual world, unaware of even well-established biology taxonomies. This shortcoming makes LLMs a bottleneck for vision LLMs’ hierarchical visual understanding (e.g., recognizing Anemone Fish but not Vertebrate). We arrive at these findings using about one million four-choice visual question answering (VQA) tasks constructed from six taxonomies and four image datasets. Interestingly, finetuning a vision LLM using our VQA tasks reaffirms LLMs’ bottleneck effect to some extent because the VQA tasks improve the LLM’s hierarchical consistency more than the vision LLM’s. We conjecture that one cannot make vision LLMs understand visual concepts fully hierarchical until LLMs possess corresponding taxonomy knowledge.

arxiv情報

著者 Yuwen Tan,Yuan Qing,Boqing Gong
発行日 2025-05-30 17:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck はコメントを受け付けていません

Reading Recognition in the Wild

要約

常にオンのスマートメガネでエゴセントリックコンテキストAIを有効にするには、読書中を含め、ユーザーの世界との相互作用の記録を記録することが重要です。
この論文では、ユーザーがいつ読んでいるかを判断するために、認識を読むという新しいタスクを紹介します。
最初に、多様で現実的なシナリオで100時間の読み取りビデオと非読み取りビデオを含む、野生のデータセットで、最初の大規模なマルチモーダルリーディングを紹介します。
次に、タスクを解決するために使用できる3つのモダリティ(エゴセントリックRGB、視線、ヘッドポーズ)を特定し、これらのモダリティを個別にまたは組み合わせてタスクを実行する柔軟なトランスモデルを提示します。
これらのモダリティがタスクに関連し、補完的であることを示し、各モダリティを効率的かつ効果的にエンコードする方法を調査します。
さらに、このデータセットの読み物の種類を分類し、制約された設定で実施された現在の読み取り研究を大規模、多様性、リアリズムに拡張することに向けたこのデータセットの有用性を示します。
コード、モデル、およびデータは公開されます。

要約(オリジナル)

To enable egocentric contextual AI in always-on smart glasses, it is crucial to be able to keep a record of the user’s interactions with the world, including during reading. In this paper, we introduce a new task of reading recognition to determine when the user is reading. We first introduce the first-of-its-kind large-scale multimodal Reading in the Wild dataset, containing 100 hours of reading and non-reading videos in diverse and realistic scenarios. We then identify three modalities (egocentric RGB, eye gaze, head pose) that can be used to solve the task, and present a flexible transformer model that performs the task using these modalities, either individually or combined. We show that these modalities are relevant and complementary to the task, and investigate how to efficiently and effectively encode each modality. Additionally, we show the usefulness of this dataset towards classifying types of reading, extending current reading understanding studies conducted in constrained settings to larger scale, diversity and realism. Code, model, and data will be public.

arxiv情報

著者 Charig Yang,Samiul Alam,Shakhrul Iman Siam,Michael J. Proulx,Lambert Mathias,Kiran Somasundaram,Luis Pesqueira,James Fort,Sheroze Sheriffdeen,Omkar Parkhi,Carl Ren,Mi Zhang,Yuning Chai,Richard Newcombe,Hyo Jin Kim
発行日 2025-05-30 17:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Reading Recognition in the Wild はコメントを受け付けていません

MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection

要約

ビデオカモフラージュオブジェクト検出(VCOD)は、ビデオのバックグラウンド内でシームレスに隠されたオブジェクトを識別することを目的とする挑戦的なタスクです。
ビデオの動的特性により、モーションキューまたはさまざまな視点を介したカモフラージュオブジェクトの検出が可能になります。
以前のVCODデータセットには主に動物のオブジェクトが含まれており、研究の範囲を野生生物シナリオに制限しています。
ただし、VCODの応用は野生生物を超えて拡張されており、セキュリティ、芸術、および医療分野に大きな影響を与えています。
この問題に対処すると、新しい大規模なマルチドメインVCODデータセットMSVCODを作成します。
高品質の注釈を達成するために、注釈の精度を維持しながらコストを削減する半自動反復注釈パイプラインを設計します。
私たちのMSVCODは、これまでで最大のVCODデータセットであり、人間、動物、医療、車両のオブジェクトを含む複数のオブジェクトカテゴリを初めて導入し、さまざまな環境での背景の多様性を拡大します。
この拡張されたスコープは、カモフラージュオブジェクト検出におけるVCODタスクの実際的な適用性を高めます。
このデータセットに加えて、追加のモーション機能融合モジュールなしで機能抽出と情報融合の両方を実行するワンスチームビデオカモフラージュオブジェクト検出モデルを紹介します。
私たちのフレームワークは、既存のVCOD動物データセットと提案されたMSVCODで最先端の結果を達成します。
データセットとコードは公開されます。

要約(オリジナル)

Video Camouflaged Object Detection (VCOD) is a challenging task which aims to identify objects that seamlessly concealed within the background in videos. The dynamic properties of video enable detection of camouflaged objects through motion cues or varied perspectives. Previous VCOD datasets primarily contain animal objects, limiting the scope of research to wildlife scenarios. However, the applications of VCOD extend beyond wildlife and have significant implications in security, art, and medical fields. Addressing this problem, we construct a new large-scale multi-domain VCOD dataset MSVCOD. To achieve high-quality annotations, we design a semi-automatic iterative annotation pipeline that reduces costs while maintaining annotation accuracy. Our MSVCOD is the largest VCOD dataset to date, introducing multiple object categories including human, animal, medical, and vehicle objects for the first time, while also expanding background diversity across various environments. This expanded scope increases the practical applicability of the VCOD task in camouflaged object detection. Alongside this dataset, we introduce a one-steam video camouflage object detection model that performs both feature extraction and information fusion without additional motion feature fusion modules. Our framework achieves state-of-the-art results on the existing VCOD animal dataset and the proposed MSVCOD. The dataset and code will be made publicly available.

arxiv情報

著者 Shuyong Gao,Yu’ang Feng,Qishan Wang,Lingyi Hong,Xinyu Zhou,Liu Fei,Yan Wang,Wenqiang Zhang
発行日 2025-05-30 17:46:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection はコメントを受け付けていません

V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow

要約

このペーパーでは、静かな話の顔のビデオから直接自然でわかりやすいスピーチを生成するために設計された新しいビデオからスピーチ(V2S)フレームワークであるV2SFLOWを紹介します。
最近のV2Sシステムは、スピーカーと語彙が限られている制約付きデータセットで有望な結果を示していますが、そのパフォーマンスは、音声信号の固有の変動性と複雑さのために、実際の制約のないデータセットでしばしば悪化します。
これらの課題に対処するために、音声信号を管理可能な部分空間(コンテンツ、ピッチ、スピーカー情報)に分解し、それぞれが異なる音声属性を表し、視覚入力から直接予測します。
これらの予測された属性からコヒーレントで現実的な音声を生成するために、ランダムノイズからターゲット音声分布に効率的な確率的経路をモデル化するトランスアーキテクチャに構築された修正フローマッチングデコーダーを採用します。
広範な実験は、V2SFLOWが最先端の方法を大幅に上回ることを示しており、地上の真理の発話の自然性を超えることさえあります。
コードとモデルは、https://github.com/kaistmm/v2sflowで入手できます

要約(オリジナル)

In this paper, we introduce V2SFlow, a novel Video-to-Speech (V2S) framework designed to generate natural and intelligible speech directly from silent talking face videos. While recent V2S systems have shown promising results on constrained datasets with limited speakers and vocabularies, their performance often degrades on real-world, unconstrained datasets due to the inherent variability and complexity of speech signals. To address these challenges, we decompose the speech signal into manageable subspaces (content, pitch, and speaker information), each representing distinct speech attributes, and predict them directly from the visual input. To generate coherent and realistic speech from these predicted attributes, we employ a rectified flow matching decoder built on a Transformer architecture, which models efficient probabilistic pathways from random noise to the target speech distribution. Extensive experiments demonstrate that V2SFlow significantly outperforms state-of-the-art methods, even surpassing the naturalness of ground truth utterances. Code and models are available at: https://github.com/kaistmm/V2SFlow

arxiv情報

著者 Jeongsoo Choi,Ji-Hoon Kim,Jinyu Li,Joon Son Chung,Shujie Liu
発行日 2025-05-30 17:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS | V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow はコメントを受け付けていません

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

要約

特定の物語および参照画像に合わせて視覚的に一貫した画像のシーケンスを生成することを目的としたストーリーの視覚化は、生成モデルの最近の進歩で大きな進歩を遂げました。
実際のシナリオでストーリー視覚化フレームワークのパフォーマンスをさらに強化するために、包括的な評価ベンチマークであるVistoryBenchを紹介します。
さまざまなストーリータイプや芸術スタイルを含む多様なデータセットを収集し、異なるプロット(コメディ、ホラーなど)や視覚的な美学(アニメ、3Dレンダリングなど)などの複数の次元でモデルが評価されるようにします。
VistoryBenchは、物語の構造と視覚的要素のバランスをとるために慎重にキュレーションされており、単一の主人公と複数の主人公がいるストーリーを特徴として、モデルのキャラクターの一貫性を維持する能力をテストします。
さらに、複雑なプロットと複雑な世界構築が含まれており、正確なビジュアルを生成するモデルに挑戦します。
包括的な比較を確保するために、当社のベンチマークには、重要な側面を評価する幅広い評価メトリックが組み込まれています。
この構造化された多面的なフレームワークにより、研究者は異なるモデルの長所と短所の両方を徹底的に特定し、ターゲットの改善を促進することができます。

要約(オリジナル)

Story visualization, which aims to generate a sequence of visually coherent images aligning with a given narrative and reference images, has seen significant progress with recent advancements in generative models. To further enhance the performance of story visualization frameworks in real-world scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We collect a diverse dataset encompassing various story types and artistic styles, ensuring models are evaluated across multiple dimensions such as different plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D renderings). ViStoryBench is carefully curated to balance narrative structures and visual elements, featuring stories with single and multiple protagonists to test models’ ability to maintain character consistency. Additionally, it includes complex plots and intricate world-building to challenge models in generating accurate visuals. To ensure comprehensive comparisons, our benchmark incorporates a wide range of evaluation metrics assessing critical aspects. This structured and multifaceted framework enables researchers to thoroughly identify both the strengths and weaknesses of different models, fostering targeted improvements.

arxiv情報

著者 Cailin Zhuang,Ailin Huang,Wei Cheng,Jingwei Wu,Yaoqi Hu,Jiaqi Liao,Zhewei Huang,Hongyuan Wang,Xinyao Liao,Weiwei Cai,Hengyuan Xu,Xuanyang Zhang,Xianfang Zeng,Gang Yu,Chi Zhang
発行日 2025-05-30 17:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ViStoryBench: Comprehensive Benchmark Suite for Story Visualization はコメントを受け付けていません