投稿者「jarxiv」のアーカイブ

CLIP-IT: CLIP-based Pairing for Histology Images Classification

投稿日: 2025年6月2日作成者: jarxiv

要約マルチモーダル学習は、補完的なデータソースからの情報を統合することにより、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LegalEval-Q: A New Benchmark for The Quality Evaluation of LLM-Generated Legal Text

投稿日: 2025年6月2日作成者: jarxiv

要約大規模な言語モデル（LLM）が法的アプリケーションでますます使用されている … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning

投稿日: 2025年6月2日作成者: jarxiv

要約漢字認識（CCR）は、インテリジェントなドキュメント処理の基本的な技術です … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Using Knowledge Graphs to harvest datasets for efficient CLIP model training

投稿日: 2025年6月2日作成者: jarxiv

要約高品質のクリップモデルのトレーニングには、通常、膨大なデータセットが必要で … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.IR, cs.LG | コメントを受け付けていません

VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software

投稿日: 2025年6月2日作成者: jarxiv

要約コンピューター支援設計（CAD）は、時間のかかる複雑なプロセスであり、複雑 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck

投稿日: 2025年6月2日作成者: jarxiv

要約このペーパーでは、最先端の大規模な言語モデル（LLM）が私たちの視覚的世界 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Reading Recognition in the Wild

投稿日: 2025年6月2日作成者: jarxiv

要約常にオンのスマートメガネでエゴセントリックコンテキストAIを有効にするには … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection

投稿日: 2025年6月2日作成者: jarxiv

要約ビデオカモフラージュオブジェクト検出（VCOD）は、ビデオのバックグラウン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow

投稿日: 2025年6月2日作成者: jarxiv

要約このペーパーでは、静かな話の顔のビデオから直接自然でわかりやすいスピーチを … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

投稿日: 2025年6月2日作成者: jarxiv

要約特定の物語および参照画像に合わせて視覚的に一貫した画像のシーケンスを生成す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

CLIP-IT: CLIP-based Pairing for Histology Images Classification

LegalEval-Q: A New Benchmark for The Quality Evaluation of LLM-Generated Legal Text

Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning

Using Knowledge Graphs to harvest datasets for efficient CLIP model training

VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software

Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck

Reading Recognition in the Wild

MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection

V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

最近の投稿

最近のコメント

アーカイブ

カテゴリー