投稿者「jarxiv」のアーカイブ

CLIP-IT: CLIP-based Pairing for Histology Images Classification

要約 マルチモーダル学習は、補完的なデータソースからの情報を統合することにより、 … 続きを読む

カテゴリー: cs.CV | CLIP-IT: CLIP-based Pairing for Histology Images Classification はコメントを受け付けていません

LegalEval-Q: A New Benchmark for The Quality Evaluation of LLM-Generated Legal Text

要約 大規模な言語モデル(LLM)が法的アプリケーションでますます使用されている … 続きを読む

カテゴリー: cs.CL, cs.CV | LegalEval-Q: A New Benchmark for The Quality Evaluation of LLM-Generated Legal Text はコメントを受け付けていません

Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning

要約 漢字認識(CCR)は、インテリジェントなドキュメント処理の基本的な技術です … 続きを読む

カテゴリー: cs.CV | Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning はコメントを受け付けていません

Using Knowledge Graphs to harvest datasets for efficient CLIP model training

要約 高品質のクリップモデルのトレーニングには、通常、膨大なデータセットが必要で … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.IR, cs.LG | Using Knowledge Graphs to harvest datasets for efficient CLIP model training はコメントを受け付けていません

VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software

要約 コンピューター支援設計(CAD)は、時間のかかる複雑なプロセスであり、複雑 … 続きを読む

カテゴリー: cs.AI, cs.CV | VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software はコメントを受け付けていません

Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck

要約 このペーパーでは、最先端の大規模な言語モデル(LLM)が私たちの視覚的世界 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck はコメントを受け付けていません

Reading Recognition in the Wild

要約 常にオンのスマートメガネでエゴセントリックコンテキストAIを有効にするには … 続きを読む

カテゴリー: cs.CV, cs.LG | Reading Recognition in the Wild はコメントを受け付けていません

MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection

要約 ビデオカモフラージュオブジェクト検出(VCOD)は、ビデオのバックグラウン … 続きを読む

カテゴリー: cs.CV | MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection はコメントを受け付けていません

V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow

要約 このペーパーでは、静かな話の顔のビデオから直接自然でわかりやすいスピーチを … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow はコメントを受け付けていません

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

要約 特定の物語および参照画像に合わせて視覚的に一貫した画像のシーケンスを生成す … 続きを読む

カテゴリー: cs.CV | ViStoryBench: Comprehensive Benchmark Suite for Story Visualization はコメントを受け付けていません