「cs.AI」カテゴリーアーカイブ

OmniBench: Towards The Future of Universal Omni-Language Models

投稿日: 2025年3月28日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLMS）の最近の進歩は、複数のモダリティ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Cognitive Science-Inspired Evaluation of Core Capabilities for Object Understanding in AI

投稿日: 2025年3月28日作成者: jarxiv

要約私たちの世界モデルのコアコンポーネントの1つは、「直感的な物理学」です。オ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

投稿日: 2025年3月28日作成者: jarxiv

要約わずか数秒でテキストプロンプトから高品質の3Dメッシュを生成できるモデルを … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

AMA-SAM: Adversarial Multi-Domain Alignment of Segment Anything Model for High-Fidelity Histology Nuclei Segmentation

投稿日: 2025年3月28日作成者: jarxiv

要約組織病理学の画像における細胞核の正確なセグメンテーションは、多数の生物医学 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

投稿日: 2025年3月28日作成者: jarxiv

要約フロンティアモデルは言語のみであるか、主にビジョンと言語のモダリティに焦点 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD | コメントを受け付けていません

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

投稿日: 2025年3月28日作成者: jarxiv

要約拡散技術の最近の進歩により、画像とビデオ生成が前例のないレベルの品質を推進 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography

投稿日: 2025年3月28日作成者: jarxiv

要約対照的な言語イメージ前訓練（CLIP）は、医療画像分析に強い可能性を示して … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

投稿日: 2025年3月28日作成者: jarxiv

要約一時的な認識、質問が提起されたときにタイムスタンプに基づいて動的に推論する … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

CTRL-O: Language-Controllable Object-Centric Visual Representation Learning

投稿日: 2025年3月28日作成者: jarxiv

要約オブジェクト中心の表現学習は、視覚的なシーンを「スロット」または「オブジェ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

投稿日: 2025年3月28日作成者: jarxiv

要約ビデオ編集は、エンターテイメント、教育、専門的なコミュニケーションのアプリ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

OmniBench: Towards The Future of Universal Omni-Language Models

Cognitive Science-Inspired Evaluation of Core Capabilities for Object Understanding in AI

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

AMA-SAM: Adversarial Multi-Domain Alignment of Segment Anything Model for High-Fidelity Histology Nuclei Segmentation

MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

CTRL-O: Language-Controllable Object-Centric Visual Representation Learning

VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

最近の投稿

最近のコメント

アーカイブ

カテゴリー