「cs.AI」カテゴリーアーカイブ

Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning

投稿日: 2025年2月21日作成者: jarxiv

要約 3D大手言語モデル（3DLLMS）の最近の進歩は、3D現実世界の汎用エージ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

投稿日: 2025年2月21日作成者: jarxiv

要約元のSiglipの成功に基づいて構築された新しい多言語ビジョン言語エンコー … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

A Survey on Text-Driven 360-Degree Panorama Generation

投稿日: 2025年2月21日作成者: jarxiv

要約テキスト駆動型の360度のパノラマ生成の出現は、テキストの説明から直接36 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis

投稿日: 2025年2月21日作成者: jarxiv

要約基礎モデルは、医療ドメインでますます効果的になりつつあり、下流のタスクに容 … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison

投稿日: 2025年2月21日作成者: jarxiv

要約視覚的な質問応答（VQA）は、コンピュータービジョンと自然言語処理の交差点 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.ET, cs.LG | コメントを受け付けていません

Improving the Diffusability of Autoencoders

投稿日: 2025年2月21日作成者: jarxiv

要約潜在的な拡散モデルは、高品質の画像とビデオを生成するための主要なアプローチ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

投稿日: 2025年2月21日作成者: jarxiv

要約既存の大きなビジョン言語モデル（LVLMS）は、最大128Kの視覚的および … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework

投稿日: 2025年2月21日作成者: jarxiv

要約マルチモーダル検索の高等世代（MRAG）は、外部の知識を統合することにより … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents

投稿日: 2025年2月21日作成者: jarxiv

要約セマンティックコード検索、特定の自然言語クエリに一致するコードの取得は、ソ … 続きを読む →

カテゴリー: cs.AI, cs.IR, cs.SE, D.2.3 | コメントを受け付けていません

Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks

投稿日: 2025年2月20日作成者: jarxiv

要約生成制御ポリシーは最近、ロボット工学の大きな進歩を解き放ちました。これら … 続きを読む →

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

A Survey on Text-Driven 360-Degree Panorama Generation

FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis

Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison

Improving the Diffusability of Autoencoders

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework

CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents

Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks

最近の投稿

最近のコメント

アーカイブ

カテゴリー