投稿者「jarxiv」のアーカイブ

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

要約 ビジョン言語モデル(VLMS)の迅速な発展には、厳密で信頼できる評価が必要 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.LG | Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation はコメントを受け付けていません

Beyond the Hype: A dispassionate look at vision-language models in medical scenario

要約 大規模な視覚言語モデル(LVLMS)の最近の進歩は、多様なタスク全体で顕著 … 続きを読む

カテゴリー: cs.AI, cs.CV | Beyond the Hype: A dispassionate look at vision-language models in medical scenario はコメントを受け付けていません

Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation

要約 ビジョン言語モデル(VLMS)の評価は、主に英語のベンチマークに依存してお … 続きを読む

カテゴリー: cs.CL, cs.CV | Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation はコメントを受け付けていません

LUDO: Low-Latency Understanding of Deformable Objects using Point Cloud Occupancy Functions

要約 オブジェクトの形状と変形可能なオブジェクト内の内部構造の位置を正確に決定す … 続きを読む

カテゴリー: cs.CV, cs.RO | LUDO: Low-Latency Understanding of Deformable Objects using Point Cloud Occupancy Functions はコメントを受け付けていません

Detecting AI-generated Artwork

要約 人工知能(AI)によって生成されたアートワークの効率と品質は、人間の芸術家 … 続きを読む

カテゴリー: cs.CV, cs.LG | Detecting AI-generated Artwork はコメントを受け付けていません

SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills

要約 複雑な環境で生き残り、繁栄するために、人間は環境探査、経験の階層的な抽象化 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills はコメントを受け付けていません

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

要約 カメラの軌跡の設計は、ビデオ制作において重要な役割を果たし、監督の意図を伝 … 続きを読む

カテゴリー: cs.CV | GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography はコメントを受け付けていません

OmniCaptioner: One Captioner to Rule Them All

要約 Omnicaptionerを提案します。これは、さまざまな視覚ドメインにわ … 続きを読む

カテゴリー: cs.CL, cs.CV | OmniCaptioner: One Captioner to Rule Them All はコメントを受け付けていません

Are We Done with Object-Centric Learning?

要約 オブジェクト中心の学習(OCL)は、シーン内の他のオブジェクトまたは背景キ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Are We Done with Object-Centric Learning? はコメントを受け付けていません

FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution

要約 汎用性の高いビデオ深度推定モデルは、(1)フレーム間で正確で一貫性があり、 … 続きを読む

カテゴリー: cs.CV | FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution はコメントを受け付けていません