月別アーカイブ: 2024年7月

FlexAttention for Efficient High-Resolution Vision-Language Models

要約 現在の高解像度ビジョン言語モデルは、画像を高解像度画像トークンとしてエンコ … 続きを読む

カテゴリー: cs.CV | FlexAttention for Efficient High-Resolution Vision-Language Models はコメントを受け付けていません

Improving 2D Feature Representations by 3D-Aware Fine-Tuning

要約 現在のビジュアル基盤モデルは、非構造化 2D データのみでトレーニングされ … 続きを読む

カテゴリー: cs.CV | Improving 2D Feature Representations by 3D-Aware Fine-Tuning はコメントを受け付けていません

Matryoshka Multimodal Models

要約 LLaVA などの大規模マルチモーダル モデル (LMM) は、視覚言語推 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Matryoshka Multimodal Models はコメントを受け付けていません

SAPG: Split and Aggregate Policy Gradients

要約 極端なサンプルの非効率にもかかわらず、ポリシーに基づく強化学習、別名ポリシ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | SAPG: Split and Aggregate Policy Gradients はコメントを受け付けていません

Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing

要約 テキストベースの編集普及モデルは、ユーザーの入力指示があいまいな場合、パフ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing はコメントを受け付けていません

DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training

要約 正確なリアルタイムの物体検出は、安全監視から品質管理に至るまで、数多くの産 … 続きを読む

カテゴリー: cs.AI, cs.CV | DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training はコメントを受け付けていません

Benchmarking Dependence Measures to Prevent Shortcut Learning in Medical Imaging

要約 医療画像コホートは、取得デバイス、病院の場所、患者の背景などの要因によって … 続きを読む

カテゴリー: cs.CV, cs.LG | Benchmarking Dependence Measures to Prevent Shortcut Learning in Medical Imaging はコメントを受け付けていません

Multi-Agent Trajectory Prediction with Difficulty-Guided Feature Enhancement Network

要約 軌道予測は、交通参加者の将来の動きを予測することを目的としているため、自動 … 続きを読む

カテゴリー: cs.AI, cs.RO | Multi-Agent Trajectory Prediction with Difficulty-Guided Feature Enhancement Network はコメントを受け付けていません

Do We Really Need Graph Convolution During Training? Light Post-Training Graph-ODE for Efficient Recommendation

要約 トレーニング レコメンダー システム (RecSys) におけるグラフ畳み … 続きを読む

カテゴリー: cs.IR, cs.LG | Do We Really Need Graph Convolution During Training? Light Post-Training Graph-ODE for Efficient Recommendation はコメントを受け付けていません

A Role-specific Guided Large Language Model for Ophthalmic Consultation Based on Stylistic Differentiation

要約 眼科の診察は、目の病気の診断、治療、予防にとって非常に重要です。 しかし、 … 続きを読む

カテゴリー: cs.AI, cs.CL | A Role-specific Guided Large Language Model for Ophthalmic Consultation Based on Stylistic Differentiation はコメントを受け付けていません