月別アーカイブ: 2023年6月

Image Captioners Are Scalable Vision Learners Too

投稿日: 2023年6月14日作成者: jarxiv

要約 Web からの画像とテキストのペアに対する対照的な事前トレーニングは、特に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Continuous Cost Aggregation for Dual-Pixel Disparity Extraction

投稿日: 2023年6月14日作成者: jarxiv

要約最近の研究では、デュアルピクセル (DP) センサーから深度情報を取得でき … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MOFI: Learning Image Representations from Noisy Entity Annotated Images

投稿日: 2023年6月14日作成者: jarxiv

要約我々は、ノイズのあるエンティティの注釈付き画像から画像表現を学習するように … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

投稿日: 2023年6月14日作成者: jarxiv

要約大規模なテキストから画像への拡散モデルは、高品質の画像を生成する際に優れた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Hidden Biases of End-to-End Driving Models

投稿日: 2023年6月14日作成者: jarxiv

要約エンドツーエンドの駆動システムは、特に CARLA において、最近急速に進 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Parting with Misconceptions about Learning-based Vehicle Motion Planning

投稿日: 2023年6月14日作成者: jarxiv

要約 nuPlan のリリースは、正確な短期計画と長期的な自己予測の両方を必要と … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning

投稿日: 2023年6月14日作成者: jarxiv

要約汎用的なパラメーター効率の高い微調整タスクのための高度なアプローチである … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Neural Scene Chronology

投稿日: 2023年6月14日作成者: jarxiv

要約この研究では、大規模ランドマークのインターネット写真から、視点、照明、時間 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GeneCIS: A Benchmark for General Conditional Image Similarity

投稿日: 2023年6月14日作成者: jarxiv

要約私たちは、「類似性」には多くの概念があり、人間と同様にモデルもこれらの概念 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models

投稿日: 2023年6月14日作成者: jarxiv

要約 Bard や GPT-4 などの大規模ビジョン言語モデルにおける最新のブレ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2023年6月

Image Captioners Are Scalable Vision Learners Too

Continuous Cost Aggregation for Dual-Pixel Disparity Extraction

MOFI: Learning Image Representations from Noisy Entity Annotated Images

Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Hidden Biases of End-to-End Driving Models

Parting with Misconceptions about Learning-based Vehicle Motion Planning

One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning

Neural Scene Chronology

GeneCIS: A Benchmark for General Conditional Image Similarity

XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー