月別アーカイブ: 2023年5月

A Comprehensive Review of YOLO: From YOLOv1 and Beyond

投稿日: 2023年5月22日作成者: jarxiv

要約 YOLO は、ロボット工学、無人自動車、およびビデオ監視アプリケーションの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RxnScribe: A Sequence Generation Model for Reaction Diagram Parsing

投稿日: 2023年5月22日作成者: jarxiv

要約反応図の解析は、化学文献の図から反応スキームを抽出するタスクです。反応図 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Any-to-Any Generation via Composable Diffusion

投稿日: 2023年5月22日作成者: jarxiv

要約我々は、入力モダリティの任意の組み合わせから、言語、画像、ビデオ、オーディ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Video Killed the HD-Map: Predicting Driving Behavior Directly From Drone Images

投稿日: 2023年5月22日作成者: jarxiv

要約人間のデモンストレーションを使用して行動運転モデルを学習するアルゴリズ … 続きを読む →

カテゴリー: cs.CV, cs.RO, I.2.9 | コメントを受け付けていません

Benchmarking White Blood Cell Classification Under Domain Shift

投稿日: 2023年5月22日作成者: jarxiv

要約人間の血液塗抹標本の顕微鏡画像で白血球 (WBC) の種類を認識することは … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models

投稿日: 2023年5月22日作成者: jarxiv

要約私たちは、拡散モデルを使用して現実的な人間のデジタルアバターを生成する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

投稿日: 2023年5月22日作成者: jarxiv

要約マルチモーダル大規模言語モデルは、汎用人工知能 (AGI) に向けた重要な … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Causal Document-Grounded Dialogue Pre-training

投稿日: 2023年5月22日作成者: jarxiv

要約文書に基づいた対話 (DocGD) の目標は、対話の文脈に従って裏付けとな … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

投稿日: 2023年5月22日作成者: jarxiv

要約自動音声認識 (ASR) システムのパフォーマンスは、近年、特に大量の音声 … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Taxonomy Completion with Probabilistic Scorer via Box Embedding

投稿日: 2023年5月22日作成者: jarxiv

要約分類の完成は、既存の分類を新しい概念で自動的に充実させることを目的としたタ … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

月別アーカイブ: 2023年5月

A Comprehensive Review of YOLO: From YOLOv1 and Beyond

RxnScribe: A Sequence Generation Model for Reaction Diagram Parsing

Any-to-Any Generation via Composable Diffusion

Video Killed the HD-Map: Predicting Driving Behavior Directly From Drone Images

Benchmarking White Blood Cell Classification Under Domain Shift

Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

Causal Document-Grounded Dialogue Pre-training

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation

Taxonomy Completion with Probabilistic Scorer via Box Embedding

最近の投稿

最近のコメント

アーカイブ

カテゴリー