月別アーカイブ: 2023年6月

ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process

投稿日: 2023年6月9日作成者: jarxiv

要約画像認識と生成は長い間、互いに独立して開発されてきました。最近の汎用表現 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

投稿日: 2023年6月9日作成者: jarxiv

要約インタラクティブな自然言語タスクにおける大規模な言語モデルのゼロショット … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | コメントを受け付けていません

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

投稿日: 2023年6月9日作成者: jarxiv

要約大規模言語モデル (LLM) を活用した会話エージェントは、ビジュアルデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Background Prompting for Improved Object Depth

投稿日: 2023年6月9日作成者: jarxiv

要約単一の画像からオブジェクトの深さを推定することは、多くのビジョン、ロボット … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Grounded Text-to-Image Synthesis with Attention Refocusing

投稿日: 2023年6月9日作成者: jarxiv

要約大規模なテキストと画像のペアデータセットでトレーニングされたスケーラブル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

M$^3$IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

投稿日: 2023年6月9日作成者: jarxiv

要約命令チューニングでは、ChatGPT などの大規模言語モデル (LLM) … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

GPT Self-Supervision for a Better Data Annotator

投稿日: 2023年6月9日作成者: jarxiv

要約データに注釈を付けて簡潔な要約を作成するタスクは、さまざまな領域にわたって … 続きを読む →

カテゴリー: cs.CL, cs.DB | コメントを受け付けていません

Revising deep learning methods in parking lot occupancy detection

投稿日: 2023年6月9日作成者: jarxiv

要約駐車誘導システムは、スマートシティ開発パラダイムの一環として、最近人気のト … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Integrating Geometric Control into Text-to-Image Diffusion Models for High-Quality Detection Data Generation via Text Prompt

投稿日: 2023年6月9日作成者: jarxiv

要約拡散モデルは、コンテンツを作成し、画像分類などのタスク用のデータを生成する … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Reinforcement Learning-Based Control of CrazyFlie 2.X Quadrotor

投稿日: 2023年6月8日作成者: jarxiv

要約プロジェクトの目的は、PID などの古典的な制御アルゴリズムと現代の強化学 … 続きを読む →

カテゴリー: cs.LG, cs.RO | コメントを受け付けていません

月別アーカイブ: 2023年6月

ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

Background Prompting for Improved Object Depth

Grounded Text-to-Image Synthesis with Attention Refocusing

M$^3$IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning

GPT Self-Supervision for a Better Data Annotator

Revising deep learning methods in parking lot occupancy detection

Integrating Geometric Control into Text-to-Image Diffusion Models for High-Quality Detection Data Generation via Text Prompt

Reinforcement Learning-Based Control of CrazyFlie 2.X Quadrotor

最近の投稿

最近のコメント

アーカイブ

カテゴリー