月別アーカイブ: 2024年4月

FISTNet: FusIon of STyle-path generative Networks for Facial Style Transfer

投稿日: 2024年4月3日作成者: jarxiv

要約メタバース、空間コンピューティング、生成 AI などの新興テクノロジーの急 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT

投稿日: 2024年4月3日作成者: jarxiv

要約マルチモーダル基盤モデルは、強力な表現学習機能を活用して、逐次レコメンダー … 続きを読む →

カテゴリー: cs.CV, cs.IR | コメントを受け付けていません

Multi-Level Label Correction by Distilling Proximate Patterns for Semi-supervised Semantic Segmentation

投稿日: 2024年4月3日作成者: jarxiv

要約半教師ありセマンティックセグメンテーションは、ラベルなしデータを活用する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Red-Teaming Segment Anything Model

投稿日: 2024年4月3日作成者: jarxiv

要約基盤モデルは、膨大なデータセットでの事前トレーニングとその後の特定のアプリ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Semantically-Prompted Language Models Improve Visual Descriptions

投稿日: 2024年4月3日作成者: jarxiv

要約 CLIP のような言語視覚モデルは、ゼロショット画像分類 (ZSIC) な … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

EGTR: Extracting Graph from Transformer for Scene Graph Generation

投稿日: 2024年4月3日作成者: jarxiv

要約シーングラフ生成 (SGG) は、オブジェクトを検出し、オブジェクト間の … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

WcDT: World-centric Diffusion Transformer for Traffic Scene Generation

投稿日: 2024年4月3日作成者: jarxiv

要約この論文では、拡散確率モデル (別名拡散モデル) とトランスフォーマーの相 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Adaptive Feature Fusion Neural Network for Glaucoma Segmentation on Unseen Fundus Images

投稿日: 2024年4月3日作成者: jarxiv

要約目に見えない領域での眼底画像のセグメンテーションは、特に小規模な医療データ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Immature Green Apple Detection and Sizing in Commercial Orchards using YOLOv8 and Shape Fitting Techniques

投稿日: 2024年4月3日作成者: jarxiv

要約成長の初期段階でリンゴのサイズを検出して推定することは、収量の予測、害虫管 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models

投稿日: 2024年4月3日作成者: jarxiv

要約この論文は、会話におけるマルチモーダル感情原因分析に関する SemEval … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

月別アーカイブ: 2024年4月

FISTNet: FusIon of STyle-path generative Networks for Facial Style Transfer

IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT

Multi-Level Label Correction by Distilling Proximate Patterns for Semi-supervised Semantic Segmentation

Red-Teaming Segment Anything Model

Semantically-Prompted Language Models Improve Visual Descriptions

EGTR: Extracting Graph from Transformer for Scene Graph Generation

WcDT: World-centric Diffusion Transformer for Traffic Scene Generation

Adaptive Feature Fusion Neural Network for Glaucoma Segmentation on Unseen Fundus Images

Immature Green Apple Detection and Sizing in Commercial Orchards using YOLOv8 and Shape Fitting Techniques

MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー