月別アーカイブ: 2024年6月

Task Me Anything

投稿日: 2024年6月18日作成者: jarxiv

要約大規模なマルチモーダル言語モデル (MLM) のベンチマークは、特定の機能 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping

投稿日: 2024年6月18日作成者: jarxiv

要約ロボットによる把持は、現実世界のシナリオでは困難な運動タスクを提示しており … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Mix-Domain Contrastive Learning for Unpaired H&E-to-IHC Stain Translation

投稿日: 2024年6月18日作成者: jarxiv

要約 H&E から IHC への染色変換技術は、特に医療専門家が不足し … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models

投稿日: 2024年6月18日作成者: jarxiv

要約 Text-to-image (T2I) モデルは、テキストプロンプトから … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA

投稿日: 2024年6月18日作成者: jarxiv

要約広い時間間隔にまたがる長い形式のビデオは、情報の冗長性が高く、関連性の低い … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Ovis: Structural Embedding Alignment for Multimodal Large Language Model

投稿日: 2024年6月18日作成者: jarxiv

要約現在のマルチモーダル大規模言語モデル (MLLM) は通常、MLP などの … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Faces of Experimental Pain: Transferability of Deep Learned Heat Pain Features to Electrical Pain

投稿日: 2024年6月18日作成者: jarxiv

要約痛みのデータセットのサイズが限られていることが、痛みを認識するための堅牢な … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning

投稿日: 2024年6月18日作成者: jarxiv

要約近年、命令調整されたラージマルチモーダルモデル (LMM) は、画像キ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

VideoLLM-online: Online Video Large Language Model for Streaming Video

投稿日: 2024年6月18日作成者: jarxiv

要約最近の大規模言語モデルはビジョン機能で強化されており、画像、ビデオ、および … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MegaScenes: Scene-Level View Synthesis at Scale

投稿日: 2024年6月18日作成者: jarxiv

要約シーンレベルのノベルビュー合成 (NVS) は、多くのビジョンおよびグラフ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年6月

Task Me Anything

A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping

Mix-Domain Contrastive Learning for Unpaired H&E-to-IHC Stain Translation

PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models

Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA

Ovis: Structural Embedding Alignment for Multimodal Large Language Model

Faces of Experimental Pain: Transferability of Deep Learned Heat Pain Features to Electrical Pain

LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning

VideoLLM-online: Online Video Large Language Model for Streaming Video

MegaScenes: Scene-Level View Synthesis at Scale

最近の投稿

最近のコメント

アーカイブ

カテゴリー