月別アーカイブ: 2024年6月

Task Me Anything

要約 大規模なマルチモーダル言語モデル (MLM) のベンチマークは、特定の機能 … 続きを読む

カテゴリー: cs.AI, cs.CV | Task Me Anything はコメントを受け付けていません

A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping

要約 ロボットによる把持は、現実世界のシナリオでは困難な運動タスクを提示しており … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | A Brief Survey on Leveraging Large Scale Vision Models for Enhanced Robot Grasping はコメントを受け付けていません

Mix-Domain Contrastive Learning for Unpaired H&E-to-IHC Stain Translation

要約 H&E から IHC への染色変換技術は、特に医療専門家が不足し … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Mix-Domain Contrastive Learning for Unpaired H&E-to-IHC Stain Translation はコメントを受け付けていません

PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models

要約 Text-to-image (T2I) モデルは、テキスト プロンプトから … 続きを読む

カテゴリー: cs.CV | PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models はコメントを受け付けていません

Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA

要約 広い時間間隔にまたがる長い形式のビデオは、情報の冗長性が高く、関連性の低い … 続きを読む

カテゴリー: cs.CV | Too Many Frames, not all Useful:Efficient Strategies for Long-Form Video QA はコメントを受け付けていません

Ovis: Structural Embedding Alignment for Multimodal Large Language Model

要約 現在のマルチモーダル大規模言語モデル (MLLM) は通常、MLP などの … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Ovis: Structural Embedding Alignment for Multimodal Large Language Model はコメントを受け付けていません

Faces of Experimental Pain: Transferability of Deep Learned Heat Pain Features to Electrical Pain

要約 痛みのデータセットのサイズが限られていることが、痛みを認識するための堅牢な … 続きを読む

カテゴリー: cs.CV | Faces of Experimental Pain: Transferability of Deep Learned Heat Pain Features to Electrical Pain はコメントを受け付けていません

LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning

要約 近年、命令調整されたラージ マルチモーダル モデル (LMM) は、画像キ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning はコメントを受け付けていません

VideoLLM-online: Online Video Large Language Model for Streaming Video

要約 最近の大規模言語モデルはビジョン機能で強化されており、画像、ビデオ、および … 続きを読む

カテゴリー: cs.CV | VideoLLM-online: Online Video Large Language Model for Streaming Video はコメントを受け付けていません

MegaScenes: Scene-Level View Synthesis at Scale

要約 シーンレベルのノベルビュー合成 (NVS) は、多くのビジョンおよびグラフ … 続きを読む

カテゴリー: cs.CV | MegaScenes: Scene-Level View Synthesis at Scale はコメントを受け付けていません