「68Q85」カテゴリーアーカイブ

MVTamperBench: Evaluating Robustness of Vision-Language Models

投稿日: 2025年6月12日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLMS）は、ビデオ理解の大きな進歩を促進 … 続きを読む →

カテゴリー: 68Q32, 68Q85, 68T05, 68T37, 68T40, 68T45, 94A08, cs.CV, H.5.1 | コメントを受け付けていません

投稿日: 2025年1月20日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、ビデオの理解において大き … 続きを読む →

カテゴリー: 68Q32, 68Q85, 68T05, 68T37, 68T40, 68T45, 94A08, cs.CV, I.2.10 | コメントを受け付けていません

投稿日: 2024年12月31日作成者: jarxiv

要約視覚言語モデル (VLM) の最近の進歩により、複雑なビデオ理解タスクが大 … 続きを読む →

カテゴリー: 68Q32, 68Q85, 68T05, 68T37, 68T40, 68T45, 94A08, cs.CV, I.2.10 | コメントを受け付けていません

投稿日: 2024年12月30日作成者: jarxiv

要約視覚言語モデル (VLM) の最近の進歩により、複雑なビデオ理解タスクが大 … 続きを読む →

カテゴリー: 68Q32, 68Q85, 68T05, 68T37, 68T40, 68T45, 94A08, cs.CV, I.2.10 | コメントを受け付けていません

投稿日: 2022年11月22日作成者: jarxiv

要約目的: 視覚により、ロボットは環境を認識できます。視覚データは、コンピュ … 続きを読む →

カテゴリー: 62M45, 62P30, 68Q85, cs.AR, cs.CV, cs.DC | コメントを受け付けていません