月別アーカイブ: 2024年5月

Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding

投稿日: 2024年5月15日作成者: jarxiv

要約ビデオパラグラフグラウンディング (VPG) は、ビデオ言語理解におけ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring

投稿日: 2024年5月15日作成者: jarxiv

要約前立腺画像レポートおよびデータシステム (PI-RADS) は、MRI … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Ambiguous Annotations: When is a Pedestrian not a Pedestrian?

投稿日: 2024年5月15日作成者: jarxiv

要約ヒューマンアノテーターによってラベル付けされたデータセットは、機械学習モ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

投稿日: 2024年5月15日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) は、多くのタスクや分野にわたって … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification

投稿日: 2024年5月15日作成者: jarxiv

要約画像分類器はタスクを畳み込みニューラルネットワーク (CNN) に依存す … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

RealFill: Reference-Driven Generation for Authentic Image Completion

投稿日: 2024年5月15日作成者: jarxiv

要約生成画像の最近の進歩により、未知の領域に高品質で妥当な画像コンテンツを生成 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | コメントを受け付けていません

CinePile: A Long Video Question Answering Dataset and Benchmark

投稿日: 2024年5月15日作成者: jarxiv

要約長い形式のビデオを理解するための現在のデータセットは、ビデオから 1 つま … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Efficient Vision-Language Pre-training by Cluster Masking

投稿日: 2024年5月15日作成者: jarxiv

要約我々は、学習された表現の品質とトレーニング速度を向上させる、視覚言語対比学 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

The RoboDrive Challenge: Drive Anytime Anywhere in Any Condition

投稿日: 2024年5月15日作成者: jarxiv

要約自動運転の分野では、車両を安全に配備するには、物流外の状況下での堅牢な認識 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition

投稿日: 2024年5月15日作成者: jarxiv

要約大規模言語モデル (LLM) は、多くの自然言語処理タスクで成功を収めてい … 続きを読む →

カテゴリー: cs.AI, cs.CL, I.2.7 | コメントを受け付けていません

月別アーカイブ: 2024年5月

Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding

Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring

Ambiguous Annotations: When is a Pedestrian not a Pedestrian?

SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification

RealFill: Reference-Driven Generation for Authentic Image Completion

CinePile: A Long Video Question Answering Dataset and Benchmark

Efficient Vision-Language Pre-training by Cluster Masking

The RoboDrive Challenge: Drive Anytime Anywhere in Any Condition

PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition

最近の投稿

最近のコメント

アーカイブ

カテゴリー