-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年5月
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding
要約 ビデオ パラグラフ グラウンディング (VPG) は、ビデオ言語理解におけ … 続きを読む
カテゴリー: cs.CV
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding はコメントを受け付けていません
Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring
要約 前立腺画像レポートおよびデータ システム (PI-RADS) は、MRI … 続きを読む
カテゴリー: cs.CV
Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring はコメントを受け付けていません
Ambiguous Annotations: When is a Pedestrian not a Pedestrian?
要約 ヒューマン アノテーターによってラベル付けされたデータセットは、機械学習モ … 続きを読む
カテゴリー: cs.CV
Ambiguous Annotations: When is a Pedestrian not a Pedestrian? はコメントを受け付けていません
SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation
要約 大規模マルチモーダル モデル (LMM) は、多くのタスクや分野にわたって … 続きを読む
カテゴリー: cs.CV
SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation はコメントを受け付けていません
A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification
要約 画像分類器はタスクを畳み込みニューラル ネットワーク (CNN) に依存す … 続きを読む
RealFill: Reference-Driven Generation for Authentic Image Completion
要約 生成画像の最近の進歩により、未知の領域に高品質で妥当な画像コンテンツを生成 … 続きを読む
CinePile: A Long Video Question Answering Dataset and Benchmark
要約 長い形式のビデオを理解するための現在のデータセットは、ビデオから 1 つま … 続きを読む
Efficient Vision-Language Pre-training by Cluster Masking
要約 我々は、学習された表現の品質とトレーニング速度を向上させる、視覚言語対比学 … 続きを読む
カテゴリー: cs.CV
Efficient Vision-Language Pre-training by Cluster Masking はコメントを受け付けていません
The RoboDrive Challenge: Drive Anytime Anywhere in Any Condition
要約 自動運転の分野では、車両を安全に配備するには、物流外の状況下での堅牢な認識 … 続きを読む
PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition
要約 大規模言語モデル (LLM) は、多くの自然言語処理タスクで成功を収めてい … 続きを読む