月別アーカイブ: 2024年9月

From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding

要約 最近、ラージ言語モデル (LLM) とビジュアル エンコーダーの統合により … 続きを読む

カテゴリー: cs.AI, cs.CV | From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding はコメントを受け付けていません

Spectral Wavelet Dropout: Regularization in the Wavelet Domain

要約 正則化技術は過学習を防止するのに役立ち、畳み込みニューラル ネットワーク … 続きを読む

カテゴリー: cs.CV, cs.LG | Spectral Wavelet Dropout: Regularization in the Wavelet Domain はコメントを受け付けていません

UniCal: Unified Neural Sensor Calibration

要約 自動運転車 (SDV) では、自動運転のためにセンサー データを正確に融合 … 続きを読む

カテゴリー: cs.CV, cs.RO | UniCal: Unified Neural Sensor Calibration はコメントを受け付けていません

ProMerge: Prompt and Merge for Unsupervised Instance Segmentation

要約 教師なしインスタンスのセグメンテーションは、人間がラベル付けしたデータに依 … 続きを読む

カテゴリー: cs.AI, cs.CV | ProMerge: Prompt and Merge for Unsupervised Instance Segmentation はコメントを受け付けていません

Exploring Token Pruning in Vision State Space Models

要約 状態空間モデル (SSM) には、トランスフォーマーのアテンション モジュ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Exploring Token Pruning in Vision State Space Models はコメントを受け付けていません

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

要約 我々は、単一の画像と入力条件 (画像内のオブジェクトに加えられる力やトルク … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation はコメントを受け付けていません

Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge

要約 言語モデル (LM) は膨大な量の事実の知識を記憶し、さまざまなタスクや領 … 続きを読む

カテゴリー: cs.CL | Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge はコメントを受け付けていません

Few-shot Pairwise Rank Prompting: An Effective Non-Parametric Retrieval Model

要約 教師ありランキング モデルは、効果的であるという利点にもかかわらず、通常は … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.LG | Few-shot Pairwise Rank Prompting: An Effective Non-Parametric Retrieval Model はコメントを受け付けていません

BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text

要約 言語モデリングにおける最近の進歩の多くは、同じモデル アーキテクチャをより … 続きを読む

カテゴリー: cs.CL | BeanCounter: A low-toxicity, large-scale, and open dataset of business-oriented text はコメントを受け付けていません

Learning Occlusion-aware Decision-making from Agent Interaction via Active Perception

要約 さまざまなオクルージョンの不確実性が高いため、自動運転ではオクルージョンを … 続きを読む

カテゴリー: cs.RO | Learning Occlusion-aware Decision-making from Agent Interaction via Active Perception はコメントを受け付けていません