月別アーカイブ: 2024年8月

MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

要約 マルチモーダル大規模言語モデル (MLLM) の開発により、数学的問題に関 … 続きを読む

カテゴリー: cs.CL, cs.CV | MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark はコメントを受け付けていません

R2Human: Real-Time 3D Human Appearance Rendering from a Single Image

要約 単一の画像から 3D 人間の外観をリアルタイムでレンダリングすることは、ホ … 続きを読む

カテゴリー: cs.CV | R2Human: Real-Time 3D Human Appearance Rendering from a Single Image はコメントを受け付けていません

GS-Pose: Generalizable Segmentation-based 6D Object Pose Estimation with 3D Gaussian Splatting

要約 この論文では、新しいオブジェクトの 6D 姿勢を位置特定および推定するため … 続きを読む

カテゴリー: cs.CV | GS-Pose: Generalizable Segmentation-based 6D Object Pose Estimation with 3D Gaussian Splatting はコメントを受け付けていません

Sonic: Fast and Transferable Data Poisoning on Clustering Algorithms

要約 クラスタリング アルゴリズムに対するデータ ポイズニング攻撃はあまり注目さ … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.LG | Sonic: Fast and Transferable Data Poisoning on Clustering Algorithms はコメントを受け付けていません

Disentangled Representation Learning with Transmitted Information Bottleneck

要約 生データからタスク関連情報のみをエンコードすること、つまり、もつれを解いた … 続きを読む

カテゴリー: cs.CV, cs.LG | Disentangled Representation Learning with Transmitted Information Bottleneck はコメントを受け付けていません

MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation

要約 Transformer を超えて、Transformer のパフォーマンス … 続きを読む

カテゴリー: cs.AI, cs.CV | MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation はコメントを受け付けていません

Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey

要約 Transformers LLM の大幅な進歩により、NLP はテキスト生 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV, eess.AS | Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey はコメントを受け付けていません

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

要約 ビデオ認識、ビデオ テキスト タスク、およびビデオ中心の対話において最先端 … 続きを読む

カテゴリー: cs.CV | InternVideo2: Scaling Foundation Models for Multimodal Video Understanding はコメントを受け付けていません

DeepFace-Attention: Multimodal Face Biometrics for Attention Estimation with Application to e-Learning

要約 この研究では、ウェブカメラのビデオに適用された一連の顔分析技術を使用して、 … 続きを読む

カテゴリー: cs.CV, cs.HC | DeepFace-Attention: Multimodal Face Biometrics for Attention Estimation with Application to e-Learning はコメントを受け付けていません

Progressive Radiance Distillation for Inverse Rendering with Gaussian Splatting

要約 我々は、蒸留進行マップを使用して物理ベースのレンダリングとガウスベースの放 … 続きを読む

カテゴリー: cs.CV | Progressive Radiance Distillation for Inverse Rendering with Gaussian Splatting はコメントを受け付けていません