FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation

要約

レシピデータを用いた食品イメージの理解に関する研究は、そのデータの多様性と複雑性から、長年にわたって注目されてきた。さらに、食は人々の生活と切っても切れない関係にあるため、食事管理などの実用化においても重要な研究分野となっている。最近のマルチモーダル大規模言語モデル(MLLM)の進歩は、その膨大な知識だけでなく、言語を自然に扱う能力においても、驚くべき能力を示している。英語が主に使われているが、日本語を含む複数の言語にも対応している。このことから、MLLMは食品画像理解タスクの性能を大幅に向上させることが期待される。我々は、オープンMLLMであるLLaVA-1.5とPhi-3 Visionを日本語のレシピデータセット上で微調整し、クローズドモデルであるGPT-4oに対する性能をベンチマークした。そして、日本の食文化を網羅した5,000の評価サンプルを用いて、生成されたレシピの材料や調理手順などの内容を評価した。その結果、レシピデータで学習させたオープンモデルは、食材生成において、現在の最新モデルであるGPT-4oを上回ることが実証された。GPT-4oのF1スコア0.481を上回るF1スコア0.531を達成し、より高い精度を示しました。さらに、調理手順文の生成においてもGPT-4oと同等の性能を示した。

要約(オリジナル)

Research on food image understanding using recipe data has been a long-standing focus due to the diversity and complexity of the data. Moreover, food is inextricably linked to people’s lives, making it a vital research area for practical applications such as dietary management. Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities, not only in their vast knowledge but also in their ability to handle languages naturally. While English is predominantly used, they can also support multiple languages including Japanese. This suggests that MLLMs are expected to significantly improve performance in food image understanding tasks. We fine-tuned open MLLMs LLaVA-1.5 and Phi-3 Vision on a Japanese recipe dataset and benchmarked their performance against the closed model GPT-4o. We then evaluated the content of generated recipes, including ingredients and cooking procedures, using 5,000 evaluation samples that comprehensively cover Japanese food culture. Our evaluation demonstrates that the open models trained on recipe data outperform GPT-4o, the current state-of-the-art model, in ingredient generation. Our model achieved F1 score of 0.531, surpassing GPT-4o’s F1 score of 0.481, indicating a higher level of accuracy. Furthermore, our model exhibited comparable performance to GPT-4o in generating cooking procedure text.

arxiv情報

著者 Yuki Imajuku,Yoko Yamakata,Kiyoharu Aizawa
発行日 2025-03-03 15:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM | FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation はコメントを受け付けていません

ModeDreamer: Mode Guiding Score Distillation for Text-to-3D Generation using Reference Image Prompts

要約

既存のスコアディスティレーションサンプリング(SDS)ベースの手法は、テキストから3Dへの生成において大きな進歩をもたらした。しかし、SDSベースの手法によって生成された3Dモデルは、過剰な平滑化と低品質の出力を示す傾向がある。これらの問題は、モデルを更新するために使用されるスコアが複数のモードの間で揺れ動き、不安定な最適化と出力品質の低下をもたらす、現在の手法のモードシーク動作から生じる。この問題に対処するために、我々はISDと名付けた新しい画像即興スコア蒸留損失を導入する。この損失は、テキストから3次元への最適化を特定のモードへ向けるために参照画像を用いる。我々のISD損失は、画像プロンプト機能をテキストから画像への拡散モデルに統合するための軽量アダプタであるIP-Adapterをモード選択モジュールとして用いることで実装できる。このアダプタの変形は、参照画像によるプロンプトがないとき、スコア推定値の分散を減らすための効率的な制御変数として機能し、それによって出力品質と最適化の安定性の両方を向上させることができる。我々の実験では、T3Benchベンチマークスイートでの定性的・定量的評価により、ISD損失が一貫して視覚的に首尾一貫した高品質の出力を達成し、先行するテキストから3Dへの手法と比較して最適化速度を向上させることが実証された。

要約(オリジナル)

Existing Score Distillation Sampling (SDS)-based methods have driven significant progress in text-to-3D generation. However, 3D models produced by SDS-based methods tend to exhibit over-smoothing and low-quality outputs. These issues arise from the mode-seeking behavior of current methods, where the scores used to update the model oscillate between multiple modes, resulting in unstable optimization and diminished output quality. To address this problem, we introduce a novel image prompt score distillation loss named ISD, which employs a reference image to direct text-to-3D optimization toward a specific mode. Our ISD loss can be implemented by using IP-Adapter, a lightweight adapter for integrating image prompt capability to a text-to-image diffusion model, as a mode-selection module. A variant of this adapter, when not being prompted by a reference image, can serve as an efficient control variate to reduce variance in score estimates, thereby enhancing both output quality and optimization stability. Our experiments demonstrate that the ISD loss consistently achieves visually coherent, high-quality outputs and improves optimization speed compared to prior text-to-3D methods, as demonstrated through both qualitative and quantitative evaluations on the T3Bench benchmark suite.

arxiv情報

著者 Uy Dieu Tran,Minh Luu,Phong Ha Nguyen,Khoi Nguyen,Binh-Son Hua
発行日 2025-03-03 16:00:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | ModeDreamer: Mode Guiding Score Distillation for Text-to-3D Generation using Reference Image Prompts はコメントを受け付けていません

Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation

要約

分子・テキスト横断的表現学習は、分子表現の質を向上させ、それによって様々な科学分野におけるパフォーマンスを向上させる有望な方向性として浮上してきた。しかし、ほとんどのアプローチは、異なるモダリティからの知識を学習するためにグローバルアライメントアプローチを採用しており、分子とテキストの断片や立体異性体のニュアンスなど、下流のタスクにとって重要なきめ細かな情報を捉えることができない可能性がある。さらに、既存のデータセットには微細な断片に関する注釈がないため、同様のグローバルアライメント戦略を用いてそのような情報をモデル化することができない。本稿では、SMILES文字列とテキストから表現を共同で学習する階層的分子表現学習フレームワークAtomasを提案する。階層的適応アライメントモデルを設計し、2つのモダリティ間のきめ細かな断片対応を自動的に学習し、これらの表現を3つの意味レベルでアライメントする。Atomasのエンドツーエンドの学習フレームワークは、分子の理解と生成をサポートし、より幅広い下流のタスクを可能にする。Atomasは11のデータセットの12のタスクで優れた性能を達成し、11のベースラインモデルを凌駕した。スケーリング実験により、Atomasの頑健性とスケーラビリティがさらに実証された。さらに、人間の専門家によって検証された可視化と定性分析により、我々のアプローチの化学的妥当性が確認された。コードはhttps://github.com/yikunpku/Atomas。

要約(オリジナル)

Molecule-and-text cross-modal representation learning has emerged as a promising direction for enhancing the quality of molecular representation, thereby improving performance in various scientific fields. However, most approaches employ a global alignment approach to learn the knowledge from different modalities that may fail to capture fine-grained information, such as molecule-and-text fragments and stereoisomeric nuances, which is crucial for downstream tasks. Furthermore, it is incapable of modeling such information using a similar global alignment strategy due to the lack of annotations about the fine-grained fragments in the existing dataset. In this paper, we propose Atomas, a hierarchical molecular representation learning framework that jointly learns representations from SMILES strings and text. We design a Hierarchical Adaptive Alignment model to automatically learn the fine-grained fragment correspondence between two modalities and align these representations at three semantic levels. Atomas’s end-to-end training framework supports understanding and generating molecules, enabling a wider range of downstream tasks. Atomas achieves superior performance across 12 tasks on 11 datasets, outperforming 11 baseline models thus highlighting the effectiveness and versatility of our method. Scaling experiments further demonstrate Atomas’s robustness and scalability. Moreover, visualization and qualitative analysis, validated by human experts, confirm the chemical relevance of our approach. Codes are released on https://github.com/yikunpku/Atomas.

arxiv情報

著者 Yikun Zhang,Geyan Ye,Chaohao Yuan,Bo Han,Long-Kai Huang,Jianhua Yao,Wei Liu,Yu Rong
発行日 2025-03-03 16:34:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, q-bio.QM | Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation はコメントを受け付けていません

The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition

要約

捕獲された行動は個体群の健康状態の変化を示す最も早い指標となるため、カメラトラップ映像のコンピュータビジョン解析は野生動物の保全に不可欠である。しかし、行動に関連する背景情報の役割や、分布外汎化に及ぼすその重要な影響については、まだ未解明である。そこで、我々はPanAf-FGBGデータセットを紹介する。このデータセットは、350以上の個々のカメラ位置で記録された、20時間に及ぶ野生のチンパンジーの行動を収録している。ユニークなのは、チンパンジーが登場するすべての映像(前景映像と呼ばれる)と、同じカメラ位置から撮影された対応する背景映像(チンパンジーは登場しない)をペアにしていることである。カメラ位置が重複しているものと、位置が不一致のものである。この設定により、初めて分布内と分布外の条件を直接評価することができ、行動認識モデルに対する背景の影響を定量化することができる。すべてのクリップには、一意のカメラIDや詳細なテキストによるシーン説明を含む、豊富な行動注釈とメタデータが付属しています。さらに、いくつかのベースラインを設定し、非常に効果的な潜在空間正規化技術を提示することで、分布外性能を畳み込みモデルで+5.42% mAP、トランスフォーマベースモデルで+3.75% mAP向上させる。最後に、背景の持続時間(すなわち、前景映像内の背景フレーム数)の未解明の影響を含む、分布外行動認識における背景の役割に関する詳細な分析を提供する。

要約(オリジナル)

Computer vision analysis of camera trap video footage is essential for wildlife conservation, as captured behaviours offer some of the earliest indicators of changes in population health. Recently, several high-impact animal behaviour datasets and methods have been introduced to encourage their use; however, the role of behaviour-correlated background information and its significant effect on out-of-distribution generalisation remain unexplored. In response, we present the PanAf-FGBG dataset, featuring 20 hours of wild chimpanzee behaviours, recorded at over 350 individual camera locations. Uniquely, it pairs every video with a chimpanzee (referred to as a foreground video) with a corresponding background video (with no chimpanzee) from the same camera location. We present two views of the dataset: one with overlapping camera locations and one with disjoint locations. This setup enables, for the first time, direct evaluation of in-distribution and out-of-distribution conditions, and for the impact of backgrounds on behaviour recognition models to be quantified. All clips come with rich behavioural annotations and metadata including unique camera IDs and detailed textual scene descriptions. Additionally, we establish several baselines and present a highly effective latent-space normalisation technique that boosts out-of-distribution performance by +5.42% mAP for convolutional and +3.75% mAP for transformer-based models. Finally, we provide an in-depth analysis on the role of backgrounds in out-of-distribution behaviour recognition, including the so far unexplored impact of background durations (i.e., the count of background frames within foreground videos).

arxiv情報

著者 Otto Brookes,Maksim Kukushkin,Majid Mirmehdi,Colleen Stephens,Paula Dieguez,Thurston C. Hicks,Sorrel Jones,Kevin Lee,Maureen S. McCarthy,Amelia Meier,Emmanuelle Normand,Erin G. Wessling,Roman M. Wittig,Kevin Langergraber,Klaus Zuberbühler,Lukas Boesch,Thomas Schmid,Mimi Arandjelovic,Hjalmar Kühl,Tilo Burghardt
発行日 2025-03-03 10:32:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition はコメントを受け付けていません

Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models

要約

物体中心(OC)表現は、視覚シーンを離散的な物体の構成としてモデル化するもので、体系的な構成汎化を達成し、推論を促進するために、様々な下流タスクで使用される可能性がある。しかし、これらの主張は、まだ実証的に十分に検証されていない。近年、基礎モデルは、言語からコンピュータビジョンに至る多様な領域にわたって比類ない能力を実証しており、幅広い計算タスクのための将来の研究の礎となる可能性を位置づけている。本論文では、シーンの正確な構成的理解を必要とする、下流の視覚的質問応答(Visual Question Answering: VQA)のための表現学習に関する広範な実証研究を行う。合成データと実世界データの両方を用いて、OCモデルと、事前に訓練された大規模な基礎モデルを含む代替アプローチの利点とトレードオフを徹底的に調査し、最終的に両方のパラダイムの長所を活用する有望な道を特定する。600以上のダウンストリームVQAモデルと15の異なるタイプのアップストリーム表現を網羅する我々の研究の広範さは、コミュニティ全体にとって興味深いと思われるいくつかの追加的な洞察も提供する。

要約(オリジナル)

Object-centric (OC) representations, which model visual scenes as compositions of discrete objects, have the potential to be used in various downstream tasks to achieve systematic compositional generalization and facilitate reasoning. However, these claims have yet to be thoroughly validated empirically. Recently, foundation models have demonstrated unparalleled capabilities across diverse domains, from language to computer vision, positioning them as a potential cornerstone of future research for a wide range of computational tasks. In this paper, we conduct an extensive empirical study on representation learning for downstream Visual Question Answering (VQA), which requires an accurate compositional understanding of the scene. We thoroughly investigate the benefits and trade-offs of OC models and alternative approaches including large pre-trained foundation models on both synthetic and real-world data, ultimately identifying a promising path to leverage the strengths of both paradigms. The extensiveness of our study, encompassing over 600 downstream VQA models and 15 different types of upstream representations, also provides several additional insights that we believe will be of interest to the community at large.

arxiv情報

著者 Amir Mohammad Karimi Mamaghan,Samuele Papa,Karl Henrik Johansson,Stefan Bauer,Andrea Dittadi
発行日 2025-03-03 11:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models はコメントを受け付けていません

Foundation Models — A Panacea for Artificial Intelligence in Pathology?

要約

病理診断における人工知能(AI)の役割は、診断の補助から、全スライド画像(WSI)における予測的な形態学的パターンの発見へと発展してきた。近年、自己教師付き事前学習を活用した基盤モデル(FM)が、多様な下流タスクに対する普遍的なソリューションとして広く提唱されている。しかし、タスク固有(TS)モデルを用いたエンド・ツー・エンド学習と比較した場合の臨床適用性や汎化の優位性については、未解決の問題が残されている。ここでは、前立腺がんの診断とグリソングレーディングにおいて、臨床レベルの性能を持つAIに焦点を当てた。11カ国15施設にわたる7,342人の患者から採取した100,000以上のコア針生検を用いて、このタスクに対するAIの最大規模の検証を行った。我々は、2つのFMと、多重インスタンス学習フレームワークにおける完全なエンドツーエンドのTSモデルとを比較した。我々の知見は、FMが普遍的にTSモデルを凌駕するという仮定を覆すものであった。FMはデータが乏しいシナリオにおいて有用性を示したが、十分なラベル付き訓練データが利用可能な場合、その性能はTSモデルに収束し、場合によってはそれを上回った。特筆すべきは、タスクに特化した広範なトレーニングにより、臨床的に重大な誤判定、困難な形態の誤診、異なるWSIスキャナー間でのばらつきが著しく減少したことである。さらに、FMはTSモデルの最大35倍のエネルギーを使用したため、その持続可能性に懸念が生じた。我々の結果は、FMがラピッドプロトタイピングや研究には明確な利点を提供するものの、臨床応用可能な医療AIの普遍的なソリューションとしての役割はまだ不確かであることを強調するものである。臨床応用のためには、厳密な検証とタスクに特化したトレーニングの考慮が引き続き決定的に重要である。我々は、FMとエンド・ツー・エンド学習の長所を統合し、臨床使用に適した堅牢でリソース効率の高いAI病理学ソリューションを実現することを提唱する。

要約(オリジナル)

The role of artificial intelligence (AI) in pathology has evolved from aiding diagnostics to uncovering predictive morphological patterns in whole slide images (WSIs). Recently, foundation models (FMs) leveraging self-supervised pre-training have been widely advocated as a universal solution for diverse downstream tasks. However, open questions remain about their clinical applicability and generalization advantages over end-to-end learning using task-specific (TS) models. Here, we focused on AI with clinical-grade performance for prostate cancer diagnosis and Gleason grading. We present the largest validation of AI for this task, using over 100,000 core needle biopsies from 7,342 patients across 15 sites in 11 countries. We compared two FMs with a fully end-to-end TS model in a multiple instance learning framework. Our findings challenge assumptions that FMs universally outperform TS models. While FMs demonstrated utility in data-scarce scenarios, their performance converged with – and was in some cases surpassed by – TS models when sufficient labeled training data were available. Notably, extensive task-specific training markedly reduced clinically significant misgrading, misdiagnosis of challenging morphologies, and variability across different WSI scanners. Additionally, FMs used up to 35 times more energy than the TS model, raising concerns about their sustainability. Our results underscore that while FMs offer clear advantages for rapid prototyping and research, their role as a universal solution for clinically applicable medical AI remains uncertain. For high-stakes clinical applications, rigorous validation and consideration of task-specific training remain critically important. We advocate for integrating the strengths of FMs and end-to-end learning to achieve robust and resource-efficient AI pathology solutions fit for clinical use.

arxiv情報

著者 Nita Mulliqi,Anders Blilie,Xiaoyi Ji,Kelvin Szolnoky,Henrik Olsson,Sol Erika Boman,Matteo Titus,Geraldine Martinez Gonzalez,Julia Anna Mielcarz,Masi Valkonen,Einar Gudlaugsson,Svein R. Kjosavik,José Asenjo,Marcello Gambacorta,Paolo Libretti,Marcin Braun,Radzislaw Kordek,Roman Łowicki,Kristina Hotakainen,Päivi Väre,Bodil Ginnerup Pedersen,Karina Dalsgaard Sørensen,Benedicte Parm Ulhøi,Pekka Ruusuvuori,Brett Delahunt,Hemamali Samaratunga,Toyonori Tsuzuki,Emilius A. M. Janssen,Lars Egevad,Martin Eklund,Kimmo Kartasalo
発行日 2025-03-03 10:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | Foundation Models — A Panacea for Artificial Intelligence in Pathology? はコメントを受け付けていません

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

要約

拡散に基づく画像生成は大きく進歩したが、被写体駆動型生成と指示に基づく編集は依然として困難である。既存の手法は一般的にこれらを別々に扱い、限られた高品質のデータと乏しい汎化に苦慮している。しかし、どちらのタスクも、入力と出力間の一貫性を維持しながら、複雑な視覚的変化を捉える必要がある。そこで我々は、マルチモーダル命令を用いてタスク表現を標準化する統一フレームワークであるMIGEを提案する。MIGEは、被写体駆動型の生成を白紙のキャンバスへの生成として、指示に基づく編集を既存の画像の修正として扱い、共有された入出力定式化を確立する。MIGEは、自由形式のマルチモーダル命令を統一された視覚言語空間にマッピングする新しいマルチモーダルエンコーダを導入し、特徴融合メカニズムによって視覚的特徴と意味的特徴を統合する。この統合により、両方のタスクの共同トレーニングが可能になり、次の2つの重要な利点が得られる:(1)タスク横断的な強化:共有された視覚表現と意味表現を活用することで、共同トレーニングは、被験者主導の生成と指示に基づく編集の両方において、指示の順守と視覚的一貫性を向上させる。(2)汎化:統一されたフォーマットでの学習により、タスク横断的な知識の伝達が容易になり、MIGEは、指示ベースの被写体駆動型編集を含む、新しい構成タスクへの汎化が可能になります。実験によると、MIGEは主語駆動型生成と命令型編集の両方に優れており、命令型主語駆動型編集という新しいタスクでは最先端を行く。コードとモデルはhttps://github.com/Eureka-Maggie/MIGE。

要約(オリジナル)

Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism. This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.

arxiv情報

著者 Xueyun Tian,Wei Li,Bingbing Xu,Yige Yuan,Yuanzhuo Wang,Huawei Shen
発行日 2025-03-03 11:33:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing はコメントを受け付けていません

ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer

要約

言語間で公平なパフォーマンスを達成するためには、多言語大規模言語モデル(LLM)は、知識を習得した言語を超えて知識を抽象化できなければならない。しかし、現在の文献には、LLMの言語横断的な知識伝達能力を測定する信頼できる方法が欠けている。そこで我々は、多言語クローズドブックQA(CBQA)データセットであるECLeKTicを提示し、シンプルでブラックボックスな方法でクロスリンガル知識伝達を評価する。我々は、12言語のウィキペディア記事の有無を制御することで、言語間で不均一なカバレッジを持つ情報を検出した。我々は、ウィキペディアの関連記事に答えが掲載されているソース言語で知識を求める質問を生成し、それぞれのウィキペディアに同等の記事がない他の11言語すべてに翻訳した。ウィキペディアがLLMの学習データにおける顕著な知識を反映していると仮定すると、ECLeKTicのCBQAタスクを解くためには、言語間で知識を伝達するモデルが必要となる。8つのLLMで実験した結果、SOTAモデルは、知識を獲得した言語と同じ言語でのクエリに対してうまく答えを予測できたとしても、言語間で効果的に知識を共有することに苦労することがわかった。

要約(オリジナル)

To achieve equitable performance across languages, multilingual large language models (LLMs) must be able to abstract knowledge beyond the language in which it was acquired. However, the current literature lacks reliable ways to measure LLMs’ capability of cross-lingual knowledge transfer. To that end, we present ECLeKTic, a multilingual closed-book QA (CBQA) dataset that Evaluates Cross-Lingual Knowledge Transfer in a simple, black-box manner. We detected information with uneven coverage across languages by controlling for presence and absence of Wikipedia articles in 12 languages. We generated knowledge-seeking questions in a source language, for which the answer appears in a relevant Wikipedia article and translated them to all other 11 languages, for which the respective Wikipedias lack equivalent articles. Assuming that Wikipedia reflects the prominent knowledge in the LLM’s training data, to solve ECLeKTic’s CBQA task the model is required to transfer knowledge between languages. Experimenting with 8 LLMs, we show that SOTA models struggle to effectively share knowledge across, languages even if they can predict the answer well for queries in the same language the knowledge was acquired in.

arxiv情報

著者 Omer Goldman,Uri Shaham,Dan Malkin,Sivan Eiger,Avinatan Hassidim,Yossi Matias,Joshua Maynez,Adi Mayrav Gilady,Jason Riesa,Shruti Rijhwani,Laura Rimell,Idan Szpektor,Reut Tsarfaty,Matan Eyal
発行日 2025-03-03 09:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer はコメントを受け付けていません

FlexDrive: Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering

要約

ドライビングシーンの再構成とレンダリングは、3Dガウススプラッティングを用いて大きく進歩している。しかし、ほとんどの先行研究は、事前に記録された車両経路に沿ったレンダリング品質に焦点を当てており、経路外の視点への一般化に苦労している。この問題に対処するために、我々は、経路外のビューの再構成のための監視として、コンパクトで高品質な画像を作成する逆ビューワーピング技術を導入し、これらのビューの高品質なレンダリング結果を可能にする。正確でロバストなインバースビューワーピングのために、LiDAR深度データのスパース性と不完全性を克服し、最適化プロセス中にその場で高密度な深度マップを得るための深度ブートストラップ戦略を提案する。本手法は、広く使用されているWaymo Openデータセットにおいて、優れたインパスおよびアウトオブパス再構成とレンダリング性能を達成した。さらに、シミュレータベースのベンチマークを提案し、経路外の真実を取得し、経路外レンダリングの性能を定量的に評価する。

要約(オリジナル)

Driving scene reconstruction and rendering have advanced significantly using the 3D Gaussian Splatting. However, most prior research has focused on the rendering quality along a pre-recorded vehicle path and struggles to generalize to out-of-path viewpoints, which is caused by the lack of high-quality supervision in those out-of-path views. To address this issue, we introduce an Inverse View Warping technique to create compact and high-quality images as supervision for the reconstruction of the out-of-path views, enabling high-quality rendering results for those views. For accurate and robust inverse view warping, a depth bootstrap strategy is proposed to obtain on-the-fly dense depth maps during the optimization process, overcoming the sparsity and incompleteness of LiDAR depth data. Our method achieves superior in-path and out-of-path reconstruction and rendering performance on the widely used Waymo Open dataset. In addition, a simulator-based benchmark is proposed to obtain the out-of-path ground truth and quantitatively evaluate the performance of out-of-path rendering, where our method outperforms previous methods by a significant margin.

arxiv情報

著者 Jingqiu Zhou,Lue Fan,Linjiang Huang,Xiaoyu Shi,Si Liu,Zhaoxiang Zhang,Hongsheng Li
発行日 2025-03-03 03:48:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | FlexDrive: Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering はコメントを受け付けていません

Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning

要約

多インスタンス学習(Multi-Instance Learning: MIL)は病理画像の分類に成功しているが、ギガピクセルのホールスライド画像(Whole Slide Image: WSI)から多数のパッチを処理するため、推論コストが高いという課題に直面している。この課題に対処するため、我々は、無関係なパッチを除去することで高速かつ高精度な分類を実現する、階層的蒸留マルチインスタンス学習フレームワークであるHDMILを提案する。HDMILは、動的マルチインスタンスネットワーク(DMIN)と軽量インスタンス事前スクリーニングネットワーク(LIPN)の2つの主要コンポーネントから構成される。DMINは高解像度のWSIに対して動作し、LIPNは対応する低解像度のWSIに対して動作する。訓練中、DMINはWSI分類のために訓練され、同時に無関係なパッチを示す注意スコアベースのマスクを生成する。これらのマスクは、各低解像度パッチの関連性を予測するためのLIPNの訓練を導く。テスト中、LIPNはまず低解像度WSI内の有用な領域を決定し、これにより間接的に高解像度WSI内の無関係な領域を除去することが可能となり、性能劣化を引き起こすことなく推論時間を短縮する。さらに、学習可能な活性化層によってHDMILの性能を向上させる、計算病理学で初めてのチェビシェフ多項式ベースのコルモゴロフ・アーノルド分類器を設計する。例えば、Camelyon16データセットでは、推論時間を28.6%短縮しながら、AUCで3.13%の改善を達成した。

要約(オリジナル)

Although multi-instance learning (MIL) has succeeded in pathological image classification, it faces the challenge of high inference costs due to processing numerous patches from gigapixel whole slide images (WSIs). To address this, we propose HDMIL, a hierarchical distillation multi-instance learning framework that achieves fast and accurate classification by eliminating irrelevant patches. HDMIL consists of two key components: the dynamic multi-instance network (DMIN) and the lightweight instance pre-screening network (LIPN). DMIN operates on high-resolution WSIs, while LIPN operates on the corresponding low-resolution counterparts. During training, DMIN are trained for WSI classification while generating attention-score-based masks that indicate irrelevant patches. These masks then guide the training of LIPN to predict the relevance of each low-resolution patch. During testing, LIPN first determines the useful regions within low-resolution WSIs, which indirectly enables us to eliminate irrelevant regions in high-resolution WSIs, thereby reducing inference time without causing performance degradation. In addition, we further design the first Chebyshev-polynomials-based Kolmogorov-Arnold classifier in computational pathology, which enhances the performance of HDMIL through learnable activation layers. Extensive experiments on three public datasets demonstrate that HDMIL outperforms previous state-of-the-art methods, e.g., achieving improvements of 3.13% in AUC while reducing inference time by 28.6% on the Camelyon16 dataset.

arxiv情報

著者 Jiuyang Dong,Junjun Jiang,Kui Jiang,Jiahan Li,Yongbing Zhang
発行日 2025-03-03 08:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning はコメントを受け付けていません