↓跳过正文

ViT

多模态模型是如何处理和理解图片的？

2025-06-15·6721 字·14 分钟

AI 多模态机器学习 ViT CLIP 视觉编码

从Vision Transformer到图文对齐，探索多模态模型背后的核心技术原理与实现方法，包括CLIP、SigLIP以及主流多模态大模型的视觉编码策略。