
Meta出品纯视觉自监督ViT,无需标注数据开箱即用,300M参数86.3% ImageNet线性分类,月下载290万+
这是什么
Meta(Facebook)出品的纯视觉自监督预训练模型,不需要任何人工标注就能学到顶级视觉特征。目前最强开源视觉 backbone 之一,月下载量 290万+。
核心特点
纯自监督训练——不看标签,只看图片。融合三种自监督方法:
- DINO(自蒸馏)— teacher-student 架构学习全局特征
- iBOT(masked image modeling)— 掩码预测学习局部特征
- KoLeo(正则化)— 特征均匀分布防坍缩
训练数据:1.42 亿张精选图像(LVD-142M),Large 版本从 1.1B 的 ViT-g teacher 蒸馏而来。
DINOv2 全系列
| 模型 | 架构 | 参数量 | 嵌入维度 | Patch | ImageNet Linear |
|---|---|---|---|---|---|
| dinov2-small | ViT-S/14 | 21M | 384 | 14×14 | 81.1% |
| dinov2-base | ViT-B/14 | 86M | 768 | 14×14 | 84.5% |
| dinov2-large | ViT-L/14 | 300M | 1024 | 14×14 | 86.3% |
| dinov2-giant | ViT-g/14 | 1,100M | 1536 | 14×14 | 86.5% |
| dinov2-large + reg | ViT-L/14 | 300M | 1024 | 14×14 | 86.7% |
+reg 版本增加了 Registers,消除注意力图伪影,效果更好。
Large 是性价比甜点:300M 参数量,86.3% 线性分类精度,Giant 版本虽然 1.1B 但提升仅 0.2%。
架构细节(Large 版)
- 24 层 Transformer,1024 维隐藏层
- 16 个注意力头
- Patch 大小 14×14,默认输入 518×518
- 绝对位置编码,GELU 激活
开箱即用(无需微调)
DINOv2 的杀手锏是 zero-shot 迁移能力,不需要微调直接做下游任务:
| 任务 | 方法 | 表现 |
|---|---|---|
| 图像分类 | 冻结 backbone + 线性层 | ImageNet 86.3% |
| 语义分割 | 线性解码器 | ADE20K / VOC2012 SOTA |
| 深度估计 | 线性解码器 | NYUd / KITTI SOTA |
| 图像检索 | CLS token 余弦相似度 | 极强细粒度区分 |
| 聚类/去重 | patch 特征 | 纹理/形状/局部细节 |
快速上手
Transformers 库:
from transformers import AutoImageProcessor, AutoModel
from PIL import Image
processor = AutoImageProcessor.from_pretrained('facebook/dinov2-large')
model = AutoModel.from_pretrained('facebook/dinov2-large')
inputs = processor(images=Image.open('photo.jpg'), return_tensors="pt")
outputs = model(**inputs)
# [CLS] token → 1024维整图特征向量
image_embedding = outputs.last_hidden_states[:, 0, :]
PyTorch Hub 一行加载:
import torch
model = torch.hub.load('facebookresearch/dinov2', 'dinov2_vitl14')
Pipeline 快速调用:
from transformers import pipeline
pipe = pipeline("image-feature-extraction", model="facebook/dinov2-large")
vs CLIP / SigLIP
| DINOv2 | CLIP / SigLIP | |
|---|---|---|
| 训练方式 | 纯视觉自监督 | 图文对比学习 |
| 文本理解 | ❌ 无 | ✅ 天然支持 |
| 视觉特征深度 | 更强更鲁棒 | 通用但不够精细 |
| 细粒度区分 | ✅ 极好(纹理/形状/局部细节) | 一般 |
| 需要微调 | ❌ 不需要 | 通常需要 |
两者互补:DINOv2 做纯视觉特征提取,CLIP 做图文对齐。
适用场景
- 🖼️ 以图搜图 — 商品检索、素材管理
- 🏷️ 图像分类 backbone — 冻结 + 线性层即可
- 🗺️ 语义分割 / 深度估计 — 密集预测任务
- 🎬 视频理解 — 帧级别特征提取
- 🧠 多模态模型的视觉编码器 — 作为视觉 backbone
- 🔄 图像去重/聚类 — 细粒度相似度计算
项目信息
- License:Apache-2.0(可商用)
- 论文:arXiv:2304.07193
- GitHub:facebookresearch/dinov2
- Demo:dinov2.metademolab.com
- HuggingFace 生态:87+ Spaces 使用,37 个微调变体
暂无评论
