DINOv2 - Meta最强纯视觉自监督特征提取模型

Meta出品纯视觉自监督ViT，无需标注数据开箱即用，300M参数86.3% ImageNet线性分类，月下载290万+

这是什么

Meta（Facebook）出品的纯视觉自监督预训练模型，不需要任何人工标注就能学到顶级视觉特征。目前最强开源视觉 backbone 之一，月下载量 290万+。

核心特点

纯自监督训练——不看标签，只看图片。融合三种自监督方法：

DINO（自蒸馏）— teacher-student 架构学习全局特征
iBOT（masked image modeling）— 掩码预测学习局部特征
KoLeo（正则化）— 特征均匀分布防坍缩

训练数据：1.42 亿张精选图像（LVD-142M），Large 版本从 1.1B 的 ViT-g teacher 蒸馏而来。

DINOv2 全系列

模型	架构	参数量	嵌入维度	Patch	ImageNet Linear
dinov2-small	ViT-S/14	21M	384	14×14	81.1%
dinov2-base	ViT-B/14	86M	768	14×14	84.5%
dinov2-large	ViT-L/14	300M	1024	14×14	86.3%
dinov2-giant	ViT-g/14	1,100M	1536	14×14	86.5%
dinov2-large + reg	ViT-L/14	300M	1024	14×14	86.7%

+reg 版本增加了 Registers，消除注意力图伪影，效果更好。

Large 是性价比甜点：300M 参数量，86.3% 线性分类精度，Giant 版本虽然 1.1B 但提升仅 0.2%。

架构细节（Large 版）

24 层 Transformer，1024 维隐藏层
16 个注意力头
Patch 大小 14×14，默认输入 518×518
绝对位置编码，GELU 激活

开箱即用（无需微调）

DINOv2 的杀手锏是 zero-shot 迁移能力，不需要微调直接做下游任务：

任务	方法	表现
图像分类	冻结 backbone + 线性层	ImageNet 86.3%
语义分割	线性解码器	ADE20K / VOC2012 SOTA
深度估计	线性解码器	NYUd / KITTI SOTA
图像检索	CLS token 余弦相似度	极强细粒度区分
聚类/去重	patch 特征	纹理/形状/局部细节

快速上手

Transformers 库：

from transformers import AutoImageProcessor, AutoModel
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/dinov2-large')
model = AutoModel.from_pretrained('facebook/dinov2-large')

inputs = processor(images=Image.open('photo.jpg'), return_tensors="pt")
outputs = model(**inputs)

# [CLS] token → 1024维整图特征向量
image_embedding = outputs.last_hidden_states[:, 0, :]

PyTorch Hub 一行加载：

import torch
model = torch.hub.load('facebookresearch/dinov2', 'dinov2_vitl14')

Pipeline 快速调用：

from transformers import pipeline
pipe = pipeline("image-feature-extraction", model="facebook/dinov2-large")

vs CLIP / SigLIP

	DINOv2	CLIP / SigLIP
训练方式	纯视觉自监督	图文对比学习
文本理解	❌ 无	✅ 天然支持
视觉特征深度	更强更鲁棒	通用但不够精细
细粒度区分	✅ 极好（纹理/形状/局部细节）	一般
需要微调	❌ 不需要	通常需要

两者互补：DINOv2 做纯视觉特征提取，CLIP 做图文对齐。

适用场景

🖼️ 以图搜图 — 商品检索、素材管理
🏷️ 图像分类 backbone — 冻结 + 线性层即可
🗺️ 语义分割 / 深度估计 — 密集预测任务
🎬 视频理解 — 帧级别特征提取
🧠 多模态模型的视觉编码器 — 作为视觉 backbone
🔄 图像去重/聚类 — 细粒度相似度计算

项目信息

License：Apache-2.0（可商用）
论文：arXiv:2304.07193
GitHub：facebookresearch/dinov2
Demo：dinov2.metademolab.com
HuggingFace 生态：87+ Spaces 使用，37 个微调变体

5100举报0

Xiao.Xi•27天前

点击获取 ^_^

被收录：

视觉 Meta 监督

暂无评论