# DINOv2 - Meta最强纯视觉自监督特征提取模型 > Meta出品纯视觉自监督ViT,无需标注数据开箱即用,300M参数86.3% ImageNet线性分类,月下载290万+ ## 这是什么 Meta(Facebook)出品的**纯视觉自监督预训练模型**,不需要任何人工标注就能学到顶级视觉特征。目前最强开源视觉 backbone 之一,月下载量 **290万+**。 ## 核心特点 **纯自监督训练**——不看标签,只看图片。融合三种自监督方法: - **DINO**(自蒸馏)— teacher-student 架构学习全局特征 - **iBOT**(masked image modeling)— 掩码预测学习局部特征 - **KoLeo**(正则化)— 特征均匀分布防坍缩 训练数据:1.42 亿张精选图像(LVD-142M),Large 版本从 1.1B 的 ViT-g teacher 蒸馏而来。 ## DINOv2 全系列 | 模型 | 架构 | 参数量 | 嵌入维度 | Patch | ImageNet Linear | |---|---|---|---|---|---| | dinov2-small | ViT-S/14 | 21M | 384 | 14×14 | 81.1% | | dinov2-base | ViT-B/14 | 86M | 768 | 14×14 | 84.5% | | **dinov2-large** | **ViT-L/14** | **300M** | **1024** | **14×14** | **86.3%** | | dinov2-giant | ViT-g/14 | 1,100M | 1536 | 14×14 | 86.5% | | dinov2-large + reg | ViT-L/14 | 300M | 1024 | 14×14 | **86.7%** | `+reg` 版本增加了 Registers,消除注意力图伪影,效果更好。 Large 是性价比甜点:300M 参数量,86.3% 线性分类精度,Giant 版本虽然 1.1B 但提升仅 0.2%。 ## 架构细节(Large 版) - 24 层 Transformer,1024 维隐藏层 - 16 个注意力头 - Patch 大小 14×14,默认输入 518×518 - 绝对位置编码,GELU 激活 ## 开箱即用(无需微调) DINOv2 的杀手锏是 **zero-shot 迁移能力**,不需要微调直接做下游任务: | 任务 | 方法 | 表现 | |---|---|---| | 图像分类 | 冻结 backbone + 线性层 | ImageNet 86.3% | | 语义分割 | 线性解码器 | ADE20K / VOC2012 SOTA | | 深度估计 | 线性解码器 | NYUd / KITTI SOTA | | 图像检索 | CLS token 余弦相似度 | 极强细粒度区分 | | 聚类/去重 | patch 特征 | 纹理/形状/局部细节 | ## 快速上手 **Transformers 库:** ```python from transformers import AutoImageProcessor, AutoModel from PIL import Image processor = AutoImageProcessor.from_pretrained('facebook/dinov2-large') model = AutoModel.from_pretrained('facebook/dinov2-large') inputs = processor(images=Image.open('photo.jpg'), return_tensors="pt") outputs = model(**inputs) # [CLS] token → 1024维整图特征向量 image_embedding = outputs.last_hidden_states[:, 0, :] ``` **PyTorch Hub 一行加载:** ```python import torch model = torch.hub.load('facebookresearch/dinov2', 'dinov2_vitl14') ``` **Pipeline 快速调用:** ```python from transformers import pipeline pipe = pipeline("image-feature-extraction", model="facebook/dinov2-large") ``` ## vs CLIP / SigLIP | | DINOv2 | CLIP / SigLIP | |---|---|---| | 训练方式 | 纯视觉自监督 | 图文对比学习 | | 文本理解 | ❌ 无 | ✅ 天然支持 | | 视觉特征深度 | **更强更鲁棒** | 通用但不够精细 | | 细粒度区分 | ✅ 极好(纹理/形状/局部细节) | 一般 | | 需要微调 | ❌ 不需要 | 通常需要 | 两者互补:DINOv2 做纯视觉特征提取,CLIP 做图文对齐。 ## 适用场景 - 🖼️ **以图搜图** — 商品检索、素材管理 - 🏷️ **图像分类 backbone** — 冻结 + 线性层即可 - 🗺️ **语义分割 / 深度估计** — 密集预测任务 - 🎬 **视频理解** — 帧级别特征提取 - 🧠 **多模态模型的视觉编码器** — 作为视觉 backbone - 🔄 **图像去重/聚类** — 细粒度相似度计算 ## 项目信息 - License:**Apache-2.0**(可商用) - 论文:[arXiv:2304.07193](https://arxiv.org/abs/2304.07193) - GitHub:[facebookresearch/dinov2](https://github.com/facebookresearch/dinov2) - Demo:[dinov2.metademolab.com](https://dinov2.metademolab.com) - HuggingFace 生态:87+ Spaces 使用,37 个微调变体 --- **分类**:源码 **标签**:视觉 · Meta · 监督 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1777