# MediaCrawler - 7平台自媒体爬虫框架

> 小红书/抖音/快手/B站/微博/贴吧/知乎全覆盖，Playwright浏览器自动化，无需JS逆向，51.7k Stars

# MediaCrawler - 多平台自媒体数据采集工具

MediaCrawler 是一个功能强大的开源爬虫框架，支持小红书、抖音、快手、B站、微博、百度贴吧、知乎等 7 大主流中文社交媒体平台的内容抓取。基于 Python + Playwright 构建，无需逆向 JS 加密算法，通过浏览器自动化获取签名参数，大幅降低技术门槛。

## 核心能力

- **7 平台全覆盖**：小红书笔记/评论、抖音视频/评论、快手视频/评论、B站视频/评论、微博帖子/评论、百度贴吧帖子/回复、知乎问答文章/评论
- **多种爬取模式**：关键词搜索、指定帖子 ID 详情、创作者主页、二级评论递归
- **登录态管理**：二维码登录、Cookie 缓存、CDP 模式复用已有 Chrome 浏览器状态
- **IP 代理池**：内置代理轮换，降低风控拦截风险
- **数据导出**：支持 CSV、JSON、JSONL、Excel、SQLite、MySQL 多种格式
- **可视化界面**：内置 WebUI，无需命令行即可配置和监控爬虫任务
- **词云生成**：自动分析评论内容生成词云图

## 技术亮点

- **Playwright 浏览器自动化**：利用保留登录态的浏览器上下文，通过 JS 表达式获取签名参数，无需逆向复杂加密算法
- **CDP 模式**：默认连接用户已有的 Chrome 浏览器（远程调试端口 9222），复用登录态、Cookie、扩展，大幅降低平台检测风险
- **uv 包管理**：使用目前最快的 Python 包管理工具，依赖解析准确，环境一致性保障
- **模块化架构**：各平台爬虫独立实现，配置统一在 `config/base_config.py`，易于扩展新平台

## 快速开始

```bash
# 克隆仓库
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler

# 使用 uv 安装依赖（推荐）
uv sync

# 配置 Chrome 远程调试（Chrome 地址栏输入 chrome://inspect/#remote-debugging，勾选允许）

# 关键词搜索爬取
uv run main.py --platform xhs --lt qrcode --type search

# 指定帖子详情
uv run main.py --platform xhs --lt qrcode --type detail

# 启动 WebUI
uv run uvicorn api.main:app --port 8080
```

## 平台支持矩阵

| 平台 | 关键词搜索 | 指定帖子 ID | 二级评论 | 创作者主页 | 登录态缓存 | IP 代理 | 词云图 |
|------|-----------|------------|---------|-----------|-----------|--------|--------|
| 小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 快手 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| B站 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 微博 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 贴吧 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 知乎 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |

## 数据存储

- CSV / JSON / JSONL / Excel：适合快速查看和小规模数据
- SQLite：本地轻量数据库，开箱即用
- MySQL：大规模生产环境部署

## 进阶版本

[MediaCrawlerPro](https://github.com/MediaCrawlerPro) 提供企业级升级：
- 自媒体内容拆解 Agent
- 断点续爬功能
- 去除 Playwright 依赖
- 多账号 + IP 代理池
- 企业级代码质量与架构设计
- 自媒体视频下载器桌面端
- 多平台首页信息流推荐（HomeFeed）
- AI Agent Skill 支持（OpenClaw / Claude Code / Cursor 一键安装）

## 适用场景

- 舆情监测与品牌口碑分析
- 竞品内容研究与趋势洞察
- 学术研究中的社交媒体数据采集
- 自媒体运营数据复盘
- 营销效果追踪与 KOL 评估

## 项目数据

- **Stars**: 51.7k+
- **Forks**: 10.8k+
- **语言**: Python
- **协议**: 自定义开源协议（学习研究用途）
- **创建时间**: 2023-06-09

## 注意事项

本项目仅供学习和研究使用，禁止用于商业用途或侵犯他人合法权益。使用前应仔细阅读免责声明，遵守《网络安全法》等相关法律法规。大规模爬取可能导致账号限制或封禁，建议合理控制请求频率并配置代理池。

## 相关资源

- [完整文档](https://nanmicoder.github.io/MediaCrawler/)
- [免费爬虫入门教程](https://github.com/NanmiCoder/CrawlerTutorial)
- [新闻爬虫开源项目](https://github.com/NanmiCoder/NewsCrawlerCollection)

---

**分类**：源码
**标签**：媒体 · 数据 · 评论
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1843