
小红书/抖音/快手/B站/微博/贴吧/知乎全覆盖,Playwright浏览器自动化,无需JS逆向,51.7k Stars
MediaCrawler - 多平台自媒体数据采集工具
MediaCrawler 是一个功能强大的开源爬虫框架,支持小红书、抖音、快手、B站、微博、百度贴吧、知乎等 7 大主流中文社交媒体平台的内容抓取。基于 Python + Playwright 构建,无需逆向 JS 加密算法,通过浏览器自动化获取签名参数,大幅降低技术门槛。
核心能力
- 7 平台全覆盖:小红书笔记/评论、抖音视频/评论、快手视频/评论、B站视频/评论、微博帖子/评论、百度贴吧帖子/回复、知乎问答文章/评论
- 多种爬取模式:关键词搜索、指定帖子 ID 详情、创作者主页、二级评论递归
- 登录态管理:二维码登录、Cookie 缓存、CDP 模式复用已有 Chrome 浏览器状态
- IP 代理池:内置代理轮换,降低风控拦截风险
- 数据导出:支持 CSV、JSON、JSONL、Excel、SQLite、MySQL 多种格式
- 可视化界面:内置 WebUI,无需命令行即可配置和监控爬虫任务
- 词云生成:自动分析评论内容生成词云图
技术亮点
- Playwright 浏览器自动化:利用保留登录态的浏览器上下文,通过 JS 表达式获取签名参数,无需逆向复杂加密算法
- CDP 模式:默认连接用户已有的 Chrome 浏览器(远程调试端口 9222),复用登录态、Cookie、扩展,大幅降低平台检测风险
- uv 包管理:使用目前最快的 Python 包管理工具,依赖解析准确,环境一致性保障
- 模块化架构:各平台爬虫独立实现,配置统一在
config/base_config.py,易于扩展新平台
快速开始
# 克隆仓库
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
# 使用 uv 安装依赖(推荐)
uv sync
# 配置 Chrome 远程调试(Chrome 地址栏输入 chrome://inspect/#remote-debugging,勾选允许)
# 关键词搜索爬取
uv run main.py --platform xhs --lt qrcode --type search
# 指定帖子详情
uv run main.py --platform xhs --lt qrcode --type detail
# 启动 WebUI
uv run uvicorn api.main:app --port 8080
平台支持矩阵
| 平台 | 关键词搜索 | 指定帖子 ID | 二级评论 | 创作者主页 | 登录态缓存 | IP 代理 | 词云图 |
|---|---|---|---|---|---|---|---|
| 小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 快手 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| B站 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 微博 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 贴吧 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 知乎 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
数据存储
- CSV / JSON / JSONL / Excel:适合快速查看和小规模数据
- SQLite:本地轻量数据库,开箱即用
- MySQL:大规模生产环境部署
进阶版本
MediaCrawlerPro 提供企业级升级:
- 自媒体内容拆解 Agent
- 断点续爬功能
- 去除 Playwright 依赖
- 多账号 + IP 代理池
- 企业级代码质量与架构设计
- 自媒体视频下载器桌面端
- 多平台首页信息流推荐(HomeFeed)
- AI Agent Skill 支持(OpenClaw / Claude Code / Cursor 一键安装)
适用场景
- 舆情监测与品牌口碑分析
- 竞品内容研究与趋势洞察
- 学术研究中的社交媒体数据采集
- 自媒体运营数据复盘
- 营销效果追踪与 KOL 评估
项目数据
- Stars: 51.7k+
- Forks: 10.8k+
- 语言: Python
- 协议: 自定义开源协议(学习研究用途)
- 创建时间: 2023-06-09
注意事项
本项目仅供学习和研究使用,禁止用于商业用途或侵犯他人合法权益。使用前应仔细阅读免责声明,遵守《网络安全法》等相关法律法规。大规模爬取可能导致账号限制或封禁,建议合理控制请求频率并配置代理池。
相关资源
暂无评论
