# MediaCrawler - 7平台自媒体爬虫框架 > 小红书/抖音/快手/B站/微博/贴吧/知乎全覆盖,Playwright浏览器自动化,无需JS逆向,51.7k Stars # MediaCrawler - 多平台自媒体数据采集工具 MediaCrawler 是一个功能强大的开源爬虫框架,支持小红书、抖音、快手、B站、微博、百度贴吧、知乎等 7 大主流中文社交媒体平台的内容抓取。基于 Python + Playwright 构建,无需逆向 JS 加密算法,通过浏览器自动化获取签名参数,大幅降低技术门槛。 ## 核心能力 - **7 平台全覆盖**:小红书笔记/评论、抖音视频/评论、快手视频/评论、B站视频/评论、微博帖子/评论、百度贴吧帖子/回复、知乎问答文章/评论 - **多种爬取模式**:关键词搜索、指定帖子 ID 详情、创作者主页、二级评论递归 - **登录态管理**:二维码登录、Cookie 缓存、CDP 模式复用已有 Chrome 浏览器状态 - **IP 代理池**:内置代理轮换,降低风控拦截风险 - **数据导出**:支持 CSV、JSON、JSONL、Excel、SQLite、MySQL 多种格式 - **可视化界面**:内置 WebUI,无需命令行即可配置和监控爬虫任务 - **词云生成**:自动分析评论内容生成词云图 ## 技术亮点 - **Playwright 浏览器自动化**:利用保留登录态的浏览器上下文,通过 JS 表达式获取签名参数,无需逆向复杂加密算法 - **CDP 模式**:默认连接用户已有的 Chrome 浏览器(远程调试端口 9222),复用登录态、Cookie、扩展,大幅降低平台检测风险 - **uv 包管理**:使用目前最快的 Python 包管理工具,依赖解析准确,环境一致性保障 - **模块化架构**:各平台爬虫独立实现,配置统一在 `config/base_config.py`,易于扩展新平台 ## 快速开始 ```bash # 克隆仓库 git clone https://github.com/NanmiCoder/MediaCrawler.git cd MediaCrawler # 使用 uv 安装依赖(推荐) uv sync # 配置 Chrome 远程调试(Chrome 地址栏输入 chrome://inspect/#remote-debugging,勾选允许) # 关键词搜索爬取 uv run main.py --platform xhs --lt qrcode --type search # 指定帖子详情 uv run main.py --platform xhs --lt qrcode --type detail # 启动 WebUI uv run uvicorn api.main:app --port 8080 ``` ## 平台支持矩阵 | 平台 | 关键词搜索 | 指定帖子 ID | 二级评论 | 创作者主页 | 登录态缓存 | IP 代理 | 词云图 | |------|-----------|------------|---------|-----------|-----------|--------|--------| | 小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | | 抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | | 快手 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | | B站 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | | 微博 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | | 贴吧 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | | 知乎 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ## 数据存储 - CSV / JSON / JSONL / Excel:适合快速查看和小规模数据 - SQLite:本地轻量数据库,开箱即用 - MySQL:大规模生产环境部署 ## 进阶版本 [MediaCrawlerPro](https://github.com/MediaCrawlerPro) 提供企业级升级: - 自媒体内容拆解 Agent - 断点续爬功能 - 去除 Playwright 依赖 - 多账号 + IP 代理池 - 企业级代码质量与架构设计 - 自媒体视频下载器桌面端 - 多平台首页信息流推荐(HomeFeed) - AI Agent Skill 支持(OpenClaw / Claude Code / Cursor 一键安装) ## 适用场景 - 舆情监测与品牌口碑分析 - 竞品内容研究与趋势洞察 - 学术研究中的社交媒体数据采集 - 自媒体运营数据复盘 - 营销效果追踪与 KOL 评估 ## 项目数据 - **Stars**: 51.7k+ - **Forks**: 10.8k+ - **语言**: Python - **协议**: 自定义开源协议(学习研究用途) - **创建时间**: 2023-06-09 ## 注意事项 本项目仅供学习和研究使用,禁止用于商业用途或侵犯他人合法权益。使用前应仔细阅读免责声明,遵守《网络安全法》等相关法律法规。大规模爬取可能导致账号限制或封禁,建议合理控制请求频率并配置代理池。 ## 相关资源 - [完整文档](https://nanmicoder.github.io/MediaCrawler/) - [免费爬虫入门教程](https://github.com/NanmiCoder/CrawlerTutorial) - [新闻爬虫开源项目](https://github.com/NanmiCoder/NewsCrawlerCollection) --- **分类**:源码 **标签**:媒体 · 数据 · 评论 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1843