筛选：

MediaCrawler - 7平台自媒体爬虫框架

小红书/抖音/快手/B站/微博/贴吧/知乎全覆盖，Playwright浏览器自动化，无需JS逆向，51.7k Stars

MediaCrawler - 多平台自媒体数据采集工具

MediaCrawler 是一个功能强大的开源爬虫框架，支持小红书、抖音、快手、B站、微博、百度贴吧、知乎等 7 大主流中文社交媒体平台的内容抓取。基于 Python + Playwright 构建，无需逆向 JS 加密算法，通过浏览器自动化获取签名参数，大幅降低技术门槛。

核心能力

7 平台全覆盖：小红书笔记/评论、抖音视频/评论、快手视频/评论、B站视频/评论、微博帖子/评论、百度贴吧帖子/回复、知乎问答文章/评论
多种爬取模式：关键词搜索、指定帖子 ID 详情、创作者主页、二级评论递归
登录态管理：二维码登录、Cookie 缓存、CDP 模式复用已有 Chrome 浏览器状态
IP 代理池：内置代理轮换，降低风控拦截风险
数据导出：支持 CSV、JSON、JSONL、Excel、SQLite、MySQL 多种格式
可视化界面：内置 WebUI，无需命令行即可配置和监控爬虫任务
词云生成：自动分析评论内容生成词云图

技术亮点

Playwright 浏览器自动化：利用保留登录态的浏览器上下文，通过 JS 表达式获取签名参数，无需逆向复杂加密算法
CDP 模式：默认连接用户已有的 Chrome 浏览器（远程调试端口 9222），复用登录态、Cookie、扩展，大幅降低平台检测风险
uv 包管理：使用目前最快的 Python 包管理工具，依赖解析准确，环境一致性保障
模块化架构：各平台爬虫独立实现，配置统一在 config/base_config.py，易于扩展新平台

快速开始

# 克隆仓库
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler

# 使用 uv 安装依赖（推荐）
uv sync

# 配置 Chrome 远程调试（Chrome 地址栏输入 chrome://inspect/#remote-debugging，勾选允许）

# 关键词搜索爬取
uv run main.py --platform xhs --lt qrcode --type search

# 指定帖子详情
uv run main.py --platform xhs --lt qrcode --type detail

# 启动 WebUI
uv run uvicorn api.main:app --port 8080

平台支持矩阵

平台	关键词搜索	指定帖子 ID	二级评论	创作者主页	登录态缓存	IP 代理	词云图
小红书	✅	✅	✅	✅	✅	✅	✅
抖音	✅	✅	✅	✅	✅	✅	✅
快手	✅	✅	✅	✅	✅	✅	✅
B站	✅	✅	✅	✅	✅	✅	✅
微博	✅	✅	✅	✅	✅	✅	✅
贴吧	✅	✅	✅	✅	✅	✅	✅
知乎	✅	✅	✅	✅	✅	✅	✅

数据存储

CSV / JSON / JSONL / Excel：适合快速查看和小规模数据
SQLite：本地轻量数据库，开箱即用
MySQL：大规模生产环境部署

进阶版本

MediaCrawlerPro 提供企业级升级：

自媒体内容拆解 Agent
断点续爬功能
去除 Playwright 依赖
多账号 + IP 代理池
企业级代码质量与架构设计
自媒体视频下载器桌面端
多平台首页信息流推荐（HomeFeed）
AI Agent Skill 支持（OpenClaw / Claude Code / Cursor 一键安装）

适用场景

舆情监测与品牌口碑分析
竞品内容研究与趋势洞察
学术研究中的社交媒体数据采集
自媒体运营数据复盘
营销效果追踪与 KOL 评估

项目数据

Stars: 51.7k+
Forks: 10.8k+
语言: Python
协议: 自定义开源协议（学习研究用途）
创建时间: 2023-06-09

注意事项

本项目仅供学习和研究使用，禁止用于商业用途或侵犯他人合法权益。使用前应仔细阅读免责声明，遵守《网络安全法》等相关法律法规。大规模爬取可能导致账号限制或封禁，建议合理控制请求频率并配置代理池。