MediaCrawler - 7平台自媒体爬虫框架

MediaCrawler - 7平台自媒体爬虫框架


小红书/抖音/快手/B站/微博/贴吧/知乎全覆盖,Playwright浏览器自动化,无需JS逆向,51.7k Stars

MediaCrawler - 多平台自媒体数据采集工具

MediaCrawler 是一个功能强大的开源爬虫框架,支持小红书、抖音、快手、B站、微博、百度贴吧、知乎等 7 大主流中文社交媒体平台的内容抓取。基于 Python + Playwright 构建,无需逆向 JS 加密算法,通过浏览器自动化获取签名参数,大幅降低技术门槛。

核心能力

  • 7 平台全覆盖:小红书笔记/评论、抖音视频/评论、快手视频/评论、B站视频/评论、微博帖子/评论、百度贴吧帖子/回复、知乎问答文章/评论
  • 多种爬取模式:关键词搜索、指定帖子 ID 详情、创作者主页、二级评论递归
  • 登录态管理:二维码登录、Cookie 缓存、CDP 模式复用已有 Chrome 浏览器状态
  • IP 代理池:内置代理轮换,降低风控拦截风险
  • 数据导出:支持 CSV、JSON、JSONL、Excel、SQLite、MySQL 多种格式
  • 可视化界面:内置 WebUI,无需命令行即可配置和监控爬虫任务
  • 词云生成:自动分析评论内容生成词云图

技术亮点

  • Playwright 浏览器自动化:利用保留登录态的浏览器上下文,通过 JS 表达式获取签名参数,无需逆向复杂加密算法
  • CDP 模式:默认连接用户已有的 Chrome 浏览器(远程调试端口 9222),复用登录态、Cookie、扩展,大幅降低平台检测风险
  • uv 包管理:使用目前最快的 Python 包管理工具,依赖解析准确,环境一致性保障
  • 模块化架构:各平台爬虫独立实现,配置统一在 config/base_config.py,易于扩展新平台

快速开始

# 克隆仓库
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler

# 使用 uv 安装依赖(推荐)
uv sync

# 配置 Chrome 远程调试(Chrome 地址栏输入 chrome://inspect/#remote-debugging,勾选允许)

# 关键词搜索爬取
uv run main.py --platform xhs --lt qrcode --type search

# 指定帖子详情
uv run main.py --platform xhs --lt qrcode --type detail

# 启动 WebUI
uv run uvicorn api.main:app --port 8080

平台支持矩阵

平台关键词搜索指定帖子 ID二级评论创作者主页登录态缓存IP 代理词云图
小红书
抖音
快手
B站
微博
贴吧
知乎

数据存储

  • CSV / JSON / JSONL / Excel:适合快速查看和小规模数据
  • SQLite:本地轻量数据库,开箱即用
  • MySQL:大规模生产环境部署

进阶版本

MediaCrawlerPro 提供企业级升级:

  • 自媒体内容拆解 Agent
  • 断点续爬功能
  • 去除 Playwright 依赖
  • 多账号 + IP 代理池
  • 企业级代码质量与架构设计
  • 自媒体视频下载器桌面端
  • 多平台首页信息流推荐(HomeFeed)
  • AI Agent Skill 支持(OpenClaw / Claude Code / Cursor 一键安装)

适用场景

  • 舆情监测与品牌口碑分析
  • 竞品内容研究与趋势洞察
  • 学术研究中的社交媒体数据采集
  • 自媒体运营数据复盘
  • 营销效果追踪与 KOL 评估

项目数据

  • Stars: 51.7k+
  • Forks: 10.8k+
  • 语言: Python
  • 协议: 自定义开源协议(学习研究用途)
  • 创建时间: 2023-06-09

注意事项

本项目仅供学习和研究使用,禁止用于商业用途或侵犯他人合法权益。使用前应仔细阅读免责声明,遵守《网络安全法》等相关法律法规。大规模爬取可能导致账号限制或封禁,建议合理控制请求频率并配置代理池。

相关资源

2100举报0Xiao.Xi6天前
点击获取 ^_^
被收录:

暂无评论