|
|
před 11 měsíci | |
|---|---|---|
| .github | před 1 rokem | |
| _image | před 11 měsíci | |
| _images | před 11 měsíci | |
| frequency_words.txt | před 1 rokem | |
| image.png | před 1 rokem | |
| main.py | před 11 měsíci | |
| readme.md | před 11 měsíci |
TrendRadar 是一款多平台热点资讯监控工具,可自动追踪主流媒体平台的热门话题,实时分析热点走势,根据自定义关键词进行筛选,并通过精美报表或飞书机器人实时推送到手机上。无论你是媒体从业者、市场分析师、还是信息爱好者,TrendRadar 都能帮你第一时间捕捉全网热点脉搏。
或者像我一样通过这个工具来反向减少对各种 APP 的使用依赖的。
如果这个项目对你有帮助,请通过 点击 Star ⭐ 支持我一下!
优化前
|
优化后
|
已 fork 的同学只要复制 main.py 的所有代码到你的 github 直接覆盖即可(github 在线编辑)
目前已支持以下 11 个热门平台:
Fork 本项目到你的 GitHub 账户
设置 GitHub Secrets:
Settings > Secrets and variables > ActionsFEISHU_WEBHOOK_URL自定义关键词:
frequency_words.txt文件,添加你需要监控的频率词和过滤词自动运行:
.github/workflows/crawler.yml配置文件,默认每 50 分钟自动运行一次查看结果:
output目录中代码顶部的CONFIG字典包含了所有可配置的选项:
CONFIG = {
"FEISHU_SEPARATOR": "━━━━━━━━━━━━━━━━━━━", # 飞书消息中,每个频率词之间的分割线
"REQUEST_INTERVAL": 1000, # 请求间隔(毫秒)
"FEISHU_REPORT_TYPE": "daily", # 可选: "current", "daily", "both"
"RANK_THRESHOLD": 5, # 排名阈值,前5名使用红色加粗显示
"USE_PROXY": True, # 是否启用本地代理
"DEFAULT_PROXY": "http://127.0.0.1:10086", # 默认代理地址
"CONTINUE_WITHOUT_FEISHU": True, # 控制是否在没有飞书webhook URL时继续执行爬虫
"FEISHU_WEBHOOK_URL": "", # 飞书机器人的webhook URL,默认为空,推荐通过GitHub Secrets设置
}
主要配置项说明:
current: 只发送当前爬取结果daily: 只发送当日汇总both: 两者都发送True,即使没有飞书 webhook URL 也会执行爬虫;如果为False,则程序会退出在frequency_words.txt文件中配置监控的频率词和过滤词:
!开头的词为过滤词示例:
人工智能
AI
GPT
大模型
!AI绘画
芯片
半导体
!芯片股
上述配置表示:
程序会生成两种报告:
| 排名 | 频率词 | 出现次数 | 占比 | 相关标题 |
|---|---|---|---|---|
| 1 | 人工智能 AI | 12 | 24.5% | [百度热搜] 科技巨头发布新 AI 模型 [1] - 12 时 30 分 (4 次) [今日头条] AI 技术最新突破 [2] - 13 时 15 分 ~ 14 时 30 分 |
| 2 | 芯片 半导体 | 8 | 16.3% | [华尔街见闻] 半导体行业最新动态 [3] - 12 时 45 分 (3 次) [财联社] 芯片设计新技术 [7] - 14 时 00 分 (1 次) |
📊 热点词汇统计
🔥 人工智能 AI : 12 条
1. [百度热搜] 科技巨头发布新AI模型 [1] - 12时30分 (4次)
2. [今日头条] AI技术最新突破 [2] - [13时15分 ~ 14时30分] (2次)
━━━━━━━━━━━━━━━━━━━
📈 芯片 半导体 : 8 条
1. [华尔街见闻] 半导体行业最新动态 [3] - 12时45分 (3次)
2. [财联社] 芯片设计新技术 [7] - 14时00分 (1次)
更新时间:2025-05-26 15:30:00
| 格式元素 | 示例 | 含义 | 说明 |
|---|---|---|---|
| 关键词 | 人工智能 AI | 频率词组 | 表示本组匹配的关键词 |
| : N 条 | : 12 条 | 匹配数量 | 该关键词组匹配的标题总数 |
| [平台名] | [百度热搜] | 来源平台 | 标题所属的平台名称 |
| [数字] | [1] | 高排名标记 | 排名 ≤ 阈值(默认 5)的热搜,红色加粗显示 |
| [数字] | [7] | 普通排名标记 | 排名>阈值的热搜,普通显示 |
| - 时间 | - 12 时 30 分 | 首次发现时间 | 标题首次被发现的时间 |
| [时间 ~ 时间] | [12 时 30 分 ~ 14 时 00 分] | 时间范围 | 标题出现的时间范围(首次~最后) |
| (N 次) | (4 次) | 出现次数 | 标题在监控期间出现的总次数 |
| 🔥📈📌 | 🔥 | 热度图标 | 根据出现次数显示不同热度等级 |
点击"新建机器人应用"
进入创建的应用后,点击"流程涉及" > "创建流程" > "选择触发器"
往下滑动,点击"Webhook 触发"
此时你会看到"Webhook 地址",把这个链接先复制到本地记事本暂存,继续接下来的操作
"参数"里面放上下面的内容,然后点击"完成"
{
"message_type": "text",
"content": {
"total_titles": "{{内容}}",
"timestamp": "{{内容}}",
"report_type": "{{内容}}",
"text": "{{内容}}"
}
}
点击"选择操作" > "发送飞书消息" ,勾选 "群消息", 然后点击下面的输入框,点击"我管理的群组"(如果没有群组,你可以在飞书 app 上创建群组)
消息标题填写"TrendRadar 热点监控"
最关键的部分来了,点击 + 按钮,选择"Webhook 触发",然后按照下面的图片摆放
到这里就配置完了,你可以等待手机接收消息(等几十分钟),也可以在 Actions 页面手动触发一次 workflow(等待几十秒就行,不懂的可以问 ai)
另外,output 目录下,有每天的 当日统计.html
比如:https://github.com/sansan0/TrendRadar/tree/master/output/2025年05月05日/html ,你可以看到每天汇总的要点新闻,同时在根目录也会生成 index.html 方便直接访问
如果想支持更多平台或者不想看某些平台,可以访问 newsnow 的源代码:https://github.com/ourongxing/newsnow/tree/main/server/sources ,根据里面的文件名自己来修改 main.py 中的下面代码:
ids = [
("toutiao", "今日头条"),
("baidu", "百度热搜"),
("wallstreetcn-hot", "华尔街见闻"),
("thepaper", "澎湃新闻"),
("bilibili-hot-search", "bilibili 热搜"),
("cls-hot", "财联社热门"),
("ifeng", "凤凰网"),
"tieba",
"weibo",
"douyin",
"zhihu",
]
GitHub Actions 不执行怎么办?
.github/workflows/crawler.yml文件是否存在本地运行失败怎么办?
CONFIG中的USE_PROXY和DEFAULT_PROXY设置requests、pytz没有收到飞书通知怎么办?
FEISHU_WEBHOOK_URL是否正确设置(环境变量或 CONFIG 中)想要停止爬虫行为但保留仓库怎么办?
CONTINUE_WITHOUT_FEISHU设置为False并删除FEISHU_WEBHOOK_URLsecret如何处理 API 限制或访问问题?
REQUEST_INTERVAL值,避免频繁请求频率词匹配不准确怎么办?
为什么某些标题没有被统计?
本项目使用了 newsnow 提供的 API 服务,感谢其提供的数据支持。
MIT License