server.py 43 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608609610611612613614615616617618619620621622623624625626627628629630631632633634635636637638639640641642643644645646647648649650651652653654655656657658659660661662663664665666667668669670671672673674675676677678679680681682683684685686687688689690691692693694695696697698699700701702703704705706707708709710711712713714715716717718719720721722723724725726727728729730731732733734735736737738739740741742743744745746747748749750751752753754755756757758759760761762763764765766767768769770771772773774775776777778779780781782783784785786787788789790791792793794795796797798799800801802803804805806807808809810811812813814815816817818819820821822823824825826827828829830831832833834835836837838839840841842843844845846847848849850851852853854855856857858859860861862863864865866867868869870871872873874875876877878879880881882883884885886887888889890891892893894895896897898899900901902903904905906907908909910911912913914915916917918919920921922923924925926927928929930931932933934935936937938939940941942943944945946947948949950951952953954955956957958959960961962963964965966967968969970971972973974975976977978979980981982983984985986987988989990991992993994995996997998999100010011002100310041005100610071008100910101011101210131014101510161017101810191020102110221023102410251026102710281029103010311032103310341035103610371038103910401041104210431044104510461047104810491050105110521053105410551056105710581059106010611062106310641065106610671068106910701071107210731074107510761077107810791080108110821083108410851086108710881089109010911092109310941095109610971098109911001101110211031104110511061107110811091110111111121113111411151116111711181119112011211122112311241125112611271128112911301131
  1. """
  2. TrendRadar MCP Server - FastMCP 2.0 实现
  3. 使用 FastMCP 2.0 提供生产级 MCP 工具服务器。
  4. 支持 stdio 和 HTTP 两种传输模式。
  5. """
  6. import json
  7. from typing import List, Optional, Dict, Union
  8. from fastmcp import FastMCP
  9. from .tools.data_query import DataQueryTools
  10. from .tools.analytics import AnalyticsTools
  11. from .tools.search_tools import SearchTools
  12. from .tools.config_mgmt import ConfigManagementTools
  13. from .tools.system import SystemManagementTools
  14. from .tools.storage_sync import StorageSyncTools
  15. from .utils.date_parser import DateParser
  16. from .utils.errors import MCPError
  17. # 创建 FastMCP 2.0 应用
  18. mcp = FastMCP('trendradar-news')
  19. # 全局工具实例(在第一次请求时初始化)
  20. _tools_instances = {}
  21. def _get_tools(project_root: Optional[str] = None):
  22. """获取或创建工具实例(单例模式)"""
  23. if not _tools_instances:
  24. _tools_instances['data'] = DataQueryTools(project_root)
  25. _tools_instances['analytics'] = AnalyticsTools(project_root)
  26. _tools_instances['search'] = SearchTools(project_root)
  27. _tools_instances['config'] = ConfigManagementTools(project_root)
  28. _tools_instances['system'] = SystemManagementTools(project_root)
  29. _tools_instances['storage'] = StorageSyncTools(project_root)
  30. return _tools_instances
  31. # ==================== 日期解析工具(优先调用)====================
  32. @mcp.tool
  33. async def resolve_date_range(
  34. expression: str
  35. ) -> str:
  36. """
  37. 【推荐优先调用】将自然语言日期表达式解析为标准日期范围
  38. **为什么需要这个工具?**
  39. 用户经常使用"本周"、"最近7天"等自然语言表达日期,但 AI 模型自己计算日期
  40. 可能导致不一致的结果。此工具在服务器端使用精确的当前时间计算,确保所有
  41. AI 模型获得一致的日期范围。
  42. **推荐使用流程:**
  43. 1. 用户说"分析AI本周的情感倾向"
  44. 2. AI 调用 resolve_date_range("本周") → 获取精确日期范围
  45. 3. AI 调用 analyze_sentiment(topic="ai", date_range=上一步返回的date_range)
  46. Args:
  47. expression: 自然语言日期表达式,支持:
  48. - 单日: "今天", "昨天", "today", "yesterday"
  49. - 周: "本周", "上周", "this week", "last week"
  50. - 月: "本月", "上月", "this month", "last month"
  51. - 最近N天: "最近7天", "最近30天", "last 7 days", "last 30 days"
  52. - 动态: "最近5天", "last 10 days"(任意天数)
  53. Returns:
  54. JSON格式的日期范围,可直接用于其他工具的 date_range 参数:
  55. {
  56. "success": true,
  57. "expression": "本周",
  58. "date_range": {
  59. "start": "2025-11-18",
  60. "end": "2025-11-26"
  61. },
  62. "current_date": "2025-11-26",
  63. "description": "本周(周一到周日,11-18 至 11-26)"
  64. }
  65. Examples:
  66. 用户:"分析AI本周的情感倾向"
  67. AI调用步骤:
  68. 1. resolve_date_range("本周")
  69. → {"date_range": {"start": "2025-11-18", "end": "2025-11-26"}, ...}
  70. 2. analyze_sentiment(topic="ai", date_range={"start": "2025-11-18", "end": "2025-11-26"})
  71. 用户:"看看最近7天的特斯拉新闻"
  72. AI调用步骤:
  73. 1. resolve_date_range("最近7天")
  74. → {"date_range": {"start": "2025-11-20", "end": "2025-11-26"}, ...}
  75. 2. search_news(query="特斯拉", date_range={"start": "2025-11-20", "end": "2025-11-26"})
  76. """
  77. try:
  78. result = DateParser.resolve_date_range_expression(expression)
  79. return json.dumps(result, ensure_ascii=False, indent=2)
  80. except MCPError as e:
  81. return json.dumps({
  82. "success": False,
  83. "error": e.to_dict()
  84. }, ensure_ascii=False, indent=2)
  85. except Exception as e:
  86. return json.dumps({
  87. "success": False,
  88. "error": {
  89. "code": "INTERNAL_ERROR",
  90. "message": str(e)
  91. }
  92. }, ensure_ascii=False, indent=2)
  93. # ==================== 数据查询工具 ====================
  94. @mcp.tool
  95. async def get_latest_news(
  96. platforms: Optional[List[str]] = None,
  97. limit: int = 50,
  98. include_url: bool = False
  99. ) -> str:
  100. """
  101. 获取最新一批爬取的新闻数据,快速了解当前热点
  102. Args:
  103. platforms: 平台ID列表,如 ['zhihu', 'weibo', 'douyin']
  104. - 不指定时:使用 config.yaml 中配置的所有平台
  105. - 支持的平台来自 config/config.yaml 的 platforms 配置
  106. - 每个平台都有对应的name字段(如"知乎"、"微博"),方便AI识别
  107. limit: 返回条数限制,默认50,最大1000
  108. 注意:实际返回数量可能少于请求值,取决于当前可用的新闻总数
  109. include_url: 是否包含URL链接,默认False(节省token)
  110. Returns:
  111. JSON格式的新闻列表
  112. **重要:数据展示建议**
  113. 本工具会返回完整的新闻列表(通常50条)给你。但请注意:
  114. - **工具返回**:完整的50条数据 ✅
  115. - **建议展示**:向用户展示全部数据,除非用户明确要求总结
  116. - **用户期望**:用户可能需要完整数据,请谨慎总结
  117. **何时可以总结**:
  118. - 用户明确说"给我总结一下"或"挑重点说"
  119. - 数据量超过100条时,可先展示部分并询问是否查看全部
  120. **注意**:如果用户询问"为什么只显示了部分",说明他们需要完整数据
  121. """
  122. tools = _get_tools()
  123. result = tools['data'].get_latest_news(platforms=platforms, limit=limit, include_url=include_url)
  124. return json.dumps(result, ensure_ascii=False, indent=2)
  125. @mcp.tool
  126. async def get_trending_topics(
  127. top_n: int = 10,
  128. mode: str = 'current',
  129. extract_mode: str = 'keywords'
  130. ) -> str:
  131. """
  132. 获取热点话题统计
  133. Args:
  134. top_n: 返回TOP N话题,默认10
  135. mode: 时间模式
  136. - "daily": 当日累计数据统计
  137. - "current": 最新一批数据统计(默认)
  138. extract_mode: 提取模式
  139. - "keywords": 统计预设关注词(基于 config/frequency_words.txt,默认)
  140. - "auto_extract": 自动从新闻标题提取高频词(无需预设,自动发现热点)
  141. Returns:
  142. JSON格式的话题频率统计列表
  143. Examples:
  144. - 使用预设关注词: get_trending_topics(mode="current")
  145. - 自动提取热点: get_trending_topics(extract_mode="auto_extract", top_n=20)
  146. """
  147. tools = _get_tools()
  148. result = tools['data'].get_trending_topics(top_n=top_n, mode=mode, extract_mode=extract_mode)
  149. return json.dumps(result, ensure_ascii=False, indent=2)
  150. # ==================== RSS 数据查询工具 ====================
  151. @mcp.tool
  152. async def get_latest_rss(
  153. feeds: Optional[List[str]] = None,
  154. limit: int = 50,
  155. include_summary: bool = False
  156. ) -> str:
  157. """
  158. 获取最新的 RSS 订阅数据
  159. RSS 数据与热榜新闻分开存储,按时间流展示,适合获取特定来源的最新内容。
  160. Args:
  161. feeds: RSS 源 ID 列表,如 ['hacker-news', '36kr']
  162. - 不指定时:返回所有已配置 RSS 源的数据
  163. - 支持的 RSS 源来自 config/config.yaml 的 rss.feeds 配置
  164. limit: 返回条数限制,默认50,最大500
  165. include_summary: 是否包含文章摘要,默认False(节省token)
  166. Returns:
  167. JSON格式的 RSS 条目列表,包含:
  168. - rss: RSS 条目数组
  169. - title: 文章标题
  170. - feed_id: RSS 源 ID
  171. - feed_name: RSS 源名称
  172. - url: 文章链接
  173. - published_at: 发布时间
  174. - author: 作者(如有)
  175. - summary: 摘要(仅当 include_summary=True)
  176. - total: 返回条数
  177. - feeds: 请求的 RSS 源列表
  178. Examples:
  179. - 获取所有 RSS 最新内容: get_latest_rss()
  180. - 获取指定源: get_latest_rss(feeds=['hacker-news'])
  181. - 包含摘要: get_latest_rss(include_summary=True, limit=20)
  182. """
  183. tools = _get_tools()
  184. result = tools['data'].get_latest_rss(feeds=feeds, limit=limit, include_summary=include_summary)
  185. return json.dumps(result, ensure_ascii=False, indent=2)
  186. @mcp.tool
  187. async def search_rss(
  188. keyword: str,
  189. feeds: Optional[List[str]] = None,
  190. days: int = 7,
  191. limit: int = 50,
  192. include_summary: bool = False
  193. ) -> str:
  194. """
  195. 搜索 RSS 数据
  196. 在 RSS 订阅数据中搜索包含指定关键词的文章。
  197. Args:
  198. keyword: 搜索关键词(必需)
  199. feeds: RSS 源 ID 列表,如 ['hacker-news', '36kr']
  200. - 不指定时:搜索所有 RSS 源
  201. days: 搜索最近 N 天的数据,默认 7 天,最大 30 天
  202. limit: 返回条数限制,默认50
  203. include_summary: 是否包含文章摘要,默认False
  204. Returns:
  205. JSON格式的匹配 RSS 条目列表
  206. Examples:
  207. - search_rss(keyword="AI")
  208. - search_rss(keyword="machine learning", feeds=['hacker-news'], days=14)
  209. """
  210. tools = _get_tools()
  211. result = tools['data'].search_rss(
  212. keyword=keyword,
  213. feeds=feeds,
  214. days=days,
  215. limit=limit,
  216. include_summary=include_summary
  217. )
  218. return json.dumps(result, ensure_ascii=False, indent=2)
  219. @mcp.tool
  220. async def get_rss_feeds_status() -> str:
  221. """
  222. 获取 RSS 源状态信息
  223. 查看当前配置的 RSS 源及其数据统计信息。
  224. Returns:
  225. JSON格式的 RSS 源状态,包含:
  226. - available_dates: 有 RSS 数据的日期列表
  227. - total_dates: 总日期数
  228. - today_feeds: 今日各 RSS 源的数据统计
  229. - {feed_id}: { name, item_count }
  230. - generated_at: 生成时间
  231. Examples:
  232. - get_rss_feeds_status() # 查看所有 RSS 源状态
  233. """
  234. tools = _get_tools()
  235. result = tools['data'].get_rss_feeds_status()
  236. return json.dumps(result, ensure_ascii=False, indent=2)
  237. @mcp.tool
  238. async def get_news_by_date(
  239. date_range: Optional[Union[Dict[str, str], str]] = None,
  240. platforms: Optional[List[str]] = None,
  241. limit: int = 50,
  242. include_url: bool = False
  243. ) -> str:
  244. """
  245. 获取指定日期的新闻数据,用于历史数据分析和对比
  246. Args:
  247. date_range: 日期范围,支持多种格式:
  248. - 范围对象: {"start": "2025-01-01", "end": "2025-01-07"}
  249. - 自然语言: "今天", "昨天", "本周", "最近7天"
  250. - 单日字符串: "2025-01-15"
  251. - 默认值: "今天"
  252. platforms: 平台ID列表,如 ['zhihu', 'weibo', 'douyin']
  253. - 不指定时:使用 config.yaml 中配置的所有平台
  254. - 支持的平台来自 config/config.yaml 的 platforms 配置
  255. - 每个平台都有对应的name字段(如"知乎"、"微博"),方便AI识别
  256. limit: 返回条数限制,默认50,最大1000
  257. 注意:实际返回数量可能少于请求值,取决于指定日期的新闻总数
  258. include_url: 是否包含URL链接,默认False(节省token)
  259. Returns:
  260. JSON格式的新闻列表,包含标题、平台、排名等信息
  261. **重要:数据展示建议**
  262. 本工具会返回完整的新闻列表(通常50条)给你。但请注意:
  263. - **工具返回**:完整的50条数据 ✅
  264. - **建议展示**:向用户展示全部数据,除非用户明确要求总结
  265. - **用户期望**:用户可能需要完整数据,请谨慎总结
  266. **何时可以总结**:
  267. - 用户明确说"给我总结一下"或"挑重点说"
  268. - 数据量超过100条时,可先展示部分并询问是否查看全部
  269. **注意**:如果用户询问"为什么只显示了部分",说明他们需要完整数据
  270. """
  271. tools = _get_tools()
  272. result = tools['data'].get_news_by_date(
  273. date_range=date_range,
  274. platforms=platforms,
  275. limit=limit,
  276. include_url=include_url
  277. )
  278. return json.dumps(result, ensure_ascii=False, indent=2)
  279. # ==================== 高级数据分析工具 ====================
  280. @mcp.tool
  281. async def analyze_topic_trend(
  282. topic: str,
  283. analysis_type: str = "trend",
  284. date_range: Optional[Union[Dict[str, str], str]] = None,
  285. granularity: str = "day",
  286. spike_threshold: float = 3.0,
  287. time_window: int = 24,
  288. lookahead_hours: int = 6,
  289. confidence_threshold: float = 0.7
  290. ) -> str:
  291. """
  292. 统一话题趋势分析工具 - 整合多种趋势分析模式
  293. **重要:日期范围处理**
  294. 当用户使用"本周"、"最近7天"等自然语言时,请先调用 resolve_date_range 工具获取精确日期:
  295. 1. 调用 resolve_date_range("本周") → 获取 {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}
  296. 2. 将返回的 date_range 传入本工具
  297. Args:
  298. topic: 话题关键词(必需)
  299. analysis_type: 分析类型,可选值:
  300. - "trend": 热度趋势分析(追踪话题的热度变化)
  301. - "lifecycle": 生命周期分析(从出现到消失的完整周期)
  302. - "viral": 异常热度检测(识别突然爆火的话题)
  303. - "predict": 话题预测(预测未来可能的热点)
  304. date_range: 日期范围(trend和lifecycle模式),可选
  305. - **格式**: {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}
  306. - **获取方式**: 调用 resolve_date_range 工具解析自然语言日期
  307. - **默认**: 不指定时默认分析最近7天
  308. granularity: 时间粒度(trend模式),默认"day"(仅支持 day,因为底层数据按天聚合)
  309. spike_threshold: 热度突增倍数阈值(viral模式),默认3.0
  310. time_window: 检测时间窗口小时数(viral模式),默认24
  311. lookahead_hours: 预测未来小时数(predict模式),默认6
  312. confidence_threshold: 置信度阈值(predict模式),默认0.7
  313. Returns:
  314. JSON格式的趋势分析结果
  315. Examples:
  316. 用户:"分析AI本周的趋势"
  317. 推荐调用流程:
  318. 1. resolve_date_range("本周") → {"date_range": {"start": "2025-11-18", "end": "2025-11-26"}}
  319. 2. analyze_topic_trend(topic="AI", date_range={"start": "2025-11-18", "end": "2025-11-26"})
  320. 用户:"看看特斯拉最近30天的热度"
  321. 推荐调用流程:
  322. 1. resolve_date_range("最近30天") → {"date_range": {"start": "2025-10-28", "end": "2025-11-26"}}
  323. 2. analyze_topic_trend(topic="特斯拉", analysis_type="lifecycle", date_range=...)
  324. """
  325. tools = _get_tools()
  326. result = tools['analytics'].analyze_topic_trend_unified(
  327. topic=topic,
  328. analysis_type=analysis_type,
  329. date_range=date_range,
  330. granularity=granularity,
  331. threshold=spike_threshold,
  332. time_window=time_window,
  333. lookahead_hours=lookahead_hours,
  334. confidence_threshold=confidence_threshold
  335. )
  336. return json.dumps(result, ensure_ascii=False, indent=2)
  337. @mcp.tool
  338. async def analyze_data_insights(
  339. insight_type: str = "platform_compare",
  340. topic: Optional[str] = None,
  341. date_range: Optional[Union[Dict[str, str], str]] = None,
  342. min_frequency: int = 3,
  343. top_n: int = 20
  344. ) -> str:
  345. """
  346. 统一数据洞察分析工具 - 整合多种数据分析模式
  347. Args:
  348. insight_type: 洞察类型,可选值:
  349. - "platform_compare": 平台对比分析(对比不同平台对话题的关注度)
  350. - "platform_activity": 平台活跃度统计(统计各平台发布频率和活跃时间)
  351. - "keyword_cooccur": 关键词共现分析(分析关键词同时出现的模式)
  352. topic: 话题关键词(可选,platform_compare模式适用)
  353. date_range: **【对象类型】** 日期范围(可选)
  354. - **格式**: {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}
  355. - **示例**: {"start": "2025-01-01", "end": "2025-01-07"}
  356. - **重要**: 必须是对象格式,不能传递整数
  357. min_frequency: 最小共现频次(keyword_cooccur模式),默认3
  358. top_n: 返回TOP N结果(keyword_cooccur模式),默认20
  359. Returns:
  360. JSON格式的数据洞察分析结果
  361. Examples:
  362. - analyze_data_insights(insight_type="platform_compare", topic="人工智能")
  363. - analyze_data_insights(insight_type="platform_activity", date_range={"start": "2025-01-01", "end": "2025-01-07"})
  364. - analyze_data_insights(insight_type="keyword_cooccur", min_frequency=5, top_n=15)
  365. """
  366. tools = _get_tools()
  367. result = tools['analytics'].analyze_data_insights_unified(
  368. insight_type=insight_type,
  369. topic=topic,
  370. date_range=date_range,
  371. min_frequency=min_frequency,
  372. top_n=top_n
  373. )
  374. return json.dumps(result, ensure_ascii=False, indent=2)
  375. @mcp.tool
  376. async def analyze_sentiment(
  377. topic: Optional[str] = None,
  378. platforms: Optional[List[str]] = None,
  379. date_range: Optional[Union[Dict[str, str], str]] = None,
  380. limit: int = 50,
  381. sort_by_weight: bool = True,
  382. include_url: bool = False
  383. ) -> str:
  384. """
  385. 分析新闻的情感倾向和热度趋势
  386. **重要:日期范围处理**
  387. 当用户使用"本周"、"最近7天"等自然语言时,请先调用 resolve_date_range 工具获取精确日期:
  388. 1. 调用 resolve_date_range("本周") → 获取 {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}
  389. 2. 将返回的 date_range 传入本工具
  390. Args:
  391. topic: 话题关键词(可选)
  392. platforms: 平台ID列表,如 ['zhihu', 'weibo', 'douyin']
  393. - 不指定时:使用 config.yaml 中配置的所有平台
  394. - 支持的平台来自 config/config.yaml 的 platforms 配置
  395. - 每个平台都有对应的name字段(如"知乎"、"微博"),方便AI识别
  396. date_range: 日期范围(可选)
  397. - **格式**: {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}
  398. - **获取方式**: 调用 resolve_date_range 工具解析自然语言日期
  399. - **默认**: 不指定则默认查询今天的数据
  400. limit: 返回新闻数量,默认50,最大100
  401. 注意:本工具会对新闻标题进行去重(同一标题在不同平台只保留一次),
  402. 因此实际返回数量可能少于请求的 limit 值
  403. sort_by_weight: 是否按热度权重排序,默认True
  404. include_url: 是否包含URL链接,默认False(节省token)
  405. Returns:
  406. JSON格式的分析结果,包含情感分布、热度趋势和相关新闻
  407. Examples:
  408. 用户:"分析AI本周的情感倾向"
  409. 推荐调用流程:
  410. 1. resolve_date_range("本周") → {"date_range": {"start": "2025-11-18", "end": "2025-11-26"}}
  411. 2. analyze_sentiment(topic="AI", date_range={"start": "2025-11-18", "end": "2025-11-26"})
  412. 用户:"分析特斯拉最近7天的新闻情感"
  413. 推荐调用流程:
  414. 1. resolve_date_range("最近7天") → {"date_range": {"start": "2025-11-20", "end": "2025-11-26"}}
  415. 2. analyze_sentiment(topic="特斯拉", date_range={"start": "2025-11-20", "end": "2025-11-26"})
  416. **重要:数据展示策略**
  417. - 本工具返回完整的分析结果和新闻列表
  418. - **默认展示方式**:展示完整的分析结果(包括所有新闻)
  419. - 仅在用户明确要求"总结"或"挑重点"时才进行筛选
  420. """
  421. tools = _get_tools()
  422. result = tools['analytics'].analyze_sentiment(
  423. topic=topic,
  424. platforms=platforms,
  425. date_range=date_range,
  426. limit=limit,
  427. sort_by_weight=sort_by_weight,
  428. include_url=include_url
  429. )
  430. return json.dumps(result, ensure_ascii=False, indent=2)
  431. @mcp.tool
  432. async def find_related_news(
  433. reference_title: str,
  434. date_range: Optional[Union[Dict[str, str], str]] = None,
  435. threshold: float = 0.5,
  436. limit: int = 50,
  437. include_url: bool = False
  438. ) -> str:
  439. """
  440. 查找与指定新闻标题相关的其他新闻(支持当天和历史数据)
  441. Args:
  442. reference_title: 参考新闻标题(完整或部分)
  443. date_range: 日期范围(可选)
  444. - 不指定: 只查询今天的数据
  445. - "today": 今天
  446. - "yesterday": 昨天
  447. - "last_week": 最近7天
  448. - "last_month": 最近30天
  449. - {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}: 自定义范围
  450. threshold: 相似度阈值,0-1之间,默认0.5
  451. 注意:阈值越高匹配越严格,返回结果越少
  452. limit: 返回条数限制,默认50
  453. include_url: 是否包含URL链接,默认False(节省token)
  454. Returns:
  455. JSON格式的相关新闻列表,按相似度排序
  456. Examples:
  457. - 查找今天的相似新闻: find_related_news(reference_title="特斯拉降价")
  458. - 查找历史相关新闻: find_related_news(reference_title="特斯拉降价", date_range="last_week")
  459. - 自定义日期范围: find_related_news(reference_title="AI突破", date_range={"start": "2025-01-01", "end": "2025-01-15"})
  460. **重要:数据展示策略**
  461. - 本工具返回完整的相关新闻列表(包括相似度分数)
  462. - 仅在用户明确要求"总结"时才进行筛选
  463. """
  464. tools = _get_tools()
  465. result = tools['search'].find_related_news_unified(
  466. reference_title=reference_title,
  467. date_range=date_range,
  468. threshold=threshold,
  469. limit=limit,
  470. include_url=include_url
  471. )
  472. return json.dumps(result, ensure_ascii=False, indent=2)
  473. @mcp.tool
  474. async def generate_summary_report(
  475. report_type: str = "daily",
  476. date_range: Optional[Union[Dict[str, str], str]] = None
  477. ) -> str:
  478. """
  479. 每日/每周摘要生成器 - 自动生成热点摘要报告
  480. Args:
  481. report_type: 报告类型(daily/weekly)
  482. date_range: **【对象类型】** 自定义日期范围(可选)
  483. - **格式**: {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}
  484. - **示例**: {"start": "2025-01-01", "end": "2025-01-07"}
  485. - **重要**: 必须是对象格式,不能传递整数
  486. Returns:
  487. JSON格式的摘要报告,包含Markdown格式内容
  488. """
  489. tools = _get_tools()
  490. result = tools['analytics'].generate_summary_report(
  491. report_type=report_type,
  492. date_range=date_range
  493. )
  494. return json.dumps(result, ensure_ascii=False, indent=2)
  495. @mcp.tool
  496. async def aggregate_news(
  497. date_range: Optional[Union[Dict[str, str], str]] = None,
  498. platforms: Optional[List[str]] = None,
  499. similarity_threshold: float = 0.7,
  500. limit: int = 50,
  501. include_url: bool = False
  502. ) -> str:
  503. """
  504. 跨平台新闻聚合 - 对相似新闻进行去重合并
  505. 将不同平台报道的同一事件合并为一条聚合新闻,
  506. 显示该新闻在各平台的覆盖情况和综合热度。
  507. **使用场景:**
  508. - 想要看到去重后的热点新闻(避免同一事件在不同平台重复展示)
  509. - 分析某个话题在多个平台的覆盖情况
  510. - 获取跨平台的综合热度排名
  511. Args:
  512. date_range: 日期范围(可选)
  513. - 不指定: 查询今天
  514. - {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}: 日期范围
  515. platforms: 平台过滤列表,如 ['zhihu', 'weibo']
  516. similarity_threshold: 相似度阈值,0.3-1.0之间,默认0.7
  517. 越高越严格(仅合并非常相似的标题)
  518. limit: 返回聚合新闻数量,默认50
  519. include_url: 是否包含URL链接,默认False
  520. Returns:
  521. JSON格式的聚合结果,包含:
  522. - summary: 聚合统计(原始数量、去重后数量、去重率)
  523. - aggregated_news: 聚合后的新闻列表
  524. - representative_title: 代表标题
  525. - platforms: 覆盖的平台列表
  526. - platform_count: 覆盖平台数
  527. - is_cross_platform: 是否跨平台新闻
  528. - best_rank: 最佳排名
  529. - aggregate_weight: 综合权重
  530. - sources: 各平台来源详情
  531. - statistics: 平台覆盖统计
  532. Examples:
  533. - aggregate_news() # 聚合今天所有平台的新闻
  534. - aggregate_news(similarity_threshold=0.8) # 更严格的相似度匹配
  535. - aggregate_news(date_range={"start": "2025-01-01", "end": "2025-01-07"})
  536. **重要:数据展示策略**
  537. - 本工具返回去重聚合后的新闻列表
  538. - 跨平台新闻(is_cross_platform=true)通常更具新闻价值
  539. - 可优先展示 platform_count > 1 的新闻
  540. """
  541. tools = _get_tools()
  542. result = tools['analytics'].aggregate_news(
  543. date_range=date_range,
  544. platforms=platforms,
  545. similarity_threshold=similarity_threshold,
  546. limit=limit,
  547. include_url=include_url
  548. )
  549. return json.dumps(result, ensure_ascii=False, indent=2)
  550. @mcp.tool
  551. async def compare_periods(
  552. period1: Union[Dict[str, str], str],
  553. period2: Union[Dict[str, str], str],
  554. topic: Optional[str] = None,
  555. compare_type: str = "overview",
  556. platforms: Optional[List[str]] = None,
  557. top_n: int = 10
  558. ) -> str:
  559. """
  560. 时期对比分析 - 比较两个时间段的新闻数据
  561. 对比不同时期的热点话题、平台活跃度、新闻数量等维度。
  562. **使用场景:**
  563. - 对比本周和上周的热点变化
  564. - 分析某个话题在两个时期的热度差异
  565. - 查看各平台活跃度的周期性变化
  566. Args:
  567. period1: 第一个时间段(基准期)
  568. - {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}: 日期范围
  569. - "today", "yesterday", "this_week", "last_week", "this_month", "last_month": 预设值
  570. period2: 第二个时间段(对比期,格式同 period1)
  571. topic: 可选的话题关键词(聚焦特定话题的对比)
  572. compare_type: 对比类型
  573. - "overview": 总体概览(默认)- 新闻数量、关键词变化、TOP新闻
  574. - "topic_shift": 话题变化分析 - 上升话题、下降话题、新出现话题
  575. - "platform_activity": 平台活跃度对比 - 各平台新闻数量变化
  576. platforms: 平台过滤列表,如 ['zhihu', 'weibo']
  577. top_n: 返回 TOP N 结果,默认10
  578. Returns:
  579. JSON格式的对比分析结果,包含:
  580. - periods: 两个时期的日期范围
  581. - compare_type: 对比类型
  582. - overview/topic_shift/platform_comparison: 具体对比结果(根据类型)
  583. Examples:
  584. - compare_periods(period1="last_week", period2="this_week") # 周环比
  585. - compare_periods(period1="last_month", period2="this_month", compare_type="topic_shift")
  586. - compare_periods(
  587. period1={"start": "2025-01-01", "end": "2025-01-07"},
  588. period2={"start": "2025-01-08", "end": "2025-01-14"},
  589. topic="人工智能"
  590. )
  591. """
  592. tools = _get_tools()
  593. result = tools['analytics'].compare_periods(
  594. period1=period1,
  595. period2=period2,
  596. topic=topic,
  597. compare_type=compare_type,
  598. platforms=platforms,
  599. top_n=top_n
  600. )
  601. return json.dumps(result, ensure_ascii=False, indent=2)
  602. # ==================== 智能检索工具 ====================
  603. @mcp.tool
  604. async def search_news(
  605. query: str,
  606. search_mode: str = "keyword",
  607. date_range: Optional[Union[Dict[str, str], str]] = None,
  608. platforms: Optional[List[str]] = None,
  609. limit: int = 50,
  610. sort_by: str = "relevance",
  611. threshold: float = 0.6,
  612. include_url: bool = False,
  613. include_rss: bool = False,
  614. rss_limit: int = 20
  615. ) -> str:
  616. """
  617. 统一搜索接口,支持多种搜索模式,可同时搜索热榜和RSS
  618. **重要:日期范围处理**
  619. 当用户使用"本周"、"最近7天"等自然语言时,请先调用 resolve_date_range 工具获取精确日期:
  620. 1. 调用 resolve_date_range("本周") → 获取 {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}
  621. 2. 将返回的 date_range 传入本工具
  622. Args:
  623. query: 搜索关键词或内容片段
  624. search_mode: 搜索模式,可选值:
  625. - "keyword": 精确关键词匹配(默认,适合搜索特定话题)
  626. - "fuzzy": 模糊内容匹配(适合搜索内容片段,会过滤相似度低于阈值的结果)
  627. - "entity": 实体名称搜索(适合搜索人物/地点/机构)
  628. date_range: 日期范围(可选)
  629. - **格式**: {"start": "YYYY-MM-DD", "end": "YYYY-MM-DD"}
  630. - **获取方式**: 调用 resolve_date_range 工具解析自然语言日期
  631. - **默认**: 不指定时默认查询今天的新闻
  632. platforms: 平台ID列表,如 ['zhihu', 'weibo', 'douyin']
  633. - 不指定时:使用 config.yaml 中配置的所有平台
  634. - 支持的平台来自 config/config.yaml 的 platforms 配置
  635. - 每个平台都有对应的name字段(如"知乎"、"微博"),方便AI识别
  636. limit: 热榜返回条数限制,默认50,最大1000
  637. 注意:实际返回数量取决于搜索匹配结果(特别是 fuzzy 模式下会过滤低相似度结果)
  638. sort_by: 排序方式,可选值:
  639. - "relevance": 按相关度排序(默认)
  640. - "weight": 按新闻权重排序
  641. - "date": 按日期排序
  642. threshold: 相似度阈值(仅fuzzy模式有效),0-1之间,默认0.6
  643. 注意:阈值越高匹配越严格,返回结果越少
  644. include_url: 是否包含URL链接,默认False(节省token)
  645. include_rss: 是否同时搜索RSS订阅数据,默认False
  646. - 设为True时,会在热榜结果后附加RSS搜索结果
  647. - RSS结果独立展示,不影响热榜排名
  648. rss_limit: RSS返回条数限制,默认20(仅当include_rss=True时有效)
  649. Returns:
  650. JSON格式的搜索结果,包含:
  651. - results: 热榜新闻列表(按排名/相关度排序)
  652. - rss: RSS订阅结果列表(仅当include_rss=True时返回)
  653. - summary: 搜索统计信息
  654. Examples:
  655. 用户:"搜索本周的AI新闻"
  656. 推荐调用流程:
  657. 1. resolve_date_range("本周") → {"date_range": {"start": "2025-11-18", "end": "2025-11-26"}}
  658. 2. search_news(query="AI", date_range={"start": "2025-11-18", "end": "2025-11-26"})
  659. 用户:"搜索AI相关内容,包括RSS"
  660. → search_news(query="AI", include_rss=True)
  661. 用户:"最近7天的特斯拉新闻"
  662. 推荐调用流程:
  663. 1. resolve_date_range("最近7天") → {"date_range": {"start": "2025-11-20", "end": "2025-11-26"}}
  664. 2. search_news(query="特斯拉", date_range={"start": "2025-11-20", "end": "2025-11-26"})
  665. 用户:"今天的AI新闻"(默认今天,无需解析)
  666. → search_news(query="AI")
  667. **重要:数据展示策略**
  668. - 本工具返回完整的搜索结果列表
  669. - **默认展示方式**:展示全部返回的新闻,无需总结或筛选
  670. - 仅在用户明确要求"总结"或"挑重点"时才进行筛选
  671. - 当include_rss=True时,热榜和RSS结果分开展示,RSS在热榜之后
  672. """
  673. tools = _get_tools()
  674. result = tools['search'].search_news_unified(
  675. query=query,
  676. search_mode=search_mode,
  677. date_range=date_range,
  678. platforms=platforms,
  679. limit=limit,
  680. sort_by=sort_by,
  681. threshold=threshold,
  682. include_url=include_url,
  683. include_rss=include_rss,
  684. rss_limit=rss_limit
  685. )
  686. return json.dumps(result, ensure_ascii=False, indent=2)
  687. # ==================== 配置与系统管理工具 ====================
  688. @mcp.tool
  689. async def get_current_config(
  690. section: str = "all"
  691. ) -> str:
  692. """
  693. 获取当前系统配置
  694. Args:
  695. section: 配置节,可选值:
  696. - "all": 所有配置(默认)
  697. - "crawler": 爬虫配置
  698. - "push": 推送配置
  699. - "keywords": 关键词配置
  700. - "weights": 权重配置
  701. Returns:
  702. JSON格式的配置信息
  703. """
  704. tools = _get_tools()
  705. result = tools['config'].get_current_config(section=section)
  706. return json.dumps(result, ensure_ascii=False, indent=2)
  707. @mcp.tool
  708. async def get_system_status() -> str:
  709. """
  710. 获取系统运行状态和健康检查信息
  711. 返回系统版本、数据统计、缓存状态等信息
  712. Returns:
  713. JSON格式的系统状态信息
  714. """
  715. tools = _get_tools()
  716. result = tools['system'].get_system_status()
  717. return json.dumps(result, ensure_ascii=False, indent=2)
  718. @mcp.tool
  719. async def trigger_crawl(
  720. platforms: Optional[List[str]] = None,
  721. save_to_local: bool = False,
  722. include_url: bool = False
  723. ) -> str:
  724. """
  725. 手动触发一次爬取任务(可选持久化)
  726. Args:
  727. platforms: 指定平台ID列表,如 ['zhihu', 'weibo', 'douyin']
  728. - 不指定时:使用 config.yaml 中配置的所有平台
  729. - 支持的平台来自 config/config.yaml 的 platforms 配置
  730. - 每个平台都有对应的name字段(如"知乎"、"微博"),方便AI识别
  731. - 注意:失败的平台会在返回结果的 failed_platforms 字段中列出
  732. save_to_local: 是否保存到本地 output 目录,默认 False
  733. include_url: 是否包含URL链接,默认False(节省token)
  734. Returns:
  735. JSON格式的任务状态信息,包含:
  736. - platforms: 成功爬取的平台列表
  737. - failed_platforms: 失败的平台列表(如有)
  738. - total_news: 爬取的新闻总数
  739. - data: 新闻数据
  740. Examples:
  741. - 临时爬取: trigger_crawl(platforms=['zhihu'])
  742. - 爬取并保存: trigger_crawl(platforms=['weibo'], save_to_local=True)
  743. - 使用默认平台: trigger_crawl() # 爬取config.yaml中配置的所有平台
  744. """
  745. tools = _get_tools()
  746. result = tools['system'].trigger_crawl(platforms=platforms, save_to_local=save_to_local, include_url=include_url)
  747. return json.dumps(result, ensure_ascii=False, indent=2)
  748. # ==================== 存储同步工具 ====================
  749. @mcp.tool
  750. async def sync_from_remote(
  751. days: int = 7
  752. ) -> str:
  753. """
  754. 从远程存储拉取数据到本地
  755. 用于 MCP Server 等场景:爬虫存到远程云存储(如 Cloudflare R2),
  756. MCP Server 拉取到本地进行分析查询。
  757. Args:
  758. days: 拉取最近 N 天的数据,默认 7 天
  759. - 0: 不拉取
  760. - 7: 拉取最近一周的数据
  761. - 30: 拉取最近一个月的数据
  762. Returns:
  763. JSON格式的同步结果,包含:
  764. - success: 是否成功
  765. - synced_files: 成功同步的文件数量
  766. - synced_dates: 成功同步的日期列表
  767. - skipped_dates: 跳过的日期(本地已存在)
  768. - failed_dates: 失败的日期及错误信息
  769. - message: 操作结果描述
  770. Examples:
  771. - sync_from_remote() # 拉取最近7天
  772. - sync_from_remote(days=30) # 拉取最近30天
  773. Note:
  774. 需要在 config/config.yaml 中配置远程存储(storage.remote)或设置环境变量:
  775. - S3_ENDPOINT_URL: 服务端点
  776. - S3_BUCKET_NAME: 存储桶名称
  777. - S3_ACCESS_KEY_ID: 访问密钥 ID
  778. - S3_SECRET_ACCESS_KEY: 访问密钥
  779. """
  780. tools = _get_tools()
  781. result = tools['storage'].sync_from_remote(days=days)
  782. return json.dumps(result, ensure_ascii=False, indent=2)
  783. @mcp.tool
  784. async def get_storage_status() -> str:
  785. """
  786. 获取存储配置和状态
  787. 查看当前存储后端配置、本地和远程存储的状态信息。
  788. Returns:
  789. JSON格式的存储状态信息,包含:
  790. - backend: 当前使用的后端类型(local/remote/auto)
  791. - local: 本地存储状态
  792. - data_dir: 数据目录
  793. - retention_days: 保留天数
  794. - total_size: 总大小
  795. - date_count: 日期数量
  796. - earliest_date: 最早日期
  797. - latest_date: 最新日期
  798. - remote: 远程存储状态
  799. - configured: 是否已配置
  800. - endpoint_url: 服务端点
  801. - bucket_name: 存储桶名称
  802. - date_count: 远程日期数量
  803. - pull: 拉取配置
  804. - enabled: 是否启用自动拉取
  805. - days: 自动拉取天数
  806. Examples:
  807. - get_storage_status() # 查看所有存储状态
  808. """
  809. tools = _get_tools()
  810. result = tools['storage'].get_storage_status()
  811. return json.dumps(result, ensure_ascii=False, indent=2)
  812. @mcp.tool
  813. async def list_available_dates(
  814. source: str = "both"
  815. ) -> str:
  816. """
  817. 列出本地/远程可用的日期范围
  818. 查看本地和远程存储中有哪些日期的数据可用,
  819. 帮助了解数据覆盖范围和同步状态。
  820. Args:
  821. source: 数据来源,可选值:
  822. - "local": 仅列出本地可用日期
  823. - "remote": 仅列出远程可用日期
  824. - "both": 同时列出两者并进行对比(默认)
  825. Returns:
  826. JSON格式的日期列表,包含:
  827. - local: 本地日期信息(如果 source 包含 local)
  828. - dates: 日期列表(按时间倒序)
  829. - count: 日期数量
  830. - earliest: 最早日期
  831. - latest: 最新日期
  832. - remote: 远程日期信息(如果 source 包含 remote)
  833. - configured: 是否已配置远程存储
  834. - dates: 日期列表
  835. - count: 日期数量
  836. - earliest: 最早日期
  837. - latest: 最新日期
  838. - comparison: 对比结果(仅当 source="both" 时)
  839. - only_local: 仅本地存在的日期
  840. - only_remote: 仅远程存在的日期
  841. - both: 两边都存在的日期
  842. Examples:
  843. - list_available_dates() # 查看本地和远程的对比
  844. - list_available_dates(source="local") # 仅查看本地
  845. - list_available_dates(source="remote") # 仅查看远程
  846. """
  847. tools = _get_tools()
  848. result = tools['storage'].list_available_dates(source=source)
  849. return json.dumps(result, ensure_ascii=False, indent=2)
  850. # ==================== 启动入口 ====================
  851. def run_server(
  852. project_root: Optional[str] = None,
  853. transport: str = 'stdio',
  854. host: str = '0.0.0.0',
  855. port: int = 3333
  856. ):
  857. """
  858. 启动 MCP 服务器
  859. Args:
  860. project_root: 项目根目录路径
  861. transport: 传输模式,'stdio' 或 'http'
  862. host: HTTP模式的监听地址,默认 0.0.0.0
  863. port: HTTP模式的监听端口,默认 3333
  864. """
  865. # 初始化工具实例
  866. _get_tools(project_root)
  867. # 打印启动信息
  868. print()
  869. print("=" * 60)
  870. print(" TrendRadar MCP Server - FastMCP 2.0")
  871. print("=" * 60)
  872. print(f" 传输模式: {transport.upper()}")
  873. if transport == 'stdio':
  874. print(" 协议: MCP over stdio (标准输入输出)")
  875. print(" 说明: 通过标准输入输出与 MCP 客户端通信")
  876. elif transport == 'http':
  877. print(f" 协议: MCP over HTTP (生产环境)")
  878. print(f" 服务器监听: {host}:{port}")
  879. if project_root:
  880. print(f" 项目目录: {project_root}")
  881. else:
  882. print(" 项目目录: 当前目录")
  883. print()
  884. print(" 已注册的工具:")
  885. print(" === 日期解析工具(推荐优先调用)===")
  886. print(" 0. resolve_date_range - 解析自然语言日期为标准格式")
  887. print()
  888. print(" === 基础数据查询(P0核心)===")
  889. print(" 1. get_latest_news - 获取最新新闻")
  890. print(" 2. get_news_by_date - 按日期查询新闻(支持自然语言)")
  891. print(" 3. get_trending_topics - 获取趋势话题(支持自动提取)")
  892. print()
  893. print(" === RSS 数据查询 ===")
  894. print(" 4. get_latest_rss - 获取最新 RSS 订阅数据")
  895. print(" 5. search_rss - 搜索 RSS 数据")
  896. print(" 6. get_rss_feeds_status - 获取 RSS 源状态")
  897. print()
  898. print(" === 智能检索工具 ===")
  899. print(" 7. search_news - 统一新闻搜索(关键词/模糊/实体)")
  900. print(" 8. find_related_news - 相关新闻查找(支持历史数据)")
  901. print()
  902. print(" === 高级数据分析 ===")
  903. print(" 9. analyze_topic_trend - 统一话题趋势分析(热度/生命周期/爆火/预测)")
  904. print(" 10. analyze_data_insights - 统一数据洞察分析(平台对比/活跃度/关键词共现)")
  905. print(" 11. analyze_sentiment - 情感倾向分析")
  906. print(" 12. aggregate_news - 跨平台新闻聚合去重")
  907. print(" 13. compare_periods - 时期对比分析(周环比/月环比)")
  908. print(" 14. generate_summary_report - 每日/每周摘要生成")
  909. print()
  910. print(" === 配置与系统管理 ===")
  911. print(" 15. get_current_config - 获取当前系统配置")
  912. print(" 16. get_system_status - 获取系统运行状态")
  913. print(" 17. trigger_crawl - 手动触发爬取任务")
  914. print()
  915. print(" === 存储同步工具 ===")
  916. print(" 18. sync_from_remote - 从远程存储拉取数据到本地")
  917. print(" 19. get_storage_status - 获取存储配置和状态")
  918. print(" 20. list_available_dates - 列出本地/远程可用日期")
  919. print("=" * 60)
  920. print()
  921. # 根据传输模式运行服务器
  922. if transport == 'stdio':
  923. mcp.run(transport='stdio')
  924. elif transport == 'http':
  925. # HTTP 模式(生产推荐)
  926. mcp.run(
  927. transport='http',
  928. host=host,
  929. port=port,
  930. path='/mcp' # HTTP 端点路径
  931. )
  932. else:
  933. raise ValueError(f"不支持的传输模式: {transport}")
  934. if __name__ == '__main__':
  935. import argparse
  936. parser = argparse.ArgumentParser(
  937. description='TrendRadar MCP Server - 新闻热点聚合 MCP 工具服务器',
  938. formatter_class=argparse.RawDescriptionHelpFormatter,
  939. epilog="""
  940. 详细配置教程请查看: README-Cherry-Studio.md
  941. """
  942. )
  943. parser.add_argument(
  944. '--transport',
  945. choices=['stdio', 'http'],
  946. default='stdio',
  947. help='传输模式:stdio (默认) 或 http (生产环境)'
  948. )
  949. parser.add_argument(
  950. '--host',
  951. default='0.0.0.0',
  952. help='HTTP模式的监听地址,默认 0.0.0.0'
  953. )
  954. parser.add_argument(
  955. '--port',
  956. type=int,
  957. default=3333,
  958. help='HTTP模式的监听端口,默认 3333'
  959. )
  960. parser.add_argument(
  961. '--project-root',
  962. help='项目根目录路径'
  963. )
  964. args = parser.parse_args()
  965. run_server(
  966. project_root=args.project_root,
  967. transport=args.transport,
  968. host=args.host,
  969. port=args.port
  970. )