rss_schema.sql 4.8 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107
  1. -- TrendRadar RSS 数据库表结构
  2. -- 用于存储 RSS/Atom 订阅源数据
  3. -- ============================================
  4. -- RSS 源配置表
  5. -- 存储订阅源的基本信息
  6. -- ============================================
  7. CREATE TABLE IF NOT EXISTS rss_feeds (
  8. id TEXT PRIMARY KEY, -- 源 ID(如 "hacker-news")
  9. name TEXT NOT NULL, -- 显示名称(如 "Hacker News")
  10. feed_url TEXT DEFAULT '', -- RSS/Atom URL(可选,配置文件中已有)
  11. is_active INTEGER DEFAULT 1, -- 是否启用
  12. last_fetch_time TEXT, -- 最后抓取时间
  13. last_fetch_status TEXT, -- 最后抓取状态(success/failed)
  14. item_count INTEGER DEFAULT 0, -- 当日条目数
  15. created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
  16. updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
  17. );
  18. -- ============================================
  19. -- RSS 条目表
  20. -- 以 URL + feed_id 为唯一标识,支持去重存储
  21. -- ============================================
  22. CREATE TABLE IF NOT EXISTS rss_items (
  23. id INTEGER PRIMARY KEY AUTOINCREMENT,
  24. title TEXT NOT NULL, -- 标题
  25. feed_id TEXT NOT NULL, -- 所属 RSS 源
  26. url TEXT NOT NULL, -- 文章链接
  27. guid TEXT DEFAULT '', -- GUID/ID(RSS guid 或 Atom id)
  28. published_at TEXT, -- RSS 发布时间(ISO 格式)
  29. summary TEXT, -- 摘要/描述
  30. author TEXT, -- 作者
  31. first_crawl_time TEXT NOT NULL, -- 首次抓取时间
  32. last_crawl_time TEXT NOT NULL, -- 最后抓取时间
  33. crawl_count INTEGER DEFAULT 1, -- 抓取次数
  34. created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
  35. updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
  36. FOREIGN KEY (feed_id) REFERENCES rss_feeds(id)
  37. );
  38. -- ============================================
  39. -- 抓取记录表
  40. -- 记录每次抓取的时间和数量
  41. -- ============================================
  42. CREATE TABLE IF NOT EXISTS rss_crawl_records (
  43. id INTEGER PRIMARY KEY AUTOINCREMENT,
  44. crawl_time TEXT NOT NULL UNIQUE, -- 抓取时间(HH:MM)
  45. total_items INTEGER DEFAULT 0, -- 总条目数
  46. created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
  47. );
  48. -- ============================================
  49. -- 抓取来源状态表
  50. -- 记录每次抓取各 RSS 源的成功/失败状态
  51. -- ============================================
  52. CREATE TABLE IF NOT EXISTS rss_crawl_status (
  53. crawl_record_id INTEGER NOT NULL,
  54. feed_id TEXT NOT NULL,
  55. status TEXT NOT NULL CHECK(status IN ('success', 'failed')),
  56. error_message TEXT, -- 失败时的错误信息
  57. PRIMARY KEY (crawl_record_id, feed_id),
  58. FOREIGN KEY (crawl_record_id) REFERENCES rss_crawl_records(id),
  59. FOREIGN KEY (feed_id) REFERENCES rss_feeds(id)
  60. );
  61. -- ============================================
  62. -- 推送记录表
  63. -- 用于 push_window once_per_day 功能
  64. -- 以及 ai_analysis analysis_window once_per_day 功能
  65. -- ============================================
  66. CREATE TABLE IF NOT EXISTS rss_push_records (
  67. id INTEGER PRIMARY KEY AUTOINCREMENT,
  68. date TEXT NOT NULL UNIQUE, -- 日期(YYYY-MM-DD)
  69. pushed INTEGER DEFAULT 0, -- 是否已推送
  70. push_time TEXT, -- 推送时间
  71. ai_analyzed INTEGER DEFAULT 0, -- 是否已进行 AI 分析
  72. ai_analysis_time TEXT, -- AI 分析时间
  73. ai_analysis_mode TEXT, -- AI 分析模式
  74. created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
  75. );
  76. -- ============================================
  77. -- 索引定义
  78. -- ============================================
  79. -- RSS 源索引
  80. CREATE INDEX IF NOT EXISTS idx_rss_feed ON rss_items(feed_id);
  81. -- 发布时间索引(用于按时间排序)
  82. CREATE INDEX IF NOT EXISTS idx_rss_published ON rss_items(published_at DESC);
  83. -- 抓取时间索引(用于查询最新数据)
  84. CREATE INDEX IF NOT EXISTS idx_rss_crawl_time ON rss_items(last_crawl_time);
  85. -- 标题索引(用于标题搜索)
  86. CREATE INDEX IF NOT EXISTS idx_rss_title ON rss_items(title);
  87. -- URL + feed_id 唯一索引(实现去重)
  88. CREATE UNIQUE INDEX IF NOT EXISTS idx_rss_url_feed
  89. ON rss_items(url, feed_id);
  90. -- GUID + feed_id 部分唯一索引(guid 非空时优先用 guid 去重)
  91. CREATE UNIQUE INDEX IF NOT EXISTS idx_rss_guid_feed
  92. ON rss_items(guid, feed_id) WHERE guid != '';
  93. -- 抓取状态索引
  94. CREATE INDEX IF NOT EXISTS idx_rss_crawl_status_record ON rss_crawl_status(crawl_record_id);