问题解决

上线后一定会遇到问题

很多新手以为："代码写完、测试通过、部署上线，就完了。"

不是的。

上线只是开始，真正的问题在上线之后才会出现：

用户行为超出你的预期
代码在更大数据量下暴露问题
攻击者找到漏洞
之前没测到的边界情况

这很正常。 不是你测试不够，而是真实环境太复杂，你不可能提前预测所有情况。

案例1：内容获取 Bug - 数据量暴露的问题

发现问题

背景：

微信 RSS 的核心功能是获取微信公众号文章内容。

开发阶段测试了十几篇文章，都能正常获取。

上线后：

开始收到用户反馈："某某公众号的文章获取不到内容"。

我的第一反应： 是不是个别文章的问题？

后台排查后发现：

不是个别文章，是某些类型的文章都会出现这个问题。

表现：正常有内容的文章，被代码误判为"无内容"，直接跳过了。

分析原因

问题本质：

代码不够完备，对微信公众号文章内容的判断逻辑有漏洞。

为什么开发阶段没发现？

测试样本太少（只测了十几篇），没覆盖到所有内容类型。

为什么上线后才暴露？

随着用户数增长，获取的文章数量大幅增长，各种边界情况都出现了。

真相：

微信公众号的文章内容结构比我想象的复杂，不是一个统一的格式。

解决过程

这个问题不是一次性解决的，而是持续迭代优化。

第1步：收集样本

随着用户数增长，每天获取几千、上万篇文章。

出问题的文章越来越多，样本也越来越丰富。

第2步：分析规律

看后台日志，看哪些文章获取失败了。

问 AI：

这些文章的 HTML 结构有什么特点？
为什么我的代码会误判？

第3步：提炼内容类型

通过大量样本分析，微信公众号的文章内容类型分类如下：

类型值	类型名称	说明
0	标准富文本	最常见的图文文章
7	音频/视频分享	动态 Vue 应用，内容通过 JS 加载
8	图文消息	类似小红书的多图+短文风格
10	短内容	纯文字或转发消息，无 js_content 容器
其他	未知类型	其他特殊内容，待补充

第4步：持续优化代码

每发现一种新类型，就优化一次判断逻辑。

不可能一下就做出适配所有内容类型的代码，只能不断迭代。

效果

优化前：

小样本测试（十几篇）通过率 100%
大规模使用后，成功率下降

优化后：

全面提升了内容获取成功率
覆盖了更多内容类型

核心经验：

小样本测试通过 ≠ 真实环境没问题。

只有大数据量才能暴露边界情况。

经验总结

1. 小样本测试的局限性

开发阶段测试十几个、几十个样本，只能验证"主流程能跑通"。

真实环境的复杂度，只有上线后才能遇到。

2. 大数据量是最好的测试

用户数增长 → 数据量增长 → 边界情况暴露 → 收集样本 → 优化代码

3. 问题不是一次性解决的

不要期望"一次性写出完美代码"。

真实的开发是：上线 → 发现问题 → 优化 → 再发现问题 → 再优化。

4. 后台日志很重要

我在后台专门做了管理面板，能看到哪些文章获取失败了。

没有日志，根本不知道出了什么问题。

案例2：邮件攻击 - 上线后才会遇到的安全问题

发现问题

背景：

我的微信 RSS SaaS 版，用户注册会发验证邮件。

我配置了 Webhook（用户注册时自动推送通知给我）。

异常出现：

某天晚上，手机疯狂震动，Webhook 推送停不下来。

打开一看：

高频的临时邮箱注册推送
验证邮箱通过的推送
几分钟内几十个注册

进后台一看：

大量临时邮箱的用户（类似 [email protected]、[email protected]）。

察觉到异常：这是批量注册攻击。

分析原因

我问 AI：

我的 SaaS 项目遭遇批量注册攻击，
短时间内大量临时邮箱注册。

可能的原因是什么？
怎么解决？

AI 分析：

原因：

没有人机验证
注册接口暴露，可以被脚本调用
攻击者用自动化工具批量注册

危害：

消耗服务器资源
消耗邮件发送额度
数据库被垃圾数据填满

解决方案

我继续问 AI：

需要引入人机验证，
有哪些方案？

AI 推荐了几个：

Google reCAPTCHA
hCaptcha
Cloudflare Turnstile

我继续追问：

对比这三个方案，
我用的是 Cloudflare 管理域名，
哪个更合适？

AI 推荐：Cloudflare Turnstile

理由：

你已经用了 Cloudflare
完全免费，无调用次数限制
用户体验好，大部分情况自动通过
集成简单

我：好，就用这个。

集成过程

我问 AI：

帮我在注册页面集成 Cloudflare Turnstile。

前端：Vue 3
后端：FastAPI

给出完整代码和步骤。

AI 给了完整方案：

Cloudflare 控制台获取 Site Key 和 Secret Key
前端加一行 JS 和一个 div 容器
后端验证用户提交的 token

我照着做：

复制 AI 给的代码
测试，能用
部署上线

从决定到上线：30分钟。

效果

引入 Turnstile 后：

批量注册攻击停止了
正常用户注册没受影响（大部分自动通过，无需点击）
服务器资源恢复正常

对正常用户的影响：

几乎无感。大部分情况 Turnstile 在后台自动验证，用户不需要点任何东西。

只有可疑行为才会弹出验证框，让用户点一下。

经验总结

1. 上线前没想到的，上线后会暴露

我测试阶段只测了"用户能不能正常注册"，没想到会有批量攻击。

2. 问题发现到解决：6小时

晚上10点发现异常
分析、选方案、集成、测试、部署
凌晨4点解决

3. AI 帮了大忙

分析原因
推荐方案
写代码
调试

我只负责做决策和测试。

4. 免费方案够用

不需要花钱买商业防护服务，Cloudflare Turnstile 完全免费，效果很好。

从案例中提炼的方法

1. 怎么发现问题？

主动监控：

关键操作配 Webhook（注册、支付、订阅）
后台做管理面板，能看日志
异常时第一时间知道

我的配置：

用户注册 → Webhook 推送
文章获取失败 → 记录日志，后台能查看

没有监控：

你根本不知道出了什么问题，用户反馈了你才知道。

2. 怎么分析问题？

不要自己瞎猜，问 AI。

标准提问模板：

我的项目遇到了 [问题描述]。

表现：[具体症状]
背景：[项目技术栈、功能]
日志/错误信息：[如果有的话]

可能的原因是什么？
怎么解决？

AI 会：

分析可能原因
给出解决方案
推荐工具/服务

我的两个案例：

内容获取 Bug：问 AI "这些文章的 HTML 结构有什么特点？"
邮件攻击：问 AI "可能的原因是什么？怎么解决？"

3. 怎么选择方案？

AI 通常会给多个方案，你要做选择。

我的选择标准：

优先免费方案
- Cloudflare Turnstile 免费
- reCAPTCHA 有额度限制
- → 选 Turnstile
优先简单方案
- 集成简单，30分钟搞定
- → 选简单的
优先用现有服务
- 已经用了 Cloudflare
- → 选 Cloudflare 的方案
优先不影响用户体验
- Turnstile 无感验证
- reCAPTCHA 要点击、识别图片
- → 选体验好的

4. 怎么实施？

标准流程：

让 AI 写代码

帮我集成 Cloudflare Turnstile。
前端：Vue 3
后端：FastAPI
给出完整代码。

本地测试
- 测试正常场景
- 测试边界情况
部署上线
- 代码推到服务器
- 观察效果
持续观察
- 看问题是否解决
- 看有没有新的问题

记住： 不要期望一次性完美解决，持续迭代优化。

问题解决的核心原则

1. 接受"上线后才会发现问题"这个现实

不是你做得不好，是真实环境太复杂。

2. 小样本测试 ≠ 真实环境测试

我的内容获取功能，测试十几篇文章没问题，上线后大数据量才暴露问题。

3. 监控 > 被动等用户反馈

配置 Webhook、记录日志，第一时间发现问题。

4. AI 是最好的救火队员

分析原因、推荐方案、写代码，AI 都能帮你。

5. 快速解决 > 完美方案

邮件攻击案例：6小时内解决，先止损，不追求完美。

6. 持续迭代 > 一次性完美

内容获取 Bug：不可能一下就适配所有情况，只能不断优化。

核心要点

真实环境 ≠ 测试环境

小样本测试通过，不代表大规模使用没问题。

监控和日志很重要

配 Webhook、做管理面板，第一时间发现问题。

AI 是最好的帮手

分析问题、推荐方案、写代码，让 AI 帮你。

不要追求一次性完美

上线 → 发现问题 → 优化 → 再发现 → 再优化，这才是真实的开发节奏。

免费工具够用

Cloudflare Turnstile、Cloudflare 防护，都是免费的，效果很好。

AI News RSS 项目

AI对话助手(带工具调用)

问题解决

上线后一定会遇到问题

案例1：内容获取 Bug - 数据量暴露的问题

发现问题

分析原因

解决过程

效果

经验总结

案例2：邮件攻击 - 上线后才会遇到的安全问题

发现问题

分析原因

解决方案

集成过程

效果

经验总结

从案例中提炼的方法

1. 怎么发现问题？

2. 怎么分析问题？

3. 怎么选择方案？

4. 怎么实施？

问题解决的核心原则

核心要点

问题解决 ​

上线后一定会遇到问题 ​

案例1：内容获取 Bug - 数据量暴露的问题 ​

发现问题 ​

分析原因 ​

解决过程 ​

效果 ​

经验总结 ​

案例2：邮件攻击 - 上线后才会遇到的安全问题 ​

发现问题 ​

分析原因 ​

解决方案 ​

集成过程 ​

效果 ​

经验总结 ​

从案例中提炼的方法 ​

1. 怎么发现问题？ ​

2. 怎么分析问题？ ​

3. 怎么选择方案？ ​

4. 怎么实施？ ​

问题解决的核心原则 ​

核心要点 ​

问题解决

上线后一定会遇到问题

案例1：内容获取 Bug - 数据量暴露的问题

发现问题

分析原因

解决过程

效果

经验总结

案例2：邮件攻击 - 上线后才会遇到的安全问题

发现问题

分析原因

解决方案

集成过程

效果

经验总结

从案例中提炼的方法

1. 怎么发现问题？

2. 怎么分析问题？

3. 怎么选择方案？

4. 怎么实施？

问题解决的核心原则

核心要点