AI 工作流架构

可逐环节审计的 AI 工作流。

我专门把复杂的专业工作——比如一份机构级研报——拆成几十个可追溯、可审计、会随时间变可靠的阶段。下面这条 33 阶段的研报流水线,是正在跑的真实例子。

↓ 看完整 33 阶段流程
33个可追溯阶段
2×2组红队攻击者,先于你审阅成果
4层终审:对账 · OCR · 网查 · 库交叉
12次事故 → 12 条永久护栏

流水线

一份研报,33 个阶段,26 个专职 agent

从读完历史教训开工,到四层终审后才入库——每个阶段都产出一份被追踪的产物。点开任意阶段看它做了什么、留下了什么。

机构记忆交互闸 · 等用户并行 / 质检红队对抗终审

记忆与意图

先读完所有历史教训,再决定做什么。

  1. 事故预检

    逐条读完 INCIDENTS.md,为每个历史事故登记一条确认,本轮带着教训开工。

  2. P0 意图解析

    从提示里解析出 {ticker, company, listing};含糊时只问一次。

  3. P0 语言闸

    中文还是英文,必须由用户或 USER.md 决定,不可从聊天语言臆测。

  4. P0 SEC 邮箱闸

    美股 + A 模式才触发,设置合规的 EDGAR User-Agent。

  5. P0 配色闸

    四张卡共用一个配色,需用户确认。

  6. P0 流程自校验

    在跑之前先校验工作流契约本身没有漂移。

  7. P0 知识库预检

    查历史同票、同业、近 14 天宏观快照——能复用就不重复采集。

并行研究

三路同时跑,再收敛成一条边际洞察。

  1. P1 三路并行研究 ⇉ 并行 ×3

    三个 agent 并发,各管一摊:

    • 财务采集 — 公司财报、基本面与历史财务
    • 宏观扫描 — 利率、汇率、行业景气等宏观因子
    • 新闻情报 — 近期催化、风险与舆情
  2. P1.5 差异化洞察

    从三路材料里提炼出非共识的边际信息。

分析与质检

每一步分析都派两个独立同行复核。

  1. P2 财务分析

    财务分析 → 预测瀑布 → Sankey 注入,锁定为一个不可拆的序列。

  2. P2.6 宏观质检 ×2 ⇉ 并行 ×2

    两个独立同行平行复核,互不通气:

    • 质检同行 A — 独立复核宏观判断
    • 质检同行 B — 复核同一判断,看不到 A 的结论
  3. P3 波特五力

    五力逐项结构化,每一力都带数据锚与可证伪点。

  4. P3.5 波特质检 ×2 ⇉ 并行 ×2

    两个独立同行平行复核五力,互不通气:

    • 质检同行 A — 独立复核五力分析
    • 质检同行 B — 复核同一分析,看不到 A 的结论
  5. P3.6 质检合并

    把质检之间的分歧合并成一条可追溯的裁决。

  6. P3.7 交叉校验

    对历史、同业、宏观的漂移做规则化校验,自相矛盾就报警。

成稿与红队

只填锁定骨架,再让攻击者来找真缺陷。

  1. P5 成稿

    只能填充 SHA256 锁定的 HTML 骨架,禁止手写简化版。

  2. P5✓ HTML 结构闸 ↩ P5

    结构不符就把简化稿丢弃、回到锁定骨架重写。

    失败回到 P5 · 上限 2

  3. P5.5 数据校验 ↩ P5

    终稿里的每个数字都要对得上来源,对不上就重写。

    失败回到 P5 · 上限 2

  4. P5.6 波特深度闸 ↩ P3

    强制 5 力 × 6 个必填段落,深度不够打回 P3。

    失败回到 P3 · 上限 1

  5. ★ P5.7 红队审查 ×2 ⇉ 并行 ×2↩ P5

    两个攻击者并行开火,成功标准是找到真缺陷:

    • 数值攻击者 — 挑数字:口径、勾稽、可实现性
    • 叙事攻击者 — 挑逻辑:论证、措辞、模板泄漏

    失败回到 P5 · 上限 1

  6. P6 打包校验

    按四档严格度之一打包审查,状态只能落在白名单内。

视觉卡片

四张社交卡,渲染前再过一轮红队。

  1. P7 Logo 生产

    生成品牌字标,先存入本轮 cards/ 目录再登记路径。

  2. P8 卡片内容

    把研报浓缩进四张卡的内容槽。

  3. P8.5 硬编码审查

    审查卡片里有没有写死、未经来源支撑的数字。

  4. P9 排版填充

    在字数与像素预算之内把内容填进版式。

  5. P10 校验器 1

    确定性脚本检查卡片槽位结构。

  6. P10.5 校验器 2 ↩ P10

    网络事实核查,反复直到结果稳定(≤3)。

    失败回到 P10 · 上限 3

  7. P10.6 语气闸 ↩ P8

    逐槽检查分析口径与数据锚,不达标回到 P8。

    失败回到 P8 · 上限 1

  8. ★ P10.7 红队审查 ×2 ⇉ 并行 ×2↩ P9

    渲染前两个攻击者对四张卡并行开火:

    • 数值攻击者 — 渲染预算、配色、logo 路径、数值可实现性
    • 叙事攻击者 — 波特方向、跨卡叙事一致性

    失败回到 P9 · 上限 1

  9. P11 渲染卡片

    渲染 4 张 PNG,配色必须等于 P0 选定的那一个。

审计与归档

四层终审 + 事故复检都绿,才允许入库。

  1. ★ P12 四层终审

    数值对账 · 卡片 OCR · 网络三方核查 · 知识库交叉验证。

  2. 事故复检

    再读一遍 INCIDENTS.md,确认每条历史事故在本轮都没有复发。

  3. 入库归档

    单事务写入知识库;终审与复检双绿才执行,失败即回滚。

为什么不一样

每个阶段都留痕

33 个阶段,每一个都把它的产物写进运行目录——事件日志、校验 JSON、QA 报告、对账表。整条链可以从结论一路回溯到原始数据,没有黑箱。这正是 pai.ink「每篇文章都带来源清单」背后的同一套理念。

工作流自己攻击自己

两轮红队(数值攻击者 + 叙事攻击者),加上四个质检同行 agent 与一个交叉校验器。它们的成功标准不是「通过」,而是「找到真缺陷」——成果在交到你手上之前,先被自己人逐项挑刺。

每一次失败,都变成永久护栏

出过的每一个错都记进 INCIDENTS.md,并固化成一条开工前必读、收工后必检的规则。系统跑得越久,积累的经验越多——它不再是个 Jr. AI agent,而是一步步长成 Senior、乃至 VP 级别的 AI agent。下面是其中几条:

  • I-001

    事故 交互式 P0 闸被「自己编一个默认值」绕过。

    护栏 watchdog 现在拒绝在非白名单来源上越过这些闸。

  • I-002

    事故 锁定的 HTML 模板被跳过,输出了手写的简化稿。

    护栏 终稿必须由 SHA256 锁定骨架填充,结构闸会打回简化稿。

  • I-004

    事故 波特五力槽位被填成自由叙事,跳过了质检审议格式。

    护栏 深度闸强制 5 力 × 6 段,并在 P5 入口再校验一次。

同一项工作,第一次和第一百次,一样好——而且越做越好。

工作流真正难的不是跑通一次,而是让每一次的产出质量都完全一样。这条流水线就是为「稳定」而建:层层闸门和对抗审查让质量不随模型或状态波动。在此之上它高效、覆盖全面,要改时只需动其中一个阶段而不牵一发动全身,且每一步都可追溯、可审计。如果你有一项「做错代价很高」的专业工作想自动化——研究、尽调、合规、报告——我们聊聊。