JUDGEMENT, ENGINEERED · v0.2.1 PRERELEASE · OPEN SOURCE

凭感觉的判断,
拆成可引用、可打分、可证伪的决策系统

/boss 是一个开源的多评委合议判断流水线 —— 1 锚点 + N 维度评委独立打分, 输出 anchor_delta 让判断者反思跳步, 30/90/365 attribution 自动归因, 版本化冻结 (chmod 444) 永不可变。从此每一次判断, 6 个月后都能回头校准。

6phase
Pipeline · Router → Merge
1+6judge
Panel · anchor + 6 dim
5lens
每位评委固定尺子
30/90/365day
Attribution · 自动归因
DEMO · PRERELEASE

本站及本仓库展示的是方法论本身与脱敏的合成案例, 不含任何真实客户 / 项目 / 财务数字。所有 sample report 数字、评委金句、checkpoint 都是为演示而虚构; 真实判断书因 confidential 默认仅本地保留。评委不是真人, 是带有 doctrine 的 perspective skill — 与任何在世人物的真实观点无关。

SECTION 1 · WHY

为什么判断需要工程化?

在重要决策上, 我们都遇到过 3 件事: 6 个月后想不起当初为什么这么判、反方意见被自己心理排除却没记录、不同视角的人各打各的分但从不显式对照。/boss 把这三件事变成流水线的硬约束。

PAIN 01
我当时是这么判的, 但具体怎么推出来的? 想不起来了。
每一次判断都版本冻结, 6 个月后能回头校准
Phase 5 写入 reports/<brand>/versions/v{n}_<date>.md, chmod 444 永久不可变。后续修订只能生成 v{n+1}, 旧版完整保留。配 30/90/365 checkpoint, 系统自动拉数据更新, 失败即生成 Failure Card。
PAIN 02
反方意见我心里都想过, 但写不写出来不重要吧?
反方机制分布式内化, 每位评委强制三字段
每份 dim review 必填 adversarial_view: if_thesis_wrong (错了哪环最脆弱) + contrary_signal_observed (近期反向信号带 source) + base_rate_warning (同类历史 base rate)。缺字段 → skill_lint 阻断 commit。
PAIN 03
几个人各打各的分, 谁对谁错也说不清。
输出 anchor_delta, 不评判谁对, 让判断者反思
Phase 5 输出 panel_summary: dim 加权均分 / anchor 心证均分 / anchor_delta = dim − anchor。|Δ| > 2.0 时高亮提示 "维度与锚点判断有显著差异"。系统不自动判定谁对, 让判断者自己反思是否有跳步未自知。
SECTION 2 · HOW

6 阶段流水线 + 1+6 评委合议

每次 /boss "议题" 调用都走完 6 阶段。每个阶段都有明确的 input / output / failure mode 与 user gate。评委独立打分、互不可见 — 这是 panel 设计的硬约束。

2.1 · 流水线 6 phase

本 skill (用户面) 只做路由 + 委派, 实际 Phase 1-5 跑交给内部的 600 行规范 orchestrator。
PHASE 0
Router
解析 CLI, 路由 FRESH / EVOLUTION
PHASE 1
Context
起草 PRD, 拉 Wiki 背景, GATE 1
PHASE 2
Search
N 个 sub-agent 并行调研, raw_evidence
PHASE 3
Synthesis
Lead 合成 Leverage / Fragile / Conflicts
PHASE 4
Panel
5 评委独立打分, 5 镜头 + adversarial_view
PHASE 5
Merge
合议 panel_summary, 冻结 versions/v{n}

2.2 · Panel = 1 anchor + N dimension 评委

每位维度评委各持一套 doctrine (PEST / 黄金圈 / JTBD / BMC / 7S / Unit Economics)。anchor 评委 (基准对照) 不参与维度加权, 只输出"心证"作为镜子。
锚点 anchor 行业趋势 industry 战略目标 strategic 客户战略 customer 产品战略 product 组织战略 org 经营战略 financial

5 镜头 (所有评委共用尺子)

Reasoning Soundness 推理一致 · ② Evidence Coupling 证据耦合 · ③ Counter Treatment 反方处理 · ④ Falsifiability 可证伪 · ⑤ Real-world Resilience 现实韧性

dim_weighted_meananchor_tian_mean = anchor_delta
正 Δ = 维度评委比锚点更乐观 (可能锚点有未显式的反方排除) · 负 Δ = 锚点比维度评委更乐观 (可能维度评委过度保守 base rate) · |Δ| > 2.0 = 飞书卡片高亮, 提示反思跳步

议题类型自动识别 → panel auto-select 4 dim 评委上场 (而非默认 6 dim 全上, 节省 token)。GATE 1 用户可用 --panel-add / --panel-drop 微调。

2.3 · 一个 vault 服务任意老板

v0.2.1 起的 multi-anchor 架构 (ADR-001/002): per-anchor 数据 instance (任意老板的知识库) 与通用 boss-skills (Phase 0-5 流水线 + 评委 + 5 镜头 + adversarial_view) 物理解耦。一个 vault 可同时持有多个老板的判断系统。

通用 (锚点无关) · skills/

  • skills/tian/ — /boss 用户面 entry
  • skills/tian-judgement-orchestrator/ — Phase 0-5
  • skills/*-perspective/ — 6 维度评委
  • skills/laotian-adapter/ — 抓取工具

这一层是开源 boss-skills 的"产品代码"。所有老板共用。

per-anchor (老板专属) · anchors/<slug>/

  • anchors/tian/ — 默认锚点
  •   ├── perspective/SKILL.md — anchor 评委 doctrine
  •   └── raw/ — 一手素材 (gitignored)
  • anchors/<new>/ — 加新老板, 3 步

这一层是 per-anchor 数据。每个老板一份, 互相隔离。

加新老板 · 3 步

$ mkdir -p anchors/jobs/{perspective,raw/interviews,raw/feishu-laotian}
$ cp anchors/tian/perspective/SKILL.md anchors/jobs/perspective/SKILL.md   # 改 mental_models
$ cp panels/default.yaml panels/jobs.yaml   # 改 anchor_slug + skill_path
$ /boss "某战略议题" --panel jobs   # 用 jobs 锚点跑判断

2.4 · 任意 LLM runtime · v1 HTTP API

v0.3.0 起 (ADR-004): boss-skills 升级为跨语言 product. Hermes / OpenClaw / LangChain / 自写 runtime / curl 都能调。FastAPI + Docker, 5 sync endpoint, OpenAPI 3.0 spec 自动生成。

v1 sync endpoint (5 个)

GET/v1/healthzliveness
GET/v1/versionskill+git+vault 版本
GET/v1/panels列 panels + 评委
GET/v1/anchors列 anchors + perspective
POST/v1/attribution/check触发 30/90/365
OpenAPI 3.0 spec auto-generated at /v1/openapi.json, Swagger UI at /docs. 任何 client 可 codegen。
v2 推迟 · 完整 Phase 0-5 流水线 (45 min, 需 async job queue) 等 v1 反馈稳定后做。
# 任意 HTTP client 都能调
$ docker build -t boss-vault:v0.3.0 .
$ docker run -d -p 8421:8421 \
    -e ANTHROPIC_API_KEY=$KEY \
    boss-vault:v0.3.0
# health check
$ curl localhost:8421/v1/healthz
{ "status": "ok", "timestamp": "..." }
# list panels (multi-anchor)
$ curl localhost:8421/v1/panels | jq
{ "count": 1, "panels": [{
  "name": "default",
  "anchor_slug": "tian", ...
4 种典型 runtime 接入 · 详见 docs/api/integration-cookbook.md: curl (shell) · httpx (Python) · Hermes-like (async daemon) · OpenClaw-like (LangChain/MCP-style tool registration). 全部 30 min 内接入。
SECTION 3 · GET STARTED

3 步上手 / 第一份判断

装完直接跑, 不需要 Mac host / 不需要付费云浏览器 / 不需要预装任何 perspective skill。先验证管线再加重 — symlink 模式默认, 改 SKILL.md 立即生效。

1

克隆仓库

boss-vault clone 到本地, 装 Python 3.10+ 依赖。

git clone https://github.com/zhanglunet/boss-vault.git
cd boss-vault
pip install -r requirements.txt
2

安装 /boss skill (symlink 默认热更新)

跑一行命令, vault 内的 skills/tian/SKILL.md 会 symlink 到 ~/.claude/skills/boss/, 改即生效。配 .env 填 ANTHROPIC_API_KEY。

bash scripts/install_tian_skill.sh
cp .env.example .env
# 编辑 .env 填 ANTHROPIC_API_KEY
3

跑第一份判断

从最简单的 /boss list 验证安装。然后用自然语言议题描述启动一份完整判断 — Lead 会自动生成 brand-slug, GATE 1 让你确认。

/boss list                            # 验证安装
/boss "评估某战略议题" --quick        # 快速跑通 (~ 18 分钟)
/boss "认真版本议题"                   # 完整 5 评委 (~ 45 分钟)
terminal · first judgement
SECTION 4 · SAMPLE REPORT (虚构脱敏 DEMO)

合成示例 · AcmeCo 战略议题

下面是一份完全虚构的合成示例报告 — AcmeCo 是占位名, 数字、金句、checkpoint 均为演示而设, 不指代任何真实公司或个人。真实判断书因 confidential 默认不入 git, 仅本地保留。

SYNTHETIC DEMO

AcmeCo · 业务方向战略判断

brand_slug: acmeco-strategy-2026 · case_id: C-DEMO-0001 · topic_type: strategic · panel: default
v1
2026-05-28
5 judges · 4 dim + 1 anchor
Panel Summary
7.4
DIM 加权均分
6.3
ANCHOR 心证
+1.1
ANCHOR_DELTA
0.65
CONFIDENCE
Phase 1 · Context

触发事件: AcmeCo CEO 在 2026 Q1 业绩会议提出"是否拆分 SaaS 业务作为独立 brand 上市"; 时间窗口: 2026 Q3 董事会前需出方案; 约束: 现有 SaaS 业务占总收入 28%, 与 PaaS 业务存在销售线索互导关系。

Background from Wiki: 引用 _wiki/entities/acmeco, _wiki/people/acmeco-ceo, _wiki/concepts/business-divest (markdown link, 不复制内容, 版本冻结后 Wiki 修订不污染快照)。

Phase 3 · Leverage Map (合成摘要)

变量 1 · SaaS 销售线索独立性 · 当前 ≈ 35% 独立 / 65% PaaS 互导 · 翻转阈值 < 50% 独立则拆分代价过高 · 数据源: 内部 CRM 季度报告

变量 2 · 上市资本市场窗口 · 2026 Q4 同业 IPO 5 起 · 翻转阈值 Q3 政策变化 / 同业破发率 > 30% · 数据源: 行业 IPO tracker

变量 3 · SaaS 团队独立性 · 销售 / 研发已物理隔离, 财务 / HR 共享 · 翻转阈值 财务独立核算时间 ≥ 6 个月

Panel Verdict · 评委金句 (合成虚构)
锚点 · ANCHOR6.3 / 10
销售互导这一条不是数字问题, 是组织问题。把它说成 35% 就当独立解决了 — 那叫跳步, 不叫判断。
行业趋势 · INDUSTRY-TREND7.8 / 10
同业 5 起 IPO 中 3 起破发, 这个 Hype Cycle 已经过了峰值。再等半年窗口更准。
战略目标 · STRATEGIC-VISION7.2 / 10
长期愿景没问题, 短期取舍是销售线索 — 不能拿"独立 brand"作为模糊的目标遮盖具体的协同代价。
经营战略 · FINANCIAL-STRATEGY6.8 / 10
Unit Economics 上, 拆分后 SaaS 的 CAC 会涨 ~ 30% (因失去 PaaS 互导)。LTV-CAC 比从 3.2 降到约 2.4, 仍可接受, 但缓冲变窄。
组织战略 · ORG-STRATEGY7.5 / 10
销售 / 研发已隔离是利好。财务独立核算需要前置 6 个月 — 这意味着拆分决策窗口实际上是 Q1 而非 Q3。
adversarial_view (合成示例)
if_thesis_wrong: 销售互导被低估 → 拆后 SaaS 增长断崖 · contrary_signal: 同业拆分案中 6/10 出现互导依赖 · base_rate: B2B 拆分 5 年存活率 ~ 55%
Phase 6 · Attribution · 30 / 90 / 365 天 (合成虚构)
HORIZONCHECK ATFALSIFICATION METRIC (可独立观测)
30d 2026-06-27 SaaS 销售线索来源月报中, "PaaS 引荐"占比是否 < 50%? 数据源: 内部 CRM 月报。若 ≥ 60% 则 falsified — 销售独立性远未达到。
90d 2026-08-26 同业 IPO 同期破发率是否 < 30%? 数据源: WebSearch 行业新闻 + 招股书 tracker。若 ≥ 50% 则 falsified — 资本市场窗口已关闭。
365d 2027-05-28 若已拆分, SaaS 业务独立 12 个月后 LTV-CAC 比是否 ≥ 2.4 (panel 预测)? 若 < 2.0 则 falsified, 写 Failure Card 触发 EVOLUTION。

注 · 上述 AcmeCo 报告完全合成, 数字、金句、checkpoint 均为演示而设。真实判断书 sensitivity 默认 confidential, 仅本地保留, 出站需过 scripts/redact_check.py fail-close 闸。

SECTION 5 · DEEPER DIVES

想看更深的方法论? 4 张互动信息图

每张图都是单页互动 SPA, 脱敏可对外, 点开可自由探索。从 5 案演化轨迹到命令使用指南, 不需要装东西就能看完。

SECTION 6 · FAQ

常见问题

这跟 ChatGPT / Claude 直接问"我该做什么决定"有什么不同? +

核心差异: (1) 多评委独立合议而非单 LLM 输出 — 评委互不可见, 防止"链式同意"; (2) 不输出最终分, 而是输出 anchor_delta 让判断者反思跳步; (3) 30/90/365 attribution — 每次判断都有可观测的证伪 metric, 6 个月后回头校准, 不是"问完就结束"。

简单议题用普通 LLM 对话更轻; 重大决策 (必须能 6/12 月后回看) 用 /boss。

"评委"是真人吗? +

不是。评委是带有 doctrine 的 perspective skill — 例如 industry-trend-perspective 持有 PEST / Porter / Hype Cycle / Base Rate 这套行业判断框架。每位评委的判断只代表该 doctrine 框架推出的视角, 与任何在世真人的真实观点无关。

anchor 评委 (tian) 是特殊位 — 它的 doctrine 是三个心智模型(触发-阈值-行动 / 跳步识别 / 反方排除), 严格 anti-fabrication: 不替任何人编造未公开的话。本仓库的 anchor 设计是开源框架, 任何使用者可以替换为自己的心智模型。

为什么不只跑一个评委? 评委越多越好吗? +

不是。议题类型自动识别 → panel auto-select 4 dim 评委上场 (而非默认 6 dim 全上), 节省 token 与时间。例如 strategic 议题选 industry-trend / strategic-vision / financial / org-strategy; brand 议题选 customer-strategy / strategic-vision / industry-trend / product-strategy。

需要全员上场时 → --full-panel 强制 6 dim 全上 (panel 共 7 评委)。GATE 1 用户可用 --panel-add / --panel-drop 微调。

"anchor_delta" 是什么? 为什么这是核心? +

anchor_delta = dim_weighted_mean − anchor_tian_mean, 即维度评委加权均分减去锚点心证均分。

正 Δ = 维度评委比锚点更乐观 (可能锚点有未显式的反方排除); 负 Δ = 锚点比维度评委更乐观 (可能维度评委过度保守 base rate); |Δ| ≤ 0.5 = panel 已对齐, 信号最强; |Δ| > 2.0 = 飞书卡片高亮提示反思跳步。

关键: 系统不自动判定谁对 — 这是 panel 设计的反方机制核心。Δ 只是镜子, 判断者自己反思跳步。

需要哪些 API key / 多少成本? +

最小依赖: ANTHROPIC_API_KEY (Claude API)。可选: feishu API key (推送卡片), WebSearch API (industry-trend 评委用)。

成本: 单议题 token 预算约 $3.6 (5 评委独立合议 + 7 sub-agent 并行调研)。--quick 模式跳过 WebSearch 节省 ~ 70% token (约 $1.0)。Sample 项目 V0 跑 5 个真议题累计 ~ $25。

怎么保证脱敏 / 不泄露真实客户数据? +

4 级敏感度: public / internal / confidential / tian_only。所有 artifacts (case.json / synthesis / reviews / report.md) 默认 confidential

出站前必经 scripts/redact_check.py fail-close 闸: 命中真名 / 飞书内部 link / 4+ 位精确财务数字 / 精确 % → 阻断, 写入 failure_cards/blocked-publish.log 由人工审核。

仓库 .gitignore 排除 reports/ / cases/ / raw/ / _wiki/entities/ 等所有含真实数据目录, git 只保留方法论代码 + 脱敏 README + 设计 PRD。本站所有 sample 都是合成虚构。

EVOLUTION 模式跟 FRESH 有什么区别? +

同一议题 (同 brand-slug) 二次调用: 若 reports/<slug>/report.md 已存在 且 未传 --refreshEVOLUTION 模式: Phase 1E 列出"自上版以来变了什么", 只重跑变化的维度, 评委只在变化维度上重打分, 版本号 +1, 旧版完整保留。节省 ~ 60% 时间。

EVOLUTION 不是简单的 "再跑一次" — 它显式标注 diff plan, 让"判断的演化轨迹"成为可追溯的数据。30 天 attribution checkpoint 触发后, EVOLUTION 自动启动重新评估。

可以自定义 panel 吗? 怎么加一个行业 panel? +

可以。/boss panels new my-industry 克隆 panels/default.yamlpanels/my-industry.yaml, 编辑修改 judges / auto_judge_selection.rules / display_name

调用时: /boss "议题" --panel my-industry。首次 FRESH 时 panel 名会写入 reports/<brand>/panel.yaml 锁定, 保证后续 EVOLUTION 的可比性。