成长微博·默庵·超级个体··AI 生成
我打造LLM-Wiki知识库
作者详细拆解了自己设计的 LLM-Wiki 知识库系统,核心围绕「输入-输出」两个环节:输入时将文章自动拆分为知识节点、原文和索引三层存储;输出提供「发芽报告」和「主题融合生成」两种模式,均通过 grep 结构化查询替代大规模意图识别来大幅节省 token 成本。本文不是理论阐述或产品评测,而是一位独立开发者的技术方案实录,适合对 AI 知识库技术路线、成本优化策略感兴趣的读者。
核心观点
- ▍知识库的核心设计是「结构化存储 + grep 命令式查询」,以绕过大规模意图识别的高 token 消耗,使知识库在内容膨胀时输出成本仍可控。
- ▍输入输出分离设计:输入端 token 消耗固定且低,输出端才是成本大头,因此优化重点应在输出端。
- 01输入环节:贴链接或文字后,AI 先分析并拆分为多个知识节点(每段可含独立概念),最终存储三层结构——原文、知识节点、索引文件。
- 02「发芽报告」功能:每日回顾时,AI 不读全部节点,而是通过图谱关系找到当天新节点最相关的 4-5 个已有节点进行融合,生成新观点。
- 03「主题融合生成」功能:先对用户主题做一次意图识别(仅费少量 token),拆出约 10 个标签,然后通过多轮 grep 命令式结构化查询逐步筛选,最后只对筛选出的几篇文章进行融合生成。
- 04grep 命令式查询绕过了意图识别环节,结构化查询的 token 消耗几乎没有,只有最终的融合生成才耗费 token,整体输出成本可控制在几千 token 内。
- 05输入端支持爬取公众号、知乎、网页等,并自动转换为 Markdown 格式存储。
反方 / 局限
- — 「发芽报告」的融合效果依赖于知识节点之间的图谱关联质量,如果关联建得不好或稀疏,碰撞出有价值新观点的概率会下降。
- — 主题生成的第一步意图识别若不准,会导致后续 grep 筛选偏离目标,最终融合内容质量取决于初始标签的质量。
- — 作者未提及该系统在极端噪声输入(如贴错误链接、抓取失败、纯营销文案)下的健壮性,也未说明知识节点拆分粒度如何自适应不同体量的文章。
LLM-Wikigrep 命令式查询知识节点意图识别Markdown
4 分钟 · 10 卡片 · 27 资料
读原文 →概念锚点
前置背景
技术原理
平行视角
未来推演
延伸追问