深览-阅读与思考

8.2

深览指数

成长微博·默庵·超级个体·06-01 20:11·AI 生成

我打造LLM-Wiki知识库

作者详细拆解了自己设计的 LLM-Wiki 知识库系统，核心围绕「输入-输出」两个环节：输入时将文章自动拆分为知识节点、原文和索引三层存储；输出提供「发芽报告」和「主题融合生成」两种模式，均通过 grep 结构化查询替代大规模意图识别来大幅节省 token 成本。本文不是理论阐述或产品评测，而是一位独立开发者的技术方案实录，适合对 AI 知识库技术路线、成本优化策略感兴趣的读者。

核心观点

▍知识库的核心设计是「结构化存储 + grep 命令式查询」，以绕过大规模意图识别的高 token 消耗，使知识库在内容膨胀时输出成本仍可控。
▍输入输出分离设计：输入端 token 消耗固定且低，输出端才是成本大头，因此优化重点应在输出端。

01输入环节：贴链接或文字后，AI 先分析并拆分为多个知识节点（每段可含独立概念），最终存储三层结构——原文、知识节点、索引文件。
02「发芽报告」功能：每日回顾时，AI 不读全部节点，而是通过图谱关系找到当天新节点最相关的 4-5 个已有节点进行融合，生成新观点。
03「主题融合生成」功能：先对用户主题做一次意图识别（仅费少量 token），拆出约 10 个标签，然后通过多轮 grep 命令式结构化查询逐步筛选，最后只对筛选出的几篇文章进行融合生成。
04grep 命令式查询绕过了意图识别环节，结构化查询的 token 消耗几乎没有，只有最终的融合生成才耗费 token，整体输出成本可控制在几千 token 内。
05输入端支持爬取公众号、知乎、网页等，并自动转换为 Markdown 格式存储。

反方 / 局限

— 「发芽报告」的融合效果依赖于知识节点之间的图谱关联质量，如果关联建得不好或稀疏，碰撞出有价值新观点的概率会下降。
— 主题生成的第一步意图识别若不准，会导致后续 grep 筛选偏离目标，最终融合内容质量取决于初始标签的质量。
— 作者未提及该系统在极端噪声输入（如贴错误链接、抓取失败、纯营销文案）下的健壮性，也未说明知识节点拆分粒度如何自适应不同体量的文章。

LLM-Wikigrep 命令式查询知识节点意图识别Markdown

4 分钟 · 10 卡片 · 27 资料

读原文 →

我打造LLM-Wiki知识库

概念锚点

前置背景

技术原理

平行视角

未来推演

延伸追问