如果 DataCloud 和 ChatBI(即智能分析/自然语言分析产品)是 两个独立产品,那么「语义化知识层」究竟应该归属在哪里,需要从 职责边界 来判断:
🔍 结论(最清晰的划分)
语义化知识层(Semantic Layer)应该属于 DataCloud,而不是 ChatBI。
但 ChatBI 可以使用、扩展并“消费”这个语义层。
下面给出清晰、工程化的原因与架构说明。
✅ 为什么语义化知识层应属于 DataCloud?
1. 语义层本质上是“数据资产的一部分”
语义层解决的是:
- 业务术语的定义(如订单、客户、活跃用户等)
- 指标口径(GMV、DAU、转化率)
- 维度体系(地区、时间、组织)
- 与底层数据表的映射关系
- 元数据、血缘、权限绑定
➡ 这些都是企业级数据治理资产 它们与具体展示方式(ChatBI、报表、Dashboard)无关。
因此它应该沉淀在 DataCloud 的元数据系统 中。
2. 语义层是“多个消费端共用的层”
语义层不仅 ChatBI 用:
- BI 报表用
- API 数据服务用
- AI 智能体用(NLQ / RAG / Agent)
- 第三方应用用
- 自助分析工具用
➡ 如果让 ChatBI 负责语义层,其他系统就很难复用,会造成治理割裂。
语义层作为“企业数据的统一解释”,必须放在 DataCloud。
3. ChatBI 的职责是“消费语义层,而不是定义语义层”
ChatBI 是面向业务用户的自然语言交互工具,职责是:
- 使用语义层,将业务问题翻译成 SQL/查询
- 用语义层约束分析口径与权限
- 通过 LLM 提供问答与智能探索
它不负责创建语义层,只负责应用语义层。
这类似:
- 语义层 = 数据的“字典(Dictionary)+ 上下文”
- ChatBI = 使用这个字典写文章的“作者”
🧩 那 ChatBI 里有没有语义功能?
有,但属于“语义增强”,不是语义层本体。
ChatBI 的语义功能示例:
- NLQ → 语义层映射
- 语义补全(如识别“昨天销量”对应日期过滤 + 销售指标)
- 上下文推理
这些能力在 ChatBI 里“使用”语义层,但不“保存”语义层。
🏗 正确的产品模块划分(推荐)
📦 DataCloud(底座产品)
| 模块 | 是否包含 |
|---|---|
| 元数据管理 | ✅ |
| 数据目录 | ✅ |
| 血缘 | ✅ |
| 权限模型 | ✅ |
| 语义化知识层(业务术语、指标、维度、映射) | ✅ ← 必须属于这里 |
| 数据服务/API | ✅ |
| 数据可观测性 | ✅ |
📦 ChatBI(上层AI产品)
| 模块 | 是否包含 |
|---|---|
| NLQ(自然语言转查询) | ✅ |
| 语义解析 | 使用 DataCloud 的语义层 |
| 业务问答 | 使用语义层或数据 |
| 智能推荐 | 使用语义层 |
| 可视化自动生成 | 使用语义层 |
| 数据权限继承 | 来自 DataCloud |
🔐 权限与治理角度的必然性
语义层经常绑定:
- 字段级权限
- 数据敏感度标签
- 合规标签
- 指标治理流程
- 发布/审核流程
这些必须由 DataCloud 统一治理,否则 ChatBI 很难保证安全性和一致性。
🧠 AI-ready 架构角度
企业要做“Data for AI”,语义层是:
大模型与数据之间的中间语言(Interpretable Layer)
它必须与数据放在一起(DataCloud),不能只跟一个应用(ChatBI)绑定。
🎯 最终一句话总结
语义化知识层属于 DataCloud,是基础数据资产的一部分;ChatBI 负责使用语义层进行自然语言分析与解释。
DataCloud × ChatBI 双产品架构图:语义层的治理与消费
架构图深度解析
这张图展示了一个清晰的生产者-消费者模型,我们将从三个关键维度来解读:
1. 核心疆域划分 (The Boundaries)
- 底部蓝框:DataCloud (企业数据底座 &
唯一的真理来源)
- 这是数据资产的“家”。它不仅存储物理数据,更重要的是存储了“关于数据的数据”(元数据和语义)。
- 核心组件 —— 语义化知识层 (Semantic Layer):这是图中的心脏。它包含了业务术语表、指标定义(如 "GMV" 的计算公式)、维度结构和物理映射。它是一个静态的、经过治理的知识库。
- 治理引擎 (Governance Engine):负责语义层的生命周期管理,确保只有经过审批的指标才能被外部看到。
- 上部绿框:ChatBI (智能分析应用 & 语义消费者)
- 这是面向用户的界面。它的核心能力是理解自然语言并将其转化为数据查询。
- 核心组件 —— NLQ 语义解析引擎 (AI/LLM):它的大脑。关键在于,这个大脑本身不存储业务知识,而是在运行时从 DataCloud“加载”知识上下文,从而准确理解用户的提问。
2. 关键流程一:语义治理闭环 (左侧橙色路径)
这条路径展示了语义层是如何被创建和管理的,强调了 DataCloud 的职责。
- 角色:数据管理员 / 分析工程师 (Data Steward / Analytics
Engineer)
- 他们是语义层的维护者,懂数据也懂业务。
- Step 1: 定义与建模 (Define & Model)
- 在 DataCloud 的管理界面中,定义新的业务术语(如“高价值客户”),创建指标(如“过去30天复购率”),并将它们映射到底层的物理表字段。
- Step 2: 提交审批 (Submit for Review)
- 新定义的指标不会立即生效,而是进入治理流程。这可能涉及业务部门和数据部门的联合审核,确保口径一致(例如:财务和市场对 GMV 的定义必须统一)。
- Step 3: 发布与版本控制 (Publish & Versioning)
- 审批通过后,语义定义正式发布到“生产环境语义层”。DataCloud 记录版本号,确保可追溯。
3. 关键流程二:语义消费与分析 (右侧蓝色路径)
这条路径展示了 ChatBI 如何利用 DataCloud 的成果,强调了 ChatBI 的职责。
- 角色:业务用户 (Business User)
- 他们不懂 SQL,只用自然语言提问。
- Step A: 自然语言提问 (Ask in NL)
- 用户提问:“上个季度华东地区的销售额是多少?”
- Step B: 获取语义上下文 (Fetch Semantic Context)
- 这是最关键的一步。 ChatBI 的解析引擎在处理问题前,会实时(或准实时缓存)调用 DataCloud 的 API。
- 它会问 DataCloud:“什么是‘上个季度’(时间维度)?什么是‘华东地区’(区域维度)?什么是‘销售额’(对应哪个指标,权限如何)?”
- Step C: 生成与执行查询 (Generate & Execute
Query)
- LLM 结合用户的问题和从 DataCloud 获取的精确语义上下文,生成准确的 SQL。
- 查询被发送回 DataCloud 的计算引擎执行,同时 DataCloud 会在此处进行最后一道数据权限校验。
- Step D: 结果可视化 (Visualize)
- ChatBI 接收数据结果,并将其渲染为图表或文字回答。
总结该架构的优势
- 治理的唯一性(Single Source of Truth):无论企业采购了多少个上层应用(ChatBI, 传统BI, 报表工具),指标口径只需在 DataCloud 修改一次,所有下游应用自动对齐。
- AI 的准确性:LLM 不再需要“幻觉”业务逻辑。DataCloud 提供了确定性的语义上下文,极大地提高了 ChatBI 的 Text-to-SQL 准确率。
- 权限的安全性:数据权限(谁能看什么数据)与语义层绑定在底座,ChatBI 无法绕过 DataCloud 的安全机制查看敏感数据。