0%

语义层(Semantic Layer)

如果 DataCloudChatBI(即智能分析/自然语言分析产品)是 两个独立产品,那么「语义化知识层」究竟应该归属在哪里,需要从 职责边界 来判断:

🔍 结论(最清晰的划分)

语义化知识层(Semantic Layer)应该属于 DataCloud,而不是 ChatBI

但 ChatBI 可以使用、扩展并“消费”这个语义层。

下面给出清晰、工程化的原因与架构说明。

✅ 为什么语义化知识层应属于 DataCloud?

1. 语义层本质上是“数据资产的一部分”

语义层解决的是:

  • 业务术语的定义(如订单、客户、活跃用户等)
  • 指标口径(GMV、DAU、转化率)
  • 维度体系(地区、时间、组织)
  • 与底层数据表的映射关系
  • 元数据、血缘、权限绑定

➡ 这些都是企业级数据治理资产 它们与具体展示方式(ChatBI、报表、Dashboard)无关。

因此它应该沉淀在 DataCloud 的元数据系统 中。


2. 语义层是“多个消费端共用的层”

语义层不仅 ChatBI 用:

  • BI 报表用
  • API 数据服务用
  • AI 智能体用(NLQ / RAG / Agent)
  • 第三方应用用
  • 自助分析工具用

➡ 如果让 ChatBI 负责语义层,其他系统就很难复用,会造成治理割裂。

语义层作为“企业数据的统一解释”,必须放在 DataCloud。


3. ChatBI 的职责是“消费语义层,而不是定义语义层”

ChatBI 是面向业务用户的自然语言交互工具,职责是:

  • 使用语义层,将业务问题翻译成 SQL/查询
  • 用语义层约束分析口径与权限
  • 通过 LLM 提供问答与智能探索

不负责创建语义层,只负责应用语义层

这类似:

  • 语义层 = 数据的“字典(Dictionary)+ 上下文”
  • ChatBI = 使用这个字典写文章的“作者”

🧩 那 ChatBI 里有没有语义功能?

有,但属于“语义增强”,不是语义层本体。

ChatBI 的语义功能示例:

  • NLQ → 语义层映射
  • 语义补全(如识别“昨天销量”对应日期过滤 + 销售指标)
  • 上下文推理

这些能力在 ChatBI 里“使用”语义层,但不“保存”语义层。


🏗 正确的产品模块划分(推荐)

📦 DataCloud(底座产品)

模块 是否包含
元数据管理
数据目录
血缘
权限模型
语义化知识层(业务术语、指标、维度、映射) ✅ ← 必须属于这里
数据服务/API
数据可观测性

📦 ChatBI(上层AI产品)

模块 是否包含
NLQ(自然语言转查询)
语义解析 使用 DataCloud 的语义层
业务问答 使用语义层或数据
智能推荐 使用语义层
可视化自动生成 使用语义层
数据权限继承 来自 DataCloud

🔐 权限与治理角度的必然性

语义层经常绑定:

  • 字段级权限
  • 数据敏感度标签
  • 合规标签
  • 指标治理流程
  • 发布/审核流程

这些必须由 DataCloud 统一治理,否则 ChatBI 很难保证安全性和一致性。


🧠 AI-ready 架构角度

企业要做“Data for AI”,语义层是:

大模型与数据之间的中间语言(Interpretable Layer)

它必须与数据放在一起(DataCloud),不能只跟一个应用(ChatBI)绑定。


🎯 最终一句话总结

语义化知识层属于 DataCloud,是基础数据资产的一部分;ChatBI 负责使用语义层进行自然语言分析与解释。

DataCloud × ChatBI 双产品架构图:语义层的治理与消费


架构图深度解析

这张图展示了一个清晰的生产者-消费者模型,我们将从三个关键维度来解读:

1. 核心疆域划分 (The Boundaries)

  • 底部蓝框:DataCloud (企业数据底座 & 唯一的真理来源)
    • 这是数据资产的“家”。它不仅存储物理数据,更重要的是存储了“关于数据的数据”(元数据和语义)。
    • 核心组件 —— 语义化知识层 (Semantic Layer):这是图中的心脏。它包含了业务术语表、指标定义(如 "GMV" 的计算公式)、维度结构和物理映射。它是一个静态的、经过治理的知识库。
    • 治理引擎 (Governance Engine):负责语义层的生命周期管理,确保只有经过审批的指标才能被外部看到。
  • 上部绿框:ChatBI (智能分析应用 & 语义消费者)
    • 这是面向用户的界面。它的核心能力是理解自然语言并将其转化为数据查询。
    • 核心组件 —— NLQ 语义解析引擎 (AI/LLM):它的大脑。关键在于,这个大脑本身不存储业务知识,而是在运行时从 DataCloud“加载”知识上下文,从而准确理解用户的提问。

2. 关键流程一:语义治理闭环 (左侧橙色路径)

这条路径展示了语义层是如何被创建和管理的,强调了 DataCloud 的职责。

  • 角色:数据管理员 / 分析工程师 (Data Steward / Analytics Engineer)
    • 他们是语义层的维护者,懂数据也懂业务。
  • Step 1: 定义与建模 (Define & Model)
    • 在 DataCloud 的管理界面中,定义新的业务术语(如“高价值客户”),创建指标(如“过去30天复购率”),并将它们映射到底层的物理表字段。
  • Step 2: 提交审批 (Submit for Review)
    • 新定义的指标不会立即生效,而是进入治理流程。这可能涉及业务部门和数据部门的联合审核,确保口径一致(例如:财务和市场对 GMV 的定义必须统一)。
  • Step 3: 发布与版本控制 (Publish & Versioning)
    • 审批通过后,语义定义正式发布到“生产环境语义层”。DataCloud 记录版本号,确保可追溯。

3. 关键流程二:语义消费与分析 (右侧蓝色路径)

这条路径展示了 ChatBI 如何利用 DataCloud 的成果,强调了 ChatBI 的职责。

  • 角色:业务用户 (Business User)
    • 他们不懂 SQL,只用自然语言提问。
  • Step A: 自然语言提问 (Ask in NL)
    • 用户提问:“上个季度华东地区的销售额是多少?”
  • Step B: 获取语义上下文 (Fetch Semantic Context)
    • 这是最关键的一步。 ChatBI 的解析引擎在处理问题前,会实时(或准实时缓存)调用 DataCloud 的 API。
    • 它会问 DataCloud:“什么是‘上个季度’(时间维度)?什么是‘华东地区’(区域维度)?什么是‘销售额’(对应哪个指标,权限如何)?”
  • Step C: 生成与执行查询 (Generate & Execute Query)
    • LLM 结合用户的问题和从 DataCloud 获取的精确语义上下文,生成准确的 SQL。
    • 查询被发送回 DataCloud 的计算引擎执行,同时 DataCloud 会在此处进行最后一道数据权限校验
  • Step D: 结果可视化 (Visualize)
    • ChatBI 接收数据结果,并将其渲染为图表或文字回答。

总结该架构的优势

  1. 治理的唯一性(Single Source of Truth):无论企业采购了多少个上层应用(ChatBI, 传统BI, 报表工具),指标口径只需在 DataCloud 修改一次,所有下游应用自动对齐。
  2. AI 的准确性:LLM 不再需要“幻觉”业务逻辑。DataCloud 提供了确定性的语义上下文,极大地提高了 ChatBI 的 Text-to-SQL 准确率。
  3. 权限的安全性:数据权限(谁能看什么数据)与语义层绑定在底座,ChatBI 无法绕过 DataCloud 的安全机制查看敏感数据。