qData 2.3.0：主数据、数据集市与非结构化元数据，三把钥匙解开数据中台落地死结

预计阅读时间：11 分钟

企业数据中台喊了几年，落地效果却常常打折。原因不复杂——核心主数据各系统各写各的、沉淀下来的资产找不到也用不起来、文档图片音视频等非结构化数据压根没进治理体系。三块短板同时存在，数据中台就成了"半成品"。

qData 数据中台 V2.3.0 针对这三个顽疾做了针对性增强。下面逐项拆解，并给出可落地的实践示例。

主数据：从"各说各话"到"一本字典"

主数据的问题本质是标准割裂。同一个"客户"，CRM 里叫 customer_id，ERP 里叫 kunnr，字段类型、编码规则全不一样。下游做分析时，要么人工对齐，要么干脆放弃关联。

V2.3.0 的主数据模块增强了几个关键点：

统一建模与标准发布：支持在线定义主数据实体、属性、编码规则，并一键发布为全企业共享的标准模型。
多源映射与自动对齐：将异构系统的同义字段映射到同一标准属性上，映射关系版本化管理。
质量规则内置：主数据入库前触发校验（唯一性、完整性、引用一致性），脏数据拦截在源头。

核心收益：下游系统不再需要关心上游字段叫什么、怎么编码，只对接标准模型即可。

数据集市：让资产从"仓库"走向"货架"

数据资产沉淀了，但"找不到、不敢用"是更隐蔽的痛点。数据集市解决的是资产的最后一公里——把主题域、指标、维度封装成可直接消费的"货架商品"。

V2.3.0 数据集市的增强：

主题域分组：按业务域（营销、供应链、财务等）组织数据集，每个集市自带语义说明和血缘。
指标标准化发布：指标定义、计算口径、粒度在集市内统一，避免"同名不同义"。
权限与订阅：集市支持角色级授权，下游应用可订阅集市变更通知，确保消费方始终拿到最新口径的数据。

非结构化元数据：把"暗数据"拉进治理圈

企业里非结构化数据（合同 PDF、产品图片、会议录音）的量往往远超结构化数据，但长期游离在治理体系外，被称为"暗数据"。

V2.3.0 新增非结构化元数据管理能力：

自动提取元数据：对 PDF、图片、音视频等文件，自动抽取文件属性、关键文本、标签。
标签体系与分类：支持自定义标签分类体系，对非结构化资产进行语义组织。
与结构化资产统一检索：非结构化元数据进入统一目录，和表、指标一样可搜索、可授权、可溯源。

实践示例：主数据标准建模 + 数据集市配置

下面用一个简化场景演示：统一"客户"主数据标准，并发布一个客户主题的数据集市。示例使用 YAML 配置（qData 支持声明式定义），可直接改造后用于项目初始化。

1. 主数据标准模型定义

# master_data_customer.yaml — 客户主数据标准模型
apiVersion: qdata.mdm/v2
kind: MasterDataModel
metadata:
  name: customer-standard
  displayName: 客户主数据标准模型
  version: "1.0.0"
  description: 全企业统一的客户核心属性定义
spec:
  entity:
    codeRule: "CUS-{YYYYMMDD}-{SEQ:4}"  # 编码规则：CUS-20250710-0001
    attributes:
      - name: customer_id
        type: string
        length: 20
        required: true
        unique: true
        displayName: 客户统一编码
      - name: customer_name
        type: string
        length: 100
        required: true
        displayName: 客户名称
      - name: industry
        type: enum
        enumValues: [制造业, 金融, 互联网, 医疗, 教育, 其他]
        required: true
        displayName: 行业分类
      - name: region
        type: string
        length: 50
        displayName: 所属区域
      - name: credit_level
        type: enum
        enumValues: [A, B, C, D]
        displayName: 信用等级
  # 多源映射：将异构系统字段对齐到标准属性
  sourceMappings:
    - sourceSystem: CRM
      mappings:
        - sourceField: customer_id    # CRM 里的字段名
          targetAttribute: customer_id
        - sourceField: company_name
          targetAttribute: customer_name
        - sourceField: sector
          targetAttribute: industry
    - sourceSystem: ERP
      mappings:
        - sourceField: kunnr          # SAP 客户编号
          targetAttribute: customer_id
        - sourceField: name1
          targetAttribute: customer_name
        - sourceField: bztxt
          targetAttribute: industry
  # 入库质量规则
  qualityRules:
    - name: uniqueness_check
      type: unique
      on: [customer_id]
      action: reject                  # 重复编码直接拦截
    - name: completeness_check
      type: notNull
      on: [customer_id, customer_name, industry]
      action: quarantine              # 缺必填项进入隔离区待人工处理

使用说明：将此 YAML 通过 qData 管理台或 CLI 导入，即可创建标准模型。sourceMappings 部分是关键——新增源系统时只需追加映射条目，下游消费方无需任何改动。

2. 数据集市发布配置

# data_mart_customer.yaml — 客户主题数据集市
apiVersion: qdata.mart/v2
kind: DataMart
metadata:
  name: customer-mart
  displayName: 客户主题集市
  owner: data-governance-team
  version: "1.0.0"
spec:
  subjectDomain: 营销与客户管理
  description: 包含客户主数据、交易汇总、信用评分等指标
  datasets:
    - name: customer_master
      source: masterData:customer-standard   # 引用上面定义的主数据模型
      refresh: daily
    - name: customer_transaction_summary
      source: dw:fact_transaction
      grain: customer_id, month
      refresh: daily
  indicators:
    - name: customer_count
      displayName: 客户总数
      measureType: count
      grain: [region, industry]
      datasetRef: customer_master
    - name: avg_monthly_revenue
      displayName: 客户月均收入
      measureType: avg
      measureField: revenue
      grain: [region, industry, credit_level]
      datasetRef: customer_transaction_summary
     口径说明: "单客户近12个月交易金额均值"
  access:
    roles:
      - name: marketing-analyst
        permissions: [read, subscribe]
      - name: data-engineer
        permissions: [read, write, subscribe]
    subscription:
      enabled: true
      channels: [email, webhook]

使用说明：集市定义后，授权角色内的用户可直接通过 API 或 SQL 接口查询 customer_count、avg_monthly_revenue 等指标，无需关心底层表结构。口径变更时订阅方会收到通知。

3. 非结构化元数据标注（Python 调用示例）

"""
演示：通过 qData SDK 为一批合同 PDF 提取元数据并打标签
运行前：pip install qdata-sdk
配置环境变量：QDATA_HOST, QDATA_TOKEN
"""
from qdata_sdk import UnstructuredClient, TagSet

client = UnstructuredClient()

# 1. 批量提取 PDF 元数据
pdf_paths = ["contracts/2024/供应链协议A.pdf",
             "contracts/2024/采购合同B.pdf"]

for path in pdf_paths:
    meta = client.extract_metadata(
        file_path=path,
        extract_text=True,          # 提取关键文本段落
        extract_tags=True,          # 自动推断标签
        ocr_enabled=True            # 扫描件启用 OCR
    )
    print(f"文件: {path}")
    print(f"  关键文本片段: {meta.text_snippets[:2]}")
    print(f"  自动标签: {meta.auto_tags}")

# 2. 定义业务标签体系并手动补充
tag_set = TagSet(name="合同分类体系")
tag_set.add_category("合同类型", values=["采购", "销售", "供应链", "租赁"])
tag_set.add_category("风险等级", values=["低", "中", "高"])
tag_set.add_category("涉及业务域", values=["供应链", "财务", "法务"])
client.publish_tag_set(tag_set)

# 3. 为指定文件打上业务标签
client.tag_file(
    file_path="contracts/2024/供应链协议A.pdf",
    tags={"合同类型": "供应链", "风险等级": "中", "涉及业务域": ["供应链", "法务"]}
)

# 之后在统一目录中搜索：
results = client.search("合同类型=供应链 AND 风险等级=中")
for r in results:
    print(r.file_path, r.tags, r.text_snippets[0][:80])

注意：qdata-sdk 为 qData 的官方 Python SDK，具体安装和认证方式请参照产品文档。上述代码逻辑可直接改造用于项目中的批量元数据提取与标注流程。

落地建议与风险提示

决策点	建议	常见风险
主数据标准建模	先选 1-2 个高频实体（客户、物料）做试点，验证映射与质量规则后再铺开	一次性定义所有实体，标准讨论周期过长，项目拖死
数据集市发布	从分析团队最迫切的 3-5 个指标起步，快速验证口径一致性	追求大而全的集市设计，指标口径争论不休
非结构化治理	先对高价值文件类型（合同、报告）做元数据提取和标签，再逐步扩展	对所有文件无差别处理，存储和计算成本失控

一句话总结：qData 2.3.0 的三块增强——主数据标准化、数据集市可消费化、非结构化元数据纳入治理——分别对应数据中台落地中"标准不统一、资产难用、暗数据失控"三个最顽固的瓶颈。升级本身不产生价值，价值来自用这些能力把企业数据从"有但用不了"推进到"标准统一、随时可用、全域可见"。