智能数据治理 - DAMA数据质量评估报告

一、数据治理痛点

传统治理成本极高

百张表、大量SQL，人工梳理血缘、识别废弃表、编写质检规则周期长、极易出错。

传统工具无业务语义

传统数据质量工具需要人工逐条配置规则，无法自动理解业务、无法识别隐性逻辑问题（时间倒挂、状态矛盾、流程缺失）。

数据问题无自动根因

传统工具只能报问题，无法自动区分流程/系统/技术债务/人为因素根因。

血缘无法自动更新

业务迭代快、表关系频繁变更，传统图谱无法增量同步，很快失效。

二、项目方案

本项目采用本地预处理、AI语义解析、图数据库增量迭代三层解耦架构，打造全自动化、可迭代的数据治理体系。无需人工配置任何校验规则、无需手动梳理数据关系，可高效适配海量数据表、业务代码及运行数据的治理场景，兼顾分析精准度、大规模数据适配能力与长期运维迭代性。

1. 本地预处理层

基础支撑

针对系统海量表结构、业务代码、运行日志进行标准化清洗与规整，过滤无效冗余信息。通过科学的模块化分批处理机制，规避大模型解析超限、逻辑错乱等问题，统一数据输入标准，为上层智能解析提供稳定、高质量的数据基础。

2. AI语义解析层

核心能力

依托大模型原生语义理解与业务推理能力，实现零人工干预的全维度智能分析。可自主识别数据表业务属性与活跃状态、推演全域数据关联关系、生成适配业务场景的数据校验标准，自动挖掘数据质量问题、量化业务影响、聚类问题根因，并输出标准化结构化结果，全方位替代传统人工分析工作。

3. 图数据库增量迭代层

长效保障

基于图数据库结构化存储全域数据表、数据关联关系，通过智能去重机制保障数据图谱整洁规范。支持业务迭代全场景增量更新，适配表结构调整、业务功能上线、线上数据流转变更等场景，无需重复全量分析，可智能识别失效数据与冗余关系，实现数据血缘、数据质量治理的动态更新和长效闭环管理。

本地预处理 AI语义解析图数据库全自动 · 无预设规则 · 增量迭代

报告摘要

Kuzu MCP 自动扫描识别出 22 张活跃表 和 31 张废弃表（dbMissing=true）。Kingbase 真实数据评估 7 个维度，发现 27 个问题，综合评分 51/100。

活跃表

废弃表

质量问题

222,652

数据总量(行)

废弃表(开发/申请)

93.5%

最高字段缺失率

七大维度评分

完整性42

唯一性82

准确性45

一致性38

有效性50

及时性56

数据轮廓38

活跃表清单 (22张, Kuzu MCP 识别)

表名	行数	说明
pms_project_basic	5,745	项目主数据表
pms_milestone_detail	84,644	项目里程碑明细表
pms_milestone_confirm	2,425	里程碑验收确认表
pms_milestone_history	19,189	里程碑变更历史表
pms_milestone_invoice	22,545	里程碑开票表
pms_project_resource	36,399	项目资源明细表
pms_project_resource_by_month	49,643	人力资源月度统计表
pms_project_change	518	项目变更业务表
pms_progress_snapshot	1,402	项目进度快照表
cpb_research_project	54	研发项目主表

废弃表清单 (31张, dbMissing=true)

表名	废弃原因
pms_develop_apply_template	dbMissing=true
pms_develop_apply_template_detail	dbMissing=true
pms_develop_milestone_change	dbMissing=true
pms_develop_other_work_change	dbMissing=true
pms_develop_product_change	dbMissing=true
pms_develop_project_change	dbMissing=true
pms_develop_qm_work_change	dbMissing=true
pms_develop_revenue_change	dbMissing=true
pms_project_apply_main	dbMissing=true
pms_project_apply_break	dbMissing=true

质量问题详情

4.1 完整性 42/100

#	问题描述	严重度	影响
4.1.1	项目经理大面积缺失 5,745条中5,370条project_manager为空(93.5%)	严重	项目负责人无法追溯
4.1.2	里程碑负责人缺失 70,053条无leader_code(82.7%)	严重	责任链条断裂

4.2 唯一性 82/100

#	问题描述	严重度	影响
4.2.1	逻辑删除记录占比34.5% 29,176条dr=true，影响唯一性判定	中	统计口径偏差

4.3 准确性 45/100

#	问题描述	严重度	影响
4.3.1	状态字段100%为空 milestone_detail.status和project_basic.project_status	严重	无法判断项目/里程碑状态
4.3.2	时间倒挂57条 end_time < start_time	高	进度计算错误
4.3.3	里程碑金额为零占67% 56,988条amount=0	高	财务统计失效

4.4 一致性 38/100

#	问题描述	严重度	影响
4.4.1	跨表码值无字典 project_type、risk_level等无统一字典约束	高	数据口径不统一
4.4.2	金额类型不一致部分表用分、部分用元，无统一单位	高	财务计算错误

4.5 有效性 50/100

#	问题描述	严重度	影响
4.5.1	进度快照108列重复设计 12组月度验收字段，违反规范化	高	可维护性差
4.5.2	风险等级无标准化约束 risk_level为varchar，无CHECK约束	中	过滤可能遗漏

4.6 及时性 56/100

#	问题描述	严重度	影响
4.6.1	进度快照覆盖历史年份部分项目最新快照停在pyear=2023	高	进度统计反映过时状态
4.6.2	里程碑结束时间缺失 44,399条无end_time(52.5%)	中	无法判断是否逾期

4.7 数据轮廓 38/100

#	问题描述	严重度
4.7.1	有效里程碑不足10% 84,644条中同时满足负责人+时间+金额>0+未删除的不足5,000条	严重
4.7.2	项目类型倾斜97.3% project_type高度集中在'01'	高
4.7.3	研发项目覆盖仅54条 cpb_research_project仅54条 vs 项目主表5,745条	中
4.7.4	风险登记覆盖率0.23% 13条风险/5,745个项目	中
4.7.5	质量管理表仅3条 pms_project_quality覆盖项目0.05%	中

根因分析

流程缺陷35%

字段无录入规范、里程碑非必填、风险制度未执行

系统限制25%

NOT NULL缺失、状态未自动流转、无字典约束

技术债务22%

废弃表未清理、表结构非规范、历史数据未迁移

人为因素18%

人员未录入负责人、里程碑未提交、质量检查不执行

改进建议

短期修复 (1-3个月)

1. PM字段必填

pms_project_basic新增/编辑强制project_manager非空，存量批量补填。

2. 里程碑必填负责人和时间

leader_code和start_time双重校验，缺口数据分批补录。

3. 清理逻辑删除数据

dr=true记录归档历史表，pms_milestone_detail减34.5%数据量。

4. 修复状态流转

milestone_detail.status和project_basic.project_status激活并自动流转。

长期治理 (3-12个月)

5. 删除31张废弃表

DROP TABLE并清理@Table代码注解。

6. 重构pms_progress_snapshot

12组月度验收列拆分行式明细表(project_code,month,amount)。

7. 数据字典建设

统一project_type编码、枚举字段字典约束。

8. 质量监控自动化

定时SQL监控缺失率、时间倒挂、状态异常指标。

结论

研发项目管理域综合评分 51/100，处于中低水平。核心问题：完整性(PM缺失93.5%) + 准确性(状态字段全空) + 数据轮廓(有效数据不足10%)。Kuzu MCP识别31张废弃表需优先清理。建议1-3个月内完成PM补全和状态流转修复。

框架: DAMA-DMBOK七大维度工具: Kuzu MCP + Kingbase 评估日期: 2026-05-10

DAMA 数据质量评估报告