DAMA数据管理知识体系指南-V1

2023-04-25,,

注:只摘抄了部分个人认为需要记录的笔记,如果想完整了解请看原文

中文版序

数据管理是把业务和信息技术融合起来所必须的一整套技术、方法及相应的管理和治理过程。

它的特殊定位决定了它涉及的知识体系面广且度深,而要把其中各知识领域和它们之间的相互关系梳理和解释清楚并不是一件容易的事情。

本书最初的目标简述如下:

    建立共识
    提供标准定义
    识别指导原则
    综述被接受的良好实践活动
    简述参加问题
    澄清范围和边界
    指导读者获取深度理解的额外资源

众所周知,任何所谓事实和良好建议都与他们所处的特点语境有关。因此,试图获取某一领域的知识体系、最佳实践或原理好似一个大胆的尝试。然而,正是由于观点的多样性和对语境的依赖性,才让我们讨论的主题变得更加丰富和深刻。

1.导论

1.1 数据:企业资产

数据和信息之间是相互联系的。数据是反映客观事物属性的记录,是信息的具体表现形式。数据经过加工处理之后,就成为信息;而信息需要经过数字化转变成数据才能存储和传输。

接收者对信息识别后表示的符号称为数据。数据的作用是反映信息内容并为接收者识别。声音、符号、图像、数字就成为人类传播信息的主要数据形式。因此,信息是数据的含义,数据是信息的载体。

面临许多重要决定,我们仍然面临着信息鸿沟-我们已知的信息和我们做出有效决策所需的信息之间存在着巨大差距。

每一个企业都需要有效地管理器日益重要的数据和信息资源。通过业务领导和技术专家的合作,数据管理职能可以有效地提供和控制数据和信息资产。

1.2 数据、信息、知识

数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现。

信息是指有上下文的数据。我们通过上下文解释数据来产生有意义的信息。上下文包括:

    数据元素和相关术语的业务含义
    数据表达的格式
    数据所出的时间范围
    数据与特定用法的相关性

数据是一些原始资料,我们作为消费者不断解释数据,从而创造出信息。由此产生的信息,再指导我们下一步的决定。

官方认定或被广泛接受其含义的常用术语也代表了宝贵的企业资源,有助于促进对含义丰富信息的共同理解。数据定义只是元数据的一种类型。元数据,包括业务数据定义,帮助确立了数据的上下文,因此管理元数据直接有助于提供信息的质量。管理信息资产包括数据管理和与其相关的元数据管理。

元数据:描述数据的数据

比如:一个药物的药理作用的版本信息

V1 对小孩,孕妇不能使用;创建人,创建时间,审批人,审批时间,审批结果
V2 对孕妇,65岁以上的老人不能使用;创建人,创建时间,审批人,审批时间,审批结果

信息有助于知识的产生。知识是对情境的理解、意识、认知、识别,以及对其复杂性的把握。知识是基于某一角度的信息整合形成的一种观点。这种观点是基于对模式(例如由其他信息和经验形成的趋势)的承认和解释。知识还可能还包括假设和有关推理的理论。知识可以是显式的,为企业或社会所承认为真的,也可以是隐形的-存在于个人的大脑里。当我们认识到信息的意义时,我们就获得了知识。

就像数据和信息,知识也是一个企业的资源。知识工作者通过理解信息以获得专业知识,然后应用专业知识来做出明智的决策和行动。知识工作者可能是专家、经理或执行官们。一个学习型组织是由一群积极寻求提高其集体知识和智慧的知识工作者组成的。

知识管理是一门学科,它促进了组织学习,并将知识产权作为企业资源来管理。无论是知识管理,还是数据管理,都依赖于高质量的数据和信息。知识管理是与数据管理密切相关的学科。

数据是信息、知识、才智和行动的基础。数据是真理吗?未必!数据可能不准确、不完整、过时或被误解。在实践层面,真理是在一定程度上最高质量的信息-数据是可用的、相关的、完整的、准确的、一致的、及时的、实用的、有意义的和能被理解的。认识到数据价值的组织可以采取具体的、积极的措施来提高数据和信息的质量。

1.3 数据生命周期

如同任何其他资产一样,数据资产也具有生命周期,企业管理数据资产,就是管理数据的生命周期。数据先被创建或获得,然后存储、维护和使用。最终被销毁。在其生命过程中,数据可能被提取、导入、导出、迁移、验证、编辑、更新、清晰、转型、转换、整合、隔离、汇总、引用、评审、报告、分析、挖掘、备份、回复、归纳和检索,然后最终被删除。

数据是流动的。数据在其存储空间流进和流出,并被包装在信息产品中交付使用。它以结构化的格式存储在数据库、平面文件、有标记的电子文件中、纸质文件、电子表格、报表、图形、电子图像文件,以及音频和视频录音等。通常情况下,80%企业的数据资产以非结构化格式存储。

数据的价值通常体现在实际使用中,也可能是在未来才有用。数据生命周期的所有阶段都有相关的成本和风险,但只有在"使用"阶段,数据才增加了商业价值。

有效的数据管理只指数据的生命周期开始于数据获取之前,企业先期知道数据规划、定制数据规范,以期获得实现数据采集、交付、存储和控制所需的技术能力。

通常,系统开发项目完成了数据规范,启动了数据生命周期以及若干数据规划。如下图所示,系统开发的生命周期(SDLC)不同于数据的生命周期。SDLC描述了一个项目的各个阶段,而数据生命周期描述了数据资产的管理过程。

然而,这两个生命周期是密切相关的,因为数据规划、规范和启动活动都是SDLC的有机组成部分。其他SDLC的活动从本质上讲是操作型或监督型的活动。

1.4 数据管理职能

数据管理(DM)是规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据和信息资产的价值。

数据管理还有许多其他的称谓,包括:

信息管理(IM)
企业信息管理(EIM)
企业数据管理(EDM)
数据资源管理(DRM)
信息资源管理(IRM)
信息资产管理(IAM)

1.6 广阔的范围

总的来说,数据管理包括十大职能。

数据治理:在数据管理和使用层面之上进行规划、监督和控制
数据架构管理:定义数据资产管理蓝图
数据开发:数据的分析、设计、实施、测试、部署、维护等工作
数据操作管理:提供从数据获取到清除的技术支持
数据安全管理:确保隐私、保密性和适当的访问权限等
数据质量管理:定义、监控和提高数据质量
参考数据和主数据管理:管理数据的黄金版本和副本
数据仓库和商务智能管理:实现报告和分析
文档和内容管理:管理数据库以外的数据
元数据管理:元数据的整合、控制以及提供元数据

1.7 一个新兴行业

目前的环境是一个术语,方法、工具。、意见和炒作相混杂的混合物。要形成一个公认的标准的数据管理行业,需要一些行业标准的制定:标准的术语和定义、流程和做法、角色和责任、可交付的产品或服务,以及度量的标准等。

1.10 本指南的目的

:简要介绍数据管理相关概念,并确定了数据的管理目标、职能和活动的主要交付成果、角色、原则、技术和组织文化方面的问题。它简要介绍了被人们普遍接受的良好规范以及重要的可选方法。

1.16 DAMA-DMBOK职能架构

基本环境要素:

目标和原则-每个职能的方向性业务目标,以及指导每个职能绩效的基本原则
活动-每个职能都是由低一级的活动组成。有些活动被分为子活动。活动进一步分解成任务和步骤
主要交付物-信息、物理数据库及各职能在管理过程中最终输出的文档。有些交付物是必须的,有些是建议性的,还有些则视情况而定可选的
角色和职责-参与执行和监督职能的业务和IT角色,及其承担相应职能中的具体职责。很多角色都参与数据管理的多个职能

配套的环境要素包括如下几个方面:

实践和方法:常见和流行的方法,以及交付物的执行过程和步骤。实践和方法也可能包括共同的约定、最佳实践建议及简单描述的可选方案
技术:配套技术的类别、标准和规程、产品的选择标准和常见的学习曲线。
组织和文化:这些问题可能包括以下方面:
管理指标:规模、工作量、时间、成本、质量、成效、成功和商业价值的度量
成功的关键因素
报告的结构
签约策略
预算和相关资源的分配问题
团队和群体动态
权威和授权
共同的价值观和信仰
期望和态度
个人风格和偏好差异
文化仪式、礼节和符号
组织传统
变革管理的建议

1.18 反复出现的主题

数据管理制度:数据管理的共同合作关系要求每一个职能的数据管理专员持续参与
数据质量:每个数据管理职能都有助于提高数据资产的质量
数据整合:每一个数据管理职能都有助于数据整合技术的应用,同时也会从数据整合中获益。企业应尽量减少冗余,整合来自多个源头的数据,并确保与"黄金"版本数据的一致性,控制多余的数据来管理数据资产
企业视角:在企业中,要尽可能实现管理企业数据资产的一致性。
文化变革领导力:在组织内部采纳这些数据管理方法和原则,需要各级领导人的认可和推动

2.数据管理概述

2.1 引言

2.2 使命和目标

使命:在信息的可用性、安全性和质量方面,满足并超越企业中所有利益相关者的信息需求。

战略目标:

    理解企业和所有利益相关者的信息需求
    获取、存储、保护和确保数据资产的完整性
    不断提高数据和信息的质量,包括:

      数据的完整性
      数据的准确性
      数据整合
      数据采集和显示的及时性
      数据的相关性和实用性
      明确性和被共同接受的数据定义

    明确隐私和保密,防止数据和信息未经授权或不恰当地被使用
    确保数据和信息资产的有效利用和价值最大化

其他非战略性的数据管理目标包括:

    促进数据管理成本
    促进对数据资产价值的更广泛和深入的理解
    在整个企业中,保持信息管理的一致性
    确保数据管理的努力和技术与业务需求的目标一致

目标应该遵循"SMART"原则:具体的、可衡量的、可实现的(或可操作的)、现实的,就指定的目标时间范围来说是及时的

2.4 职能与活动

2.4.1 数据管理活动

用名词短语来给各个职能命名,用动词短语给活动和子活动命名

2.4.2 活动组

数据管理的每项活动均属于以下4个活动组之一。

计划性活动(P):为其他数据管理活动设置战略和战术路线的活动
开发性活动(D):在项目实施过程中所展开的活动,也被认为是系统开发生命周期(SDLC)的一部分,通过分析、设计、构建、测试、准备和部署等方式创建数据交付物
控制性活动(C):一项持续进行的监督活动
操作性活动(O):一项持续进行的服务和支持活动

3.数据治理

治理和管理的区别:

1、两者的目的不同;

2、两者的主体与客体不同;

3、环境的影响程度不同;

4、资本结构反映出的信息不同;

5、实施的基础不同;

6、稳定性不同。

治理:

1、治理(Governance)一词在政治学领域,通常指国家治理,即政府如何运用治权来管理国家和人民。

2、是以维持政治秩序为目标,以公共事务为对象的综合性的政治行动。(这时译为Administer)

管理:

1、管理是一种以绩效、责任为基础的专业职能。这是彼得·德鲁克教授提出的观点。

2、管理就是决策。这是1978年诺贝尔经济学奖获得者赫伯持·西蒙提出的。

3、管理就是根据一个系统所固有的客观规律,施加影响于这个系统,从而使这个系统呈现一种新状态的过程。

4、管理是社会组织中,为了实现预期的目标,以人为中心进行的协调活动。两词可以采用的英文译本有:administer、administrate、manage、run、supervise、rule,依据具体情况选定,英文的含义区分请查阅相关辞典。

3.1 简介

3.2 概念和活动

共同决策是数据治理的标志、如下图所示,有效的数据管理工作需要跨越组织边界和系统边界。数据治理推动了选择决策的职责分组,跨越这些界限并支持整合的数据视图。

3.2.1 数据治理

完成数据治理的最有效方式需要通过有连续性的计划和持续改进的过程

3.2.2 数据管理制度

3.2.3 数据治理和管理制度组织

数据战略和策略:定义、沟通与监控
数据标准和数据架构:评审、审批和监督
法规遵从:沟通、监督与执行
问题管理:识别、界定、上报与解决
数据管理项目:赞助与监督
数据资产估值:苹果、审批与监督
沟通:促进、提高意识与赞赏

3.2.6 数据治理办公室

3.3 数据治理活动

3.3.1 数据战略

战略是选择和决策的集合,共同绘制出一个高层次的行动方案,以实现高层次目标。

3.3.5 法规遵从

法规是如何相关的?为什么这对我们很重要?
我们如何解释该法规?该法规需要什么样的企业策略和规程?
我们遵从了吗?我们如何遵从呢?
我们将来应如何遵从该法规?何时生效我们将何时遵从?
我们如何显示并证明已经遵从?
我们如何监控遵从情况?我们评审遵从的频率如何?
我们如何识别和报告未能遵从的情况?
我们如何管理和纠正未能遵从的情况?

3.3.6 问题管理

数据质量问题
数据命名和定义冲突
业务规则冲突和澄清
数据安全、隐私和保密问题
未能遵从法规的问题
策略、标准、架构和规程的不符合问题
冲突的策略、标准、架构和规程
数据和信息冲突中的相关者的利益
组织和文化变革的管理问题
关于数据治理规程和决策权的问题
数据共享协议的谈判和评审

大多数问题都可由本地数据管理制度团队解决。需要沟通和上报的问题必须被记录下来。

数据治理需要一些控制机制和规程来满足如下需求:

识别、采集、记录和更新问题
跟踪问题的状况
记录利益相关者的观点和备选解决方案
所有的观点都通过客观中立的讨论来传达
上报问题至最高层次的权力部门
确定、记录和沟通问题决议

不要低估数据问题管理的重要性和价值,这些控制机制和规程的必要性也不应该被忽视。司法机构负责问题管理,立法机构负责制定策略、标准和企业数据架构,行政机构负责保护和服务行政管理。

3.3.10 沟通与推广

各级数据管理专员和数据管理专业人员必须不断地沟通、教育和推广数据和信息资产价值的重要性,以及数据管理职能的业务贡献。提高利益相关者,对数据管理问题及效益的意识和认可程度是数据管理社区每个人的长久责任。

所有数据信息的生产者和消费者必须理解数据政策,及其对组织的数据质量、数据安全、数据保护、数据传输和数据支持的承诺。

组织通常使用如下几种来沟通这些关键信息:

为数据管理项目维护一个内部网站
在企业内部其他网站发布公告
在真实的公告栏上张贴发布公告
出版简讯、通过纸质或电子邮件分发
寻找机会在部门会议上作简短的信息和宣传公告
为适合的受众介绍感兴趣的话题
促进有兴趣的数据管理社区参与
提前准备关键信息,以便在机会出现时随时对外沟通,同时帮助众人一致地沟通这些关键信息

数据管理内部网站是一个特别有效的沟通工具,有如下内容:

有关重要数据管理问题的执行信息
数据管理战略和项目章程,包括愿景、效益、目标和原则
数据管理实施路线图
数据政策和数据标准
数据管理制度的角色和职责说明
问题识别和上报的规程
描述关键概念的文件和演示系统,应可供下载
数据治理组织的描述、成员和联系信息
数据管理服务机构名录及联系方式
数据管理专员和数据管理专业人员的个人简介
项目新闻公告
相关在线资源的描述和链接
请求服务或获取问题的入口

3.3.11 相关的治理框架

企业治理
IT治理
企业架构
系统开发生命周期(Rational的统一流程)
系统开发过程改进
项目管理
IT服务管理

3.4.3 组织和文化问题

Q4:数据管理专员候选人需要哪些资历和技能?

最重要的是业务知识和数据的理解

公认的领域专业知识-信息、流程和规则
组织文化知识以及行业视角
扎实的口头以及书面沟通能力
清晰并且精确的思考和沟通能力
团队合作、交际和谈判技巧
对变化要有适应性、客观性、创造性、实用性、开放性
能够在企业级需求和部门级、功能性需求间取得平衡

Q5:数据管理专员和数据治理组织如何获取授权?数据管理专员如何赢得尊重?

维护数据治理和数据管理制度对于组织的重要性,可以显示在如下方面:

确保有来自于管理层的持续且强有力的赞助与支持,并且让每个人都知道管理层的态度。管理层的态度决定了其他人的态度
在冲突面前保持客观,最好真正理解和欣赏这两方面的观点,然后找到共同的目标,并重新界定问题以推动实现这一目标
保证他们可以从中受益。展示对于他们个人,或者在他们的老板眼中他们将有何受益。通过双赢的方案来使这一切更加容易
信息比强迫更有力。用事实和推理来更有效地打动人,而不是粗暴地说-你必须这么做
不仅仅赢得尊重,更要赢得信任。信任对于协作成功至关重要。通过真心关注他人以及信息公开,随着时间的推移来会逐步赢得信任

4.数据架构管理

4.1 简介

数据架构管理是定义和维护如下规范的过程:

提供标准的、痛的业务术语/辞典
表达战略性的数据需求
为满足如上需求,概述高层次的整合设计
使企业战略和相关业务架构相一致

企业数据架构是一套规范和文档的集合。它主要包括如下3类规范:

    企业数据模型:企业数据架构的核心
    信息的价值链分析:使数据与业务流程及其他企业架构的组件相一致
    相关数据交付架构:包括数据库架构、数据整合架构、数据仓库/商务智能架构、文档和内容架构,以及元数据架构

4.2 概念和活动

4.2.1 架构综述

架构,是一组反映不同利益相关者的问题和看法的、相互密切相关的综合视图。对架构的了解,可以使人们明白一些非常复杂的事务,无论这个复杂的事务是自然的(地质构造、数学、生物)抑或是人造的(包括建筑、音乐、机械、组织、流程、软件和数据库)。

理解建筑物的蓝图有助于承建商的成本和时间要求范围内,建成安全、功能实用而且美观的楼宇。学习解剖学(生物活体的结构)有助于医学学生们学习如何提供医疗救治。当结构和系统变得复杂时,人员和组织都可从了解架构中受益。系统越复杂,人们通过了解架构受益就越多。

架构可以存在不同层面,从宏观的城市规划到微观的机械部件构建都会有架构的体现。在每个层面,标准和协议都用来确保构成的不同部件可以协同工作。架构包括标准及其在特定设计需求方面的应用。

在信息系统的语境,架构是"任何复杂的技术对象或系统的设计"

技术一定是复杂的。信息技术领域极大地受益于架构设计:它帮助管理软硬件产品的复杂性。技术架构包括特定厂商自由的"封闭"设计标准和任何厂商都可用的"开放"标准。

组织机构也是复杂的。整合组织中的不同部分,若使其符合企业战略目标,通常需要全面的业务架构,可能包括对业务流程、业务目标、组织架构、组织角色的通用设计和标准。对组织架构来说,架构完全是关于整合的。通过并购而发展的组织机构,通常面临重大的机构整合挑战,因此会从有效的架构中大大获益。

信息系统通常是非常复杂的。愈来愈多相对简单的独立应用系统增加,并且采用战术的方法在各个孤立业务应用系统之间移动和共享数据,使大部分机构的应用系统组合看上去像一盘意大利面条,用来理解和维护这类复杂系统的成本越来越高。因此,根据整体结构来重构应用系统和数据库的收益越来越有吸引力。

1.企业架构

信息架构:业务实体、关系、属性、定义、(代码)参考值
流程架构:职能、活动、工作流、事件、周期、产品、步骤
业务架构:目标、战略、角色、组织结构、场所
系统架构:应用、软件组件、接口、项目
技术架构:网络、硬件、软件平台、标准、协议
信息价值链分析构件:绘制数据、流程、业务、系统和技术之间的关系

企业架构经常把"现有的"和"将来的"愿景相区别,有时会包括中间阶段和迁移方案。一些企业架构试图把一个理想状态作为参照模型,把目标模型定义为朝着理想状态迈进的一系列实用的、可达到的步骤。时时更新企业的架构规范体现当前的情况,才可使其具有相关性和实用价值。没有任何机构能一次性完成其企业架构的维护和丰富的工作。

IBM 业务系统规划 BSP

James Martin 信息系统规划 ISP

2.架构框架

分类框架:将指引企业架构的结构和视图组织起来。框架定义构建的标准语法来描述以上视图以及视图之间的关系。构件大多数是图形、表格和矩阵
流程框架:规定业务和系统规划分析,以及流程的设计方法。有些IT规划和软件开发生命周期(SDLC)包括其自定义的复合分类。不是所有流程框架都规定同一套东西,有些是很专用的

4.2.2 活动

1.理解企业信息需求

2.开发和维护企业数据模型

1)企业数据模型

2)主题域模型

3)概念数据模型

4)企业逻辑数据模型

5)其他企业数据模型组件

3.分析并与其他业务模型匹配

4.定义和维护数据技术架构

技术架构中的技术分类包括:

数据库管理系统(DBMS)
数据库管理的工具
数据建模和模型管理工具
报告和分析用的商务智能软件
数据抽取、转换和加载(ETL)、变更数据捕获(CDC)和其他数据整合工具
数据质量分析和清晰工具
元数据管理软件,包括元数据存储库

技术架构组件包括如下一些不同类别的内容:

当前:当前支持和使用的产品
部署阶段:今后1~2年会开发使用的产品
战略阶段:2年以后期望会使用的产品
退役:组织今年已退役或打算退役的产品
首选:被大多数应用场景首选使用的产品
限制:被特定应用场景所限制使用的产品
新兴:正被研究和试用,可能用于未来开发的产品

5.定义和维护数据整合架构

数据整合架构定义了数据如何在各系统中从头到尾流转。数据整合架构既是数据架构,也是应用架构,因为它包括了控制数据流入流出的系统及数据库两部分。数据血缘关系(Data Lineage)和数据流(Data Flows)两个名称也用于描述这个概念。

6.定义和维护数据仓库/商务智能架构

7.定义和维护企业分类方法和命名空间

分类方法是用来给话题提供大纲的层级结果。最知名的分类方法是最初由植物学家林奈发展出来的对所有生命体分类的体系。杜威十进位制系统是图书馆中组织和查找图书的分类方法的一个例子。正规的分类是类层次结构;而非正规的主题分类法是话题描述性的,这不一定符合从超类继承的特质。

4.3 综述

4.3.1 指导原则

企业数据架构包括3个主要的规范:即企业数据模型、信息价值链分析和数据交付架构

5.数据开发

5.1 简介

指分析、设计、实施、部署及维护数据解决方案。

5.2 概念和活动

5.2.1 系统开发生命周期

项目计划,包括范围定义和业务案例论证
需求分析
解决方案设计
详细设计
组件构建
测试,包括单元测试、整合测试、系统测试、性能测试和验收测试
部署准备,包括文档开发和培训
安装和部署,包括试运行和上线

系统维护活动一般也遵从相同高级别的系统开发生命周期流程,只是频率更快,所执行的分析、设计、编码、测试和部署的工作量都较小。

5.2.3 数据建模、分析和解决方案设计

1.分析信息需求

需求分析包括业务需求的引导、组织、记录、评审、完善、批准和变更控制。某些需求可以用于确定数据和信息的业务需求。同时同时使用文字和图形来表述需求说明。某些需求可以用于确定数据和信息的业务需求。可以同时使用文字和图形来表述需求说明。

2.开发和维护概念数据模型

为创建一个概念数据模型,要从主题域模型的某个主题域开始。先确定哪些对象被包含在该主题领域内,以及它们之间如何关联。例如,客户主题域可能包括以下实例:账户所有者、子账户、首选联系方式和联系信息。

账户所有者一般会关联一个或多个子账户。每个账户所有者在任何时候都有一套首选联系方式和联系信息。

要维护一个概念数据模型,应采用一定的流程对所有生产系统可能对概念模型产生的变更进行检查。如果项目设计变更,可创建中间概念模型,并再次之上做变更。然后,复制这个模型的变更到生产环境版本的概念模型上,并将其作为发布流程的一部分,以确保模型与现状同步。

1)实体

业务实体是组织感兴趣的事物,比如一个对象或者一个事件。而数据变体是指业务认为重要并值得定义的数据集合。实体是一个名词。

:人员、组织、角色、雇员、客户、供应商、学生、当事人、部门....
事物:产品、服务、资源、原材料、成品、课程、班级
时间:事件、财政周期
哪里:位置、地址、站点、网络节点
为什么:政策、规则、要求、投诉、退货、查询
如何:机制、工具、文档、发票、合同、协议、标准、说明

实体是特定业务实体的实例化。比如客户实体可拥有名为Bob、Joe等的实例。而账户实体就可以有Bob的支票账户、Bob的储蓄账户、Joe的经纪人账户等实例。

实体会出现在概念或逻辑数据模型中。概念业务实体描述关于数据收集相关目标,如客户、产品、账户。逻辑数据实体遵循范式和抽象的规则,因此客户的概念可分解成很多组成部分,如客户、客户类型以及客户偏好。物理数据模型则定义基表。物理数据模型则定义基表,而基表与可比较的逻辑模型中的实体直接或不直接地关联。

实体可以使独立的,也可以是非独立的。独立的实体(或者核心实体)不依赖于任何其他实体而存在。独立实体每一次出现都不会参照在数据模型中的任何其他实体。一个非独立实体则需要依赖于一个或多个其他实体而存在。下面介绍3种类型的非独立实体。

属性/特性实体:仅依赖于一个父实体,例如员工的受益人仅依赖于员工本身
关联/映射实体:依赖于两个或者两个以上的实体,例如注册依赖于特定的学生和课程
类别/子类或超类实体:某实体是"一类"其他实体。子类和超类分别是继承和泛化的例子。一个超类实体是其所有子类的泛化,而每一个子类都继承了其父类的属性。例如:一个当事人超类会链接到员工和组织等子类。子类之间可重叠(非排他)或者不重叠(排他)。一个不重叠的子类实体实例必须术语某个子类,但不可能同时属于两个子类。

2)关系

业务规则定义了什么能做和什么不能做的限制条件。业务规则可分为两大类:

数据规则对数据间的关联进行了限制。例如,新生每学期最多可注册18个学分。数据模型关注这样的数据业务规则
操作规则在数据元素包含一定的数值时用于指导做什么事。操作规则很难在数据模型中定义。

两实体间的关系可能有以下3种类型:

一对一的关系
一对多的关系
多对多的关系

3.开发和维护逻辑数据模型

第一范式:每个实体有一个有效的主键,消除冗余的分组,确保每个数据元素的原子性
第二范式:确保每一个实体都有最小的主键,每一个数据元素都依赖于完整的主键
第三范式:确保每一个实体都没有隐藏的主键,并且确保每个数据元素都不依赖于主键之外的数据元素(即,以来且仅依赖于完整的主键)
BCNF:解决了交叉的符合候选键的问题。候选键是主键或者是备用键(复合表示有多个,交叉是指键与键之间隐藏着业务规则)
第四范式:将所有三元关系分解成二元关系,直到这些关系不能再分解成更小的部分
第五范式:将实体内部的依赖关系分解成二元关系,所有联结以来都部分使用主键
第六范式:在主键上增加了临时对象,以根据时间针对历史数据做报表和分析进行

1)属性:是实体的一种特性。逻辑模型中的属性应具有原子性

2)域:属性取值的完整集合即为域(比如日期)

3)键:实体的属性既可以属于键也可以不属于键。关键的数据元素有助于从所有实体实例中识别唯一的一个实体实例。键的取值可以唯一地确认一个实体实例。复合键包括两个或多个属性。

6.数据操作管理

6.1 简介

目标:

    保护和确保结构化数据资产的完整性
    管理数据在其生命周期内的可用性
    优化数据库事务性能

7.数据安全管理

7.1 简介

:计划、制定、执行相关安全策略和规程,确保数据和信息资产在使用过程中有恰当的认证、授权、访问和审计等措施。

7.2 概念与活动

数据安全要求和相关规程,可归纳为4个A:

认证(authentication):验证用户是他们所声称的那个人
授权(authorization):正确识别用户并在具体、适当的数据视图上赋予权限
访问(Access):及时激活这些用户以及其权限
审计(Audit):通过评审安全活动和用户行为,确保遵从法规要求并符合相关策略和标准

7.2.1 理解数据安全需要和监管要求

1.业务要求

数据到流程(data-to-process)和数据到角色(data-to-role)关系矩阵是映射这些需求的一个有用工具,可以引导数据安全角色、参数和权限的定义。

7.2.8 划分信息密级

公众级(默认分类)
内部使用
机密
受限机密
注册机密:接触该信息的人都必须签署一分法律协议才能访问数据

8.参考数据和主数据管理

8.1 简介

8.2 概念和活动

一文理解主数据和参考数据_进击吧大数据的博客-CSDN博客_参考数据

主数据:在整个企业业务流程中起到关键作用,而且是比较常用的数据,在核心业务流程上产生的数据都是主数据,这么一解释可以发现主数据是可以检测企业发展是否健康的一种方式,但这么理解是有些偏差的。稍微严谨一点的定义就是主数据是整个企业中使用的核心、非交易性数据。请注意:这里指的是非交易性数据。举个例子,比如你在ERP系统中能够看到一些交易数据,比如订单产生的日期和编号、地点、金额、商品、用户、供货商、店铺之类的信息。那么这些信息中的产品、供货商、用户、地点这些都是主数据,也就是说参与到核心流程中的主体数据都是主数据,这些实体为业务交易和分析提供了上下文信息

参考数据:维度数据,大家平时理解的数据字典,该类型的数据的主要作用是用来增强对数据的可读性和解释性,比如状态编码、性别、产品维表、地理信息等维度数据

元数据:类似于表格的表头信息,是一个相对的概念;而主数据是从元数据中挑选出来的,代表的是企业业务运行的关键、通用性数据,是一个相对主观的概念,主数据不仅仅只是表头信息,而且还包括了实例数据

交易数据,也就是这些实体数据结合在一起产生了事件活动记录,那么这个记录就属于交易数据。例如通话记录、销售记录等等事件。这样看起来好像主数据是嵌入到了交易数据中了,但是主数据相对交易数据来说的话,属性是相对稳定的,而且可信度要求高,需要做到唯一识别

要在跨应用程序之间有效地共享一致的参考数据和主数据,企业需要了解:

谁?需要什么信息?
不同的数据源中有哪些数据可用?
不同来源的数据如何不同?哪些值是最有效的(最准确、及时和相关的)?
如何协调信息的不一致
如何有力并有效地分享最有效的数据值?

8.2.1 参考数据

参考数据是用于将其他数据进行分类或目录整编的数据。业务规则通常规定参数数据值是几个允许值之一。允许值得数据集是一个值域。有些组织根据内部业务定义参考数据的值域,如参考数据-订单状态:新建立、处理中、完结、取消等

多组参考数据的值域可以指向同一个概念域。每个值在其所在的值域集是唯一的。例如,每个州可能是:

正式名称(California)
一个法定名称(State of California)
标准邮政编码缩写(CA)
国际标准化组织定义(ISO)的标准代码(US-CA)
每个联邦信息处理标准定义(FIPS)的代码(06)

参考数据相关的元数据可能记录:

每个参考数据值域的意义和目的
出现参考数据的参考表和数据库
每个表中的数据的来源
目前可用的版本
数据最后更新时间
如何维护每个表中的数据
谁负责数据和元数据的质量

8.2.2 主数据

主数据是关于业务实体的数据,这些实体为业务交易提供关联环境。

主数据是关于关键业务实体的权威的、最准确的,可用于建立交易数据的关联环境。主数据值被认为是"黄金"数据

1.当事人主数据

公共部门,重点是公民;执法机构,重点是对犯罪嫌疑人、证人和受害者;非盈利组织,重点是成员和捐助者;医疗机构,重点是病人和提供者

2.财务主数据

成本中心、利润中心、总账账户、预算、计划

3.产品主数据

专注于一个组织的内部产品或服务,或整个行业的产品和服务。产品主数据可能是结构化或非结构化格式。它包括的有关信息可能有装配组件清单、零件/原料的使用、版本、修补、价格、折扣条款、配套产品、手册、设计文件和图像(CAD图纸)、配方(制造说明)和标准操作规程等。产品主数据有专用系统或ERP应用来实施。

产品生命周期管理(plm)重点管理产品或服务的生命周期,从概念(例如研发)阶段开始,横跨其开发、制造、销售/交货、服务和处置等各个阶段。plm在提高整体数据质量的同时通过利用先验信息可以帮助缩短产品上市时间。在产品开发周期长的行业(制药行业最多可高达 8~12 年),当产品这个概念从一个理念(主义)逐步演化为不同名称之下,以及潜在的不同许可协议之下的多种产品时,生命周期管理系统能够全过程地跟踪流程的成本和法律协议。

4.位置主数据

位置主数据提供跟踪和分享不同地理参考信息的能力,并以地理信息为基础建立层次关系和地域区划以支持其他流程。对于位置参考数据和位置主数据来说,参考数据和主数据之间的区别有些模糊:

位置参考数据通常包括地缘政治数据,如国家、州、声、县、市、镇,邮政编码,地理区域,销售区域等
位置主数据包括业务当事人的地址和位置,地理定位坐标,如维度、精度和高度

不同行业需要专门的地球科学数据(例如地震断层、洪泛平原、土壤等地理数据)和相关社会学数据(人口、种族、收入和恐怖主义风险等),它们通常由外部数据源提供。

8.2.3 理解参考数据和主数据整合需求

8.2.4 识别参考数据和主数据的来源及贡献者

成功的组织首先理解参考数据和主数据的需求,然后跟踪这些数据的血缘关系,以确定数据的起始及中间的源数据库、文件、应用、组织,甚至创造和维护这些数据的角色岗位。要做到在了解上游数据的情况下理解下游的数据需求,以期在数据的源头捕获高质量的数据。

8.2.5 定义和维护数据整合架构

这种设计的主要优点是与ODS的标准化接口和消除了点对点接口。这种方式简化了变更维护的过程

8.2.7 定义和维护数据匹配规则

主数据管理在未来面临的最大挑战是在多个系统中对于同一个人、群组和事物的数据进行匹配、合并、连接。关于人的数据间匹配特别具有挑战性。不同的系统中使用不同标识符来关联个人(对于组织,程度较轻),而个人有时在不同系统中存在于不同的角色,有时又存在于同一个角色。应用匹配的目的是消除冗余,提高数据质量,并提供关于人员的更加全面的信息。

提供应用推理规则进行数据匹配。数据清晰工具和主数据应用程序通常包括用于匹配数据的匹配推理引擎。这些工具依赖于清晰的匹配规则,包括不同置信(给予信任)水平的匹配接受度。

有些匹配需要极高的信任度,可以基于跨多个字段的准确数据匹配来实现。而有些匹配仅仅是由于数据值的冲突,可建议采用较低的信任度。例如:

如果两个记录有相同的姓氏、名字、出生日期、社会安全号码,但街道地址不同,是否可以安全地假设他们是改变了邮件地址的同一人?
如果两个记录有相同的、社会安全号码、名字、街道地址,但姓不同,是否可以安全地假设他们是同一人,知识改变了姓氏?基于性别和年龄是否能增加或减少相似可能性?
如果人员记录的社会安全号码未知,这些例子会怎么变化?还有什么标识符可以用来确定匹配的可能性?组织需要多少可信度来评估一个匹配?

尽管做了最大努力,匹配角色有时还是被证明是错误的,所以保持匹配历史信息非常重要,以便在发现匹配不正确时可以撤销匹配。组织使用匹配率指标来监控匹配推理规则的效果的影响。针对以上3种不同的情景,可使用不同的关联工作流来建立匹配规则:

重复识别匹配原则,重点关注一组特定的用于唯一确定实体和识别合并机会的字段,但不自动合并。业务数据管理专员可以评审这些机会,并逐个确定行动计划。
匹配合并规则,重点关注记录的匹配并且将这些记录的数据合并为一个统一的综合记录。如果跨数据源应用该规则,那么需要在每个数据库中创建一个唯一和全面的记录。至少,可使用某一数据库中的受信任的数据记录,以关联到其他数据库并获取该记录相关的其他补充数据,用于替代缺失的值或被认为是不准确的值。
匹配链接规则,确定与主数据相关的记录,只建立交叉引用关系而不更新被交叉引用的数据记录的内容。匹配链接规则易于实现,并且更易于恢复原貌。

匹配合并规则实施起来非常复杂,主要是由于需要确定很多可能的条件,对于来源不同数据库不同字段的数据取值具有不同的置信区间和信任度。匹配合并规则面临的挑战是:(一)整合数据的操作复杂性 (二)还原错误合并操作的成本

尽管匹配链接规则可能更加难以从多个记录中提供综合信息,但就另外一方面而言,匹配链接规则是简单的操作,因为它仅需建立交叉引用表而不需要合并主数据的单个字段。

因为主数据的置信水平随时间发生变化,要定期重新评估匹配合并和匹配链接的规则。许多数据匹配引擎提供数据值得统计相关性来帮助建立新的置信水平。

可以通过分配全局标识ID实现同一个人在不同数据源中匹配记录的链接和整合。只能从一个权威的系统产生全局标识ID,因此每一个ID的取值是唯一的。将全局标识ID分配给跨系统的记录以实现交叉引用,可以在不同系统中实现交叉引用和匹配同一个人的数据。

8.2.8 建立"黄金"记录

1.词汇管理和参考数据

词汇是术语/概念以及和相互之间的关系的集合

2定义"黄金"主数据值

术语和缩写标准化是一种数据清洗活动,以确保某些术语和它们的缩写一致地出现在标准化的数据集中。

数据清洗工具通常提供标准化的词典,来将不同的词语和缩写转换成标准词汇或缩写。例如:St/Str/Street 可以都映射到"St. "

9.数据仓库和商务智能管理

9.1 简介

数据仓库(DW)由两个主要部分构成:首先是一个整合的决策支持数据库,其次是用于收集、清晰、转换、存储来自于各种操作型数据源和外部数据源数据的相关软件程序。两者结合以支持历史的、分析的和商务智能(BI)的需求。

一个数据仓库也可能包括若干相关的数据集市,它们都是数据仓库数据库的子集副本。

9.2 概念和活动

9.2.1 数据仓库活动-简要的历史回顾

Bill Inmon 和 Ralph Kimball

1.数据仓库典型特性-Inmon版本

Bill Inmon将数据库定义为"面向主题的、整合的、随时间变化的、相对稳定的历史数据的集合。该集合包括汇总的和详细的历史数据,以用于支持企业战略制定。"

2.数据仓库典型特性-Kimball版本

Ralph Kimball将数据仓库简单地定义为"交易数据副本,其结构是专为查询和分析而设计的"

9.2.2 数据仓库和商务智能架构和组件

1.Inmon的企业信息工厂

2.Kimball的业务发展生命周期和数据仓库象棋游戏

业务维度生命周期

关注业务
原子性维度数据模型:既要使业务用户易于理解,也要兼顾查询效率
迭代演进管理:用独立的并限定范围的单个项目来管理数据仓库的变革和优化,即使这样的项目可能会多的看不到重点

9.2.4 数据仓库活动的不同类型

1.动态数据仓库

ETL批处理的替代方法:少量数据更新,管道,面向服务架构

2.多维分析-联机分析处理

OLAP:典型的联机分析处理查询的输出是矩阵格式。维度形成了矩阵的行和列;而因素(factors)和度量(measures)就是矩阵单元格的取值。从概念上讲,这就是立方体(cube)的解释。

一个常用的应用就是财务分析,分析师要反复遍历不同层次以分析数据:例如,日期(如年、季度、月、周、日)、组织(如区域、国家、业务单元、部门)以及产品层次(如产品类别、产品线、产品)

3.ROLAP MOLAP HOLAP DOLAP

关系型联机分析处理 ROLAP
多维联机分析处理 MOLAP
混合联机分析处理 HOLAP
数据库联机分析处理 DOLAP

9.2.5 维度数据建模的概念和术语

事实:提供度量

维度:提供上下文

1.事实表

2.维度表

维度以"根据.....查询"(query by)和"根据....报告"(report by)的形式作为限制条件。

1)代理键

2)自然键

3.维度属性类型

维度属性有3种不同的保留历史副本的类型

1)类型1覆盖

2)类型2创建新行

3)类型3创建新列

4)类型4新表

5)类型6(1+2+3)

4.星型模型

5.雪花模型

雪花模型是将星型模型中平面的单表维度结构进行去范式化,并转换成相应的层次或网状结构。

有三种雪花模型:

雪花表:将层次结构解析到层次表中。例如:将一个日期维度表解构成一个详尽的日表、月表、年表,三者两两关联
划艇式表:将维度表中的属性连接到其他维度表中的行。例如:某一维度的日期字段(比如员工的雇佣日期)可以连接到时间区间维度表,以便于按照雇用日期所在的财年对员工进行排序
船桥式表:形成两种情况。其一是两个维度之间存在多对多的关系,而且不可能通过事实表解析这张关系。例如一个银行账号有多个所有人。船桥式表用一个"所有人组"表来定义所有人列表。其二是对深度不定的层次结构或不整齐的层次进行范式化。

6.粒度

:表示事实表中的一行记录所代表的含义或描述。或者用另外一种方式来表述,粒度表示一笔交易所对于数据的原子级别。

7.一致性维度

8.一致性事实表

9.数据仓库总线(DW-Bus)架构和总线矩阵

9.3.4 实施商务智能的工具和用户界面

1.查询和报表工具

2.联机事务分析(OLAP)工具

切片:切片是多维矩阵的一个子集,并且对于不在这个集合内的维度,至少有一个维度的值被指定
切块:切块操作是在一个数据立方体上从两个以上的维度进行切片,或者是进行两次以上的连续的切片
下钻/上卷:下钻或者上卷是用户按层次浏览数据时所使用的特定的分析技术,可以从最高层级的汇总到最细层级的详细数据
汇集:包括在一个或多个维度上计算所有的数据关系。为实现它,需要定义计算关系或公式
旋转:在报表和分页显示中交换维的定位

10.文档和内容管理

10.1 简介

文档管理:是对电子和纸质文件的存储、详细编目和控制。文档管理包含控制和组织文档与档案的过程、技巧和技术,它对电子或纸质文档都适用
内容管理:指对信息内容进行组织、分类和结构化的访问所涉及的过程、技巧和技术,它将实现对文档进行有效的检索和重用。内容管理在门户网站的建设方面尤其重要,但基于关键词搜索的技术和基于分类的组织可以运用于技术平台之外。

一般来说,文档管理并不关注文件中的具体内容。内容管理则关注每个文件的内在内容并试图识别和使用这些包含在文件中的信息内容概念。

10.2 概念和活动

文档管理系统用于追踪和存储电子文件和纸质文件的电子图像。文档库系统、电子邮件系统和图像管理系统是文档管理系统的特殊形式。文档管理系统一般提供存储、版本管理、安全、元数据管理、内容索引和检索功能。

内容管理系统用于收集、组织、索引和检索信息内容,并将其内容存储于部分或完整文档,榆次同时维持这些部分间的联系。它还对文件间修改信息内容进行控制。文档管理系统也许同样可以提供内容管理功能,然而内容管理系统不关心这些文件存储在哪里以及如何存储。

10.2.1 非结构化数据

:尚未标记或记录与行和列的数据,如文件、图形、图像、文字、报表、表格、视频或录音。

10.2.2 文档/档案管理

生命周期:

识别已有和新建文档/档案
文档/档案政策的创建、批准和实施
文档/档案的分类
文档/档案保留政策(保留多久?)
存储-纸质和电子文档/档案的短期和长期存储
检索和流转:按照政策、安全、控制标准和法律要求允许访问和流通文档/档案
保存和处理:根据组织需要、状态和规定来存档和销毁文档/档案

1.规划文档/档案管理

2.实现文档/档案管理系统的获取、存储、访问与安全控制

扫描器或OCR软件来获取。

元数据,例如文档的创建、修改、存储的日期,创建者的姓名,通常都要存储起来。

电子签名

水印(有形/无形)

3.备份和恢复文档/档案

4.保留和处置文档/档案

规定了何时文档/档案不再起作用并被转移到二级存储设备

5.审计文档/档案管理

10.2.3 内容管理

1.定义并维护企业信息分类标准

分类法分为4种:

扁平式
多面式:每个节点都和中心节点连接
层级式
网络式

2.建立信息内容元数据文档/索引

3.提供内容访问和检索

4.治理内容质量

11.元数据管理

11.1 简介

元数据管理是关于元数据的创建、存储、整合与控制等一整套流程的集合,从而支持基于元数据的相关应用。

为了理解元数据在数据管理中的重要作用,可以用图书馆中的目录卡片做类比。通过目录卡片可以查询图书馆中保存了哪些书、在图书馆的生命位置。读者可以根据主题领域、作者或书名来查询数据。此外,目录卡片还说明每一本书的作者、主题标签、出版日期和修订历史。

11.2 概念和活动

元数据是一个受控的数据环境中的目录卡。抽象地说,在一个受控的数据环境中,元数据是描述数据的标签或数据的上下文背景的。元数据为业务用户和技术用户展示了在哪里可以找到信息,还提供了有关数据从哪里来、如何到达此处、相关数据转换规则和数据的质量的要求等详细信息,有助于理解数据的真实含义和对数据进行解释说明。

11.2.1 元数据定义

1.元数据类型

业务元数据
技术和操作元数据
流程元数据
数据管理制度元数据

2.非结构化数据的元数据

描述性元数据
结构元数据
管理性元数据

3.元数据来源

数据治理中的核心元素——元数据 (baidu.com)

12.数据质量管理

12.1 简介

12.2 概念和活动

12.2.1 数据质量管理办法

计划-实施-学习-行动 或 计划-实施-检查-行动

制定数据质量现状评估计划和识别数据质量度量关键指标
实施度量和提升数据质量的流程
监控和度量根据业务预期定义的数据质量水平
执行解决数据质量问题的行动方案,以提升数据质量从而更好地满足业务预期

12.2.2 开发和提升数据质量意识

12.2.3 定义数据质量需求

精确性
完整性
一致性
时效性
精确度
隐私
合理性。例如,每天的交易数量不能超过过去30天平均交易数量的105%
参照完整性:一张表的一个字段对同一张表或另一张表的另一字段引用全部有效
及时性
唯一性
有效性

12.2.4 剖析、分析和评估数据质量

自底而上

自顶而下

12.2.5 定义数据质量指标

可度量性
业务相关性
可接受程度
数据认责制度/数据管理制度
可控性
可跟踪性

12.2.6 定义数据质量业务规则

    将不满足业务需求的数据值、记录和记录集与有效的数据值、记录、记录集分别记录下来
    生成通知事件,及时向数据资产管理员警示潜在的数据质量问题
    建立自动或时间驱动的缺陷数据纠正机制,以满足业务期望

DAMA数据管理知识体系指南-V1的相关教程结束。

《DAMA数据管理知识体系指南-V1.doc》

下载本文的Word格式文档,以方便收藏与打印。