
在“一带一路”与长江经济带战略的双重驱动下,港口作为全球供应链的关键节点,正面临从“运输枢纽”向“智慧平台”的深刻转型。然而,数据孤岛、标准不一、治理滞后等问题深圳股票配资平台,成为制约许多港口实现智能化跃升的隐形壁垒。
本文以某大型港口的数据治理实践为样本,系统呈现其在数据域规划、采集开发、标准管理及安全管控等方面的完整路径,为港口乃至重资产行业的数字化转型提供可复用的方法论体系。查询更多企业案例
一、案例背景改革开放四十年以来,某港口实现了由内河港、河口港、海港、亿吨大港、东方大港到世界大港的跨越式发展,随着信息化的高速发展,各类信息技术应用助力港口转型升级,可以预见智能化的港口将成为未来深圳股票配资平台港口发展的新业态。为了加快推进智慧港的建设,某港口这几年做了大量的工作,例如集装箱提重无纸化、智能理货、网上营业厅、云数据处理中心等,但这些努力远远不够,某港口需要投入更多的精力来实现智慧化港口的目标。
按照‘一带一路’倡议和长江经济带发展战略的引领,根据省委省政府提出的‘十三五’海洋港口发展规划和5211海洋港口行动计划,以集装箱和大宗商品运输为核心,并充分发挥港口对大宗商品交易、自由贸易、保税加工等拉动作用,将现在的传统运输港口,逐步打造成集贸易、产业、金融、物流等一体的综合性平台。切实发挥好港口一体化运营龙头和主力军的作用,为做强做优做大港口奠定坚实基础,为推进海洋港口一体化高质量发展,加快打造国际一流强港和世界级港口集群作出积极贡献。
展开剩余92%二、解决方案根据某港口的目前的状况,围绕“一”规划“五”标准的方针,进行全面的数据治理。
2.1数据域规划在建设大数据仓库时需要对采集的港口数据进行全面分析,充分理解数据仓库面向主题、集成性、相对稳定性等特点,将其与港口大数据中心应用实际相结合,建设成具备支撑和增强港口业务的核心服务、数据分析和探索、业务分析和决策等各种能力的大数据仓库。
数据域是在较高层次上将港口信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个数据域基本对应一个宏观的分析领域。面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的港口各项数据,以及数据之间的联系。
为保障数据中台体系的生命力,主题需要抽象提炼并且长期维护和更新,但不轻易变动。在划分主题时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地包含进来,保障良好的扩展性。
某港口数据域规划图
2.2数据采集标准针对数据源类型、数据类型以及网络类型的不一致,设定了多种数据采集标准方案。
A.网络互通数据采集标准方案
数据库直连方案:
中转数据库方案:
API接口方案:
Kafka中转方案:
B.网络不互通数据采集标准方案
中转数据库方案:
Kafka中转方案:
FTP方案:
2.3数据开发标准A.离线数据处理流程
离线数据公共层模型层次分为4个层次,DWD、DWS属于中间层(CDM)。其中操作数据ODS层主要用于原业务系统的数据同步,保持与业务系统的一致性,同时基于同步策略,根据实际情况进行增量数据merge操作,需要有缓冲层进行存放。进入中台的数据根据维度建模的原则划分维度DIM层,及明细业务数据DWD层,后续根据公共维度进行聚合生成DWS层,也可以直接加工生成应用数据ADS层。原则上不允许ODS层数据直接加工至应用层ADS,需要经过DWD的数据加工,但比如像一些EXCEL数据导入等情况可以特殊处理。
某港口模型设计与数据流向
B.实时数据处理流程
第一层ODS数据贴源层
实时计算的第一层,一般存放原始数据,主要分两种情况:第一种是直接从数据库将操作日志采集出来,存放形成原始数据;第二种是上游系统直接将数据同步至本地,形成原始数据。
第二层DWD数据模型层
实时计算订阅业务数据消息队列,以数据域的理念建设数据模型层,然后通过数据清洗、多数据源join、流式数据与离线维度信息等的组合,将一些相同粒度的业务系统、维表中的维度属性全部关联到一起,增加数据易用性和复用性,得到最终的实时明细数据。
第三层DWS公共实时汇总层
与离线数仓不同的是,这里汇总层分为轻度汇总层和高度汇总层,并同时产出,且一般不在本地Kafka落地。轻度汇总层用于前端产品复杂的OLAP查询场景,满足自助分析和产出报表的需求。当应用端提供了明确的业务口径或者在做过多的数据处理的场景下,将轻度汇总层数据推送至Kudu落地,后续可以基于Kudu开发接口或者直接开放Kudu提供查询服务;当数据体量特别大,不适合在Kudu做数据开发或者应用端有类似自主分析需求的情况下,将轻度汇总层数据直接推送至应用端的Kafka落地;高度汇总层用于前端比较简单的KV查询场景,提升查询性能,比如实时大屏等。将数据推送至MySQL数据库落地,后续基于MySQL开发接口或者直接开放MySQL提供服务。
2.4数据管理标准
A.元数据管理
通过元数据管理,用户需要基于元模型设计的规范约束,维护表的业务元数据信息,更规范地维护元数据信息,便于后续的元数据信息查询和利用。可以通过添加数据源的方式,自动解析出相关数据源下某个或者全部实例的元数据信息,再以人工的方式进一步完善缺漏的信息。
完整度分析:统计每张表的业务属性(必填项)是否均已完成维护。质量分析图
血缘分析:发现血缘关系缺失的表,如数仓下游层级的表、BI报表等。用户可以通过添加数据库,系统自动得出解析结果,统计库中血缘孤立的表。B.主数据管理
主数据是企业中需要在多个部门或系统之间共享的,核心的、高价值且相对静态的数据。主数据是企业信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石和企业中的黄金数据。主数据管理是一个长期持续的建设过程,需要一砖一瓦地打好基础,切勿急于求成,追求速成。
数据完整性:主数据的数据质量需要有高标准高要求,所有的字段必须为非空,所有字段的中文注释都必须齐全且统一。 数据唯一性:主数据往往存在并应用于多个业务系统之间,必须对多个业务系统间同一业务口径的主数据进行标准化整合,确保下游系统使用的统一业务口径的数据时都是唯一的。 数据扩展性:如果主数据的内容为编码类型,例如箱号CTN_NO,需要考虑到长期发展的扩展性。 数据可读性:尽量使编码标准具备一定的特征含义,可初步进行解读。 数据高效性:因主数据多被应用于跨系统间的关联,一个场景下经常多次作为外键或者主键使用,考虑到整体计算的高效性,除了数字和字母以外还可以考虑使用符号,整体编码长度不能过长(建议不要超过12位)。 数据兼容性:在上文中提到的主数据因为业务的飞速发展,需要定期地进行标准的扩展。在扩展的同时还需要注意兼容性,新编码体系需要兼容旧编码体系。C.数据标准管理
建立数据标准,对存量数据进行后向管理,映射至已有元数据上,统一字段标准;对增量数据进行前向管理,利用数据标准进行建模,使模型字段更加规范统一。
词根管理:对词根信息进行线上化管理,词根信息可用于数据标准的定义,词根的管理有利于数据标准的长期维护,减少重复的维护成本。 编码管理:支持维护管理编码数据,编码可用于数据标准的定义。 数据库导入:用于数据标准的建立基础,根据导入条件,将已存在的字段名转化为数据标准或者词根,丰富平台数据标准。 数据标准自定义:完成上述基础的配置之后,最后需要人工进行“查漏补缺”。2.5数据服务标准为了统一数据中台应用服务的输出出口,使用API平台提供数据服务。对于API平台的使用流程也需要制定统一的流程。
数据服务流程
2.6数据安全标准A.数据分级
数据表分级的目标,在于通过设置合理的等级,加强对数据仓库平台下数据表的安全管理,确保敏感数据的增删改查操作都能够经过适合的授权。由于开发人员为使用便捷,数据表的安全等级通常存在安全等级设置偏低的情况,因而需要根据数据表中安全等级最高的字段进行表安全等级的设定。
简而言之,根据业务重要程度及计算关联范围两个象限,可以简略地将数据表安全设置为四个等级:
实际上,可以根据自身公司的业务情况,设置更多的安全等级,以标示不同业务场景下的数据安全情况,上述标准仅提出一个可参考的案例。但很多情况下,大量的敏感数据是混杂在普通表中的,例如个别经常用到的S1级别的字段会夹杂在大量S3,S4中间,整张表从全局上看,应该设置为字段安全等级最高的级别,也就是S1。
不论是数据表,还是数据字段,通常都需要开发人员、管理人员甚至是使用人员介入进行人工的制定,但为了简化打标签的流程,通常是开发人员进行初步设定,指派一名数据负责人进行二次审核,最后文档落地持续优化维护。
B.数据管理委员会
数据管理不仅仅是数据问题,它涉及业务、IT、管理等方方面面,仅仅依靠技术部门来推动和开展数据管理工作是无法取得成功的,只有来自更高层管理者的驱动力,建立自上而下的跨部门跨业务条线的组织体系,才能保证企业内部的高效协作。数据管理组织架构一般包括决策层、管理层、执行层三个层级。
决策层组织是公司数据管理最高决策机构,由公司董事长担任组长,分管信息化领导担任副组长,其余领导担任成员。
管理层组织是对数据管理日常工作进行直接管理的部门,由科研中心部门长担任组长,分管数据领导担任副组长,其他各部室科级领导担任成员。
执行层组织是数据运行操作的具体落实部室(班组)、相关方,按工作性质可分为业务执行层和技术执行层两类。
C.数据审批
根据申请数据的级别不同,申请单位的性质不同,数据审批的流程需要具备区分性。
S1级别数据申请&审批
S1(保密)级别的数据申请&审批流程,第三方单位的数据申请需求原则上是不允许的,在执行层的人员审批阶段即可驳回。内部门单位的申请需要执行层和管理层的人员审批。外部门单位的申请需要执行层、管理层和决策层的人员审批。
S2级别数据申请&审批
S2(敏感)级别的数据申请&审批流程,内部门单位的申请只需要执行层的人员审批,外部门单位的申请需要执行层和管理层的人员审批,第三方单位的申请需要执行层、管理层和决策层的人员审批。
S3级别数据申请&审批
S3(次敏感)级别的数据申请&审批流程,除了第三方单位的数据申请需求只需要执行层的人员审批即可生效,第三方单位的数据申请需求还需要管理层人员再次审批。
S4级别数据申请&审批
S4(一般)级别的数据申请&审批流程,不管申请单位是什么性质,只需要执行层的人员审批即可生效。
三、建设成果通过数据治理理念的传达以及实施的落地,将前期的规划设计,中期的开发实施以及后期的运营维护进行一体化建设,由数据中台统一提供数据采集、建模、开发、调度、治理等一体化能力。在生产过程中对于任务上下线、建表等操作实现在线化、流程化操作,一方面减少人工提升效率,一方面完善数据治理的过程。
经过2年多时间的耕耘,期间总共归集业务系统36个,3000多个数据模型,上线任务达8000多个。数据架构的整体优化,帮助数据中台全面提速,在任务量提升了50%的前提下,整体运行速度提升将近100%;核心数据的数据标准覆盖率从42%提升到69%,在开发过程中就完成了数据标准的落地,极大降低了主数据多样重复、口径不一等问题发生的概率,重复率从30%降低到目前稳定维持在0.5%以下。
四、结语经过两年多的系统治理,该港口在数据架构、任务效率与标准覆盖率等方面取得显著突破——核心数据标准覆盖率从42%提升至69%,数据重复率降至0.5%以下,整体运行效率实现翻倍提升。这一过程充分说明,数据治理不仅是技术升级,更是业务重构与组织协同的系统工程。
未来,随着智慧港口建设进入深水区,数据中台与治理体系将成为港口核心运营能力的关键支撑。我们将通过《数据治理行业实践白皮书》持续输出更多行业实战经验,与各方共同推进产业数字化进程。
发布于:浙江省鼎和网提示:文章来自网络,不代表本站观点。