西数超哥博客
运维经验教程分享

IDCC2018|国务院发展研究中心李广乾:小数据的大价值

12月13日,2018数据资产管理大会在北京国家会议中心举行。本次大会由中国信息通信研究院、中国通信标准化协会(CCSA)主办,CCSA TC601大数据技术标准推进委员会承办,中国IDC圈协办。

会上国务院发展研究中心李广乾发表了“小数据的大价值”演讲,以下为演讲实录:

国务院发展研究中心李广乾

在座的乔书记、代会长以及各位同仁,大家上午好,很高兴参加今天的数据资产管理大会,我主要做信息化,做过电子政务、电子商务,也做过工业互联网,我前些年也研究了关于主数据管理的问题,我2009年开始研究主数据,随着大数据的日益普及,我一直在思考一个问题,小数据是什么?所以我对这个问题研究了很长的时间,也收集了当前关于小数据的一些认识,但是我觉得都不是太满意,因为到现在为止没有一篇专门的文章讨论什么叫小数据。人们在谈论小数据的时候只在大数据的话语体系里面提到说应该有一个小数据的说法,但是至于怎么认识、怎么样界定,特别是在小数据跟大数据的关系以及这个小数据到底应该怎么样对我们的大数据产业发展以及管理制度建设方面带来哪些影响,一直没有一个合适的文章或研究成果。所以我专门就拿这个题目放在我的电脑桌面,这篇文章我放了三年,在今年下半年终于把它写完了,今天借助隆重的会议现场向大家汇报一下我对这个问题的一些思考。

刚才也谈到,这个问题没有人系统地研究,大家对这个观点、说法可能就很不一致,我介绍我个人的一些想法,主要从几个方面,一个是介绍一下背景,第二介绍小数据到底有哪些属性,第三小数据与元数据、主数据有什么关系,第四小数据对于我国大数据产业管理有哪些政策含义。

我们所处的背景跟大数据的发展有密切的关系,大数据这个词也已经提了很多年了,特别是美国在2013年奥巴马总统颁布大数据的研发计划以后,对全世界的大数据产业发展起了巨大的推动作用,所以我国也在2015年发布了促进大数据发展的行动纲要。

为了贯彻“行动纲要”,国家也出台了很多的政策措施,地方也成立了相应的大数据的管理机构,最近这几年来国家围绕促进大数据发展所制定的一些重大的政策文件,从这些文件里面来看,大数据已经提到了国家发展的战略层面了,但是我们对于这些文件里面我们找不到小数据,尽管一些文章或者一些报道、一些专家的说法里面会经常提到小数据,但是在我们的文章、文件里面一直没有一个合适的界定,所以我觉得讨论小数据其实是很有重要的意义的,特别是小数据跟我们原来的信息资源管理或者信息资源开发利用这些概念和政策有什么关系,因为大数据好像是一个突然来到的概念,而且大家好像觉得大数据是万能的,可以解决一切数据处理的问题。小数据又到底起什么作用呢?所以这应该是我们讨论这个问题的关键出发点。

我们来看一下要认识小数据必须解决几个问题,一个是现在大家的说法我做了一些收集,有三种典型观点,一个是小数据指零星的弱信号,第二是小数据是指结构化的采样数据,从采样来看一般是抽取1-2%或者5%的小样数据来做整理和评判,另外还有一种小数据是指数据容量比较小的那些数据。但是我觉得这些说法对于我们认识大数据仍然不足以作为一个理论化的概念或者体系去构建,我觉得要讨论小数据必须明确三个前提:一是人们采集、加工海量数据的时候,通常都是具有某种特定目的的;二是要体现某种价值,数据本身必须能够表述一个完整的信息;三是完整的信息应该包含明确的主体、客体和行为。这是我们构建小数据的时候首先必须具备的一个基本的前提。

我们把数据、信息、知识和智慧包括决策分为四个层次,每一个层次有一个递进关系,数据是基础,随着我们对小数据的认识,或者对于主数据、元数据的认识我觉得应该有所改变,我这几年一直在想怎么样进行改变,到现在为止我还没有想到一个合适的架构去表述,能够把小数据和业务发展本体论结合到一起的话,将有所变化。

基于这个认识,我觉得我们对于小数据的属性有一个基本的界定,小数据应该与数据容量没有关系,小数据自身应该包含特定意义,小数据应该是一种结构化的数据,小数据应该是对于大数据的数据之间关系的宏观描述,还有小数据与大数据是紧密联系在一起的,如影随形,是整个大数据的一个部分。从这个角度出发我们来对小数据做一个定义,所谓小数据就是指描述并管理大数据的数据属性的数据,这是我对小数据的一个定义。在这个定义之下,我对小数据有一个分类,是关于特定类型的大数据的数据属性的数据,描述大数据中所包含主体客体的基本特征的管理数据,描述大数据中的行为过程的数据。对于第二类中可以分两种,一种是对于大数据中所包含的主体、客体的一般属性的规定,第二满足某类主客体属性的所有对象的数据。这里面我觉得对于小数据做了一个基本的界定,基本上把我们对于小数据的认识说清楚。

小数据到底在认识上应该有哪些现有的技术或者说认识的框架,这个跟现在有什么关系,我这边对刚才这些类型做了划分,其实小数据,尽管刚才我划分了三大类,其中有一类分两小类,但是这些类型其实都可以再做细分,可以分为元数据和主数据两种类型。第一类和第三类以及第二类的第一类的小类应该是一种元数据的范畴,第二类的第二个小类实际上是一种主数据,虽然如果从这个角度讲,我们认识小数据的时候,其实可以应用现有的对于数据管理的一些比较成熟的技术的方法去界定、去认识它。

为了进一步细分小数据具体的内涵,我们来看看元数据,元数据是认识很久的一个概念,最初是从图书馆管理学过来的,现在随着计算机系统的发展,主要应用在系统的日志管理以及各方面的应用,现在元数据得到了各行各业普遍的应用,我从《DAMA国际》2009年版说起,现在有新版,我对此做了概括,将元数据的领域分为16个方面,从这16个方面来看,其实我们每一个行业都可以用元数据的思路去做相应的界定,同时元数据类型分为业务元数据、技术操作元数据、流程元数据和数据管理制度的元数据,从属性来看元数据包括各行各业、各个领域、各个方面,每一个信息系统里面都存在着一个元数据的建设问题。

主数据这几年是一个概念,主数据也有国际标准ISO8000,DAMA国际在走出去的建设推广方面做了很多的理论,也出版了DAMA国际的主数据是一个重要的内容。我原来在2009年的时候做国家标准化,当时特别关注到我们认识基础信息资源主数据是我们认识的一个基本的工具,这里面我对主数据做了一个研究。

主数据定义,我在2009年的时候做了一个自己的定义,我这个概念能够比较准确地界定主数据的科学的内涵,我把主数据定义为满足跨部门业务协同需要的,反映核心业务实体状态属性的企业状态属性企业的基础信息,主数据在政府部门和企业认识有不同的做法,不同的行业有不同的主数据的认识的要求,比如说对于法人的基础信息,这是依法认定,是它的重要特色,对于其他的资产管理来说就不一定说是依法认定的,只要你觉得在业务属性上有必要把它当成基础数据来看,特别是满足主数据的特点就可以把它当成主数据来管理,这是我们对于行业的认识。

主数据对于其他数据的关系,我做了一个划分,业务数据就是我们去办业务的时候所留下的数据的信息记录都算业务数据,这就包括主数据和交易数据,交易数据是每次去做什么事情的时候的一种特定的法定的依据产生的过程的一种记录,这是我对这些数据之间的关系的认识。

在大数据中小数据是非常重要的一个内容,要正确地认识大数据就必须把小数据认识清楚,只有认识清楚了小数据,我们对于大数据才能有一个科学、合理的、正确的认识,所以小数据对于我们认识大数据是一个基础性的工作。今后对于我国来说,为了促进大数据产业发展,应该充分地借鉴应用小数据的一种基本的理论框架,深化我们对于大数据产业的管理或者说应用。

下一步小数据从政策上来讲我们应该怎么做,对于我们大数据的发展来说,首先应该深化我们对于小数据的认识,这应该从数据属性、知识管理和数据架构等方面对于小数据进行专题研究,特别是要把小数据的建设纳入我们大数据的产业发展的话语体系当中去。

第二就是加强宣传,克服我们当前对于在大数据不合理的观念,现在大数据发展以后很多基层的民众对它的认识很不清楚,对我们有一些专业人士来说,大家也存在着很多的困惑,因为觉得已有的大数据,好像大数据跟我们平常的工作没有关系,只要用了大数据的系统,这个数据的管理、决策全包了,但是其实这是一个假象。我觉得我们原来做的那些基础数据管理的工作仍然是非常必要的,而且是一个基础性的工作,这对于我们采用新的大数据分析工具的时候仍然是必不可少的一个东西。实际上在一些大数据的架构框架中,通过数据清洗,如果我们仔细看,在思想上来看、从整个认识上来讲,仍然有对于数据的分化、分离的问题,更多的是把元数据和主数据给剔除出来,如果我们能够事先将小数据认识清楚的话,有助于我们对于大数据的价值的利用分析过程。所以小数据还是具有很深的政策的含义,对于我们当前的发展大数据产业仍然是一个非常重要的认识的理念。

第三应该基于小数据完善我国的数据管理体系,促进我国大数据产业健康发展。刚才谈到各行各业都在做自己的大数据管理的文件,而且特别是在电子政务里面用得特别多,电商以及其他的一些传统制造行业,现在都在用数据体系进行构建。小数据对于我们大数据管理的价值是很有帮助的,当前可以借鉴像ISO8000以及DAMA国际他们对于数据的一些认识或者一些概念标准化的一些说法,当然DAMA国际现在也在不断地演进,我也一直在想,我们从中国的大数据展现的管理来讲,我们可以借鉴DAMA的东西,但是DAMA的东西只能作为我们参考,我们中国的目前大数据产业发展来说仍然有许多的问题需要我们去处理,比如说基础数据建设以及数据合规性的管理,还有我们一些特定的行业的跟我们行政管理体制的关系,怎么样共同认识小数据和大数据。这些对于我们大数据的产业发展都是非常有必要的,而且是对于我国数据开发管理体制建设来说都是一些基础性的工作,小数据是我们一个非常重要的理论上或者认识上的概念。

今天把我个人的研究给大家做了一个汇报,很不成熟,仁者见仁、智者见智,希望能抛砖引玉,引发大家对这个问题更深入地思考,特别是一线的同志在我的基础上提出更加专业、更加深入的建议,建立更加具有指导意义的认识体系或者理论体系,深化我们对于大数据产业发展的发展,促进我国大数据走在世界前面,健康发展,我的演讲到此为止,请大家批评指正。

赞(0)
声明:本站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,若涉及侵权请及时告知,将会在第一时间删除。本站原创内容未经允许不得转载:西数超哥博客 » IDCC2018|国务院发展研究中心李广乾:小数据的大价值