AI、BI、大数据、数据科学
导读:本文概述数据、分析、商业智能、报表、大数据、数据科学、边缘分析、信息学以及人工智能和认知计算这些基本概念。
01 数据
数据几乎渗透到我们生活的每一个角落,从我们在手机中留下的数字足迹,到健康记录,再到购物历史,以及对资源(如能源)的使用情况。在当今这个数字世界里,脱离数字的生活虽然不是不可接受的,但也需要巨大的牺牲精神和不可思议的毅力才能忍受。
我们不仅是数据制造者,同时也是活跃的数据消费者,例如我们时常检查自己的在线消费习惯,监测健身程序,或者查看自己的常旅客积分是否够去加勒比度假,这些行为都是在消费数据。
但数据到底是什么?按最通用的形式来理解,数据就是被储存起来以备日后使用的信息。最早记录信息的方式可能是在动物骨头上刻蚀符号。到了20世纪50年代,人们开始在磁带上记录数字信息,然后是打孔卡片,再后来是使用磁盘。现代数据处理开始的时间并不长,但已经奠定了我们如何收集、存储、管理、使用信息的基础。
直到最近,我们对那些无法计算的信息(例如,视频和图像信息)还只能进行分类处理。但近几年来,通过大量的技术变革,无法存储的数据类型变得越来越少了。事实上,存储的信息,或者数据,就是以一种可用的编码方式,为了我们可计算的目的而建立的真实世界的模型。
数据是真实世界中所发生事情的持续记录或“模型”,这一事实是分析学的一个重要特征。被公认为“20世纪最伟大的统计学家之一”的乔治·鲍克斯(George Box)曾经说过:“所有的模型都是错误的,但有些模型是有用的。”
很多时候,我们在数据中发现一些没有意义或者完全错误的东西。请记住,数据是从真实的物理世界转化并抽象为代表真实世界的东西,即乔治所说的“模型”。就像机械速度计是测量速度的标准一样(也是衡量速率的一个很好的替代物),这个模型(指机械速度计)实际上是测量轮胎的转速,而不是速度。
总之,数据是存储的信息,是所有分析的基础。例如,在可视化分析中,我们利用可视化技术和交互界面对数据进行解析和推理,找出数据本身存在的规律。
02 分析
分析(analytics)可能是商业中使用得最多但却最难理解的术语之一。对一些人来说,它是一种用来“把数据屈打成招”(找出数据中潜藏规律)的技术或技巧,或者仅仅是商业智能与数据仓库的延伸;而对另外一些人来说,分析则是用于开发模型的统计、数学或定量方法。
Merriam-Webster字典称分析是“一种逻辑分析的方法”。Dictionary.com字典将分析定义为“逻辑分析的科学”。不幸的是,两种定义都直接使用了分析(analysis)这个词的词根,似乎存在循环解释的逻辑错误。
分析(analysis)这个词的起源可以追溯到16世纪80年代的中世纪拉丁语(anal-yticus)和希腊语(anal-ytiks),意思是“分解”(break up)或者“放松”(loosen)。我把分析(analytics)定义为一种解决数据驱动问题的结构化方法:通过对事实(数据)的仔细推敲,帮助我们解决问题的一套方法论。
关于分析的定义有很多争论。就当前讨论的问题而言,我将分析定义为:
一种全面的、基于数据驱动的解决问题的策略与方法。
我有意避免将分析定义为某个“过程”、某种“科学”或“学科”。相反,我将分析定义为一种全面的策略,正如读者将在本书第二部分中看到的那样,它是包含过程、规则、可交付物的最佳实践。
分析通过使用逻辑、归纳推理、演绎推理、批判思维、定量方法(结合数据)等手段,来检验和分析现象,从而确定其本质特征。分析植根于科学方法,包括问题的识别和理解、理论生成、假设检验和结果交流。
归纳推理
当积累的证据被用来支持一个结论,但结论仍带有一些不确定性的时候,就会用到归纳推理方法。也就是说,最终的结论有可能(存在一定概率)与给定前提不一致。通过归纳推理,我们基于具体的观测或数据能够做出广泛的、一般意义上的概括和总结。
演绎推理
演绎推理基于某些一般案例提出论断,然后依靠数据,使用统计推断或实验手段证明或证伪提出的论断。例如,按照演绎推理方法,我们提出一个关于世界运动方式的基本理论,然后(应用数据)去检验我们提出的假设的正确性。
分析可以用来解决各种各样的问题。例如,UPS公司应用分析结果而采取优化货物运输措施,节省了150多万加仑(1加仑=3.785 41立方分米)的燃油,减少了14 000吨的二氧化碳排放量 ;克利夫兰诊所利用分析结果优化了手术室的运营时间安排。
有了这些成功案例,对于技术供应商(硬件和软件)和其他不同支持者来说,“分析”毫无疑问都是极具吸引力的。当然,“分析”这个词当前存在过度使用危险,这可以从人们把这个术语与其他词的各种组合中看出。诸如:
大数据分析(big data analytics)规范性分析(prescriptive analytics)业务分析(business analytics)操作分析(operational analytics)高级分析(advanced analytics)实时分析(real-time analytics)边缘或环境分析(edge or ambient analytics)
虽然以上这些组合与搭配在分析应用的类型和描述上具有独特性,但也经常造成理解上的混乱,特别是对企业高管(如CXO层次高管)而言,技术供应商总是热衷于提供最新的分析解决方案,试图能解决他们的每一个业务痛点。
我的观点(许多志同道合、理性思考的人也有与我相同的观点)是,分析并不是一种技术,技术只是在分析活动中起到了推动和赋能作用的策略和方法。
分析通常也指能够识别数据之间有业务意义的模式和关系的任何解决方案。分析被用于解析不同规模的、不同复杂程度的、结构化和非结构化的、定量或定性的数据,以便从中实现对特定问题的理解、预测或优化的明确目的。
所谓高级分析也是分析的子集,它使用复杂的分析技术来支持基于事实的决策过程,而且这种分析通常是以自动化或半自动化的方式开展的。
高级分析通常包括数据挖掘、计量经济建模、预测、优化、预测建模、模拟、统计和文本挖掘等技术。
相关文章:
- [2022年03月14日]CIO必收藏:信息化IT软件/服务厂商名录
- [2022年03月14日]空降CIO的求生之道
- [2022年03月10日]不神化不低估!如何客观衡量BIM的价值?
- [2022年03月10日]企业数字化必备三要素:有钱、有管理能力、有人才
- [2022年03月09日]浅析数据湖和数据中台的关系
- [2022年02月23日]如何建立数据标准实现数据资产管理?
- [2022年02月23日]王鹏远:百年老院HIS系统切换的“四全”组织管理
- [2021年12月20日]别闹了,这些都不是数字化转型
- [2021年09月20日]为什么很多公司上了ERP、MES等系统,仍效率很低?
- [2021年07月27日]数字化转型80%失败率的关键原因是什么?