人工智能以及驱动它的数据
发布于2022-05-11
人工智能 (AI) 是一种近来不断涌现的问题解决工具,正以多种多样的方式,越来越多地用于构建业务、助力社区的发展和安全,以及管理人和事物。而AI的养料,显然就是数据,事实上数据正是AI的核心所在。数据的可用性、完整性、敏感性和格式,在人工智能的使用过程及其有效性中都占有一席之地。
数据和人工智能
我们非常有必要来简要了解下各种类型的数据以及它们在AI中的使用方式。
结构化数据,顾名思义,就是记录在固定字段中,具有有序结构的数据,包括数值、金额、姓名、日期和地址等。这些数据还可以通过其他标签来进一步描述。
例如,姓名可以由姓和名组成;金额可以包含分数值。在电子表格或矩阵中,结构化数据的各种数据标签都可以用于分类、排序,以及在数据元素之间建立关联。此外,结构化数据还能够以层次化的方式来安排,这就类似于生物物种、杜威十进分类法或人口统计数据。结构化数据可以写在纸面上、存储在数字介质中,并通过观察和分析来构建出智能——这就是人工智能。
非结构化数据与结构化数据的区别,在于它通常不存储在固定字段中。它可能源自于文本叙述、医疗处方、PowerPoint演示文稿、图像、视频等。
机器学习
不论是结构化数据还是非结构化数据,它们都是人工智能的核心所在。AI使用脚本或算法来处理数据,从而实现一种人工的“学习”过程——这就是机器学习。
机器学习是通过观察数据模式来完成的,而不是通过编程指令,但它确实采用了编程的方式来推进学习、观察模式和遵循规则,并最终基于数据关系迭代来作出决策。例如,人脸识别技术就采用了基于成千上万面部特征和面部图像的机器学习。
图1:语音识别通过机器学习来观察数据模式。(图源:metamorworks/Shutterstock.com)
语音识别(图1)也采用机器学习来做同样的事情,只不过这里的机器学习基于的是声音、发音和语调。深度学习是机器学习的一个分支,它专注于数据,采用神经网络分层处理。正如大脑具有在突触之间发射信号的复杂神经元网络一样,神经网络建立在计算之上,以人脑和神经系统为模型。从某种意义上说,深度学习就是对数据进行微调,以使人工智能能够更好地反映实际的认知思维和智能。
通过数据构建人工智能的途径
AI是使用数据思考的。它的数据遵循一条从收集和聚合起始的途径,并在最终被捕获。一旦捕获,就必须进行存储和组织,从最原始的形式成为可以开始用于学习的形式。这种学习,无论是机器学习还是深度学习,都是通过计算过程和程序语言自动进行的。人工智能正是诞生于这样的学习过程。
AI路径中的高光时刻,就是将AI应用于通常由我们的认知能力完成的活动,例如决策、预测等功能。由于计算的执行速度非常快(而且可以全天候不间断进行),而且能够处理非常大量的数据,因而人工智能可以完成人类无法完成的任务。因此,我们现在不难发现,AI的身影已经出现在了大多数主要的行业中,包括金融服务、医疗保健、市场营销、公共安全以及我们社会和生活中的许多其他方面。
数据困境
人工智能依赖于数据——而且必须是高质量的数据,但并非所有数据都是高质量的。它也可能是不可靠的、不完整的、草率的、不准确的,其完整性和实用性会受到诸多因素的影响。
麦肯锡在其研究报告《Catch Them if You Can: How Leaders in Data and Analytics Have Pulled Ahead》(如果可以,就抓住它们:数据和分析领域的领导者如何取得领先地位)中,对表现出色的数据分析领导者进行了调查,以了解有关数据的最佳实践。他们在报告中指出:“我们从经验中得知,强大的数据架构使组织能够支持快速收集和共享数据,使一线员工能够访问和利用他们需要的数据。它还有助于建立并维持高水平的数据质量,以支持基于数据的有效决策。我们的结果证实了数据质量在推动分析技术的采用方面发挥的重要作用:表现出色的受访者报告的数据质量比其他公司的同行更高,而在所有受访者中,数据质量低是最常被提及的让员工持续使用数据进行决策的过程中遇到的最大障碍因素。”
此外,隐私问题也可能会带来一系列的困境。医疗保健领域可能需要依赖非结构化的数据,如医生的手写笔记,但直接使用这些数据会违反现行的隐私法规。敏感数据有时会因难以辨别而被收集起来使用,但这样做会违反国际性或国家/地区性的数据隐私法律。
此外,数据困境的另一个来源是其可用性。不同数据的检索难易程度是不同的。事实上,有些数据有时候根本就不存在;更重要的是,即便数据可用,也可能是非常不完整的,其中可能会存在缺失的字段和不一致的值。要让AI成功运作,就必须要调和、克服这些数据困境。
足够的高质量数据是获得瞩目成就的前提
有许多很好的例子都可以表明数据是如何用来投喂AI的。例如,HealthMap就是一个以人工智能为中心来创建数字地图,并以此来监测传染病的程序(图2),它可以让我们直观地看到新冠病毒的传播。该地图每天都会更新。
图2:2020年5月的新冠肺炎病例地图。(图源:VK Studio/Shutterstock.com)
该程序通过编程脚本从多个来源中提取数据,并将其输入到地图绘制程序中。它会按地点显示病毒感染事件,并通过颜色和确切数字来表示不同国家/地区的感染病例数。HealthMap利用对传染病数据的机器学习来创建可视化表述,并在发现异常情况时提供警报。波士顿儿童医院就通过使用HealthMap在当地新冠肺炎爆发成为流行病前捕获到了一些最初迹象。
与此同时,程序员还在收集其他数据字段,例如患者的症状、年龄、性别和其他人口统计数据,这些数据可以与模型结合使用以提供更多信息。模型建立起来后,就可以对其进行调整、构建或更改。我们知道得越多,它就变得越好;它变得越好,我们就能了解得越多。
数据是AI的本钱
数据是人工智能的本钱,是机器学习的原料,但数据的汇总却可能是一个艰巨的挑战,因为数据会以许多不同的形式存在——有序的形式,或者不那么有序的形式。数据的完整性和质量会极大地影响其作为人工智能消费品的价值。然而,当科学家、程序员和开发人员能够成功地收集和使用数据时,许多通过AI实现、以往从未设想过的解决方案,都将成为可能。
正如Facebook创始人马克·扎克伯格所描述的那样:“我认为AI会释放出大量积极的东西,无论是帮助发现和治愈疾病,帮助汽车更安全地行驶,还是帮助维护我们社区的安全。”
作者简介
Jim Romeo是弗吉尼亚州的一名记者。他在退休前从事了30年的工程生涯,目前主要撰写有关技术和商业主题的文章。