大数据知道你“大肚”?
我连公司小小的客户资料库都还没建好,就说大数据时代来临了。什么回事?
“大数据”一词不时听到,或许你以为大数据所指便是谷歌、脸书这类巨型公司无时无刻收集的用户资料,不是你能用得着的事,和你无关,但事实不仅于此,大数据概念正在根本地改变资料收集和分析方法。这样的改变不只冲击着商业活动,也势必影响我们的生活。怎么个影响?先来看看一则小故事。
美国Target百货公司要做促销,对象是怀孕女性。准备迎接新生命时夫妻购买习惯会大大改变,所以公司能越早准备应变越好。可是,要如何及时知道女性顾客怀孕呢?怀孕之初是看不出来的,难道一个一个问:”小姐,你有没有大肚啊?”
Target长期记录和顾客的交易,从购买婴儿用品者便可知道新妈妈是谁,然后追溯她们怀孕期间的购物记录。他们发现怀孕第三个月的女人特别会购买无香味的护肤液,几星期后又会买钙片、锌片等20多类相关产品。Target甚至能相当准确地推测预产期,在各阶段推销不同产品。问题来了。
某日,一怒气冲冲的中年男人到Target投诉:“我女儿还在中学,你们寄来这些婴儿产品优惠券,在鼓励她干嘛呢?!”
看来电脑数据也会有出错的时候,几天后经理打电话去道歉,想不到那父亲却说:“道歉的应该是我。”原来他女儿真的怀孕了。
数据之大用,不限于行销
数据是新时代的资产,掌握大数据者是掌握力量的“数据巨富”,和“数据贫民”间形成鸿沟。巨富可能用其优势垄断市场,如果许多小公司连基本的内部资料库也未尽完善,在巨无霸面前只能称臣。不想成为新时代的“贫民”,甚至“贱民”,无论你是运用资料的公司或是提供资料的个人,都必须明白大数据的概念和运用 — 为什么从购物习惯能推测怀孕呢?
过去分析资料通常仰赖显著的因果关系,比方说你是卖伞的,年尾时销量提高,你从资料发现多是东海岸的顾客,推断因为雨季,这因果关系十分明显。但在处理大数据时却未必这样思考,以Target的孕妇行销为例,为什么孕妇会买无味护肤液?不知道,也不需要知道。Target先从已确知是初为人母者的资料库,比对他们过去数月的购物记录,总之顾客买这类产品,是孕妇的几率便很高。另一奇怪的例子是谷歌利用搜寻关键词来预测流行性感冒,他们发现当一些地区大量搜寻某些关键词时,当地很可能会爆发流行性感冒。为什么呢?却很难说得准。
麥爾荀伯格的《大数据》一书全面地探讨大数据对你我以致社会的冲击,告诉读者大数据的发展史、如今的用途和未来的趋势。一般以为大数据和智能手机息息相关,手机的许多感应器诸如卫星定位、无线网路等等,都在自动收集和上传数据,然后这些资料被用来行销产品。但感应器之用不限于手机,大数据之用也绝不局限于手机和行销。比方说从工业生产用的机器到汽车都内建许多感应器,长期收集情报各个零件的数据,这类资料可用于预测哪一个零件可能损坏,让厂商在问题发生以前便事先维护。
大数据之大,首要是收集所有能观察、探测到的资料。关键词是“所有”,没有选择性,“巨细靡遗”这古老的成语用在现代的大数据最恰当不过。在摩尔定律下,中央处理器、记忆体和硬碟的速度、容量都逐年倍增,为储存和处理大数据奠下基础。据《谢谢你迟到》“Thank You for Being Late”作者汤姆士佛里曼观察,2007年是个重要的转捩点,那年推出了iPhone、Facebook、Twitter等重要平台。这居然得感谢之前科技泡沫期的过度投资,使得宽频便宜而普遍,酝酿出来的这些平台才得以盛行。大数据的另一特色是“乱”。在此大数据观出现以前,资料库都有鲜明的结构。比方说顾客资料库必有鲜明的栏目如姓名、电话、地址等,方便储存和搜寻,而缺点是不符合结构的资料都必须舍弃,像和顾客的简讯来往,因为没有相关栏目就没法记录。但在电脑计算速度倍数提升、储存成本倍数下滑的时代,已无须执着于结构,无论什么资料都可灵活收存。
若大数据预测你犯罪,能否先把你关起来?
资料收来何用,当下也许没有明确的目标。以你的安卓智能手机为例,谷歌在不断的收集“所有”情报:你去过哪里?什么时间去?搜寻过什么?你到过什么网站?逗留多久?买过什么?你个人的行踪当下看不出用途,但资料够多以后其价值会浮现。比方说谷歌地图最近多加了人潮推测功能,在主要地标如购物中心,谷歌不只能告诉你目前有多繁忙,还能预测每周人潮。你的行踪也用来推测交通状况,是谷歌导航和Waze不可或缺的资料。这些资料对你固然有用,但你愿意无时无刻透露你的行踪吗?
这不只是隐私权的考量,还渐渐挑战我们原来的价值观。书中有例,原本只有科幻电影中才出现的社会现象,居然在现实中慢慢浮现。电影Minority Report的主轴是警方拥有了预知技术,能在人犯罪以前先把他逮捕。自古犯罪者受法律制裁天经地义,但“很可能”犯罪者应该受罚吗?在美国,越来越多地方警察已开始利用大数据分析罪案黑区,当然也包括监视“可能犯罪者”。如果大数据的预测功能发展到十之八九可靠,就算“可能罪犯”没有立刻受罚,难道能逃得过歧视?
大数据运用的界限究竟定在哪里呢?法律的制定永远赶不上倍速变化的科技,且看Uber和计程车之争,市场所需求的是Uber,政府却还在想办法保护计程车。监管这些掌握数据的巨头,目前主要还是仰赖市场和舆论监督。Evernote最近更新其用户条款,影响隐私权,用户群起抗议后,Evernote迅速修正。Evernote的竞争者众,自不愿流失客户。谷歌、脸书等只要不一家独大,市场尚可制衡。谷歌早期的公司标语是“恶事莫为”,注意,它并没说要做好事,某种监管机制迟早是必要的。
如果电脑也有“直觉”
买无味护肤液就一定是孕妇吗?当然未必。《大数据》中所说的谷歌流行性感冒趋势预测计划,后来腰斩了,因为在2013年间其预测越来越失准 — 搜寻“感冒”的人未必就真的患上感冒。我大学时主修电脑科学,对人工智慧中的神经网路特感兴趣,电脑科学家一直在研究如何用电脑模拟人类思维,大数据很像在模拟人类的直觉。马康葛维在《决断两秒间》深入探讨此主题:有一位网球教练能在球员开球刹那就准确地判断他会否犯“双误”,连他自己也无法解释这种直觉。一说法是所谓直觉,是因人脑累积大量经验后跳过逻辑思维而直达结论,书的前半部谈人类神准的直觉,但后半笔锋一转,写美国警员因本能误判而错杀良民,继而探讨依赖直觉的陷阱。大数据这种“有科学基础的直觉”,资料虽有迹可循,但演算模式还是由人所设计,谬误难免 ,迷信不得。
这不表示大数据不可靠,只是大家还在摸索其无穷的可能性。目前拥有资源去收集、储存和利用大数据的,通常是些硕大无朋的公司,这些资料成为他们的资产后,要怎样运用只视乎该公司本身的道德准绳。它们可能用于公益,比如预测病疫爆发,也可利用你的个人资料为商家推销产品。但若说小民如你我完全无助也不尽正确。我手边这台手机有128GB容量,记忆体4GB;我二十多年前用的桌面电脑硬碟容量仅有40MB,记忆体不堪回首,现在手机处理器的速度更不知强几倍。若摩尔定律持续下去,一般人可利用的电脑演算功能将倍数提升,必可收集和分析更多数据。佛里曼认为以前只有大集团能做到的事,力量已渐渐转移到个人手中。要发现新的机会迎头赶上,先拥抱“大数据观”吧!
延伸阅读