第10章 追踪 Tracking
我们并不了解自己。通过测量与自身相关的数据揭露我们隐秘的天性,是一项只有短暂历史的不凡工作。直到不久前,一个人得绞尽脑汁才能想到办法测量与自身相关的数据,同时不被自己误导。用科学方法实现自我追踪是昂贵、繁琐、有局限的。但在过去几年里,廉价的微型数字传感器能轻易记录各类不同的参数,以至于几乎人人都能测量上千种和自身有关的数据。这些涉及自身的实验已经开始改变我们对医疗、健康和人类行为的看法。
透过数字技术的魔力,温度计、心率监测仪、运动追踪器、脑电波探测仪以及上百种其他的复杂医疗设备都能缩小到和书上的字,甚至标点一样大。这些肉眼可见的测量设备能够嵌入手表、衣服、眼镜、电话,或者是房间、汽车、办公室以及公共空间这些操作成本不高的地方。
2007年春天,我住在加州北部。一天,我和一位医生朋友艾伦·格林(Alan Greene)在屋后杂草丛生的小山上徒步旅行。我们一边沿着泥泞的小路向山顶缓缓行进,一边讨论当时的一项新发明——塞进鞋带中的微型计步器。它能记录下每一步,然后将数据储存到iPod中便于以后分析。我们可以利用这台微型设备计算出爬山消耗的卡路里,或是追踪我们一段时间内的锻炼模式。
一周后,我和《连线》杂志记者加里·沃尔夫(Gary Wolf)又在同样的地方徒步旅行。他对这些新兴自我追踪装置的社会意义感到好奇。当时此类设备总共只有十多种,但我们都预见到,当传感器不断变得更智能时,追踪技术将大行其道。这是一种怎样的文化趋势?加里指出,当我们依赖数字而不是文字时,将构建出一个“量化自我”。2007年6月,加里和我在网上宣布,将召开一次“量化自我”见面会,欢迎所有认为自己正在实践这类行为的人参加。我们没有给“量化自我”下具体定义,想看看会有哪些人出现。第一次活动中,超过20人来到了我在加州帕西菲卡市的工作室。
他们追踪的项目种类之多让我们大吃一惊。他们用可量化的单位测量自己的饮食、体质、睡眠模式、心情、血液因子、基因、地理位置,等等。有些人还自己制造设备。有人为了把力量、耐力、专注力和效率提升到极限,花了5年时间实行自我追踪。如此进行自我追踪是一般人难以想象的。今天,全世界有150个量化自我团体,超过30,000名成员。8年以来,每个月都有人在量化自我大会上展示一种之前看来几乎不可能实现的巧妙新方法,追踪生活的某个方面。即便有人因为某种极端的个人习惯显得格外突出,他的行为不久也会被看作是稀松平常的。
计算机科学家拉里·斯马尔(Larry Smarr)追踪了大约100项健康数据,包括他的皮肤温度、皮肤电反应以及血液生化指标。每个月他都排列出自己粪便中微生物的组成,而这反映了他的肠道微生物系统组成情况。这个领域正迅速成为医学界最有前景的前沿方向之一。有了这个数据流,再加上大量的业余医学调查资料,斯马尔在没有医生提示症状的情况下,诊断出自己患有克罗恩病(Crohn\'s disease),或溃疡性结肠炎。外科手术证实了他的诊断。
斯蒂芬·沃尔夫勒姆是发明Mathematica的天才。这是一款智能数学处理软件(相对于文字处理软件)。作为一个痴迷数字的人,沃尔夫勒姆将他的计算能力用在了1700万份与自己生活有关的文件中。他处理了自己25年来收发的所有邮件,还记录了13年来自己每一次的键盘敲击、通话电话、脚步移动、在家中和办公室里的不同房间穿梭的轨迹以及出门后的GPS位置。他追踪了自己写书和写文章时修改校订的次数。借助自己发明的Mathematica软件,他把自我追踪变成了一种可以展示几十年来自己日常生活模式的“个人分析”引擎。有些模式是难以察觉的,比如他在分析自身的数据之前并不知道自己在一天中什么时候效率最高。
设计师尼古拉斯·费尔顿同样在过去5年里追踪并分析自己所有的邮件、信息、脸谱网和推特上的帖子、通话以及旅行记录。每年他都生成一份年度报告,将前一年的数据结果形象化。2013年,他总结道,自己平均每天有49%的时间是高效的,但星期三效率最高,达到了57%。他的独处时间占总时间的43%,睡眠时间占总时间的三分之一(32%)。他使用这份定量综述来帮助自己更好地记忆曾经见过面的人的名字。
在量化自我会议上,我们看到有人追踪自己的习惯性拖拉行为、喝咖啡的量、警觉程度以及打喷嚏的次数。老实说,任何可以追踪的事物都有某个地方的人在进行追踪。在最近的国际量化自我大会上,我提出了这个挑战:让我们想一个最不可能测量的事物,看看有没有人在追踪测量。于是我询问500名自我追踪者:“有人追踪自己指甲的生长状况吗?”这看上去十分荒唐,但还是有一个人举起了手。
更微缩的芯片、更强劲的电池以及云端连接激励了一些自我追踪者尝试时间跨度很长的追踪,尤其在健康方面。大多数人每年去医院检查一次身体的某些健康指标就不错了。试想,如果看不见的传感器每天都测量并记录你的心率、血压、温度、血糖、血清、睡眠模式、体脂、活动水平、心情、心电图、脑功能等,你会得到关于每项指标的上万个数据点。你能掌握自己一年中各个时间段、各种状况下的身体数据,包括放松或压力大时、生病或健康时。几年后,你就能精确地了解什么是自己的常态,即指标水平在其中波动的狭小范围。在医疗中,常态是一个假想的平均状态。某人的常态并不适用于另一个人,反之亦然。平均的常态对具体某个人来说作用不大。然而,通过长期的自我追踪,你会得到个人的基准水平,也就是你的常态,当你感觉不舒服或想用自己的身体做实验时,这个常态会很有价值。
不久的将来,一个极其个人化的身体记录数据库(包括完整的基因序列)可以用来打造个人治疗方案和个性化医疗。科学能够通过你生活的日志,为你专门生成治疗方案。例如,家里的一台智能的个性化制丸机能够完全按照你当前的身体状况把药物进行混合。如果早上的治疗减缓了症状,系统还会调整晚上的剂量。
目前,标准的医学研究方法就是在尽可能多的受试者身上做实验。受试者数量(N)越多,研究效果将越好。当N等于100000的随机人群时,我们才能根据实验结论推测一个国家的状况,因为此时受试人群中的离群个体对结果的影响在经过平均后能够消除。事实上,由于经济原因,大多数医学实验的参与者都不到500人。当然,科研中的N=500时,如果操作谨慎,就能通过药物批准。
另一方面,如果一项量化自我的实验中的N只有1,受试者就是你自己。你开始可能会觉得N=1的实验在科学上是无效的,但是这对你个人来说是极其有效的。从多方面看来,这是一个理想实验,因为你所测试的变量X是特定对象,即你的身体和心智在某一时刻的即时状况。谁会关心治疗是否对他人有效呢?如果想了解治疗是否对你有效,那么一个N=1的实验提供的结果完全适用。
N=1的实验(是科学时代之前所有医疗的标准程序)真正的问题不在于它的结果没什么用处(其实是有用的),而在于它很容易误导你自己。我们对于身体、食物、世界的运作(例如蒸发理论、振动理论和细菌理论)都有直觉和期望,而这些会让我们忽视真正发生的事情。我们猜测疟疾是空气不好导致的,于是搬到更高的地方住,这确实带来了些许改善。我们猜测麸质会导致臃肿,于是倾向于找到生活中支持这项猜测的证据而忽视那些认为麸质和臃肿无关的反面证据。受到伤害或感到绝望时,人们尤其容易受偏见影响。N=1的实验要想成功,必须将测试者的期望和受试者的期望分开,但由于一个人同时具有两种身份,这是极其困难的。为了克服这种固有的偏见,人们发明了大量受试者参与的随机双盲测试。由于受试者不知道他们的测试考察的是什么,因此不可能带有偏见。在自我追踪的新时代中,我们用自动化装置克服部分N=1的实验中自我误导的问题(在传感器长时间的多次测量中,受试者会“忘记”测试这回事)。我们还能追踪多个变量从而分散受试者的注意力,然后使用统计工具尝试发掘出模式。
从许多针对大数量总体的传统研究中我们了解到,治疗起作用常常是因为我们相信它有作用。这又被称作安慰剂效应。这些量化自我的追踪并不完全拒绝安慰剂效应,它们反而与安慰剂效应共同起作用。如果干预过程带来了可测量的改善,那么它就是有效的。我们关心的不是这种改善是否来自安慰剂效应,而是它能否对这个唯一的受试者起作用。因此,安慰剂效应可以是正面的。
在正式研究中,你需要一个对照组来抵消对于正面结果的偏见。在N=1的实验中,量化自我实验者,用自身的基准水平代替对照组。如果你追踪自己的时间足够长,指标足够多,就能在实验之外(或之前)建立你的表现模式,在对比时可以作为对照组有效地使用。
这些关于数字的讨论都掩盖了一个关于人类的事实:我们的数学直觉很差。人类的大脑不擅长统计。数学不是我们天生的语言。甚至在解读非常形象化的图表以及数值图时我们也需要高度集中注意力。从长远看,量化自我过程中的量化成分会变得不明显。自我追踪将远远超越数字化的范畴。
举个例子,2004年,德国的信息技术经理乌多·瓦赫特(UdoWachter)把一个小数字罗盘的内芯取出来焊接到一条皮带上。他绕皮带一圈埋入了13条压电振子,也就是让智能手机振动的零件。最后,他入侵电子罗盘的系统,让它不在圆形屏幕上显示北的方向,而是让连成一圈的皮带的不同部位产生振动。皮带上“对着”北方的部位会一直振动。当乌多系上皮带后,他就能通过腰部感受北的方位。不到一周时间,他对北的方位感觉就准确无误了。他不用思考就能指出北的方向,他是无意识的,但就是知道。几周后,他的位置感得到了增强,就好像他能感觉到一座城市的地图。数字追踪产生的量化信息被结合到了全新的身体感觉之中。长远看来,这是我们身体传感器中许多数据流的最终归宿,它们将不再是数字,而是新的身体感觉。
这些新的合成感觉不仅仅是娱乐性的。我们的自然感觉在数百万年的演化过程中确保了我们可以在一个匮乏的世界生存。没有足够的能量、盐或脂肪对我们是残酷的威胁。马尔萨斯和达尔文指出,每个生物种群都会扩张到将要发生饥荒的极限。今天,在技术带来的富足世界中,生存的威胁来自过量的菁华物质。太多的菁华打破了我们新陈代谢和心理的平衡。而我们的身体还不太能留意到新的失衡状况。演化过程中,我们不能够感觉到血压和血糖水平。但是技术能做到。比如,Scanadu的Scout这个新型自我追踪设备,尺寸和瓶盖一样,只要用它接触你的前额,它就会一次性测量出你的血压、变化的心率、心脏功能(心电图)、氧水平、体温和皮肤电传导。不久它也将能测量你的血糖水平。最终你会把它穿戴在身上。这些信息不以数字形式而是以我们能感觉的方式反馈给我们,比如腰部的振动、臀部的挤压。设备会让我们获得对于身体的新感觉,这是我们没有演化出来但却亟需的感觉。
自我追踪的范畴远远大于健康。它涵盖了我们的整个生活。微型可穿戴的数字“眼睛”和“耳朵”能够记录我们一天中每分每秒的所见所闻,从而帮助我们记忆。我们储存的一连串电子邮件和信息构成了记录自身想法的日志。我们还可以记录听过的音乐、读过的书和文章以及去过的地方。我们日常的走动和会面,以及非常规的事件和经验中的重要细节,也能被数据化,并汇集成基于时间顺序的流动信息。
这种流动信息被称作“生活流”(lifestream)。计算机科学家大卫·格勒恩特(David Gelernter)于1999年首先描述了这个词。他构想的“生活流”不光是一个数据档案,还是一种新型的计算机界面组织方式。基于时间顺序的“流”将代替桌面,而“流浏览器”将代替网页浏览器。格勒恩特这样定义“生活流”的架构:
“生活流”是按时间顺序排列的文档“流”,相当于你的电子化生活日记。你建立和收到的所有文档都会被储存在你的“生活流”中。“流”的底端是过去的信息(从你的电子出生证明开始)。远离底端,也就是向现在的方向移动,“流”更多地包含最近的文档,比如图片、通信、账单、电影、语音信息、软件等。从现在向未来的方向移动,“流”包含着你将来需要的文档:提醒、日历项目、待办事项。想象一下,有一本日志会自动翻页,能追踪你生活中的每一个瞬间。你可以坐等新文档的到来,它们会落在“流”的前端位置。向下移动指针浏览你的“流”,或点一下屏幕上的文档,弹出的页面包含文档的内容。你可以往回查看或看一看未来一周甚至十年应该做什么。你的整个计算机网络人生会呈现你的面前。
每个人都会生成自己的“生活流”。当我遇见你时,我们的“生活流”就在某个时刻发生了交集。如果我们预备下周见面,交集将发生在未来;如果我们去年见过面或出现在一张照片里,那么交集发生在过去。丰富的交织关系让我们的“流”变得异常复杂,但是每个人的“流”都严格遵照时间顺序,因而非常容易导航。我们会自然而然沿着时间线定位一个事件。比如“这发生在圣诞旅行之后,但在我的生日之前”。
关于“生活流”作为一种结构性隐喻的好处,格勒恩特说:“‘我把这条信息放在哪儿了’这个问题,总是只有一个准确的答案——在我的‘流’中。与文档层级相比,时间线、纪年表、日记、日报、剪贴簿这些概念在人类的文化和历史中更加根深蒂固。”格勒恩特对一名Sun公司的计算机代表说:“当我获得一段新的记忆——比如,某个阳光明媚的下午与梅丽莎在‘红鹦鹉’酒店外的一次交谈——我不用命名这段记忆或是把它塞在某个目录下。我可以使用记忆中的任何内容作为检索的关键词。我也不需要命名电子文档,或把它们放进目录。我只要获得他人的许可,就能把他人的‘流’混入我的‘流’中。反映我电子生活的个人‘流’可能混入包括我所属团体或组织的其他‘流’。最终,我的‘流’中还将混入诸如报纸、杂志等各种类型的‘流’。”
从1999年开始,格勒恩特多次尝试开发其软件的商业版本,但一直未能成功。一家购买了格勒恩特专利的公司曾起诉“苹果”公司,认为“苹果”盗用“生活流”的想法并用在自家的“时间机器”备份系统上(在“苹果”的时间机器上,要想恢复一份文件,你只要滚动时间线,回到需要的日期,就能得到包含当时计算机上所有内容的“快照”)。最近,格勒恩特和儿子丹尼尔再次尝试开发一款运用“生活流”的商业化产品,叫做Dittach。
事实上,我们已经在使用一款(至少部分包含)“生活流”产品,那就是脸谱网。你的脸谱网“流”是包括照片、新消息、链接、提醒以及生活中其他文件在内的流动信息。新的内容被不断地添加到“流”的前端。如果愿意,你可以在脸谱网中加入能捕捉你正在听的音乐或正在播放的电影的小控件。脸谱网还提供了时间线界面,方便你回顾过去。超过十亿人的“流”能与你发生交集。朋友或陌生人在帖子上点“赞”或标记出照片中的一个人,两股“流”就有了交叉。每天,脸谱网都在把更多时事或新闻“流”以及公司快讯加入“世界流”之中。
但这些只是部分内容。“生活流”是一种主动且有意识的追踪。当人们从相机中抓取照片、标记朋友或是刻意在“四方网”(Foursquare)上的某个地点签到时,他们就在主动地管理自己的“流”。甚至他们的Fitbit数据,包括步数计算,也都是主动的,因为这些数据存在的目的就是想获得人们的关注。如果不进行某种程度上的关注,你就不能改变自己的行为。
无意识且不主动的追踪同样重要。这种被动的追踪方式有时被称作“生活记录”(Lifelogging),也就是简单、机械、不动脑筋地完整记录下一切,或者说不偏不倚地记录生活中所有可记录的事物。你将来可能会用到它时才去关注它。由于大部分内容永远都用不上,“生活记录”是一个包含巨大浪费的低效过程。今天,由于计算、存储和传感器设备十分廉价,这种浪费几乎没什么代价。但是,对于计算的创造性“浪费”是许多最成功的数码产品和公司的“秘方”。“生活记录”的优势同样在于它对计算的奢侈使用。
最早进行“生活记录”的人之一是20世纪80年代中期的泰德·尼尔森(Ted Nelson)(尽管他当时并没有这个概念)。发明了术语“超文本”的尼尔森把自己与任何人在各地发生的对话用录音带或录像带记录下来,这些对话的重要程度各不相同。因为和上千人见面及交谈,于是他租来一个大型集装箱,里面塞满了带子。他的后继者,90年代麻省理工学院(如今在多伦多大学)的斯蒂夫·曼(Steve Mann)用一个头戴式摄像机记录自己的日常生活。25年来,摄像机在他醒着的时候一直开着,记录下一年到头来每天发生的事情。他的装置在一只眼睛的上方包含一个微型屏幕,而镜头能从第一人称视角进行记录,预示着20多年后谷歌眼镜(Google Glass)的诞生。由于相机遮住了他的半边脸,周围人会感到不自在,但他还是无意识地随时记录自己的整个生活。
当然,微软研究院的戈登·贝尔(Gordon Bell)或许才是模范的“生活记录”实践者。从2000年开始的6年里,贝尔在一项被他称为MyLifeBits的大型实验中,记录下自己工作的方方面面。贝尔脖子上戴着一个特制的微型摄像机,它能注意到附近人的身体热量,并且每60秒拍摄他们一次。贝尔的身体相机在检测到光线发生变化时,也会拍下一张照片。贝尔记录并储存自己在电脑上的每次敲击、每封邮件、每个访问过的网站、电脑上的每个窗口以及它们打开的时间。他还记录了自己的许多对话,过去说过的话与别人产生分歧时,可以“回滚”或倒带查看。他还把收到的所有文件扫描成数字文档,并在征得当事人同意的情况下把所有电话交流记录下来。这项实验的初衷,部分在于微软想找出用来帮助员工管理生成的海量数据的某种“生活记录”工具,因为解释这些数据远比仅仅记录它们更有挑战。
创建完整的回忆是“生活记录”的重点。一份“生活记录”记载了生活中的每件事,因此它能帮你恢复那些大脑可能忘记的事情。当生活被附上索引并完全储存在“生活记录”中时,你就能像使用谷歌那样搜索你的生活。我们的生物记忆力十分不稳定,因此任何补偿都有巨大作用。贝尔的实验版完整回忆工具帮助他提高效率。它能从以前的对话中验明真相或者重获自己忘记的见解。在他的系统中,将生活转换成数字化记录不成问题,但是读取有意义的数据需要更好的工具。
受到戈登·贝尔的影响,我在衬衫上夹着一个微型相机。这款Narrative相机的大小约1平方英寸。只要戴上相机,它每分钟都会拍摄一张照片。如果轻触两下机身,它就会拍摄一次。照片在云端进行处理,然后发回手机或存在网上。Narrative的软件能按一天中的生活场景智能分类图片,并在一个场景中选择最具代表性的三张照片,这样大大减少了照片传输量。使用照片概览,我可以先快速浏览一天内的2000多张照片,接着展开某个具体场景找到我想要的某个瞬间。我可以在1分钟内轻松地浏览一天的“生活流”。
虽然照片的分辨率够高,效果也很自然,但是因为没有构图(镜头随衣服移动),并且是“随机”拍摄,因此不适合分享。人们可能没被拍到头部,或是在眨眼睛,又或者被一张随机的房间图挤掉,更别说拍出文艺范了。这种“生活记录”类的照片作为详尽的视觉日志,一个月中只要产生几张有价值的照片就足够了。
Narrative公司发现,典型的用户在参加会议、度假或是想记录一段经历时会使用他们的产品,其中重现会议场景的效果最理想。持续拍摄的相机能够捕捉很多初次见面的人,而多年后你只要浏览一下自己的“生活流”,很容易就能想起他们以及他们说过的话,比名片更好用。“生活流”照片能有效地提示我们有关度假的回忆以及家庭生活中的大事。例如,我最近就在外甥的婚礼上使用了Narrative相机。我的记录不仅包括了人人分享的标志性时刻,还有与陌生人之间的对话。这一代Narrative相机不能保存声音,但是下一代产品将包含录音功能。贝尔在研究中发现,信息量最大的媒体是有照片作为提示和索引的音频信息。
使用拓展版的“生活记录”有这四条好处:
·它能365天、一周7天、每天24小时地全时段监控身体测量数据。想象一下,如果我们持续地对血糖水平进行实时监控,公共医疗会发生怎样的变化?如果你能实时监控是否有生化物质或毒素从周围环境进入血液中,你的行为将发生怎样的变化?(你或许会说:“我再也不想回到这里!”)这些数据既可以作为预警系统,也可以作为诊断疾病或用药的依据。
·它能提供包括你遇见的人、和他人的对话、去过的地方、参与过的事件在内的互动记忆。你可以搜索、获取或是分享这些记忆。
·它能提供包括所有你生产的东西、写下的文字或说过的话在内的完整存档。深层次的分析能够帮助你提升效率和创造力。
·它能提供一种组织、构造以及解读你自身生活的方式。
只要分享“生活记录”,我们就能利用信息档案协助他人工作以及扩大人脉。在生物领域,分享医疗日志能迅速加快医疗发现的进程。
许多怀疑者认为,两大挑战让“生活记录”注定只能在小范围内流行。首先,目前的社会压力让自我追踪看上去是件十分怪异的事。拥有谷歌眼镜的人不喜欢自己戴眼镜的样子,并且和朋友在一起时用眼镜进行记录,甚至解释自己为什么不记录都让他们感到不适,于是很快把眼镜丢在一边。就像加里·沃尔夫所说:“在日记本上写日记值得钦佩,但在电子表格上写日记让人起鸡皮疙瘩。”但我相信,我们很快会发明新的社会规范和技术革新来确定“生活记录”在哪些情况下是合适的。20世纪90年代,当最早的一批人开始使用手提电话时,刺耳的电话铃声着实可怕。在火车上、浴室中或电影院里,手提电话发出高分贝的刺耳声响;通话时,人们扯着嗓子,说话声与铃声一样大。如果当时的人设想人人拥有手机的未来生活,脑中只会浮现一个永不消停的喧闹世界。如今我去看电影时,即便周围人都有手机,也不会听到铃声,甚至看不见发光的屏幕,因为这些事情被认为是不合适的。我们会发展出类似的社会习俗以及技术解决方案,让人们接受“生活记录”。
其次,当每个人每年产生的数据量达到拍字节或艾字节,而“生活记录”如何发挥作用呢?没人能遍览这海量的数据,你将毫无头绪地淹没在数据的海洋中。如今的软件大致都存在这个问题。解释数据是一项极其耗时的工作,你必须精通计算,技术熟练并且充满动力才能从数据长流中萃取有意义的信息。所以,自我追踪仍是小众的活动。然而,廉价的人工智能将能克服大部分问题。研究实验室中的人工智能已经能够筛选亿万条记录,让有意义的重要模式显现出来。举个例子,只要价格便宜,谷歌用来描述一张随机照片内容的人工智能技术可以被拿来解读我衬衫上的Narrative相机里的照片。我只要用最简单的语言询问Narrative相机,它就能寻找多年前我参加的聚会上某个戴着海盗帽的家伙,如果确有其人,那么我们俩的“流”也将发生联系。或者我还可以询问自己待在哪些房间时心跳会加快,影响因素是房间的颜色、室内的温度还是天花板高度?这些现在看起来有些奇特的要求在10年后,将会是很平常的机械命令,就像如今司空见惯的谷歌搜索在20年前看来很神奇。
然而,这些还不够全面。我们作为网络中的人,会进行自我追踪,并且大多数人都会追踪自己的生活。但是网络上除了人,还有更多的事物,数以亿计的事物也会追踪自己。几十年后,任何被生产出来的东西都将包含一块能联网的芯片。广泛联网带来的一个结果就是,我们可以精确地追踪一样东西是如何被使用的。例如,从2006年开始,每辆出厂轿车都在仪表盘下装有一块OMB芯片,用来记录车的使用情况。它会追踪汽车的行驶里程、车速、急刹次数、过弯速度以及油耗。最初设计这些数据是用来协助车辆的维修。如果你愿意提供OMB驾驶记录,一些保险商,如Progressive公司会降低你的汽车保险费用。驾驶方式越安全的人支付的费用越低。汽车的GPS定位也能被准确追踪,因此驾驶员在哪些道路上行驶以及行驶的频率可以成为征税的依据。我们可以把这种道路使用费看作虚拟收费站或是自动征税。
物联网的设计是用来追踪数据,这也是它所处的云端的本质属性。在未来5年中,我们预计云端中加入的340亿联网设备将会用来传输数据。云端的作用则是保存数据。任何接触云端的东西都能被追踪,也一定会被追踪。
最近,在研究员卡米尔·哈特塞尔(Camille Hartsell)的帮助下,我整理搜集了美国所有对我们进行常规追踪的设备和系统的清单。这里的关键词是“常规”。我排除了那些黑客、罪犯或网络部队使用的非常规的追踪手段。我还略过了美国政府部门想要追踪某些特定目标时运用的手段(政府的追踪能力和他们的预算成正比)。这张清单包含了一个普通人在平常的生活中可能遇到的追踪手段。每个例子都有官方来源,或是出现在主流出版物上。
汽车活动——从2006年开始,每辆车都包含一块芯片。当你发动汽车时,它就开始记录车速、刹车、过弯、里程、事故等状况。
高速公路交通——高速公路上的柱子和测速器上安装的摄像头通过车牌和快速追踪标志记录汽车的位置。每月有7000万个车牌被记录。
拼车软件——优步、Lyft和其他零散的打车软件记录你的旅程。
长途旅行——你的航空和铁路行程被记录。
无人侦察机——“捕食者”无人侦察机监控美国边境的活动。
邮政信件——你寄出或收到的每封信的表面信息都被扫描并数字化了。
公用设施——你的用水和用电模式都被公共设备记录了(目前没有垃圾分类信息)。
手机位置和通话记录——你通话的时间、地点和对象(元数据)会被储存数月。有些手机供应商通常会把信息和电话的内容储存几天到几年不等。
民用摄像头——在大多数美国城市的中心地带,摄像头24小时不间断地记录你的活动。
商业和私人空间——如今,68%的公立机构主管、59%的私人企业主、98%的银行工作人员、64%的公立学校人员以及16%的业主在摄像头下生活或工作。
智能家居——智能恒温调节器(如Nest)检测你是否在家,同时记录你的行为模式,并将这些数据传输到云端。智能插座(如Belkin)监控你的用电量和用电时间并把数据分享到云端。
家居监控——视频摄像头记录你在家里或四周的活动,将数据储存在云端服务器。
互动设备——你传达给手机(Siri,Now,Contana)、主机(Kinect)或环境话筒(亚马逊Echo)的语音命令和信息在云端被记录和处理。
商场会员卡——超市能追踪你购买的物品。
电子零售商——亚马逊之类的零售商不仅追踪你购买的东西,还有你浏览或想买的东西。
美国国家税务局(IRS)——国税局追踪你一生的财务状况。
信用卡——显然,所有的购买行为都被追踪了。信用卡和复杂的人工智能相结合形成模式,揭示你的人格、种族、癖好、政治观点和爱好。
电子钱包和电子银行——诸如Mint一类的信息采集组织追踪你的贷款、房贷以及投资等完整的财务状况。类似Square和Paypal这样的钱包软件追踪你的购买情况。
人脸识别——脸谱网能在他人上传的照片中辨认(标记)你的头像。照片的拍摄地点代表了你过去所处的位置。
网络活动——网页广告cookie追踪你上网时的举动。上千家顶尖网站中有80%利用网页cookies追踪你在网上的行踪。通过与广告网络(adnetworks)的合约,你没有访问过的网站也能得到你的浏览历史。
社交媒体——它们能辨认你的家庭成员、朋友以及朋友的朋友,还能追踪你以前的老板以及现在同事,也能了解你如何度过闲暇时间。
搜索浏览器——谷歌默认永久记录你查询过的所有问题。
流媒体服务——他们能追踪你看过哪些电影(Netflix)、音乐(Spotify)、视频(YouTube)以及你的评论时间和内容。有线电视公司会记录你的观看历史。
读书——公共图书馆会保存你的借书记录一个月。亚马逊永久储存你的购买历史。Kindle监控你的电子书阅读模式,包括你的阅读进度、阅读每页的耗时以及停止阅读的位置。
健康追踪——你进行身体活动的时间、地点通常会被24小时不间断记录,其中还包括每天睡觉和起床的时间。
很容易设想,能够整合所有这些“流”的机构将拥有多么巨大的权力。因为聚集这些内容在技术上十分便利,人们会害怕“老大哥”的到来。当然,目前大多数“流”都是独立的,数据并没有被整合或关联。其中,几类数据可能被捆绑在一起(比如信用卡和媒体的使用),但总体看来,不存在类似“老大哥”的大规模整合“流”。政府行动缓慢,因此其作为远远落后于技术上能达到的程度(他们自身的安全措施落后几十年)。还有隐私法案这道来之不易的“薄墙”,阻止了美国政府整合这些“流”的行动。然而,企业整合数据的行为几乎不受法律制约,因此许多公司成了政府的数据收集代理方。客户的数据是商场中的新财富,因此可以肯定:公司(和间接意义上的政府)将收集更多数据。
根据菲利普·K·迪克的短篇小说改编的电影《少数派报告》,描述了一个不太遥远的未来社会,其中监控系统能在罪犯作案前将他们抓获。迪克称这种干预为“预防犯罪”侦查。我曾经认为迪克“预防犯罪”的概念是不现实的,现在我不这么想了。
根据上面的常规追踪清单,我们不难推断未来50年的情况。所有先前无法测量的东西都被量化、数字化,并且可以被追踪。我们会持续追踪自己,我们和朋友之间也会互相追踪。企业和政府会对我们实行更多追踪。50年后,无处不在的追踪行为将成为常规。
我在先前的章节“使用”中提到,互联网是世界上最大、最快的“复印机”,任何接触到互联网的事物都会被复制。互联网想要生产更多复制品。起初,这个事实让原创个人和公司深感麻烦,因为他们的作品通常会被不加区分地免费复制,而有些东西原本是珍稀的。有人(最容易想到电影工作室和唱片品牌)反抗这种偏好,而另一些人选择顺应这种偏好。拥抱互联网对复制的偏好,并寻求难以被复制的价值(例如,通过个性化、实体化、权威性获得价值)的人会获得成功,而否认、禁止以及试图贬低复制渴望的人则落后了,将来需要试图赶上。消费者当然喜欢各种混杂的复制品,同时还通过为互联网提供内容获得好处。
对复制的偏好不仅受文化和社会影响,还是由技术决定的。这种偏好在命令经济中,在不同的社会背景下,甚至在另一个星球上也是成立的。既然我们无法停止复制,那么围绕无处不在的复制的法律和社会体制十分重要。我们如何处理创新、知识产权和责任、对复制品的拥有权和获取将会极大地影响社会的繁荣和幸福。无处不在的复制是必然的,但是我们可以对其具有的特征做出重要决定。
追踪也遵循类似的必然变化。把上文中的“复制”换成“追踪”就能把两者进行对比:
互联网是世界上最大、最快的追踪机器,任何接触到互联网的事物都可以,且都会被追踪。互联网想要追踪所有事物。我们将不断地追踪自己,追踪朋友以及被朋友、公司和政府追踪。追踪曾经是不常见的昂贵行为,因此给公民带来深深的困扰,并且一定程度上来说对公司同样如此。一些人全力对抗对于追踪的偏好,另一些人最终会顺应这种偏好。我相信试图将其规范化、民用化,以及让它更有效的人将会获得成功,而试图禁止它,利用法律排斥它的人将会落后。消费者说,自己不愿意被追踪,但他们其实不断提供数据给这台机器,因为他们想从中获得好处。
对追踪的偏好不仅受文化和社会影响,还是由技术决定的。这种偏好在命令经济中,在不同的社会背景下,甚至在另一个星球上也是成立的。既然无法停止追踪,那么围绕无处不在的追踪的法律和社会体制十分重要。无处不在的追踪是必然的,但是我们可以对其具有的特征做出重要决定。
这个星球上增长最快的就是我们生产的信息量。几十年间,信息的膨胀速度比其他任何事物都要快。信息的积累速度比混凝土用量的增长速度(7%的年增长率)更快,比智能手机或芯片出口的增长速度更快,比污染或二氧化碳这类副产品的产生速度更快。
加州大学伯克利分校的两位经济学家统计了全球信息生产量,计算出新信息正以每年66%速率增长。虽然这算不上天文数字,甚至赶不上iPods 2005年600%的增长量。但是这种激增是短暂的,不会维持数十年(iPod在2009年停产)。另一方面,信息的增长已经持续了至少一个世纪。66%的年增长速度相当于每18个月翻一番,正符合摩尔定律规定的速率。到5年前为止,人类储存了数百艾字节的信息,相当于地球上的每个人拥有80座亚历山大图书馆。而今天的信息量相当于每人拥有320座图书馆。
用信息爆炸来描述这种增长是另一种将其形象化的方式。全世界每秒钟生产6000平方米的信息存储材料,包括光盘、芯片、DVD、纸张、胶片,我们会将数据填在其中。6000平方米每秒的速率大致相当于原子弹爆炸产生的冲击波传播的速度。信息以类似核爆的方式膨胀。但与真正的原子弹爆炸不同,信息爆炸不会只持续数秒,而会一直进行下去,好比一场持续几十年的核爆。
然而,我们日常生活中产生的大部分信息都没有被捕捉或记录。尽管追踪和存储量呈爆炸性增长,日常生活的主要内容并没有被数字化。这些没有被计算在内的信息是“未开发”或是在“暗处”的信息。开发这些信息将确保我们的信息总量在未来几十年内不断翻倍。
我们会生产关于信息的信息,这导致了每年收集到的信息量不断增加。这类关于信息的信息被称为元信息(meta-information)。我们捕捉到的所有数字信息都将促进我们生产与其相关的信息。当我们手臂上的运动手环捕捉到我们行走了一步,就会立即添加一个时间标记数据,接着它会生产更多新信息把这个数据和其他步数信息联系在一起,而当这些时间标记数据被绘制成图表时,又生成了大量新数据。与此类似,当一个年轻女孩在直播视频中弹奏电吉他时,以捕捉到的音乐数据为基础,产生了关于这个视频片段的索引数据,点“赞”的数据信息以及与朋友分享后包含的复杂信息包。捕捉的数据越多,我们基于数据生产的数据就越多。这类元数据的增长速度甚至超过基础信息,并且它的规模几乎是无限的。
元数据是一种新的财富,因为比特与其他比特发生关联时,价值就会提升。比特最低效的呈现方式就是单独且直接地存在。没有被复制、分享或是与其他比特相关联的比特将是短命的。比特最糟糕的未来就是待在某个黑暗、与世隔绝的墓穴之中。它们真正想要的是与其他比特一起出去逛逛、被广泛复制、成为元比特或是一条连续代码中的行动比特。我们可以用拟人的方法这样描述:
比特想要移动。
比特想要与其他比特发生关联。比特想要被实时测算出来。
比特想要被重复、复制和复印。比特想要成为元比特。
当然这是纯粹的拟人手法,因为比特是没有意志的,但它们有倾向。与其他比特关联的比特将倾向于被更多地复制。就像自私的基因倾向于自我复制,比特也是如此。同理,就像基因“想要”能够帮助它们自我复制的身体编码,自私的比特也“想要”帮助他们复制和传播的系统。比特的行为方式让它们看上去想要自我复制、移动以及被分享。如果你想依靠比特完成任何事,最好明白这一点。
因为比特想要被重复、复制以及被链接,信息爆炸和科幻小说级别的追踪将不会停止。人类想要得到的很多好处来自于数据流之中。目前最主要的问题是:我们想要选择哪种全面追踪的方式?“他们”了解我们,而我们对“他们”一无所知,我们想要这种单向的环形监狱式的追踪吗?或者我们可以建立一个互动、透明的“互相监督”机制,其中包含对监督者的监督?第一个选择是地狱,第二个则容易驾驭。
从前的小镇就是标准的情形。街对面的女士会追踪你的一举一动。她透过窗户瞥一眼,就知道你什么时候去看病,什么时候买了一台新电视以及谁周末和谁待在一起。同样,你也透过窗户看她,知道她周四晚上干什么,在街角的药店把什么东西放进篮子里。互相监督对双方都有好处。如果她不认识的人趁你不在时进入你家,她就会报警。当天她不在家时,你会帮她查收邮箱中的信件。小镇上的互相监督是对称的,所以有效。你知道谁在看你,知道他们如何使用你的信息。信息是否准确,使用是否得体,你都可以向他们问责。受监督时,你也可以从中得利。最终,人们的处境是一致的。
今天我们被追踪时会感到不适,是因为我们不清楚谁在监督我们,以及他们知道多少信息。我们无法决定他们如何运用我们的信息。信息需要纠正时,我们无法向他们问责。他们记录我们时,我们无法记录他们。并且被监督能得到哪些好处并不明朗。彼此的关系是不平衡、不对称的。
无处不在的监督是必然的。因为我们无法让这个机制停止追踪,我们只能让人们之间的关系更对称。实现文明的互相监督需要技术的修补和新的社会准则。科幻小说家大卫·布林(David Brin)用他的书名《透明社会》(Transparent Society)形容这样的世界。这种设想如何运作呢?考虑一下我在“分享”那一章中描述的去中心化的开源通货——比特币。比特币将经济体中的每一笔交易公开记录在一本公共账目上,使得所有的金融交易公开透明。交易的有效性由用户之间的相互监督而不是中央银行的监督实现。还有一个例子,一种开放式的加密软件PGP基于任何人都能查看的代码,包括一个公钥,因此人人都可以信任并验证。这些创新发明没有补救现存的信息不对称的问题,却展示了由相互警惕的机制驱动的体系如何运行。互相监督的社会中会出现一种权利意识,即每个人都有权获取关于自己的数据,并从中受益。但是每种权利都伴随着义务,因此每个人都有义务尊重信息的完整,负责任地分享信息并接受他人监督。
用法律限制追踪的扩张或许就像用法律禁止复制一样无效。我是泄露上万份美国国家安全局机密文件的检举人爱德华·斯诺登的粉丝,因为我认为包括美国政府在内的许多政府最大的过失就是隐瞒它们实行追踪的事实。强大的政府在追踪我们,并且这种追踪完全不对称。我为斯诺登的检举叫好不是因为它会减少追踪行为,而是因为它能增加透明度。如果我们能让追踪重新变得对称,可以追踪那些追踪我们的人;如果我们能让追踪者负法律责任(应当出台相关法规),并且为信息的准确性负责;如果我们能让利益更明显且与我们更相关,那么我想追踪的扩张将是可以接受的。
我希望朋友把自己当个体看待,为了建立这样一种关系,我必须保持开放和透明,并和他们分享我的生活。我也希望公司将我当个体看待,因此我必须保持开放、透明并与它们分享信息。我还希望政府把我当个体看待,因此我必须向它们公开个人信息。个人化和透明度之间有一种对应关系,个人化程度越高所需的透明度就越高。绝对的个人化(虚荣)需要绝对的透明度(无隐私)。如果宁愿保持隐私,不对朋友和机构开放自己,那么我必须接受个性不受重视的一般化对待。我将成为一个平均数。
现在,想象一下这些选项被固定在一根滑动轨道的两端,左端是个性化和透明,右端是隐私和一般化。滑块可以向两边或中间的任何位置滑动,而这个位置代表我们重要的选择权。让人人都感到意外的是,当技术让我们进行选择(保有选择权十分重要)时,人们倾向于将滑块推向个性化和透明的那端。心理学家在20年前不可能预料到这一点。如果今天的社会媒体教会我们一些关于人类的东西,那就是人类分享的冲动胜过保持隐私的愿望。这让专家们感到惊讶。至今为止,当面临选择的时候,我们一般倾向于更多地分享、揭露以及变得更加透明。我会这样总结:虚荣战胜了隐私。
人类曾经世世代代生活在部落或宗族之中,那时我们所有的行动都是公开、可见的,没有秘密可言。我们的心智在持续的互相监督下演化。从演化角度来说,互相监督是我们的本性状态。我认为,与诸多现代怀疑态度相反,人与人之间形成循环监督的世界不会受到强烈抵制,因为我们曾经像这样生活了数百万年。如果能实现真正的平等和对称,我们会感到舒适。
这个假设并不容易达成。显然,我与谷歌或是我与政府的关系天生就是不平等的。它们能够获取每个人的“生活流”,而我只能获得自己的,这意味着它们握有质量更高的资源。但是,如果能保留一些对称性,让我成为它们更高地位的一部分,承担更多它们的责任,并能从它们提供的更好视角中获益,或许事情是可行的。可以这样说:警察当然会视频监控公民。然而只要公民也能视频监控警察,并且能够获取警察的视频,这种情况尚能接受。虽然问题并没有最终解决,但是想要透明社会就必须开始行动。
那么,该如何处理我们曾经称之为隐私的状态?在一个人们相互之间保持透明的社会,匿名有没有存在的空间?
网络让如今比过去任何时候都更有可能真正实现匿名,但它同时使得在现实生活中真正实现匿名难上加难。我们在掩盖身份的道路上每前进一步,就会在揭开身份使自己完全透明的道路上更进一步。我们既有来电显示,也有来电隐藏,后来又有了来电过滤。接下来,生物特征监测(虹膜+指纹+声音+面部+心率)让我们无处可藏。当一个人的任何信息都能被找到并存档时,世界上就没有隐私可言了。因此,不少聪明人渴望找到方便的匿名手段作为隐私的避难所。
然而,在我见过的任何系统中,当匿名变成常态时,系统必然失败。充斥匿名者的社群要么自行毁灭,要么从完全匿名变成伪匿名状态。比如,在eBay和Reddit中,不断产生的昵称背后都有一个可以追踪的身份。著名的非法团体Anonymous由一群完全匿名的流动临时志愿者组成。他们是一群没有固定目标的义务警察。他们会让某家信用卡公司瘫痪,或者捣毁伊斯兰国好战分子的推特账户。但是当他们不断制造麻烦时,很难说他们对于社会的贡献总体上是正面的还是负面的。
在一个文明社会中,匿名好比稀土金属。大剂量的此类重金属是已知的对生物体最致命的毒素。然而,这些元素却是维持细胞生命的必需成分。但是,保持健康所需的量少到难以测量。匿名也是一样的。难以察觉的少量匿名情况对系统来说是好的,甚至是必要的。匿名者让偶尔的告密行为成为可能,并且能保护受迫害的边缘人以及不被社会所容的人。但是当匿名大量出现时,将会危害系统。
匿名是一种逃避责任的手段。因此,推特、YikYak、Redditt等网站上,大多数粗暴的骚扰都是匿名的。不用负责任的状态最大程度上释放出人类的恶。
一种流行的危险观点认为,设计系统时应当支持方便的匿名手段,用来克服对隐私的窥探。这就如同提高人体内的重金属含量,让人变得更强壮。
隐私只能通过信任获得,而信任需要稳固的身份作基础。结果是信任越多,责任越大,情况越好。就像微量元素一样,匿名者永远不应当被完全清除,但我们必须保持其数量尽可能接近于0。
数据领域的一切都趋向无限,至少是宇宙量级。在一个星球的数据量面前,一比特的数据实在微不足道。我们根本无法实际测量一个星球的数据量。事实上,已经没有合适的形容词来表示这个新领域到底有多大。你的手机的容量是吉字节级别的。太字节是我们曾经无法想象的,而如今,我的桌上就有三样容量达到太字节级别的东西。艾字节是目前地球的数量级。可能几年后我们就会达到泽字节级别。尧字节是目前有官方测量的最大数量级科学术语,更大的数量级如今还是空白。直到今天,超过尧字节的数量级还是没有被正式命名。但是,再过20年左右,我们将飞跃到尧字节级别。我提议,任何超过尧字节级别的东西都用“zillion”(无限多)来形容,这是一个涵盖所有新数量级的灵活概念。
量变将引起质变。更高的数量级带来差别。计算机科学家J·斯托斯·霍尔(J.Storrs Hall)写道:“如果一种东西的数量足够多,那么它很可能表现出少量单一个体所不具备的属性。根据我们的经验,万亿级别的差距不可能只是量的不同,一定还有质的区别。”一万亿倍的差距相当于一只微不足道的尘螨和一头大象之间的差异,或是50美元和整个人类的经济产出总量的差别,又或是一张名片的厚度和地球到月亮的距离之间的区别。
这种差别是“无限多级”的(zillionics)。
一万亿神经元提供的智慧是用一百万神经元无法企及的;一个zillion数据点提供的洞察力用千百万数据点是无法得到的;一个zillion芯片联网创造的一个悸动、振颤的统一体用一千万芯片是无法完成的;一个zillion超链接生成的信息和行为是用几十万链接无法想象的;社会网络在“无限多级”的领域中运行着。人工智能、机器人以及虚拟现实技术都需要对“无限多级”的掌握。但是掌握“无限多级”需要的技术令人望而生畏。
在这个领域中,用来管理大数据的一般工具不太起作用。最大似然估计(MLE)的统计预测方法无法起作用,因为在“无限多级”范围内,估算最大的可能性是不太可能的。即时地操控“无限多级”量级的信息需要全新的数学领域、完全不同的软件算法以及彻底创新型的硬件。这里包含多少机会啊!
“无限多级”量级的新型数据编排方式需要一台全球规模的机器。这个机器的原子就是比特。就像原子构成分子一样,比特可以构造复杂的结构。当复杂程度变高时,比特从数据升级成信息,进而成为知识。数据最强大的地方在于它们能够以各种方式重组、重建、重用、重设、重混。比特想要互相关联,一个比特单位的数据参与的关联数越多,就越强大。
问题是,今天大部分的可用信息都是按照只有人类能理解的方式编排的。手机里的一张快照包含着一串50,000,000比特的信息,它们按照人眼能够解读的方式编排。你阅读的这本书包含的700,00比特的信息按照英语语法规则编排。但是我们到达了极限。人类不可能触碰,更别说处理“无限多级”数量的比特。为了发掘我们正在获得或创造的“无限多级”字节级别数据的全部潜能,需要把比特按照机器和人工智能能够理解的方式编排。当自我追踪得到的数据能被机器知化时,它们将为我们提供全新、新奇、先进的了解自身的方式。几年后,当人工智能可以理解电影时,我们就能用全新的方式赋予“无限多级”的视觉信息不同的目的。人工智能会像我们分析文章一样分析图像,因此,它们将像我们写作时重组文字和短语那样轻松地重组视觉元素。
基于“解绑”这个概念的新产业在过去20年里逐渐涌现。技术创业公司能将旋律从歌曲中解绑,将歌曲从专辑中解绑,从而颠覆了音乐产业。革新性的iTunes售卖单曲而不是专辑。从先前的混合形式中提取或萃取出来的音乐元素能够重组成新的合成体,如可分享的播放列表。大型的综合类报纸被解绑后,分成了分类信息表(Craigslist)、股市行情(Yahoo)、八卦新闻(Buzzfeed)、餐馆点评(Yelp)以及各种自成一体并自行发展的故事。这些新元素能重新编排并重混成新的文本合成体,例如朋友用推特发布的快讯。下一步就是将分类信息、故事以及快讯再次解绑成更基本的成分,并用意想不到的方式重新编排。就如同把信息打碎成更小的粒子,让它们互相之间产生新的“化学结合”。在未来20年中,最重要的工作就是将我们追踪和创造的所有信息,包括商业、教育、娱乐、科学、体育以及社会关系,等等,放到它们最原始的级别去理解。这项任务规模极大,需要漫长的认知周期。数据科学家们将这个阶段中的信息称作“机器可读”信息,因为参与“无限多级”级别工作的不是人类而是人工智能。当你听见“大数据”这个词时,指的就是这些内容。
包含不同“化学成分”的信息能够产生数千种新的合成体以及新的信息“建筑材料”。无休止的追踪是必然的,但只是一个开始。到了2020年,我们每年能制造540亿个传感器,它们散布在全球,嵌入我们的车里,覆盖在我们身体上,监视着我们的家以及公共街道。这张传感器之网将在未来10年里产生“无限多级”字节的数据,其中每一个比特又能创造出双倍数量的元比特。经过实用人工智能的追踪、解析和知化,这片浩瀚的信息“原子海洋”会被塑造出上百种新形态、新奇产品以及创新服务。更高层次的自我追踪带来的可能性会让我们感到震惊。