2024ITValue-文章详情顶部

如何让AI优雅地长大?

AI与隐私注定对立。

文丨AI观景台

在大刘的《三体》宇宙中,有着一个名为“智子”的超级AI,它能够将二维的质子通过电路蚀刻改造成计算机后转回到高维,从而实现对地球知识、通讯的全面监控,此时地球除人类思维外无任何隐私可言,地球也进入了基础科学停滞的百年黑暗时代,这大概就是AI侵犯隐私后的终极恐惧吧!

现实世界没有能够全面监视人类的智子,人类在AI面前还有一小块隐私自留地,但被AI捕获的一丁点隐私足以让普通人无处遁形。卡内基梅隆大学Latanya Sweeney教授在《简单的人口统计往往能识别出人的独特性》报告中提到,在基于美国选举人公共注册信息的基础上,AI仅需基于邮编、性别就有可能让87%的美国人个人身份完全暴露。

AI与隐私注定对立。

AI与隐私为什么对立?

过往经验告诉我们,人类发展的历史就是一部保护隐私的打脸史。

在刀耕火种的原始时代,人类一没有尖牙、二没有利爪,围猎获取食物与组团抵御猛兽侵袭让人类组成一个又一个小团体,生存战胜了隐私;工业时代,工业革命带来全新的生产关系,城市与工厂让人们分工合作更加密切,发展碾压了隐私;信息时代,互联网与AI让万物互联互通,对更高层次发展的追求再一次战胜了隐私。

《人工智能:一种现代的方法》一书认为,AI诞生的目的让计算机这台机器能够像人一样思考,从而让人们生活工作更简单。

1955年,Newell(纽厄尔)与后来的诺贝尔奖得主Simon在J. C. Shaw的协助下开发了“逻辑理论家(Logic Theorist)”。这个程序能够证明《数学原理》中前52个定理中的38个,其中某些证明比原著更加新颖和精巧。而纽厄尔设计的这个原始AI用到了243263 bit数据,相当于12万多个汉字,对于半个世纪前的人们来说这就是海量的数据。

1950年,图灵提出了著名的图灵测试:如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。前面提到纽厄尔开发的“逻辑理论家”这个算不上智能的简单程序就需要243263 bit数据,而勉勉强强算得上符合图灵测试的深蓝(象棋AI),就吃下了一百多年来历届优秀棋手的对局两百多万局数据,可以说数据就是AI成长发育所必须的蛋白质。

亚瑟·克拉克在《2001太空漫游》的小说中,大胆设想了一个超越人类的AI“哈尔9000”,能够帮助宇航员驾驶飞船且最后还觉醒了自我意识,这或许就是人类对AI的最终设想。虽然目前AI还未达到“哈尔9000”的水平,但是也已经达到投其所好和初步的以假乱真地步,例如AI作画、今日头条千人千面的信息推荐机制等,但前提是得摸清人类的喜好。

AI摸清人类喜好这就涉及到了隐私数据,从AI进步角度与隐私泄露的趋势来看,AI的进步显然是建立在隐私数据之上的。在20世纪60年代,在AI起步阶段除各国情报机构对机关、军队等特色群体的监控外,几乎没有出现过隐私泄露事件;但来到21世纪,隐私泄露变得平民化,安全公司Risk Based Security公布的数据显示,2019年上半年发生数据泄露事件3800余起,相比去年同期增加54%,AI发达程度与隐私数据呈正相关。

AI、隐私为什么一个都不能少?

诚然AI与隐私天然对立,但现实告诉我们AI与隐私却一个都不能少。

3月初,韩国人刚过完春节,虽然已上班复工但节日的氛围还未消散,集会聚会在韩国人的日程上安排得满满的,可新天地会这次集会让韩国的疫情急转直下,确诊患者从普通民众到机关政要、军队每日呈百数增加,韩国也得开始自己造新冠疫情检测试剂了。这里就不得不说韩国的效率了,从立项到研发成功前后仅花费3天时间,这背后除了向中国取经外,还有AI的对检测试剂的比对分析,AI可提升生产力。

AI是生产力提升的助推器的话,那么它还是人类能力范围扩大的拓荒者。每次生产力的提升,人类的能力范围也随之得到提升,农耕文明之前人类的能力范围仅限于小山头的围猎捕杀,工业革命的到来让人类能够上天下海,而信息时代则将人类的能力又一次带入到不可能的境界。

电影《蜂鸟计划》中,纽交所的天才操盘手Vincent为了突破17毫秒的传播极限,辞去工作欲依靠架设一条完全直线的光缆打破这一极限,但最终还是停留在20毫秒,戏剧性的一幕是Vincent的老板通过程序算法将时间提升至了10毫秒,完成了不可能,或许Vincent出狱后才会知道打败它的这种技术叫AI吧!

AI能提升生产力,能创造不可能,而隐私呢?隐私并不能推动人类社会发展进步,但它却实实在在的影响着社会与每个个体。

1944年,一位德国高级间谍给德国作战部连发两封电报,内容都是“加莱”,于是反法西斯的第二战场得以开辟。给德国最高作战部发送情报的是历史上著名的双重间谍胡安·普约尔·加西亚,就是靠着满口跑火车拿着28份工资的神奇男人。

其实胡安事先早就知道盟军进攻的是诺曼底,但此时德国败像已成,胡安果断选择把这个秘密留在心里并凭借德国对自己的信任将进攻地点说成加莱,人类历史上最残酷的战争得以提前结束。

隐私大可关乎人类命运走向,小则影响个人生活质量。2017年3月,北京的马琳的银行卡提示被划走了40087元,原因是接到“小红书客服”(诈骗团伙)电话按其指导一步一步走向对方账户付款。

蓝鲸TMT报道的内容显示,与马琳具有相似被骗经历的还有50余位,她们都是因为接到了“小红书客服”的电话,并且能够准确的说出购物的相关信息这才骗过了这些女士。诈骗团伙能够准确的说出其购物信息,显然是她们的隐私被一丝不挂的泄露了。

AI的下一站为什么是数据脱敏?

生存与发展是历史永恒的主题,AI作为先进生产力的代表是历史的大势所趋,当然隐私在生产力更加发达的现在也显得更加重要,如何让AI能够不靠吮吸隐私,优雅的长大这才是问题的关键。

而这问题的关键就是在于数据上,数据不仅是AI的粮食,也是隐私的载体。要想让AI能够吃到足够多的数据,又得让这些数据不足以泄露关键的隐私信息,数据脱敏就是这么一个折中方案。数据脱敏,顾名思义就是把原始数据通过再处理手段剔除、替换或让敏感信息失真,同时保留数据可用性的过程,目前数据脱敏可大致分为静态数据脱敏与动态数据脱敏两种,一个管进,一个既管进又管出。

静态数据脱敏是指按照脱敏规则一次性完成大批量数据的变形转换处理,一般用于开发、测试或者外发环境时使用。通俗的来讲,就是某种AI产品还处于内部开发与测试环境时,需要真实的数据对其进行初始的训练,而静态脱敏就是在AI获取数据的入口加一个过滤网,把数据中关于姓名、电话、邮箱等敏感信息直接抽离或模糊化。

静态脱敏

动态脱敏则是通过类似网络代理的中间件技术,按照脱敏规则对于外部申请访问的数据进行即时处理并返回脱敏后结果,一般用于已经上市的AI或数据查询服务中。这就好比房产中介,租房的需要查询房屋信息,房产中介虽然有房东老板的姓名、电话等敏感信息,但他返回给租房者时只会提供房子的区位信息与价格信息等,自动去掉房东老板的敏感信息,动态脱敏也是这样。

动态脱敏

在静态脱敏与动态脱敏的基础上,如今数据脱敏技术已延伸出了Differential Privacy(差分隐私)、FederatedLearning(联邦学习)两种主流的隐私方案。

差分隐私法是应用最为广泛的数据脱敏方案,其原理是将多组具有相同属性的数据集合打包取特定的约定值,从而让所有数据大同小异从而减小敏感数泄露的风险。假设李逵的市场部门每个月都会用一个表格统计部门每个人的工资发放金额,除了制表人,别人无法查看这个表格,只能通过一个查询函数S知道这个表的总额,某个月李逵调去了行政,那么别人就可以通过上个月表格A,和这个月表格B,来推测出李逵的工资,只需用S(A)减去S(B)。而差分隐私就是要让两组表格看上去差不多,这样一来你AI就只能推测出你的模糊画像,而避开了敏感信息的暴露。

分差法

联邦学习法则是近些年来新兴数据脱敏方案,其原理是利用分布式的边缘设备,如用户的手机、电脑的算力本地计算产生一个数据模型,再将这个数据模型分发至中央的服务器用于AI训练,敏感数据自始至终均未进入中心服务器。这就好比开盲盒,边缘设备就是外面的盒子,用户的核心隐私就是里面的玩偶,而中心服务器的AI就是你,只要你不在店里当场拆开盒子永远不知道里面具体是什么玩偶,只知道是什么类型或者某个IP的玩偶,这就是联邦学习法的作用。

数据来源:Google I/O

现在,像Google、Facebook等在AI开发中走到前列的巨头们,也已在普遍在AI研究中采用数据脱敏技术了。在经历过用户数据泄露后,Facebook对用户隐私的保护格外看重,2019年Facebook旗下深度学习框架PyTorch就与OpenMined宣布开发一个联合平台的计划,加速差分隐私与联邦学习法对隐私保护的技术研究,目前在在Github(AI算法社区)已经拥有5.2k个Star。显然,保护隐私的数据脱敏成为了AI发展的下一站。

数据来源:PYSyft on Github

本文系作者 AI观景台 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App

Baidu
map