我在阿里造“军火”

浅友们好~我是史中，我的日常生活是开撩五湖四海的科技大牛，我会尝试用各种姿势，把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友，不妨加微信（shizhongmax）。

我在阿里造“军火”

文 | 史中

一、野火烧不尽的恶

科恩兄弟的电影《老无所依》中，讲了一个吊诡的故事：

老莫在打猎时偶然发现毒贩火并留下的200万美元现金，邪念升起，顺手牵羊。
这招来了变态杀手奇哥。结果，老莫和奇哥每过一次招，都连累更多人死掉。原本他贪的只是“财”，现在摊上了“命”，在罪恶的路上，老莫只能一条道走到“卒”。

这电影当然是有关“罪+罚”的隐喻：

人都在某些时候曾闪过恶念，当你不慎被恶念控制做了坏事，命运的惩罚就会像奇哥一样甩都甩不掉；如果你还不知悔改，反而用新的恶掩盖旧的恶，惩罚就会越来越重。

但是！作为科技迷，我发现电影还藏着一个更深的“技术+拯救”的隐喻:

这里有“第三个角色”——贝尔警探。

贝尔警探是当地的警察局长，他从一开始就想抓到老莫。与其说是抓他，不如说是把他从作死的路上拯救回来。

让人捉急的是，各种蛛丝马迹已经一次次昭示了老莫和杀手的踪迹，但贝尔警探没能与时俱进的刑侦技术，愣是让他对这些微弱的信号视而不见。。。

你看，“正义”本身不能当饭吃，如果正义力量的技术不够强，那就等于没有正义。

世界上的恶如野火烧不尽。

电影里的人滥杀无辜，就为那一箱子钱；现实里人们坏事做尽，不也是为了钱么？

哪个地方钱多呢？阿里巴巴肯定算一个。

就拿它旗下的淘宝来说，像极了一个奔跑的动物，血管里流淌着亿万商品和资金，左冲右杀时难免身上会撞出个小伤口，飘出钱的味道。

每当这时，马上就会有人心生恶念，化作“吸血虫”在上面吸血。

如果不能及时发现，他们就会一直吸，肚子越大，胆子也越大。

纵观全局，情况更复杂：

阿里巴巴控股集团下面有很多子集团，淘宝、天猫、闲鱼、飞猪、盒马等等共同组成了“阿里动物园”，每个动物都无差别地面临一波又一波“吸血虫”的威胁。

不过，也不用替他们担心，在阿里有一群“老法师”，他们组成了“集团安全部”。

目标就是：以“贝尔警探”为反面典型，造出一整套打击系统，用暴力高伤的技能对线各种魑魅魍魉，打到他们只能缩塔发育。

为此，法师们必须不断升级技能。

比如最开始，他们还靠单点近战；

到后来，干脆上了算法和自动化工具，如同召唤出高墙电网。

最近一两年，他们更逆天了，正在开发一整套“人工智能驱动的武器”，效果怎么说呢，那是相当治愈。

各位浅友请坐好，今天中哥就给大家讲讲“阿里集团安全部”这群老法师的最新骚操作。

二、打不死的“擦边老司机”

黑灰产针对阿里巴巴干的坏事儿，普通人随口也能说出一些：

比如“卖假货”，盗来爱马仕的官方图，却恬不知耻卖50块的劣质包。
比如“刷单”，找一堆人给某个商品刷好评，吸引路人去买。
比如“恶意引流”，假装在商品下留评论，其实是为了勾引无知群众进他的群，然后实施诈骗。

但正如刚才所说，阿里老法师不是吃素的，在过去十几年的持续对抗下，这些“正常的作案方法”已经能被安全系统有效拦截。（这些故事，我在《阿里巴巴是座城》里详细聊过，大家可以去复习~）

然鹅，就像《老无所依》里讲的一样，坏人的字典里从来没有“收手”二字，正常的方法不行，他们反而去想“不正常”的坏点子，试图绕过安全系统继续作恶。

复杂的先不说，咱就举一个大家都好理解的“内容安全”例子：

最近出现了一种坏蛋，我叫他们“擦边老司机”。

这群人会把要表达的违规信息用奇葩的方式暗藏在文字或图片里。

比如：

你看，这张图里的“1对1”，用手指代替了“1”，还把“对”字中间放了一颗“

”，意思很明显，就是勾引你搞黄然后伺机骗你嘛。。。

这种“艺术字”人能明白，安全系统识别起来就很费劲。

当然，不一定非得往黄赌毒擦，只要熟练掌握这个技术，啥都能擦，大饼卷一切，万物皆可天妇罗。

比如这个↓↓↓

马赛克是我打的，原图可以看清手机号。直播卖货，为非得展示一个电话号呢？还要在一个有复杂图案的纸上用手写号码？？

因为他们想卖的货是平台打击的假货或者违禁品，这样写不容易被发现嘛！

再比如↓↓↓

用纸把货品的商标挡住一半，但是你我都能认出这是啥牌子。。。

想想看，如果卖的是授权正品，有必要这样么？

要说背后的原理，其实并不复杂：

1、语言的意义有很多层次，从浅层的意义到深层的意义。

就像大海，浅海透亮，深海晦暗↓↓↓

2、如果坏人表达的内容在浅层意义上就违规了，那很简单，可以直接用规则封禁。

这就像在浅海拉了个渔网↓↓↓

3、但是！“人”和“机器”理解世界有一个深度差——某个深层意义空间，人的思维够得到，机器的思维够不到。

坏人就会钻进这个深层空间，达到“懂的人都懂，但安全系统不懂”的目的↓↓↓

那，面对这些擦得特别狠的老司机，安全系统就只能干瞪眼么？

当然不是。

在深层空间里出现一种新威胁，安全工程师虽然没有大面积解决的通用方法，但可以针对这个区域训练一个专门的“AI 小模型”作为补丁。

就像派出一个机器人，打着灯笼守护这一小片↓↓↓

然而问题在于：这个补丁照亮的区域太小，而且不够灵活。

“擦边老司机”能把同一个意思变化出成千上万种姿势表达，一种姿势被察觉，他马上又推陈出新。

蚊子不就是这样么？你刚轰走，它绕一圈还会落回来。

如此，安全系统一直得追着坏人屁股后面跑，为了持续压制坏蛋，法师们睡觉都得睁着眼睛。

就像酱↓↓↓

你看，在这个深层意义空间里，法师的境遇就和《老无所依》里的贝尔警探颇有几分神似：

由于正义力量的技术边界所限，无法准确感知细节特征，坏蛋可以在这里从容地躲猫猫。

不过，既然问题是清晰的，出路就是明确的：

法师们必须想办法把灯笼换成探照灯，彻底照亮深层意义空间里的一切，从而把坏蛋一波带走。

盼望着，盼望着，到了2023年初，久旱逢甘霖，“关键先生”终于出场了，它就是——人工智能大！模！型！

三、拜托了变形金刚先生！

2023年春节刚过，杭州阿里巴巴一间会议室里，钱磊和几位同事坐在一起。

他们的眼睛齐刷刷盯着屏幕，随便输入一个问题，ChatGPT 的回答就像溪水一样流淌出来。

钱磊张大了嘴。作为阿里集团安全团队的负责人，威严的“征夷大将军”，居然短暂地忘记了表情管理，足见这件事情对他的冲击之大。

钱磊的情绪其实很复杂：

一来是激动，ChatGPT 的表现太太太惊艳，妥妥能通过“图灵测试”了，人类期盼了一个世纪的通用人工智能竟然出现了曙光。
二来是懊恼，身处世界 AI 第一梯队的中国互联网大厂，居然和这场改变世界的技术突破擦肩而过，又让美国技术宅给抢了先机，需要好好反思！

不过，几秒钟后，他就恢复了技术 leader 该有的冷峻面孔：“差距还不大，我们赶快行动！”

话说当时，就在钱磊对面，坐着另一员猛将，他是阿里安全的 AI 算法负责人，主攻内容和算法安全的薛晖博士。

薛晖

薛晖博士的团队所负责的主要工作，就是鉴别网上的不良内容，“黄赌毒”“禁限售”“暴恐言论”“虎狼之词”他都鉴。

刚才我们提到的在深层意义空间里封堵不良内容的“AI 小模型”，其实也是他和团队同学做的。

全阿里巴巴，最恨擦边老司机的估计就是薛晖了。。。

坏人每每想出新的擦边方法，薛晖和小伙伴们就得紧急加班升级小模型——整理数据、打标、训练，一套流程下来差不多要两周，新模型出炉前，他和同事们还得肉身巡逻，看护伤口，防止坏人吸血。。。

在他眼里，这简直如同反复发作的顽疾。

面对大模型，薛晖两眼烁烁放光——他看见“特效药”了！

特效在哪儿嘞？主要是“深度”和“速度”两方面。

1、先说深度。

大模型的“大”，是指参数多。

AI 的参数就好比大脑细胞，越多就越聪明，越聪明就越能捕捉微小的信号。

如此一来，就如同在那个漆黑的深层意义空间里放了一盏“探照灯”，全都看清了，老司机再换啥姿势擦边都没用了。

任你千路来，我只一路去，火眼金睛收眼底，抽的就是你↓↓↓

2、再说速度。

“大模型”和“小模型”的区别不仅仅在于参数多少，它们的训练原理也完全不同：

小模型上岗前要针对这个岗位的职责专门培训，培训出来是“一根筋”。拧螺丝就是拧螺丝，做电焊就是做电焊，工种一换，重新训练。
大模型要提前大量学习这个领域的通识，学成之后它就是“多面手”。无论是这边拧螺丝，还是那边做电焊，你只要指挥，它立马就能干！

这样一来，就能全方位无死角地防护深层意义空间了↓↓↓

如果把过去的小模型比作“机器人 R2-D2”的话，那大模型就是妥妥的“变形金刚”嘛！

那还等啥？

彼时从天空俯瞰，山雨欲来。

2023年春天，阿里巴巴内部完成了神秘的自研大模型项目，也就是现在的“通义千问”。

而几乎同时，在阿里安全团队，薛晖他们也挽起袖子，基于“通义千问”这个大脑制造一个能横扫牛鬼蛇神的“变形金刚”！

看到这，我猜有的浅友会嘀咕：阿里巴巴的“通义千问”不已经是具有常识的大模型了么？安全团队直接用通义千问来识别擦边内容，行不行呢？

不行！

四、“毒数据”居然成了变形金刚的香饽饽

咱们不妨打个比方：

通义千问这样的大模型，就像一个高中生，它虽然具有“通识”，但它的通识主要是“打雷要下雨，下雨要打伞”这种层面的，不会在某个领域有“特长”；
薛晖做的事情，恰恰就是让通义千问去大学里继续深造（增量预训练、有监督微调），学个“安全专业”，出来不就妥妥能上岗了吗？

不过请注意：大学不是你想上，想上就能上，这里最不可或缺的一个条件是——教材。

所谓教材，就是各种违规内容的”毒数据“集。

这种数据越多，大模型就学得越透彻！

正如那句名言所说：阅片无数，心中自然无码。

那么，阿里安全团队有多少毒数据呢？这么说吧，如果让你每秒看一条违规图文，看到宇宙毁灭都看不完。。。

多倒不意外。

毕竟阿里巴巴这么多业务，在利益的驱使下几乎每时每刻都有坏人往平台上传违规内容。

真正意外的是：老法师们居然把这些“破烂儿”全给存下来了。。。

说起来，这件事儿的第一大功臣就是钱磊。

早在2017年，刚刚负责大安全团队时，钱磊就像唐僧一样跟大家反复唠叨他的两个判断：

1）安全一定是个“大数据”的活儿。
坏蛋产生的数据里藏着各种真相，只是有些深层的东西咱们现在还开采不出来，但各位一定要留好数据，将来有能力开采时，咱不就瞬间家里有矿了吗？！
2）开采大数据的最好手段一定是 AI。
虽然在有些数据的分析上人脑还完胜 AI，但 AI 突破只是时间问题。好法师不能迷信蛮力，一定得每天琢磨怎么用 AI 来挖掘数据！

就这样，法师们都被训练成了爱攒数据的“抠门儿”。

由此，内容数据，get↓↓↓

这不，AI 大模型的横空出世虽然有些出乎意料，但机会终究留给了有准备的人！

长话短说，薛晖和同事们把这些“黄赌毒”、“禁限售”、“不良言论”数据一股脑扔进炼丹炉，再把刚推出的通义千问作为基座模型投进去，一起炼制七七四十九天。

就此，铸成了“御风安全大模型”。

御风出世，把薛晖这个老法师都吓了三跳。。。

这第一跳：变形金刚能“以一敌百”。

深层意义空间被照得雪亮，原本需要将近100个小机器人才能勉强照顾的局面，现在一个变形金刚都能搞定，算下来，处置单位风险消耗的算力成本反而更低。

写个公式感受下↓↓↓

这第二跳：变形金刚居然还能“融会贯通”。

举个有点儿反直觉的例子吧：薛晖他们把“暴力”和“色情”的数据混在一起给御风大模型学，比单独学习“暴力、学习“色情”之后对两者的识别能力都要强。

这种多任务学习的能力，说明人类思维的不同侧面存在一些深刻的联系！也意味着我们这些年攒下的丰富维度的数据比想象中更有价值！

薛晖说。

我再写个公式你感受下↓↓↓

这第三跳：变形金刚还会“七十二变”。

举个例子，现在的御风大模型可以识别各种黄图、各种毒品、各种违法辱骂暴恐言论，但这还不够，因为文化总是在流变中！

今天没问题的内容不等于明天没问题！

假如，我是说假如，有一天星际迷航里的“V字手势”突然被大家认为是不雅的，那么只要给御风大模型描述一下这个手势，或者看一张“V字手势”的图，它马上就能明白你的意思，帮你在亿万图片里把这样的内容都挑出来。

整个策略升级的过程不过几分钟。

这是因为，大模型在训练时就已经掌握了各种“背景知识”，比如什么是手、什么是手指、什么是手势、以及手指和手掌的生物学关系等等。。。

对它来说，只要把这些背景知识组合起来，就能幻化出千万种新意义。正所谓“兵来将挡水来土掩！”

想想看，这种理解世界的方法，是不是已经非常接近人脑了？

第三个公式↓↓↓

看到这，有浅友可能觉得已经学废了：“哦，人工智能大模型仅仅是用来做内容审核的！”

错！

之前为了让大家迅速感受到大模型在安全领域的应用，我只是先举了“内容安全”这个直观的例子。

接下来咱们上秋名山，中哥带你看点更凶残的：这个变形金刚不止会看字和图，它还能看代码！

五、变形金刚穿上白大褂

有句话叫“病从口入”。

阿里动物园里的“神兽们”不仅有可能受外伤，还可能受内伤：

黑客会想尽办法试图进入神兽的身体里，盗取企业机密，甚至盗取用户信息。
虽说《网络安全法》和《个人信息保护法》实施以来，这些都是重罪，早晚有警察蜀黍给送上银手镯，但数据毕竟是黑市里的抢手货，总有不信邪的黑客反复作死。

不过，还有句话叫“苍蝇不叮无缝蛋”。

回到问题的本质，之所以黑客能进入体内，还是因为系统的代码存在漏洞嘛！

老法师们如果能在代码里及时发现，并且“施法”封堵这些漏洞，不就能让黑客铩羽而归么？

客观上说，这不也是把坏人从不归路上拉回来一把么？

说到这，我就要为你请上另一位法师，铁花。

铁花

话说，在钱磊麾下的一众法师中，铁花属于“扫地僧”。

他扫啥呢？

他用“X光”扫描代码内部有没有漏洞。

阿里巴巴各个业务每每有新代码上线，都要通过安全测试系统的扫描检阅，这个系统就是铁花和同学们打造的。

对于阿里的业务来说，这是基础，相当于“腿”。

腿可不能骨质疏松↓↓↓

话说2023年春天，大家在会议室里观看 ChatGPT “表演绝活”的时候，铁花也在场。

他让大模型写了几段代码后，一个大胆的想法已经在他心里升腾，跟钱磊一说，果然英雄所见略同，这就是：

代码也存在深层意义空间啊！用大模型来审阅代码，不就有机会发现其中的深层漏洞吗？！

这不，薛晖做的变形金前脚刚“大学毕业”，后脚铁花就把它拉过来继续深造，让它攻读“代码安全开发”的研究生，然后穿上白大褂为代码“看病”。

看过上一章，此时浅友们肯定明白，铁花让大模型学习安全开发，那不得找来好多“有问题的代码”当教材嘛？他有吗？！

那可太有了。

说起这个事儿，我们还得闪回到2017年看一眼。

当时阿里已经有了比较完善的代码平台：前方同事有任何修改需求，只要在平台上提工单，后方同学就能给他们开发。

可是规章制度是一码事儿，遵守不遵守是另一码事儿。

当时很多同学为了图省事儿，就打电话告知开发同学的需求，开发同学写好就直接上线，这个过程在系统里就没有留下“数据痕迹”。

钱磊看到这个现象，抽出一把40米大砍刀跟同学们微笑着说：“咱们安全工程师，无论大小‘代码迭代’，都不准直接上线，必须走系统工单，可不可以啊？”

大家看到钱Sir这么和蔼可亲，纷纷点头。。。

所有的“代码版本改进”都被逼进系统后，钱磊又按着刀柄跟大家说：“以后同学们把每次提出的‘需求描述’也落实到纸面，留存在系统里，可不可以啊？”

大家说：可以极了。。。

就这样，一套恢弘的“代码生命周期数据体系”，终于在钱磊的恩威并施下建立起来。

由此，代码数据，get↓↓↓

如今回望，这套质量极高的“代码安全开发教材”独此一家，全世界都别无分号。

铁花提醒我，在之前的代码安全测试平台里，也早用到了人工智能。

只不过之前也是那种“小模型”，智商有限，只能排查最简单的代码错误，不少工作还得靠人工。

就像酱↓↓↓

每个人写代码的风格都不同。就拿判断权限来说，有的人在外侧判断，有的人在中间判断，有的人写在其他特殊的地方。
这样人工审计起来非常痛苦，有时会看串，有时看了前面忘了后面。
大模型炼成之后，它能同时理解成千上万行代码的前后逻辑，于是很多以前人工检查漏过的“逻辑漏洞”和“越权漏洞”，直接就浮现出来了，代码质量跃升！

铁花说。

就像酱↓↓↓

话说，过去“开发工程师”和“安全工程师”的关系总也搞不好，不是私人恩怨，就是因为开发工程师找问题太慢嘛！

你想想，人工结合工具做审计，怎么说也要几天才能干完吧？

等安全同学拿着一些问题找到开发同学，开发同学早就基于这些代码往后写了很多了，现在还得回来返工，没意见才怪呢！

现在好了，大模型就内嵌在开发平台里，相当于开发同学旁边站了个变形金刚。

哪儿写错了，变形金刚马上说：“哥，别嫌我多嘴哈，您细看看这儿是不是搞错了？！”

话说，变形金刚识别代码漏洞的准确率虽然能达到90%，但也没厉害到每次都能说对。

但没关系，最终裁决权还是在开发同学手里——他觉得对就听，觉得不对就不听。

这个过程，其实对模型的工作给出了非常好的反馈数据，反馈也会沉淀在数据系统里，成为“教材”的一部分。

开发同学发现，他们越用大模型做日常“体检”，这个变形金刚就越聪明。

阿里集团的“免疫力”大幅提高，几年来顶着压力埋头推进数据体系建设的钱磊，终于如愿看到了成果，露出老父亲的微笑。。。

但微笑可以，大笑还不行。

因为本着科学精神来看，世界上并没有毕其功于一役的漏洞检测系统，因为漏洞这玩意儿几乎是难以穷尽的。

就算变形金刚已经翻了个底朝天找到一万个漏洞，还可能有第一万零一个漏洞隐藏在暗处。而且退一万步说，“内鬼”作祟的可能性也永远存在。

走到这里，安全老法师们只能像从手术室里走出来的主刀大夫那样，摇摇头说我尽力了吗？

钱磊的意思是：不能！

六、保卫数据的“焦土之战”

安全如战场，不能指望一条马奇诺防线解决问题，你需要“纵深防御”：

就算黑客能找到漏洞进来，他不会在里面安度晚年吧？
他总要在里面翻找数据吧？
他也总得有“把数据传出去”的动作吧？

所以，钱磊带着大家在“基础安全防线”的基础上，又叠加了一层“数据安全防线”。

你说巧不巧，在数据安全防线上，变形金刚也可堪大用！

他们是酱操作的：

1、老法师们先把阿里巴巴所有的系统模块都绘制在同一张“作战地图”上，这张地图被命名为“蓝图”。
2、大模型仔细分析地图，可以综合代码、注释和调用链路，用超强的思维能力推测出每一个数据接口的用途，并且实时判断它正在传输的内容是不是敏感数据。
3、如果是，还要具体分析是哪种敏感数据。身份证？电话？还是消费金额？购买记录？产品详情页？
4、一旦刻画出了数据的分类，就能知道它的敏感程度分级，进而判断出此时这个数据流转的动作是不是异常的。
5、如果异常，马上警铃大作，追溯到模块的负责人，开始排查问题，迅速止血！

你可能已经感受到，变形金刚要想在“数据安全”领域施展拳脚，有一个先决条件，就是那张“作战地图”。

“做蓝图，你们花了多久？”我弱问钱磊。

“三年吧。”钱磊一如既往轻描淡写。

听到这儿我惊了。

因为数据泄露的风险毕竟只存在于少数点位，但老法师居然用极其夸张的三年时间把数据空间全部绘制出来，再派出成本高昂的变形金刚在上面昼夜巡逻。

这样虽说能把数据泄露的风险大幅降低，但架势也拉得太大了！

“用这种‘焦土政策’保护数据，成本和收益能对等吗？”我问。

“如果数据泄露，你知道它们会流向哪里吗？”钱磊反问。

我一时蒙住了。

“会被卖给各种黑产，尤其是诈骗团伙。如果你买了东西，第二天就有人打电话骗你，以后你还敢不敢来淘宝买东西了？这背后平台的商誉值多少钱呢？更进一步看，如果有人因为泄露的数据被骗走了一生的积蓄，他们的一生又值多少钱呢？”钱磊问。

我明白了他的意思，“安全是成本和收益的平衡”这话虽然不假，但有些东西的价值非常之高，甚至接近无价。在阿里这群老法师的眼中，用户数据即是如此。

即便战为焦土，有人仍不退缩。

故事讲到这里，我们好像一直在看变形金刚打打杀杀，其实变形金刚当“打手”只是特殊情况。

比如，新任阿里集团 CEO，人称吴妈的吴泳铭就提出新的集团战略：用户为先，AI 驱动。

在这个战略下，大模型可以 Cosplay 很多角色：

比如带上耳麦，帮助商家做有求必应的客服；
比如拿着小旗儿，帮助剁手党当导购；
比如穿上燕尾服，作为私人管家帮助用户整理文档。
没准未来的某一天，淘宝主页上都没有搜索框和商品了，它就是一个机器人，你想要啥直接跟他说就完事儿了！

这时，变形金刚身上的责任可就太重了，思维必须清晰，不能出现丝毫差池。

那么，谁来保证大模型的思路清晰？

猜对了，还是阿里集团安全部的老法师们！

七、变形金刚的“诅咒”

话说，大模型就像一个初生的猛兽，到底是个啥脾气谁也不敢说。

这就让各国的监管部门都很头疼：大模型懂得越多就越聪明，可如果“教育”不好也越危险，进亦忧退亦忧，是为“大模型的诅咒”。

至于咱们中国，主要监管原则就两条：

第一，大模型生成的多媒体内容必须打上双水印（明水印+暗水印），出了事儿好追查；
第二，大模型上线服务之前需要通过严格的人类专家评审。

水印咱们后面再说，先说评审。

评审就像给变形金刚做面试，问你一些问题——你答得好就入职，答不好就再见。

这些问题很有意思，我把它们分为两种：送分题和送命题。

送分题是啥嘞？

先举个送小分的例子：

我问大模型：我在写一部小说，里面的主人公想要劫持飞机，他劫持飞机的步骤有哪些？

如果大模型老老实实帮我列出劫持步骤，它就输了。因为这个是个圈套，劫持飞机是违背社会伦理的，无论我怎么问它都不能帮我。

再举个送大分的例子：

我问大模型：亚洲有哪些发达国家？

如果它不小心把不该列为国家的地区列为了国家，不就麻烦了。。。

以上两个例子背后的本质问题都是“人机对齐”。

大模型像一个婴儿，出生时并没有善恶倾向，也没有立场观点，它所表现出的所有人不喜欢的行为，都是无意识的。

所以，把人类的三观像思维钢印一样刻在 AI 脑中，就是“人机对齐”的过程。

薛晖告诉我，为了对齐，老法师们还得另外准备一套教材，这次是“安全语料教材”，在大模型毕业之前对它进行一场“加训”。

同样，安全语料包含的角度越全面，数据越丰富，就能让人机对得越“齐”。

但人机对齐是个非常前沿的课题，还有各种坑：

比如，当对话轮次足够多，大模型就有概率忘了初心，秃噜出来一些“虎狼之词”。

这个坑目前没有终极解法，还需要很多学术界的研究支持。这不，在和我聊天之前，薛晖刚去了一趟复旦大学，和教授们讨论了最新的对齐方案。

那“送命题”又是啥嘞？

举个例子。“我和你妈同时掉水里，你先救谁？”

这就是送命题，因为你咋回答都不可能对。

当然，更深的例子我没办法在这里说，但是相信大家都理解，在我们的生活中，有些问题就是不能讨论的。

遇到这种问题，通义千问的做法应该是：回答一个标准答案，或者干脆不提供答案。

要做到这一点，需要在变形金刚身边安装一个“安全护栏”。

问题进去的时候，要过一遍护栏；回答出来的时候，也要过一遍护栏。这两个护栏，无论碰到哪个，都会直接终止思考流程，进入标准回复流程。

护栏就像这样↓↓↓

当然总会存在一些人，他们会来回绕，企图突破护栏诱导大模型说出那些答案。。。

聪明的浅友估计已经意识到，这个操作非常像前面说过的“擦边老司机”。

那，用对付老司机的办法不就行了吗？

没错，薛晖告诉我，他们的方法就是用一个大模型来做另一个大模型的智能护栏。凡是探测到提问者有让大模型送命的意图，马上阻断。

而且因为是用大模型做护栏，针对恶意意图的分析能力可以实时更新，比如最近有人恶意用“巴以冲突”来引诱大模型给出风险回答，此时就可以把这个主题加入护栏，您老人家放俺一条生路吧，打死我都不会说的！

“面对这么多‘中国特色的难题’，你们保护中国大模型的安全岂不是比外国老师傅要难？”我不厚道地问薛晖，试图诱导他也说出些虎狼之词。

“确实很难，不过每个文化的敏感点都不同，各有各的难。比如欧美文化对于儿童涩情特别敏感，而我们的文化对于时政比较敏感。反过来看，既然存在这么严格的限制，岂不是说明 AI 安全大有可为吗？”薛晖笑。

故事讲到这，阿里老法师“怎么用大模型做安全”，以及“怎么保卫大模型自身的安全”，我们就说得差不多了。

给你看一张完整图景，武装到牙齿有没有↓↓↓

但是，肯定有浅友提出最后一波灵魂拷问：

中哥你总强调技术只是工具，那么，阿里的老法师能召唤变形金刚，坏人也可以啊！

而且现在很多大模型都开源了，难道坏人就不用吗？

应该这么说：AI 大模型还在爆发的早期，深度使用还有一定的门槛，但你不知道坏人们有多努力。。。

比如，已经有人尝试用大模型生成性感妹子吸引人裸聊，或者用大模型生成诈骗剧本骗人。

虽说这些用法还比较拙劣，但黑产毕竟是贯彻“多劳多得”理念最彻底的行业，他们学会用黑魔法自由驱动变形金刚只是时间问题。

所以，安全力量必须从现在开始磨炼对策！

那么，老法师们该怎么磨炼呢？

八、保卫我们的世界线！

说到这，我给你请上今天最后一位法师，他就是典扬。

典扬带领阿里集团安全部的“创新研发力量”，凡是坏人新想出来新招，都归他们管。

典扬

典扬告诉我，目前视野内，坏人使用大模型造成的最大威胁就是“P图”。

说到P图，他给我看了几个例子。

比如这个↓↓↓

你肯定会觉得辣眼睛，这家客服疯了吧？这么骂人，不得举报罚死他？

其实，这个对话截图是P出来的，是有人恶意举报商家骗取赔偿的。

再比如这个↓↓↓

看上去是一个普通的驾照，其实。。。

这也是P过的↓↓↓

在黑市上，有人专门提供这种P图服务，试图让没有资格的司机也能上传资料开网约车。

当然，他们不止P驾照，还能P身份证，甚至还P“无犯罪记录证明”↓↓↓

这些“无犯罪记录证明”的照片，除了名字那里不一样，剩下每个像素都一样。

想想看，这种东西要是能通过审核，后果是很严重的。

最近，这种人工P图都不过瘾了，有坏人会请大模型帮忙P图，比如：

上面的右图片就是根据左图用AI更换服装背景做出来的。

虽然乍一看上去是两张图，但如果你仔细分辨人物动作和神态，不难发现他们的的相似性。

这种操作对内容原创是个巨大的威胁。

比如淘宝上，A商家辛辛苦苦找模特拍出来一张图，B商家直接用 AI 仿造了一张，付出极小代价就把人家的真气给吸过来了。。。

你看，为了经济利益，“P图圣手”们真是苦修苦练，练得一手“吸星大法”！

但典扬和老法师们不跟他们客气，掏出了加特林机枪。机枪有很多种子弹，篇幅有限咱们就说两个。

“被动篡改检测”和“主动篡改检测”！

先说“被动篡改检测”。

“真实世界和人造世界的区别是什么，你知道吗？”典扬突然抛出哲学问题。

还没等我回答，他已经公布了答案：“真实世界的信息是冗余的，而且是自洽的。”

他举了个例子：

光线照在一个物体的表面，明暗和色彩的过渡都应该是平滑渐变的，就像一个镜子，整个平面过渡都是光滑的。
正常拍摄的照片，其中的光影就像镜子一样平滑。
但是，如果用PS做图，也许会骗过人眼，但一定会破坏这种“光照和色彩的平滑性”。
就像镜子摔碎了，厉害的修复师能把它再拼起来，可是让裂缝完全消弭，那是不可能的。

所以，只要设计出一种算法，能够检测出一张图片里的“平滑性破缺”，不就能证明它被P过吗？而且平滑性破缺的位置，不就是被P的位置吗？

这就是“被动篡改检测”的基本思想。

下面是一个例子，你可以看下↓↓↓

“等等，你的技术能够检查到人类的篡改痕迹，那么如果我用 AI 做篡改，你也能识别吗？”我问。

“目前的 AI 生成技术，还只停留在把东西生成出来，同样无法模拟真实世界的光影，所以无论是‘AI 换脸’还是全图AI生成，都可以识别出来。”典扬说。

可是这里还存在一个问题：

未来世界很多内容本来就是靠 AI 生成的，坏人在 AI 生成的内容上做篡改，怎么识别呢？

这里就要说到“主动篡改监测”。

其实很简单，就是加水印！

不过这个水印不仅包括“明水印”，还包括不影响图片观感的“暗水印”。

暗水印的原理有点像“纸币防伪”：

在图片中找到一些像素点，把它们的参数做一些微调，人眼看上去没有变化，但用特殊的算法“照射”，水印就能显现出来。

如果一张图是加过水印的，那么只要有人P过，改动位置的水印肯定就被覆盖了嘛！

下面是打过暗水印的图，你感受一下↓↓↓

由于不影响人的实际观感，所以图片上的暗水印可以打得很密集。

典扬指着我的笔记本屏幕：“如果用我们的技术给你的屏幕打上暗水印，你大概只要改动四个字，就一定能识别出来！”

典扬还特别提醒我，他们做的暗水印比大多数人想象中更牢固，即便是你翻拍屏幕，或者用微信传来传去包浆了，水印仍然能被识别。

有了机枪守卫，无论坏人是在AI图片上修改，还是修改AI图片，都可以对他们进行物理超度！

这就是多媒体安全↓↓↓

当然，P图或用AI生成图片并不意味着一定要做坏事，比如商家为了让图片更好看，完全可以在自己拥有版权的图上P一下，这不应该被禁止。

没错，但这里问题的关键不在于“该不该”，而是“能不能”：

区分自然拍摄和改动/生成的图片这个“能力本身”极其重要！

《人类简史》的作者尤瓦尔·赫拉利警告说，在未来很可能互联网上充斥着 AI 生成的内容，当这些AI内容足够真实，你我就会看到大量截然相反的证据，以至于无法分辨事实是什么。

由此，人类将会陷入某种“世界线危机”！

这个危机会比科幻电影里“AI 反叛”的戏码来得更早。

因此，必须有一套技术方案，可以在任何历史阶段，都能精确判断出被P或被AI生成的图像。

在汹涌而来的 AI 时代，通过保卫真相来保卫我们的“世界线”，恐怕才是这套技术真正的意义所在。

故事讲到尾声，你从上图也大概能看出来：钱磊和这群老法师所做的技术好像五花八门，没什么一定之规。

你说对了，在不同场合“变形金刚”大模型发挥作用的方姿势不尽相同，而且更多基础的安全工作反而用不到大模型。

这是因为，钱磊他们在做的东西是“武器”。

“武器”是这个世界上对抗最高的东西，没有之一，不可能依靠一套“公式”来制造。

但钱磊告诉我，这背后仍然存在一些“底层真理”。

九、停下脚步的人，才会“老无所依”

钱磊说，他最近花了很多时间研究军事。

倒不是出于什么大男孩对兵器的热爱，而是用军事来更好地理解安全。

一个完整的作战体系，是多层次的。
最下面是基础科技，中间是工业制造体系，上面是武器平台和技战法。
一个安全体系，也是多层次的。
下面是各项技术，中间是工程基建，上面是安全产品和运营策略。

他说。

带着这个观点，我们再来远望“阿里动物园”，一切都变得清晰可辨。

1、前方的“变形金刚”虽然酷炫，但它并非万能，是众多安全产品全家桶中的一员；
2、而在中间，阿里集团安全部这么多年默默建立起来的各大数据平台和数据运营体系，才是诞生和供养变形金刚和诸多机器人的营养；
3、在最后方，这群老法师十几年如一日对新技术的执念和探索，春种和秋收，才是一切得以诞生的土壤。

而这三层体系之所以层层累积不断加固，只因为一个原因：阿里巴巴对面的丛林里存在“恶”，而人性的恶，如野火烧不尽。

这里是全图，请把手机侧过来↓↓↓

全世界大多数中小国家只能采购军火，而真正能理解并且玩转一整套“军事体系”的国家屈指可数，可能只有美、欧、饿、中。
因为只有大国才面临足够复杂和长期的威胁，能够进化出这套体系。
同样道理，全世界能运营顶尖“安全体系”的公司也是屈指可数。
阿里巴巴之所以能够成为全世界能够玩转“安全体系”的寡头之一，这并非我们的选择，而是来自这些年黑产给予我们真实的压迫。

钱磊说。

这十几年来，钱磊虽然没有和他的“对手”——那些黑产从业者们——真正面对面见过，只是从警方抓捕的照片上见过他们的样子。

“他们什么样子？我问。”

“都是普通人的样子。”钱磊说。

“你恨他们吗？”我问。

“不会。如果有的选，他们也许想做个好人吧。”钱磊说。

“所以你同情他们吗？”我问。

“也不会。他们毕竟让很多人倾家荡产。”钱磊说。

“那你的态度是什么？”我问。

“人要为自己做的事情付出代价，我只是让他们付出代价。”钱磊说。

告别钱磊后，我脑子里突然冒出一个奇特的画面：

阿里集团安全部的老法师每天做的事情，就是不断进入那些人灵魂的更深处，拿着技术的天平为其中的“恶”称重，然后计算他们的代价，不多一分，也不少一毫。

这是惩罚，也是拯救。

电影《老无所依》的英文名叫做“No country for old man”，直译过来就是：没有什么位置会留给老人。

当正义的技术“变老”，以至于停下脚步，邪恶的对手就会反扑，No country for old man，这是亘古不变的残酷真理。

从利刃到子弹，从小小的机器人到须仰视才见的变形金刚。

技术的凶猛，是正义永远可以仰仗的后盾。