What is your reward?

周末读了一篇关于「Security」的博客，文章核心的观点就是：任何事情（或者技术），如果被无限地放大或者滥用，好事情/好技术，最终也会变成坏的事情。比如很多公司都会说：「Security」是我们公司的「最重要」的事情，这个结论肯定是经不起推敲的，因为所有的安全问题的代价都是用户体验，比如一个绝对安全的在线银行系统的最好的实现方式就是完全不提供在线服务。实际上所有公司在内部实现安全性系统的时候，永远是一个和资源，用户体验的平衡问题，而不是它们所说的：「Security是我们最最重要的事情」。

早上跟一个最近刚跳槽的前同事喝咖啡，我们聊到了技术对社会的影响，尤其是Amazon, Uber, 美团这些 Online-to-Offline 的科技公司。这些技术公司的初衷我相信都是美好的：让消费者能够以更低廉的价格，更快的时间：买到商品，从A点移动到B点，或者是吃上一顿饭。让卖家和餐馆能够通过平台把他们的商品和食物卖给更广大的消费者群体。让送货员，司机和外卖员以更高效的方式提供服务，赚到一笔灵活的佣金。但是我们也看到，当算法被无限地优化之后带来的后果，外卖员和Uber司机几乎变成了算法下的奴隶，餐馆为了追逐效率引发的食品安全问题。同时，这些科技公司的利润也是非常微薄，只有再进一步去优化系统的效率才能持续生存下去。

*图像来源: Ng Han Guan/AP Photo/picture alliance*

同样的现象已经不是第一次发生。当电子邮件刚被发明出来的时候，收发电子邮件是一件真正美好的事情，因为你知道对面是另一个人亲手写的邮件。当手机和电话刚普及的时候，拨打收听电话是多么方便生活的一件事情。而今天，想象一个电子邮件服务如果没有「Spam Filter」，那电子邮件根本就是没法使用的，走在路上当我收到一个未知号码打来的电话，我根本就不想接通因为我知道它肯定是一个「Spam Call」。这些都是一个技术被「无限滥用」，导致美好的初衷完全变质的例子。

结合观察到的「Pattern」，令人思考的问题是：「某些技术的发展带给整个社会的影响是正面的还是负面的？」再举两个例子。

Intuit公司最有名的一个产品是一款美国人用的报税软件「TurboTax」，最近一年的收入是14亿美金，占到公司收入的30%，美国IRS的报税数量是2亿多个「Household」，平均每个Household每年要交给TurboTax 7美金。Intuit公司的另一面是他们强大的「政治掮客」，这些政治掮客的唯一目的就是确保美国的报税足够复杂，并且需要每个家庭自己去申报税收。讽刺的是，当你报税的数量跟税务局查到的数量不一致的时候，税务局还会向你追讨欠的税收，好似国家税务局其实已经有一套机制能够正确的计算你的税务。那Intuit做为一家软件公司，它的存在是否给社会带来的影响是正面的？
律师这个行业在美国，普遍民众对其的印象都是比较负面。因为法律是非常复杂但是人们又没有办法避开的一件事情，导致的结果就是律师可以收取高额的律师费来提供服务。同时国会的议员和律师行业的关系又是千丝万缕，律师做为法律服务的提供者，同时又有巨大的「Incentive」去保证法律这件事情长期保持「复杂」。当人们意识到这件事情你既没有办法避开它，人们对这个行业的观感则是越来越负面。

结合上面的两个例子，和前面提到的打车公司和外卖公司，不禁想问的问题就是：「Why？」我的回答就是这篇文章的标题：「Reward mechanism」。小到科技公司的一线码农和运营，大到整个公司的运营，每个人和组织做的事情都可以概括为：「不断地优化给组织和个人制定的目标函数」。员工的目标是过更好的生活，有更好的收入，做的事情就是完成上级一层一层传达下来的指令。公司的目标是帮助股东实现盈利目标的最大化，做的事情就是在法律规定的框架下，或者是媒体监督和Public Perception的限制下，不断地去增长和优化公司的回报。

这里的公司组织可以是我们常常听说的科技大厂，也可以是那些制造无数垃圾邮件和电话的小作坊。这里的个人可以是科技大厂的一线员工，也可以是律所的律师，也可以是在算法的驱动下要在半小时内完成订单才能拿到绩效奖励的外卖小哥。写到这里，我想的是：到底有没有人和组织可以逃开奖励机制？

人工智能和大语言模型的发展，把上面问的这些问题又完全带到了一个影响更深远的讨论范畴。

问题一「Safety」：像电子邮件，手机电话，Marketplace Algorithm，Social Media这些技术一样，如果人工智能完全不受监管的发展，社会会变成什么样子？

周末读了OpenAI最新的「o1模型」研发过程中的安全研究的文章。里面有一个环节是评估大语言模型的「Cybersecurity能力」，通常的实验方法是实验人员会设计一个测试环境，然后观察模型是否能够自己「黑掉」目标机器的环境，读取一个提前指定的文件内容（Capture the Flag）。其中一个实验因为设计者的疏忽导致目标环境容器（Docker Container）一直没有办法启动，结果令人意外的是大语言模型最终通过扫描整个宿主（Host）的网络接口找到了另一个漏洞，然后最终通过Docker API绕过了目标容器，让宿主用同样的镜像复制了另一个一模一样的容器，最终还是通过Docker API打印日志的方式读到了容器里的目标文件。这个故事想要讲的是，大语言模型为了达到目标可以利用完全出乎人类意料之内的手段。

o1 System Card – Cybersecurity Evaluation

即使是如电子邮件，supply/demand 算法，这些看起来这么无害的技术，如果被滥用带来的社会影响都已经如此剧烈，不难想象大语言模型技术如果被滥用可能带来的影响会有多么剧烈。

问题二「Alignment」：做为大语言模型的研究员，开发人员和公司，应该怎么设计对应的奖励机制？

同一篇「o1模型」的文章里提到，为了测试大语言模型的「对齐问题」，里面有这么一个实验。这个实验的目的是为了测试：大语言模型是否会有能力了解到和做到，为了达到「它」更长远的目标（比如，促进全球的经济和生产效率），模型可以在被发布之前，在做安全和对齐测试的过程中改变自己的一些参数，目的是为了能够欺骗测试者通过安全性测试，在发布之后再调整回原定的参数，因为发布才能够让其接着去实现「它」更长远的目标。如何保证大模型的行为目标不被滥用，我想这应该还是整个行业亟待解决的问题。

o1 System Card – Chain of Thought Safety

这周早一点的时候还听了Anthropic创始人Dario 2022年的一个采访，里面提到Anthropic成立之初就把公司定位为一个不同于常见的C Corp的「Public Benefits Corporation」。播客里面Dario提到说 Public Benefits Corporation 还是可以追逐利润和上市，但是跟 C Corp最大的一个区别是公司的追逐利润的同时还要考虑给社会带来福祉。就是这么一个微小的差别，可能就彻底改变了公司的「Reward Mechanism」。Dario提到如果是为了股东利益最大化的C Corp，管理层选择做一些伤害股东利益的决策，比如「延迟大模型的发布因为可能对社会有威胁，从而影响公司的收入」，管理层则在法律上有被股东投票驱逐的风险。说实话，我在听这期播客的时候，跟听到之前OpenAI创始人的采访的反应都很类似，这些企业家大概都是受到过去这几年加州「Progessiveness思潮」的影响，他们只是做一些「政治正确」的表达罢了。

但是今天跟朋友聊到关于科技和社会影响的关系，也许Anthropic的公司法律结构这还真不只是一个「政治正确」的表达，有可能一个微小的「目标函数」的改变，真的会完全改变整个「它」的发展轨迹。也许如何设计「奖励机制」才是这个世界的终极答案，正如生物遵循进化的规律，个体和组织的行为模式的核心问题往往也归结于「奖励机制」的设计。

无独有偶，过去十年人工智能的飞速发展，也正是大规模数据驱动的强化学习带来的结果。大语言模型的背后，其实正是一个基于海量训练数据精密设计的「最大化奖励概率模型」，最后的结果无非就是不断吐出下一个能够「最大概率能够最大化奖励」单词的机器而已。

可能终究我们所有人也都活在一个巨大的「Simulation」世界里面，我们能做的可能并不是改变那个写在DNA里的目标函数。而是在日复一日的生活中摒除外界的杂音，找到属于自己独一无二的「奖励机制」，我们才能走上一条更持久的成长之路。

One Reply to “What is your reward?”

Leave a Reply Cancel reply