美国人马特拥有通信博士学位,他最近喜提一份自由职业:成为Scale AI公司的一员,在家训练AI模型。
“通信博士”“训练AI模型”,马特是不是成了一名光荣的AI程序员?事实并非如此。马特的工作很无聊:他在Scale AI的系统中“接活”,以用户的角度浏览AI模型给用户的各种回复,判断AI有没有说错,然后提供反馈。比如为谷歌的AI训练预订航班,审核哪些ChatGPT的答案会得到用户的差评。
Scale AI自己不生产大模型,它和谷歌母公司Alphabet、OpenAI、Meta等众多AI生产商达成合作,为它们提供“人类”。
只不过,来自非洲、印度、菲律宾等地的廉价劳动力,已经不足以满足客户的需求。Scale AI已经开始收缩其海外业务,在美国本土雇佣数十万劳动力,其中不乏像马特一样的高知人士。
这家成立了8年的大模型数据标注公司,在今年5月刚刚完成了10亿美元F轮融资,由Accel领投,亚马逊、英特尔、AMD、思科、Meta、老虎全球基金等全球知名公司跟投。公司预计今年销售额将超过10亿美元,使其成为生成式AI公司中销售额排名靠前的公司之一。
当我们提到“大模型训练”时,会想到的是用数千个先进芯片驱动大模型,让其分析数百亿字节的文本,其实这只是第一步——预训练。
但仅靠这些,不足以确保像Anthropic的Claude、OpenAI的ChatGPT、Meta的Llama和谷歌的Bard这样的系统提供以人类风格编写的正确答案。
为了实现这一点,需要进行第二步:微调。这就涉及大量的人力,有可能是AI生产商在公司内部雇聘,也有可能是来自Scale、Surge AI、Labelbox、Telus International等公司。这些公司提供大量的人,为客户的聊天机器人写下理想的回应,手把手教机器人提供更“完美”的答案。
为AI模型提供数据标注服务的公司并非全新的存在,上一次让这类公司起飞的风是自动驾驶。
Scale AI就成立于2016年。事实上,Scale AI从一开始就和OpenAI颇有渊源,其孵化于Y Combinator(下称YC)的初创企业赛马项目,项目还未结束就已经获得了YC的支持。而YC彼时的总裁,正是后来联合创办了OpenAI的山姆·奥特曼(Sam Altman)。
不过,彼时“千模大战”还未开始,Scale AI首先赶上的是席卷硅谷的自动驾驶技术热潮。实现自动驾驶,需要训练AI算法,而当时没有其他外包公司拥有对自动驾驶汽车的雷达和传感器生成的三维图像进行数据标注的能力。
Scale AI的工程师最初花了几个月,为自动配送初创公司Nuro建立了3D标注产品。很快,Alphabet的Waymo和通用汽车的Cruise,甚至是苹果,都成了Scale AI的客户。
在2017年底,Scale AI雇佣了1000多名标注员,主要在菲律宾。平均来说,这些合同工的时薪是1.5美元,每周工作10个小时。
到了2019年,OpenAI也已经成立几年,并且将方向主要专注在了开发AI大模型上,随后成为Scale AI的客户。只不过彼时AI大模型客户对于Scale AI来说并不是关键收入来源。
随着自动驾驶技术的热潮渐渐回落,市场回归理智,Scale AI也遭遇了危机。在2022年,Scale AI的收入增长已经下降了50%,让投资人颇为失望。
然而,2022年年底,OpenAI发布了ChatGPT,Scale AI的“第二春”瞬间绽放。
除了OpenAI之外,Scale AI也与Meta和谷歌母公司Alphabet达成了围绕大模型的合作。公司的收入从2022年的2.27亿美元,飙升到2023年的6.8亿美元。
站在风口之上,Scale AI喊出2024年收入增长206%的目标,并希望实现盈利。
在这个节点,Scale AI也开始做出一些改变,来自海外的廉价劳动力只能负担很基础的任务,但大模型驱动的产品在写作、编程、专业知识等方面都开始“卷”,Scale AI需要升级手里的“雇佣兵”。
在一份投资者演示文稿中,Scale说它正在建设的是至关重要的AI基础设施。该公司开始将自己打造成一个“AI的数据铸造厂”,让人联想到半导体公司。
Scale AI的创始人也开始公开谈论持有博士学位的人,或者医生、律师等在训练AI系统上的贡献:“我们需要最优秀和最聪明的头脑来贡献数据。”
根据Rest of World的报道,Scale AI最近关闭了肯尼亚、尼日利亚和巴基斯坦的承包商站点。公司的焦点转向美国本土,招募高知人士,来帮助训练大模型的专业知识。
大约有30万人通过Scale AI子公司Outlier运行的工作群等着“派活儿”。
美国本土的Scale AI“雇佣兵”并不廉价,平均时薪可以达到40美元。不过这份工作仍然摆脱不了“苦工”的体验感。
在美国马萨诸塞州的梅丽莎·夸西(Melissa Quashie)就以每个小时40美元的薪酬在Scale AI接活,她是一位自由职业者和编辑。她的任务包括评估由大模型生成的不同响应,根据模型回答问题的方式以及回答的内容质量来给出评分。
对夸西来说,在Scale AI的工作就像是“我玩过的最呆的电子游戏”。她曾经花了两个小时编写一个“三天餐谱”,只是为了给聊天机器人改进答案。
此外,随着Scale AI积累大量的劳动力,供求关系已经开始不平衡。很多时候,Scale AI派发的客户任务已经难以满足“雇佣兵”的需求。很多人发现,这份工作虽然时间灵活且薪水诱人,但许多时候都会无事可做。The Information采访的10位Scale AI“雇佣兵”中,大部分人都有相同的抱怨。
也许是在AI浪潮下公司业务扩展的速度太快,也许是比起劳力们的工作体验,Scale AI更专注于服务好客户。总之,Scale AI也开始暴露其他的问题,除了吐槽派的活不够做之外,人们也抱怨其培训不足以及系统经常崩溃。
更恼人的还要数薪酬结算,即便是在美国本土为Scale AI提供劳力的“高知人士”,也没有什么话语权。开头提到的博士马特就表示,他被Scale AI无故踢出平台。
薪酬的结算不看工作量,而是要考核质量,而最终解释权自然归Scale AI所有。而且即便理应收到报酬,也可能因为客户迟迟不确认而没有着落。
根据工作质量而不是工作量为苦力们结算,这有助于Scale AI控制成本,而这对于Scale AI来说是现阶段的关键卡点。
随着公司将焦点从提供廉价劳动力的海外市场转移到美国,Scale AI的成本也更难控制。根据The Information获取的财务数据,Scale AI的毛利率(包括支付给人类苦工的成本),从2022年的59%下降到了2023年的49%。
与此同时,Scale AI告诉投资者,它正在努力降低成本。该公司预测,今年将提高毛利润率5个百分点,然后到2025年提高到60%。
公司告诉投资者,它正在通过使用内部工具自动识别“高效专家”来降低人工训练模型的成本,以及依靠计算机生成的数据来增加人类工作的效率。
另一个压缩成本的方式是减少内部员工(和“雇佣兵”不同,此处指的是在Scale AI工作的正式员工),2023年2月,Scale AI一方面已经看到了AI浪潮的来临,另一方面也看到了宏观经济的影响以及硅谷的裁员潮,它抓住机会,也大刀阔斧裁员20%。
除了尽力压缩成本之外,Scale AI也在想方设法拓展业务。
虽然很多员工反对,但Scale AI早已把不与政府合作的承诺抛之脑后。最近几个月,Scale AI的联合创始人亚历山大·王(Alexandr Wang)与美国陆军将领在华盛顿共同登台,公司每年从政府合同中获得超过1亿美元的收入。此外,他还前往卡塔尔,与政府官员进行闭门会议,卡塔尔也热衷于开发自己的大语言模型。
在为AI生产商提供大量人力之外,Scale AI也提供AI生成的合成数据集——用AI生成的数据,训练AI,以满足AI大模型训练中不断膨胀的胃口。
现阶段“高质量的人类”依旧是Scale AI最赖以生存的“资源”,因此公司也在采取措施维护“高质量人类”中的那些佼佼者。
在美国德克萨斯州奥斯汀和佛罗里达州的杰克逊维尔,Scale AI曾举办为期数天的研讨会,邀请几十名“顶级苦力”前往参加。
一位参加奥斯汀研讨会的人说,大约有50名训练师参与了一个据悉Alphabet的Bard聊天机器人相关的项目。他们讨论了每个人为不同提示写下的回应,并在晚上一起唱卡拉OK。
在杰克逊维尔,夸西遇到了大学教授、博士生、编剧和播客主持人。“我们连续工作六个小时,然后喝杯葡萄酒。”
“每个人都非常兴奋地改善大语言模型。但没有人谈论的是,因为我们在做这份工作,谁会失去他们的工作?”
讽刺的是,数以十万计的人类在为AI打工,就是为了让AI的表现越来越好。而当AI足够好的时候,这些苦力也许也是会被首先抛弃的那批人。毕竟如果AI能自产自销,何必依靠每小时需要40美元的“高知苦力”?
也许更进一步的问题是,为AI贩卖人类劳动力的日子还能持续多久,而这也是悬在Scale AI头上的一把剑。
结束内容