加载中…
个人资料
刘群鸣
刘群鸣
  • 博客等级:
  • 博客积分:0
  • 博客访问:197,393
  • 关注人气:589
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

数据标注师

(2023-08-20 12:00:00)
分类: 军事与科技
大模型狂欢,AI标注厂
2023年07月31日

今年上半年,一线城市的科技圈被人工智能激活了。
文心一言、通义千问、光年之外等大模型输送热度,大佬们发出英雄帖,大模型人才争夺摆上牌桌。
距离北京500公里的山西太原数据产业基地聚集了上千名人工智能标注师。
“热闹是他们的,我们只有数不尽的拉框。”一位数据标注师说。
热闹发生在四五年前。人工智能的春风第一次刮向这里,敏感的商人开始划地盘、招人,向人工智能源源不断地提供“养料”。
当时很多老板把自家人全都拉过来,随便动动手指都能赚到钱。有人在三个月内收入百万,也有人抢到的订单能排到第二年。
但这样的好日子正在远去。

体面的“流水线”
8点45分,人流堵在电梯口,目的地都在6楼。电梯门打开,人群走进一个个看不出差别的办公室——100平米内摆了上百台电脑,主机、鼠标、键盘线密密麻麻缠绕在员工脚边。顺着门牌号,一家家问过去,全是做数据标注的。
这座吸纳近千人的数据标注基地,像是藏在园区内的隐秘网吧。电脑前的人熟练地点击着键盘和鼠标,头戴五彩缤纷的耳机,他们有着一个共同的身份:数据标注师。
第一周就放弃的人高达30%。新人熬过第一周就行了,做熟练了上手很快。两年前,美玲从幼师转型成了一名数据标注师。坐在办公室操作电脑、月收入超过3000元,待遇超过县城大多数工作。
2005年,计算机视觉专家朱松纯从美国回到故乡湖北鄂州,创办了莲花山研究院,组建了中国最早的大数据标注团队。随后,数据标注厂逐渐在二三线城市生根。
数据标注是人工智能产品诞生的第一个环节,接下来,还要经历模型训练与优化、模型管理、推理应用等。喂养人工智能产品需要数以亿计的数据,这些数据会最先流向“美玲们”的电脑。美玲测算过,1500个框是每天工作量的极限。办公室就是自动化流水线,没有多少人情味。单独计件、不需要团队协作是数据标注行业的特性之一。标注师没有固定的工位,而是根据项目变动随机分配几百号人的流向。

富士康工人流向标注厂
每到寒暑假,富士康园区门口都站满了拎着大包小包行李的大学生,大家都是过来赚快钱的,很难长期坚持干下去。数据标注工厂成为他们离开电子代工厂的下一站。用工数量大、收入可观、操作简单的共同点,无形中搭起了一座两公里的天桥,将两座超级工厂连接在了一起。

消失的项目和公司

对于标注师来说,好日子快到头了。单价几毛钱的项目不见了,一个标注框的价格卷到了几分钱;简单的平面描点拉框消失了,取而代之的是需要多维度标注的点云项目;正式员工逐渐从项目组离开,性价比更高的实习生撑起了一半以上的用工量。数据标注公司老板长达半年没有来过基地了。
公司启动了全新的项目,呈现在眼前的不再是真实世界的路况图,而是由成千上万个绿色的、紫色的、蓝色的点构成的模型图,一张完工的图片中包括近百个标注框,而一整套题又是由几十张只有细微差别的图片构成的。
数据、算力、算法是人工智能的三大基石,数量越多、质量越高的数据,往往能够训练出更加成熟的大模型,表现在标注师的工作上就是不断被拔高的精确度。精确度成了标注师的“死穴”,也是他们抱怨时出现的高频词汇。一张标注完成的图片还要经过审核、质检等2-3个环节,否则不能进入结算周期。
从去年8月开始,他的工作变得清闲起来。可能是平台数据量变少了,也有可能是机器审阅的效率提高了。由于工作量被迫减少,他每天的收入从一两百元降到了几十元。有团队一夜之间解散,情况稍微好一点的,会连同电脑和员工转让给下一个代理商。

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有