一旦贴上标签,汽车就能在几秒钟内识别交通信
日期:2025-11-05 11:46 浏览:

“数据标注”业务项目经理黄雨辰作品。
编者注
当流水线工人变成人工智能培训师,当工厂的嗡嗡声变成数据流,湖北随着产业链的蓬勃发展,对“人往哪里去”给出了欣喜的答案:工作扎根于每一次产业变革的新赛道、新形势。即日起,本报将开设“行业中就业成长”栏目,敬请关注。
Teksto/Larawan 湖北 Pang-araw-araw na 全媒体记者 刘天宗
Sa isang tanawin sa kalye, nakikita ng mga tao ang "mga kotse, tao, ilaw ng trapiko, gusali, at mga kalsada" nang sulyap; Ai看到的只是一堆0-255像素的矩阵。
Ang pag -tag ng data ay nangangahulugang“pagsalin ng mundo”para sa AI。数据注释者应《纽约时报》的要求出现。
在武汉理工大学科技园,蓝一(武汉)智能数据服务有限公司拥有一支500余人的数据标注人员团队,分布在在省内外多个城市任职,平均年龄不到30岁。
27岁的恩施女孩黄雨辰就是其中之一。 2020年加入蓝一智能,如今已经从一名普通的“数据标注员”成长为“项目经理”。令人惊讶的是,他的主修大学是汉语言文学。在数据、代码、算法无处不在的AI赛道上,文科生确实被挤到了关键位置。
对于新手来说上手并不算太难
留着短发,戴着黑框眼镜,穿着休闲T恤,手里拿着平板电脑和一些书……当我第一次在蓝衣智能门外看到黄雨辰时,我还以为她是一个去图书馆自习的女大学生。
当你打开办公室电脑时,映入眼帘的是一幅令人瞠目结舌的图像——连接的点图、彩色注释框、互连的标记线等,形成了一系列“网络”风格的城市空间。重新发表意见。
“这就是数据注释——对文本、图像、视频和语音等不同类型的数据进行‘标记’、‘编写描述’和‘添加注释’,以促进大型人工智能模型的学习和理解。”黄雨辰解释道。
AI产业的三要素是数据、算力和算法。其中,数据是人工智能的“营养源”,算力是“体力”,算法是“思维方式”。数据标注是为AI打造“口粮”,将原始数据加工成机器学习算法可以识别的内容。
例如,城市街景需要人们使用专业软件标记汽车、行人、道路、红绿灯、建筑物、绿化带、线路等各种元素,训练大型AI模型的“视觉”和“脑力”。
数据标注容易上手吗?
“只要你有较强的学习能力、耐心和谨慎、熟练掌握“操作计算机,入门并不算太难。”黄宇辰透露,2020年,也就是他大学毕业的那一年,湖北的数据标注行业刚刚兴起,实习生严重短缺。想着尝试一下,他向蓝亿智能投递了简历。
初学者套路都是入门级的。例如,对汽车摄像头拍摄的图像进行标签。对于黄雨辰来说,类似于使用专业软件“P照”,这是女孩子喜欢并且擅长的。每幅图像中的行人、车辆、道路等元素总数加起来大约有60个“注释框”。黄雨辰每天可以处理50到60张这样的照片,是新员工中最好的。
AI对数据“粮食”提出更高要求
修饰两三张照片可能会很有趣。如果你每天要编辑几十张甚至上百张照片,你难免会感到无聊。如果你想成为一名优秀的数据注释者,你需要学习问题。
“与照相馆制作的精细图像相比,数据标注图像的准确性更高。”黄宇辰说,入职第一年,他主要处理二维图像数据,即车载摄像头拍摄的图片。每张图片标注后,公司都有专门的质检员对标注的质量进行检查,误差不能超过1个像素。
例如,在24英寸的显示屏上,分辨率调整为1920(宽)×1080(高)后,每个像素的长宽都小于0.3毫米。黄雨辰标记一个人或者一辆车,相当于将一张图片精确地“切割”成像素的“万花筒”。图像数据标注误差每增加1%,大规模AI模型的训练效果就会大大降低。
黄雨辰表示,数据标注者的日常工作是“零碎”分析的。效率高的人,工作能得到更多,而效率低的人,工作效率低。标注速度慢、质量低只能花更多的时间和精力来弥补它们的缺点。此外,车企下的订单大多涉及新车型开发和生产调度,这就需要数据标注员每天按照节点毫不拖延地完成工作任务,所以迟到、加班是很正常的。
由于出色的表现,黄雨辰从数据标注员、团队负责人、项目主管成长为项目经理,协调培训、客户对接、生产调度、交付多个蓝亿智能项目。他负责的项目类型也涵盖汽车领域、工业制造、智能安防、新零售、医疗、金融等行业。
“大型AI模型大约每三四个月就会迭代一次。市场对数据标注的需求越来越大,标注的内容也越来越复杂。”黄雨辰说道。
采取自动驾驶ing 为例。黄宇辰刚开始工作的几年,主要是对车载摄像头拍摄的二维图像数据进行标注,并框定图像中的车辆、行人、交通标志等物体。
由于二维图像数据无法检测距离和空间,因此激光雷达和毫米波雷达生成的三维点云数据的标注被快速生成。
然而,自动驾驶汽车行驶时,周围环境是动态的,三维点云数据仅提供静态的空间场景。因此,包含时间序列信息的四维标注将在2024年开始出现,它将更全面地描述物体的运动轨迹、形态变化以及物体与环境的相互作用。
目前,从蔚来、理想、吉利、东风、长安等车企发给蓝一智能的订单来看,四维点云数据标注已成为主流。 “这说明我国自动驾驶技术正在快速发展,AI对数据‘粮食’的要求越来越高。”黄雨辰说道。
帮助AI摆脱“心理内耗”
黄雨辰将人工智能产业解构为“人工智能+智能”。日益智能的人工智能模型背后是大量数据注释者日以继夜的默默分配。
蓝亿智能创始人兼总经理张雪娇是一位“90后”。黄雨辰和其他数据标注者一路走来遇到的困难,他亲眼所见。
张雪娇透露,近年来,国内每年新增数百家数据标注公司。
“企业要想在智能化行业生存,就必须拥有自己的‘技术护城河’。”张雪娇说,凭借武汉理工大学的背景优势,汽车行业,蓝一智能解决了广大车企的数据标注需求问题,自主研发了“线”数据标注与管理平台,实现了数据数据的“采集-清洗-脱敏-标注-质检-培训”的一层数据处理。
“线”平台最直接的影响就是提高了数据标注的效率和质量,减轻了数据标注者的负担。
以四维点云图像数据为例,每张云图像包含100到500帧,每帧必须标记至少数百个点、线、帧。如果人们用手做标记,他们几个小时都不会离开座位。
“线”平台可自动完成70%以上的预贴标工作,支持多人、多团队贴标协作,并可提供智能质检功能。数据注释者需要做的是帮助AI发现并填补空白,整体标注效率提升30%以上。
只有高质量的数据集,才能训练出高质量的大规模人工智能模型。处理器越复杂、越专业,数据集的质量就越高。与医学影像数据一样,主任医师手工标注的质量往往高于医学院校学生。
当前,金融、医疗、实体智能等行业已成为企业新的订单增长点。张雪娇认为,数据标注行业已经进入快速发展时代,人才需求量很大。湖北作为科教大省,具有得天独厚的优势。蓝一智能成立五年来,与相关院校合作开展技能培训,积累了数千名人才的培训数据,让工作真正在行业中“成长”。