给人工智能当教师:拉框、拍摄、识万物

  给人工智能当教师:拉框、拍摄、识万物
  昔日流水线上的工人,成为了教“人工智能”认得苹果、桌子、椅子的第一位教师

给人工智能当教员:拉框、拍摄、识万物

8月7日下午,刘研娜正在给不同种类的汽车拉框。

给人工智能当教员:拉框、拍摄、识万物

河南郏县千机数据的办公室,仿佛一个大网吧。

给人工智能当教员:拉框、拍摄、识万物

  人像采集现场。A12-A13版照相/新京报记者 周小琪

  芒种刚过,河南郏县东郊,望不到边的农田里,农民们弯腰割起了小麦。不远处机械厂、汽车修补厂,机器声此起彼伏。但再往西的建材广场却人来人往,这些天,广场三楼,来了500个长了眼袋的人。

  这500个人中,有刚从玉米地里匆忙赶过来的农民,连草帽也没来得及摘下。有机关大楼下了班的公务员,也有服装店里请了假的导购员。虚弱小姑娘们聚在一齐,评论着护肤和美妆。角落里,大腹便便的中年大叔点了根烟,低头玩起手机。

  他们被轮番带进了临时搭的照相棚里——一个光线昏暗、不到30平米的小房间,墙壁不久前刚被刷得洁白,里面摆着椅子、三脚架和灯光器材。

  有人指挥他们坐在椅子上,面朝一部被固定在黑色三脚架上的手机,手机和眼袋者之间的距离是25厘米,不能多,也不能少。每次开拍前,一名皮肤黧黑,身材微胖,长着老实憨厚方脸的员工都会掏出卷尺,细心再量一遍。

  方脸员工叫张凯。量完距离后,他须要用5部像素不同的手机拍摄这些有眼袋的人。

  在白光、黄光、暗光等不同光线下,张凯拍了四轮,加起来总合100张。著名状况下,他3分钟就能拍完,不会超过5分钟。

  这项工作名为“数据采集”,眼袋者能得到一个价钱一二十元的塑料大桶作为奖品。采集而来的照片、语音等数据,将会供应应人工智能企业,用于机器的培训和学习。

  刚接下任意时,领袖告诉张凯,这次被拍下的500双眼袋,会用来给一款手机软件做测试,以便优化软件的美颜功能。但具体怎样测试、怎样优化,领袖没说,张凯也没问。

  拉对一个框能赚4分钱

  去年夏天,张凯有了孩子,他辞掉了原本在石子厂保护器械的工作,回家照顾妻儿。一两个月后,张凯得重新工作养家,一家名为“千机数据”的公司正好在招人,“轻松、离家近、工资高”。

  公司在县城东边一个建材广场的三层,从张凯的老家长桥镇开车过来,只用20分钟。他推开公司门的那一刻,空调的凉风灌进身体,面前的场景让他有些震惊:几百名员工坐在棕色的沙发上,埋在电脑屏幕前,不停地拖动鼠标,敲击键盘,“像个大网吧”。

  人力主管向他引见说,公司首要做数据标注,简单来说就是给图片上的物体拉框框,只有会用电脑就能干。工资保底2000块,多劳多得。

  张凯从没据说过“数据标注”,也不懂为什么拉框。但公司环境好,不像过去一致风吹日晒,当即决议留下来。

  他被安排在一个有电脑的工位上。领袖传来几百张厨房、餐厅的图片。张凯须要做的是:把图片上的碗、碟、杯子、筷子等餐具都框进去,然后选好属性、分好类。拉对一个框能赚4分钱。

  张凯觉得很新奇——把这些锅碗瓢盆框进去能干吗?但初来乍到,他没好心思多打探。

  第一天上班,张凯费劲拉了几百个框。他不熟习规则,譬如,三个堆在一齐的碗,是应该一齐拉一个框,还是分开拉三个框?

  一周后,他曾经熟练到每天能拉几千个框,挣100多块钱。空儿久了,张凯看什么都带框,看到家里厨房的锅碗瓢盆,他第一反响是,框框应该从哪个角度拉?拉多大较为适宜?

  才来三个月,张凯就开端寻衅难度更高的3D全景图。图片都是立体的,有多个平面,疏散着各种车辆,有卡车、小汽车、大巴车等,张凯要把车辆都框进去,再分门别类。

  这项工作要有良好的空间感才能完结。玩“穿越阵线”(一款射击类游玩)的阅历帮上了张凯,那款游玩的场景也是立体的,常常须要切换视角来查看敌人。张凯没费多少气力就上手了。

  工作了大半年,张凯就曾经是公司最优异的员工之一,但他仍旧没问过,拉这些框是为了什么?“我的原则是,我赚我的钱就行,其余的不用管那么多”。

  拍摄有眼袋的人

  “数据标注”的工作干了一年,张凯开端接手新任意“数据采集”。

本报谈论:

  采集而来的数据,将会被打包上传给人工智能企业,企业再把这些数据分配其余公司进行“数据标注”,最终再传回去,成为计算机的学习资料。这些资料能教计算机分别车辆、厨具等不同的物体,让它们像人一致,去认得大千天下。

  张凯的第一项采集任意就是拍摄有眼袋的人。公司给出的央求,卧蚕和黑眼圈都不行,年事必要在18岁到40岁之间。

  找人从公司内部开端。500多名员工,只有领袖在公司里吆喝一声,满意前提的就自发从前排队。

  员工拍完后来,再发动他们拉着亲自有眼袋的亲朋好友来拍摄。除此之外,公司还联系了各个村庄有威信、人缘好的人,给他们中介费,让他们来协助找。

  一开端,张凯完整分不清眼袋、卧蚕和黑眼圈。在他看来,它们都是堆在下眼睑的皮肤组织,只要厌恶熬夜或者上了年龄的人才会有。

  为了这次拍摄任意,张凯细心研讨了很多张照片,终于搞迷惑这三者的分头:眼袋呈倒三角形,浮肿而松懈;卧蚕是椭圆形的,比眼袋小很多,笑的时间才鲜明;黑眼圈则是乌黑色的、平展的,不会像眼袋和卧蚕一致凸进去。

  但有眼袋的人太少,一天最多只能拍十几个。公司决议把前提放宽,有卧蚕的人也可以参加拍摄,这么一来,一天能拍到100多人。

  拍摄前,张凯少不了回答被拍摄者的质疑。有人问,“照片上有咱们的正脸,你们会不会拿来做违法的事?如果把它们用来刷脸支付怎样办?”

  张凯给出阐明:“大街上那么多摄像头,要是拍几张照片就能用来刷脸支付的话,走在路上是不是也不安全?”

  “咱们公司是正规的,在郏县开了两年了,几百号人,跟咱们合作的都是大企业,你就害怕吧。”

  参加过拍摄的人将会成为公司的人脉。去年夏天,公司接了一个大项目,一次性采集了两万多人的影像。

  张凯的同事苏乐丹参加了这个“两万多人的大项目”。项目在一间放弃的二层工厂进行,以三十人或五十人为一组,排好队,顺次戴上墨镜、口罩或帽子,在一楼、二楼或室外转几圈,转完圈就可以获赠一口印有“千机数据”的铁锅。

  摄像头固定在厂房的不同角落,苏乐丹的任意是,拿一个大喇叭,坚持转圈圈的秩序,让他们节制适当的间距。

  这个项目小孩老人都能加入,苏乐丹叫婆婆也来,婆婆不迷惑为什么要转圈。苏乐丹阐明,是用于摄像头的对焦测试,检测在不同场景、不同装扮下,摄像头能否识别出同一个人。

  但婆婆不能糊涂。苏乐丹拉着婆婆到村口,指着监控说,“就是测试这个能不能正确地拍到犯罪分子”,婆婆愿意了。

  让AI认得苹果

  创办千机数据之前,公司的CEO刘洋锋也很少据说“人工智能”这个词,他是公司学历最高的人之一,今年32岁。在他小时间,电脑还是个稀罕物,他看郑少秋演的《大时期》,没被纵横捭阖的证券市场吸引,只觉得每天坐在电脑面前敲键盘很酷。上中专时,他开端学计算机,次次专业课考试都是第一名。

  但进入社会后,刘洋锋的工作几乎都碰不着计算机的边。他在重庆、云南和广东都待过,开过挖掘机、卖过饮料和化肥。他去过最远的地方是南美洲,在智利卖产自深圳华强北的山寨手机。

  但他说,干计算机的理想从没有被磨灭。有时,晚上做梦也会梦见计算机。

  从智利回国后,刘洋锋和两个发小凑到一齐,预备创业。去年,一个偶尔的机缘,他们在网上看到一个转让的“数据标注”的单子,这是刘洋锋第一次据说“数据标注”这个词。

  刘洋锋先是试用了一下软件,在照片上框出了一个在马路上的行人,操作很轻易。可他不迷惑“数据标注”是干什么的,网上搜不出多少信息,大部分他都糊涂不了,直到在一个网页看到这段话:

  “要糊涂数据标注,得先糊涂AI其实是部分替代人的认知功能。咱们学习认得苹果,须要有人拿着一个苹果告诉你,这是一个苹果。类比机器学习,咱们要教他认得一个苹果,给它一张苹果的图片,它是完整不知道的。咱们得先有苹果的图片,上面标注着‘苹果’两个字,然后机器经过学习了大量图片的特性来认得苹果。”

  刘洋锋懂了。他把“苹果”的例子讲给发小听,他们都觉得“这事儿能成”。

  从上世纪50年月,美国科学家第一次提出了“人工智能”的概念后,通过60年的技巧更迭,人工智能已逐步渗入进人类的生涯。

本报谈论:

  手机听懂了人类的言语,车辆学会了抉择最优路线,能绕过桌子腿、捕捉每一粒灰尘的扫地机器人走进了千家万户。而广为人知的人脸识别技巧,不仅帮警方在张学友演唱会上前后抓到了多名逃犯,也在今年6月,帮四名走失10年的孩子找到了家。

  刘洋锋并不理解人工智能相干的技巧,但重音信上感到到人工智能会是未来科技发展的新趋向。

  他们仨一齐凑了10万块钱,在县城租下了一间30平

  (上接) 方米的单间,从郑州拉回了20台价钱1000多块的二手电脑。然后经过微信群和朋侣圈招了十几个员工。

  乘着“人工智能”的东风,刘洋锋的单子越来越多,短短几月,公司租下了一整层3000平方米,可以容纳数百名员工。除郏县外,还在郑州、许昌、平顶山等地也开设了分公司。

  他不再“来者不拒”,有公司联系他谈采集项目,内容是让采集员拍摄地上的废纸、果核、头发丝儿,包含猫屎,用来培训扫地机器人的视觉。刘洋锋回绝了,“不能天天让员工趴地上拍猫屎,太怪僻了”。

  流水线上的教师

  千机数据如今共有500多名员工,大多都和张凯一致,本地人,虚弱,只要初中或高中学历,对电脑、互联网和人工智能没有太多认知。

  刘洋锋招人最主要的标准要能“坐得住”。前不久,有个虚弱男生来应聘,说亲自工作了两年,在郑州和苏州都待过。刘洋锋直接回绝了他,“两年就能跑两个城市,解释异常不稳固。”

  在员工中,女性占大多数,她们大多曾经结婚生子。

  去年5月,刘研娜在朋侣圈看到千机数据聘用电脑操作员的新闻,央求很简单,“18岁到38岁,男女不限,简单懂电脑,有上进心,详细耐性”,“工资3000到8000,上不封顶,多劳多得”。

  刘研娜的第一反响是“骗人的”、“搞传销的”。在这座河南中部的小县城,像她这么只要中学学历的虚弱女孩,能找到的工作基本只要超市营业员、商店导购或是饭店服务员,月薪不会超过2000块。直到来公司转了一圈后,刘研娜才放下顾虑,成为“网吧”的一员。

  刚来的时间,出于好奇,刘研娜向身边的同事打探,拉框是为什么?没人答得上来。大多数人都只是低头做事,不关心这些。直到有一次,领袖在开会时偶尔提到,这些数据首要“为人工智能服务”,她才似懂非懂。

  8月8日上午,公司门口,张凯拿着一部手机,正在测试一项新的采集任意。在背光、偏亮和正常三种光线下,被采集者分辨作出了低兴、憎恶等表情。作到“惊骇”时,张凯提醒他,“眼睛瞪大点”、“嘴巴再张开一点”。

  上个月,张凯升任了主管,过去六点半就能准时下班,如今晚上十点回家成了常态。

  到千机数据工作后,张凯成为了全家离高科技最近的人。

  他的妈妈在东莞工厂的流水线上工作,父亲在深圳做装修、铺地板砖。弟弟今年19岁,高中还没上完,就一个人去新疆卖手机配件了。妻子原来在郏县的一家超市当导购,去年生完孩子后,在家当家庭主妇。

  刚找到工作时,家人和朋侣都会问他,这份工作是干什么的?他的答案是:标注是坐在电脑前拉框,采集是天天给别人拍照。其余的,张凯不会多说,家人也不会追问。

  张凯在长桥镇的一座小村落长大,家家户户都种玉米、小麦和花生,那个年月,很少有人知道“电脑”是什么。等上了中学,同龄人都厌恶泡在网吧玩《梦境西游》,他不厌恶那款游玩,由于游玩“靠运气、要砸钱”。他只得一个人在院子里摔“纸面包”、蹦弹珠。

  张凯念完初中后,跟母亲一齐去了东莞,之后又到了深圳、泉州,他干过最长的一份工作是对讲机组装。四年的空儿里,张凯用手指把无数块铁制的电池片压进了对讲机盒子里,这些电池片和喇叭、天线、主机板一齐,组成了成千上万个对讲机,销往天下各地。

  苏乐丹和张凯有过近似的经验。2005年,她跟表姐一齐去了广东,在电子厂做过品鉴、在宝石厂穿过珠子,每天从早上七点半工作到晚上七点半,一个月休憩两天,月薪800多块钱。

  对张凯、苏乐丹和千机数据的其余闻名员工来说,他们如今采集、标注的数据,和穿过的珠子、压过的电池片没有什么不同,都是流水线上的一个部件。

  唯一的不同是,他们知道珠子怎样穿成手串和项链、电池片怎样和其余部件组成对讲机,但不知道数据要怎样样“喂”给机器、机器要怎样样学习。

  张凯到了千机数据以后才第一次据说“人工智能”这个词,即便曾经升任主管,他对工作的认得也只停歇在“为人工智能供应前期数据”。

本报谈论:

  在通往公司的楼梯间,,贴着几张巨幅海报,海报上都是机器人和电脑,看起来科技感实足。刘洋锋把“人工智能怎样样认得苹果”的那段话也印在了上面,张凯一次也没严肃读过。

  “万物皆可AI”

  昔日流水线上的工人,成为了教“人工智能”认得苹果、桌子、椅子的第一位教师,把认知事物的阅历浓缩进一张张图片中后来,他们对人工智能也开端有了更灵敏的感知。

  今年6月,张凯第一次坐上了高铁。他兴奋地发了朋侣圈,配了一张高铁时速304km的图片,说:“这玩意最快能跑多少?”

  进高铁站时,张凯拿着身份证和高铁票,通过一道须要人脸识别的闸机,摄像头对着他的脸扫描了几秒钟后,卖弄“请经过”。他忽然想到,过去做标注时做过人脸标点,会不会运用在了这上面?

  两年前,张凯花8万块买了一辆小轿车,出行时,常常用到车载语音体系。如今,他迷惑了语音体系之因此能顺当运作,是树立在大量的语音采集、标注基础上的。

  刷到跟人工智能相干的音信时,张凯也会打开看。他对一个“5G时期高科技抓逃犯”的视频印象深入,视频里,地铁站的监控能捕捉到每一个行人的面部信息,精准地识别出犯罪嫌疑人的样貌。

  偶然,张凯也有担忧和恐惧。前几天,他看到有品牌出了一款能主动系鞋带的运动鞋,他无法糊涂,连系鞋带这么简单的事都要靠机器来做,那人该干什么?

  “科技要是发展得太快,会淘汰掉很多东西”,张凯最放心的是,机器会取代掉那些流水线上的工人,他们都会失业。

  2017年,李开复曾公开表明,“一项本根由人从事的工作,要是可以在5秒钟以内能对工作中须要思考和决策的课题作出相应的决议,那么,这项工作就有异常大的可能被人工智能全体或部分取代”。

  他预计,翻译、销售、司机、家政等工作,未来10年将有约90%被人工智能全体或部分取代。“但是,还有很多人所特有的、综合素养的技术是无法被取代的。此外,由于人与机器产生了新的协作措施,还会消逝新的工作类型。”

  同年7月,国务院颁布的人工智能计划提出,到2030年,中国要成为人工智能创新核心。工信部教训考试中心副主任周明曾向媒体吐露,中国人工智强人才缺口超过500万人。

  张凯觉得,像他们这么做数据采集和标注的工人,很难被替代。“毕竟机器还要经过咱们来学习,假想一下,要是机器会亲自学习,那就解释它们曾经无法把控了,这很恐怖。”

  刘洋锋也思考过这个课题。前几天,在接收电视台采访时,他把人工智能产业比作了一个人,“算法工程师他们负责的是大脑,而咱们负责的是四肢”,二者都不可或缺。他们公司采集、标注好的数据,要通过一套特定的算法加工,才能喂给机器,算法是人工智能中最核心的部分。

  刘洋锋也担忧,毕竟“承接的都是重复性的工作”。他想,随着技巧的发展,原本须要一万张照片数据才能完结的学习,或许只须要五张照片就能完结,届时,他们的工作量将见面临大幅减少的状况。

  为了防止这种状况的消逝,刘洋锋开端把业务向高端化、专业化转化。去年,他承接了一项医疗数据项目,须要对病例进行分析,公司的员工都做不来,他在网上找了几十个医学研讨生来做兼职。

  刘洋锋放心被淘汰,他加了很多人工智能相干的学术交换群。来自清华、北大等著称高校的教授和研讨生们,常常会在里面更新研讨进展,或是转发研讨论文。

  刘洋锋每条新闻都会点开看,再转到朋侣圈。群里发的很多论文都是英文,刘洋锋看不懂,就用电脑自带的翻译软件一句一句地翻。有些文章的专业性太强,刘洋锋就只看摘要和那些跟数据处理相干的部分。

  结果很鲜明,“过去都是工程师们说什么就是什么,如今我至少可以从专业的角度,来和他们探讨一点儿东西,譬如数据采集、标注的具体央求等等”。

  但碰上算法的课题,刘洋锋就没辙了。一次,员工们忙活了一个星期,做完了一个人脸标点项目,每张脸上标84个点,一共一万张图。对接的部门打包验收完后来,算法工程师却说,有几个点的地位与算法的央求不符,须要调剂,必要打回来重做。刘洋锋只得带着员工们多干了一周,并多发了一份工资。

本报谈论:

  在刘洋锋从前的人生中,人工智能神秘、新奇且遥不可及。短短两年,他发现,“万物皆可AI”。譬如,手机里的视频软件,录制时的美颜功能要靠人工智能,加特效要靠人工智能,给用户推送的内容也要靠人工智能。

  和张凯不同,刘洋锋期待那个充斥人工智能的未来。创业这两年,公司接了很多无人驾驶的项目,框出了数不清的路标、红绿灯和斑马线。刘洋锋看着这些图片,常常幻想,有朝一日能买一辆无人驾驶汽车,坐进车里,动动嘴,把目标地告诉体系,然后倒头大睡,车子便把亲自送到目标地。

  “那一天一定不会太远”。

  新京报记者 周小琪 实习生 梁文雪

上一篇:有了好模式,乐队综艺还要在细节上下功夫
下一篇:一月两起股权“挂牌” 信托牌照要重估?

欢迎扫描关注我们的微信公众平台!

欢迎扫描关注我们的微信公众平台!