AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

AI 背后的印度数据标注生意

17793
2019-04-02 20:57
2019-04-02 20:57
17793


像 Infolks、iMerit 和 Playment 这样的数据标注外包公司,正将印度打造成全球人工智能公司的“数据后台”。

编者按:原文作者 Anand Murali, 原文标题 How India's data labellers are powering the global AI race

Kumaramputhur 是在喀拉拉邦帕拉克卡德西北方向约45公里的一座小村庄,大约有3500户人家,可能比班加罗尔郊区大不了多少。这里没什么值得称道的产业。男女比例和文化水平都处于全国平均水平以下。除了能够看到一些现代社会的痕迹以外,Kumaramputhur 似乎没有什么特殊的地方。

高中辍学的 Mujeeb Kolasseri 就在这个村里带领一支200多人的团队,为美国、欧洲、澳洲和亚洲的人工智能公司服务。Infolks 公司于三年前创办,而28岁的 Kolasseri 是这家公司里年龄最大的员工。

在帕拉克卡德通往科泽科德的高速公路旁,有一栋不起眼的办公楼,里面大部分的团队成员都在忙着标注自动驾驶车上车载摄像头所拍摄的照片,他们要在其中标记出车辆、交通信号灯、路标和行人的影像。

除了摄像头拍摄的照片,还有一些影像来自被称作激光雷达(LIDAR)的远程传感器,这些远程传感器能创建3D地图,以帮助自动驾驶车辆感知其周围的物体。这些数据要比摄像头的影像数据更难精确标注。

Infolks 公司位于喀拉拉邦 Kumaramputhur 的办公楼 | 图片来源:FactoryDaily

在大约2000公里开外,靠近加尔各答西南边 Metiabruz 地区胡格利河岸边,约有200位女员工正在标注图像,用来训练自动驾驶汽车和增强现实系统的算法。

在印度和美国运营的数据注解公司 iMerit 的技术和营销部副总裁 Jai Natarajan 表示:“这些员工所做的是我们最尖端的图像项目。”也就是说,这些员工标注和准备的,是用于训练人工智能算法的数据。

在 iMerit 位于加尔各答、兰契、布巴内斯瓦尔、威扎吉和西隆的办事处内,还有数千名员工也在从事类似的工作,他们在标注数以百万计的数据点,这些数据会被世界各地的公司用来训练人工智能算法。

如今全球的巨头企业纷纷发展人工智能,越来越多用来训练人工智能的数据集被打上了“企业专有权”的标签,这就要求企业和数据标注团队在需求、质量控制、反馈和成果交付方面的互动更加紧密。

经历了世纪之交业务流程外包(business process outsourcing)的热潮之后,印度人对这些企业的需求和所用术语并不陌生。和业务流程外包类似,数据注解和数据标注重在对工作流程的管理,以达到精准作业,而其所需技能即使是高中学历的人也可以通过训练掌握。

在 Metiabruz 中心的 iMerit 创始人兼首席执行官 Radha Basu | 图片来源:FactorDaily

这类工作最开始以众包形式(编者注:即个人或私人团体直接从网上领取任务)为主,但随着更高级的需求出现,出现了像 Infolks、iMerit 和 Playment 这样的公司。这些公司服务于来自全球的客户,逐步将印度打造成了一个新兴的数据标注和数据注解工作中心。

印度软件与服务业企业协会(Nasscom)高级副总裁兼首席战略官 Sangeeta Gupta 表示:“在印度,这算是一个新兴的行业……大家渐渐意识到这一行业即将开启的巨大机遇。人工智能需要借助于被正确注解、分类和进行匿名处理的数据。在这件事上,无论人们观念如何,除了自动化手段以外,娴熟的工人同样必不可少,这便是印度的机遇。”

根据研究公司 Cognilytica 的一份报告显示,人工智能和机器学习相关的数据准备方案的市场规模在2018年为5亿美元,这一数字预计在2023年年底达到12亿美元。

什么是数据标注?

数据标注和数据注解,即对数据集通过贴标签、做记号、标颜色或划重点的方式,来标注出其中目标数据的不同点、相似点或类别。这些数据集可以是非结构化的,比如来自摄像头、传感器、电子邮件和社交媒体等,也可以是结构化的,比如来自数据库。经过这样的处理,用来训练人工智能的算法便可以正确地识别数据并进行学习。

打个比方,假如你想要用车载摄像头拍摄的图像训练一种算法,让其读懂路标,数据注解员或标注员就会利用注解工具仔细审查一遍图像数据集,标记或圈出不同的路标,并将这些标记好的数据提供给人工智能算法进行学习。当下次该算法在实际行驶中遇到某个区域内的路标时,便能加以识别。一个算法经过越多数据的训练,它的精确度就越高。

Infolks 创始人兼首席执行官 Mujeeb Kolasseri | 图片来源:FactorDaily

从互联网、社交媒体、传感器和其他来源获取的大量数据推动了人工智能或机器学习的迅猛发展。现今的算法能处理更多数据,于是其准确度也就更高。只要数据始终优质、便于识别,向算法输入百万个数据集,便能逐步提高其准确性。也就是说,AI 行业会一直需要更多准确注解和标注的数据。

根据 Cognilytica 的一份报告显示,目前,在大多数人工智能和机器学习项目中,数据准备和数据工程占了八成以上的时间。

总部位于班加罗尔和旧金山的 Playment 公司高管 Siddharth Mall 讲道:“就拿自动驾驶汽车来说,一小时的视频数据可能需要800个工时来处理。”该公司主要服务于自动驾驶汽车行业。

Infolks 的发展历程

Kolasseri 高中辍学后便进入铝加工行业,但之后由于健康问题不得不离开这个行业。他家里,他在亚马逊的众包平台 Mechanical Turk (MTurk) 上注册 ,开始承接来自全球各地公司的数据注解工作。

Kolasseri 说道:“在 MTurk 上,我保持着99.8的高评分,因为我交付的质量很高。有一个公司很认可我的工作,便直接联系我,给我了很多活。” Kolasseri 紧接着便组建了一个六人团队来完成这一工作。“最初,我们都在家里干活,到2016年年初,我们的业务更多了,于是便决定注册成立公司。”

创业之初,Kolasseri 的兄弟和朋友投资了25000印度卢比(约合362.39美元),帮助建立了这家公司,后来他们成为了董事会成员。如今,Infolks 成为一支不断壮大的团队,其大部分员工都来自 Kumaramputhur 及其周边地区。

Kolasseri 坦言:“公司的愿望是将我们的小村庄变得国际化,并为农村地区的年轻人提供更多谋生的机会。我们近200名员工中,90%都是20到25岁。”

在位于 Kumaramputhur 地区的 Infolks 办公室内,Kolasseri 与他的团队成员们正在交流互动 | 图片来源:FactorDaily

Infolks 的团队为多个领域提供数据服务,譬如医疗、机器人和农业等,他们约75%的工作涉及自动驾驶汽车领域。Kolasseri 的客户们包括德国汽车公司戴姆勒以及其他一些跨国高科技公司。 Kolasseri 表示,由于签署了保密协议的关系,他并不方便透露这些公司的名字。

在进行注解作业时,Infoks 一般会使用客户提供的工具,若客户没有提供的话,会借助第三方工具。Kolasseri 说道:“我们的研发团队正在开发我们自己的注解工具。目前正在测试阶段,应该在未来几周内就会推出。”Infolks 还在科泽科德地区附近的一家科技园设立了另一处办公室。他希望这一举措能提升公司营业额,因为新办公室位于一个经济特区或者说税收飞地,这有助于扩大其全球客户群。

印度人工智能的“后台”

亚马逊 MTurk 曾是印度热度很高的数据标注和注解众包平台,很多印度人在上面寻找这一类工作,但后来 MTurk 开始限制非美国工人。尽管 MTurk 后来取消了这些限制,但随着企业客户开始更加重视数据安全性,MTurk 在数据标注员中的热捧度开始下滑。此外,包括 Spare5、Cloudfactory 和 Figure 8 在内的新众包平台也进入了这一市场,这些平台更加专注于数据注解和标注。

Kolasseri 表示:“在创办公司之前的2015年至2016年间,我一直在 MTurk 平台接任务,但现在有更多类似的众包平台。但由于企业客户愈发关注数据安全,尤其是他们对大量数据集拥有专有产权,他们也就越来越不放心把这一类工作交给平台上的工人。”

图标来源:FactoryDaily

Playment 公司由 Flipkart 前员工 Mall、Ajinkya Malasane 和 Akshay Kumar Lal 共同创立,这家公司进入数据注解和数据标注行业的方式略有不同。

他们为各种应用场景开发了大量的注解工具并自己开发了一个众包平台。这个平台上的员工全部接受过培训,能使用他们所开发的注解工具。Playment 直接与有数据注解或标注业务需求的客户或 IT 服务公司合作。

Mall 解释道:“要将原始的数据转换为有注解的结构化数据,客户需要前端注解工具和熟练且划算的工人。另外,由于需要处理的数据量很大,客户还需要合适的中间平台来支持不同的工作流程,以及远程管理工人。”

据 Mall 称,Playment 的众包平台拥有超过30万名的数据注解员和数据标注员,其中获得公司认可的“高技术的一流工人”约有2.5万名,这些人几乎全天候都在平台上保持在线,平均月收入在20000印度卢比(约合290美元)至30000印度卢比(约合440美元)之间。

Playment 的大部分业务来自国际客户,包括三星、滴滴出行、阿里巴巴、Drive.ai 和德国大陆集团,这些业务大多涉及自自动驾驶汽车领域。

图表来源:FactorDaily

iMerit 的发展战略以员工为中心。公司2000多名员工中大约80%来自月收入低于100美元的家庭,其中大约一半为女性。Natarajan 表示:“我们的社会使命是在贫困社区中、以及缺乏公司和产业的地区创造技术就业的机会。我们在科技相对落后、科技就业机会较少的城市开展业务。”

这种所谓的利他主义有其商业上的道理。Natarajan 补充道:“工作的地区和员工决定了我们能低成本高收益地扩大注解和标注团队的规模,同时交付高质量的工作。”

尽管 iMerit 大部分的业务来自美国——其客户包括微软、易趣和猫途鹰,但其大约90%的数据注解和标注工作都在印度完成。

自动化数据注解

许多公司都在着手开发数据注解专用的自动化工具,但由于许多数据都需要按细致微妙的、客户指定的方式来注解或标注,自动化工具要能准确完成这样的任务还需要一段时间。

Natarajan 表示,不同于5年前用于区分猫狗的人工智能技术,如今的人工智能需要处理更高级的工作。他说:“机器学习已经向前发展了,已经很久没有人要数据标记员来区分猫和狗了。如今,每家公司都有着定制化并非常细化的要求,因此难以对其实现自动化,公司也不可能想都不想就把数据丢给一群匿名的(网络工人)进行标注。”

Jai Natarajan,iMerit 技术和营销副总裁 | 图片来源:FactorDaily

Natarajan 认为,基于人工智能的自动化注解工具必然诞生,但这并不会是一个威胁。Natarajan 表示:“自动注解工具本身,也需要用经过注解的高质量的数据集来训练。在你试图解决一个问题时,这些工具只能将你带到某个高度,而要超越这一高度的话,必然需要定制化的注解。”

但最终,自动化工具会变得更有效率,足以创建高质量的数据集。“长期来看,我们的工作就是不断淘汰我们所使用过的技能。当我们帮助客户达成需求,我们标注这一类数据的技能也就没用了,因为经过训练的人工智能已具备了结构化相关数据的能力。”Natarajan 说到:“但我们也发现这并不绝对,因为(人工智能)始终是一个不断学习和优化的过程。另外,客户们会继续研发新算法、解决下一个问题,而我们的工作又会重新开始。”

换句话说,印度的数据标注和注解公司尚未触顶。

编辑:奥利


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
俄罗斯电商市场快速增长,综合平台优势大于独立站
AMZ123获悉,近日,Euromonitor、EMARKETER及Yakov and Partners发布了《俄罗斯电商市场发展现状》报告。报告基于2020-2024年的数据,对俄罗斯电商市场的发展趋势、综合电商平台与独立电商的竞争格局、各品类表现、未来市场预测进行了系统分析。一、俄罗斯电商趋势1.互联网渗透率增长放缓2020至2024年,俄罗斯互联网使用率从78.1%(约9560万用户)提升至85.5%(约1.04亿用户),四年间增加7.4%(新增约790万用户)。俄罗斯的互联网渗透率增速正在逐年放缓,预计到2029年互联网渗透率将达到89%(约1.08亿用户)。
越南加强进口商品监管,修订多项增值税和海关规则
AMZ123获悉,近日,越南海关公布了2026年对增值税(VAT)、特别消费税(SCT)及电子交易管理的多项修订,核心在于统一税制规则、扩大免税范围并加强跨境与电子化申报管理。此次调整既有减轻企业合规成本、扶持出口与产业链升级的内容,也伴随对部分消费品与临时进口再出口环节的更严监管,直接影响生产、进出口和跨境电商卖家。在增值税方面,新法律将此前零散的官方函件并入法律和配套法令,提升透明度并便于电子化处理。关键变化包括扩大增值税免税目录:列入政府清单的自然资源与矿产(无论原料还是加工品)在出口时被明确归为增值税免税项目。
TikTok Shop黑五复盘,一堆中国卖家晒出百万GMV
黑五复盘,TikTok卖家:“库存差点给我爆完了!”
存生命危险!美国CPSC紧急召回超1万件儿童手写板玩具
AMZ123获悉,近日,美国消费品安全委员会(CPSC)宣布,紧急召回亚马逊在售的KTEBO品牌的儿童书写板玩具,原因是该产品未能符合玩具类产品的强制性安全标准,电池仓固定螺丝无法保持牢固,可能导致纽扣电池外露。若儿童误吞纽扣电池,可能造成严重伤害、内部化学灼伤,甚至威胁生命。此次召回涉及KTEBO品牌的双件套书写平板玩具,召回数量约10,380件,产品提供四种颜色组合,包括粉色/蓝色、绿色/黄色、橙色/蓝色以及紫色/红色,并有8.5英寸与10英寸两种规格,每套配有与机身同色的手写笔。
AliExpress波兰11月增长显著,双十一活动日活用户增长37%
AMZ123获悉,近日,AliExpress的数据显示,平台11月的消费者参与度与卖家销售额大幅增长。今年11月11日至19日举行的AliExpress双十一购物节活动期间,波兰用户的参与度显著提升,日活跃用户数量同比增长37%。随着去年秋季AliExpress开放波兰本地卖家入驻,今年波兰本地卖家的参与度也明显提高,他们在此次双十一促销期间的GMV同比增长74%。从消费偏好来看,智能生活类产品持续吸引波兰消费者,智能家居与清洁设备成为销售榜单的主导品类。Dreame、ILIFE、Laresar等品牌的扫地机器人和自动吸尘设备进入最畅销产品行列,反映波兰家庭对智能化、便捷化生活方式的需求不断上升。
亚马逊印度计划投资127亿美元,推动本地云和AI基础设施建设
AMZ123获悉,近日,亚马逊宣布,将在2030年前进一步推动人工智能在印度的普及,计划投入127亿美元建设本地云和AI基础设施。亚马逊表示,这项长期投资将为超过1500万家中小企业带来AI应用能力,同时在2030年前为400万名公立学校学生提供AI素养课程与职业教育,提高数字技能普及度。亚马逊认为,AI正成为提升印度数字包容性的关键力量,能够突破语言、读写能力与访问渠道的限制,让更多个人与企业受益。在中小企业领域,亚马逊正在推出新一代AI工具,以降低经营门槛、简化业务操作并提升增长效率。
“黑五网一”DTC投放数据复盘,流量都去哪了?
2025 年“黑五网一”大战,终于落下帷幕。除了 GMV ,这场仗花了多少“弹药”,你算清楚了吗?流量场上的每一发子弹,都正中靶心了吗?偏离的原因找到了吗?除了看自己后台的数据,还要看清整个大盘的趋势——这决定了我们下一步该往哪儿走。基于 GoodsFox 监控的投放数据,我们有以下发现:服装、美妆的竞争力度只增不减3D 打印与机械键盘,从“小众圈层”跃升为热门赛道宠物经济的流量稳定,不靠爆点也能撑起大盘这些变化背后,都在重塑今年“黑五网一”的投放结构,我们先从流量基本盘讲起——尽管每年都有新风口,但从广告投放的绝对体量来看,传统大盘仍在支撑整体流量水位。
还在“索评”?亚马逊Review管理的红线与出路
亚马逊的评论管理格局是如何改变的?首先要明确一点:过去几年,亚马逊的Review生态系统发生了剧变,这对各类管理工具产生了深远影响。在买家端,那些专门用来标记“虚假评论”(或帮助买家鉴别真伪)的老一代工具正在失效甚至消失。不少买家就因为Fakespot在平台冲突、合规问题和数据接口变更的压力下关停而感到措手不及。Fakespot是一个分析电商产品评论真实性、帮助消费者识别虚假评价的平台。在卖家端,亚马逊的政策合规和风控机制变得更加严厉。这意味着Review的风险红线变了:以前那些“地毯式索评”或“送测(Giveaway)”的套路可能有效,但现在操作这些手段的封号风险极高。
AMZ123PayPal计算器使用指南及常见问题详解(内附计算公式)
Paypal手续费计算器介绍及计算公式分享 https://www.amz123.com/tools-paypal
重磅!亚马逊公布2026年战略重心变化
AMZ123获悉,12月4日,2025年亚马逊全球开店跨境峰会上,亚马逊回顾了过去一年里中国卖家在亚马逊上所取得的进展,并围绕2026年四大业务战略重点——供应链服务、AI赋能、全球拓展布局、本地服务,揭晓了40余项创新举措。根据亚马逊披露的数据:2025年以来,中国卖家通过亚马逊全球站点售出数十亿件商品,在美欧等成熟站点的销售额增长超过15%,在新兴站点的销售额增长超过30%;2025年以来,销售额达到200万、500万、800万美金的中国卖家数量,增长均超过20%;销售额超过1000万美金的中国卖家数量,增幅近30%。
卖家还在等口径!欠税公示制度却已明确落地
卖家还在“等政策”,但政策已明确趋严过去几个月里,跨境卖家对税务政策最大的期待就是——“能不能再等等,看会不会有新口径”。但事实上,政策并没有往宽松走,而是沿着“数据透明—提醒申报—强化监管”这条路径一步步推进。AMZ123了解到,目前已有超过7000家境内外平台完成涉税信息报送,卖家的线上线下销售数据已全面纳入监管体系。随着数据比对展开,税务部门对申报明显低于平台数据的经营者陆续发出提示,要求补充申报;多数卖家在收到提示后完成了更正,但也的确还有部分经营者迟迟没有动作,继续处于观望甚至低申报的状态。在这种情况下,监管的态度也开始变得更为明确:对于未按规定申报的行为,将从提醒阶段进入到强化管理阶段。
亚马逊新功能,能救你一整条链接!
最近有卖家后台发现,亚马逊多了一个新功能,看起来不起眼,实则很关键——绩效提醒(Performance Notifications)。这个功能解决了我们运营过程中的一个老大难:链接出问题时能不能第一时间被提醒?以前我们发现Listing出状况,大多靠“事后诸葛”:出单突然断了,去查是不是被下架;关键词排名一夜暴跌,才想起去对比转化率;广告Acos拉爆、CTR异常,才知道图可能挂了;等你发现问题,可能已经晚了。这次,亚马逊终于“良心发现”,开始主动提醒你链接的数据异常了。这个新功能到底能干啥?说白了,它就是一个链接级别的数据异常预警系统。
汽配类目又现吸金王,TikTok卖家30天入账1100万
月销量暴涨36007900%,这一汽配用品在TikTok卖爆了
跨界AI失败?深圳大卖资产重组终止!
12月2日,跨境3C 配件大卖杰美特发布公告,宣布决定终止筹划以现金方式收购AI 算力解决方案提供商思腾合力(天津)科技有限公司(以下简称“思腾合力”)控制权的重大资产重组事项。这场筹划半年、备受行业关注的跨界收购突然落幕,消息一出引发市场热议。AMZ123获悉,杰美特于2025年6月21日首次披露了筹划重组的提示性公告,拟通过现金交易控股思腾合力,该交易初步测算构成重大资产重组,且不涉及发行股份、不构成关联交易,也不会导致公司控制权变更。杰美特是“中国手机壳第一股”,主营业务为移动智能终端保护类产品的研发、设计与销售,产品包括手机、平板及穿戴设备的保护壳与表带等。
TikTok Shop英国站黑五创历史新高,销售额同比飙升50%
AMZ123获悉,近日,根据TikTok的公告,TikTok Shop英国站在今年黑色星期五期间创下平台历史最高销售纪录,整体销售额较去年同期提升50%。高峰期出现在黑色星期五当天,当日每秒售出27件商品,刷新TikTok Shop在英国的单日销售纪录。今年消费者开始促销季的时间更早,“假黑五”(Fake Friday,即黑五前一周)的销售额达到去年黑色星期五的纪录水平。黑五周末期间,“TikTok Shop Black Friday”搜索量同比增长404%,成为2025年与黑五相关的最高热度搜索词。同期,平台活跃购物人数较去年增加28%。
宠物消费持续升温,亚马逊10款月销过万宠物产品推荐
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1. 猫咪情绪舒缓喷雾预计销售额:139.84万美元/月销量:26,000+星级评分:4.4好评数量:12,694+图源:亚马逊产品描述:FELIWAY Optimum猫咪情绪舒缓喷雾的专利信息素复合物能显著减少猫咪的应激表现,包括喷尿、抓挠、恐惧反应、紧张冲突等。产品无药性、安全且不干扰人类与其他宠物,每个喷雾覆盖面积约 700 平方英尺。
《亚马逊生活日用品类攻略手册》PDF下载
作为日常生活不可或缺的重要组成,生活百货品类覆盖范围广泛,包括家居用品、家具、车用配件、户外装备、园艺 工具、运动器材、家装用品、厨房、玩具以及宠物用品等众多领域。这类产品不仅是满足基本生活所需,更体现了人们对美好生活的向往和追求。
《掘金泰国-市场洞察与战略机遇报告2025》PDF下载
随着全球经济一体化的加速,泰国作为东盟的核心枢纽,凭借其独特的地缘优势庞大的消费市场以及持续优化的营商环境,成为众多企业战略布局的重要目标。本报告深入剖析泰国市场的政策红利、消费趋势、产业机遇以及合规挑战,旨在为有志于开拓泰国市场的中国企业提供行动指南,助力企业在东盟这片充满活力的土地上把握机遇、应对挑战、!实现可持续发展。
《2025欧美假日购物季营销指南》PDF下载
2025年美国假日购物季零售额预计同比仅增长1.2%,总销售额约1.359万亿美元,虽仍保持正增长,但为2009年以来最低增速,市场正在步入低增长的新常态。
《2025年跨境电商东南亚市场进入战略白皮书》PDF下载
东南亚电商,正以惊人的速度复刻中国电商高速增长的黄金时代。2024年东南亚电商GMV达到1284亿美元,短短5年涨幅超过3倍。全球电商2024年GMV增幅最快的十大市场中,东南亚独占四席。东南亚是拥有约6.7亿人口的广阔市场,在现今全球关税的不确定性大格局下,因其电商基建完善,利好的贸易政策,和更高的年轻人口占比,成为跨境卖家生意拓张焦点之一。
《2025年TikTok Shop玩具品类行业报告(欧美站)》PDF下载
分析TikTok Shop美国市场、英国市场、西班牙市场、墨西哥市场等主流市场点短视频及直播电商数据,选取TikTok与玩具爱好品类相关的内容进行分析报告。
《2025 洗护品类趋势与创新洞察》PDF下载
本报告独特价值:将消费者的“行为结果”据),揭示消费者深层心理动机、并能精准预判未来增长机会
《亚马逊双轨增长指南》PDF下载
亚马逊以“以客户为中心”为核心理念,通过整合B2B与B2C的全渠道服务,帮助卖家实现“一店双拓”-- 一次上架,同步触达个人消费者与企业买家,获得双重收益。同时,基于Direct to Buyer(直接触达买家)的模式,更能有效减少中间环节,提升利润空间与品牌掌控力。
《亚马逊全球线上商采趋势与区域洞察》PDF下载
随着全球企业数字化转型的深入推进,B2B商采有望成为下一个万亿级别的蓝海市场然而,中国卖家在开拓海外企业商采市场时往往面临着一个关键挑战:难以准确把握海外企业买家的商采行为和决策模式。这种认知偏差不仅影响了产品开发方向,也制约了市场拓展策略的制定。
AMZ123选品观察员
选品推荐及选品技巧分享。
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
侃侃跨境那些事儿
不侃废话,挣钱要紧!
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
首页
跨境头条
文章详情
AI 背后的印度数据标注生意
36氪出海
2019-04-02 20:57
17793


像 Infolks、iMerit 和 Playment 这样的数据标注外包公司,正将印度打造成全球人工智能公司的“数据后台”。

编者按:原文作者 Anand Murali, 原文标题 How India's data labellers are powering the global AI race

Kumaramputhur 是在喀拉拉邦帕拉克卡德西北方向约45公里的一座小村庄,大约有3500户人家,可能比班加罗尔郊区大不了多少。这里没什么值得称道的产业。男女比例和文化水平都处于全国平均水平以下。除了能够看到一些现代社会的痕迹以外,Kumaramputhur 似乎没有什么特殊的地方。

高中辍学的 Mujeeb Kolasseri 就在这个村里带领一支200多人的团队,为美国、欧洲、澳洲和亚洲的人工智能公司服务。Infolks 公司于三年前创办,而28岁的 Kolasseri 是这家公司里年龄最大的员工。

在帕拉克卡德通往科泽科德的高速公路旁,有一栋不起眼的办公楼,里面大部分的团队成员都在忙着标注自动驾驶车上车载摄像头所拍摄的照片,他们要在其中标记出车辆、交通信号灯、路标和行人的影像。

除了摄像头拍摄的照片,还有一些影像来自被称作激光雷达(LIDAR)的远程传感器,这些远程传感器能创建3D地图,以帮助自动驾驶车辆感知其周围的物体。这些数据要比摄像头的影像数据更难精确标注。

Infolks 公司位于喀拉拉邦 Kumaramputhur 的办公楼 | 图片来源:FactoryDaily

在大约2000公里开外,靠近加尔各答西南边 Metiabruz 地区胡格利河岸边,约有200位女员工正在标注图像,用来训练自动驾驶汽车和增强现实系统的算法。

在印度和美国运营的数据注解公司 iMerit 的技术和营销部副总裁 Jai Natarajan 表示:“这些员工所做的是我们最尖端的图像项目。”也就是说,这些员工标注和准备的,是用于训练人工智能算法的数据。

在 iMerit 位于加尔各答、兰契、布巴内斯瓦尔、威扎吉和西隆的办事处内,还有数千名员工也在从事类似的工作,他们在标注数以百万计的数据点,这些数据会被世界各地的公司用来训练人工智能算法。

如今全球的巨头企业纷纷发展人工智能,越来越多用来训练人工智能的数据集被打上了“企业专有权”的标签,这就要求企业和数据标注团队在需求、质量控制、反馈和成果交付方面的互动更加紧密。

经历了世纪之交业务流程外包(business process outsourcing)的热潮之后,印度人对这些企业的需求和所用术语并不陌生。和业务流程外包类似,数据注解和数据标注重在对工作流程的管理,以达到精准作业,而其所需技能即使是高中学历的人也可以通过训练掌握。

在 Metiabruz 中心的 iMerit 创始人兼首席执行官 Radha Basu | 图片来源:FactorDaily

这类工作最开始以众包形式(编者注:即个人或私人团体直接从网上领取任务)为主,但随着更高级的需求出现,出现了像 Infolks、iMerit 和 Playment 这样的公司。这些公司服务于来自全球的客户,逐步将印度打造成了一个新兴的数据标注和数据注解工作中心。

印度软件与服务业企业协会(Nasscom)高级副总裁兼首席战略官 Sangeeta Gupta 表示:“在印度,这算是一个新兴的行业……大家渐渐意识到这一行业即将开启的巨大机遇。人工智能需要借助于被正确注解、分类和进行匿名处理的数据。在这件事上,无论人们观念如何,除了自动化手段以外,娴熟的工人同样必不可少,这便是印度的机遇。”

根据研究公司 Cognilytica 的一份报告显示,人工智能和机器学习相关的数据准备方案的市场规模在2018年为5亿美元,这一数字预计在2023年年底达到12亿美元。

什么是数据标注?

数据标注和数据注解,即对数据集通过贴标签、做记号、标颜色或划重点的方式,来标注出其中目标数据的不同点、相似点或类别。这些数据集可以是非结构化的,比如来自摄像头、传感器、电子邮件和社交媒体等,也可以是结构化的,比如来自数据库。经过这样的处理,用来训练人工智能的算法便可以正确地识别数据并进行学习。

打个比方,假如你想要用车载摄像头拍摄的图像训练一种算法,让其读懂路标,数据注解员或标注员就会利用注解工具仔细审查一遍图像数据集,标记或圈出不同的路标,并将这些标记好的数据提供给人工智能算法进行学习。当下次该算法在实际行驶中遇到某个区域内的路标时,便能加以识别。一个算法经过越多数据的训练,它的精确度就越高。

Infolks 创始人兼首席执行官 Mujeeb Kolasseri | 图片来源:FactorDaily

从互联网、社交媒体、传感器和其他来源获取的大量数据推动了人工智能或机器学习的迅猛发展。现今的算法能处理更多数据,于是其准确度也就更高。只要数据始终优质、便于识别,向算法输入百万个数据集,便能逐步提高其准确性。也就是说,AI 行业会一直需要更多准确注解和标注的数据。

根据 Cognilytica 的一份报告显示,目前,在大多数人工智能和机器学习项目中,数据准备和数据工程占了八成以上的时间。

总部位于班加罗尔和旧金山的 Playment 公司高管 Siddharth Mall 讲道:“就拿自动驾驶汽车来说,一小时的视频数据可能需要800个工时来处理。”该公司主要服务于自动驾驶汽车行业。

Infolks 的发展历程

Kolasseri 高中辍学后便进入铝加工行业,但之后由于健康问题不得不离开这个行业。他家里,他在亚马逊的众包平台 Mechanical Turk (MTurk) 上注册 ,开始承接来自全球各地公司的数据注解工作。

Kolasseri 说道:“在 MTurk 上,我保持着99.8的高评分,因为我交付的质量很高。有一个公司很认可我的工作,便直接联系我,给我了很多活。” Kolasseri 紧接着便组建了一个六人团队来完成这一工作。“最初,我们都在家里干活,到2016年年初,我们的业务更多了,于是便决定注册成立公司。”

创业之初,Kolasseri 的兄弟和朋友投资了25000印度卢比(约合362.39美元),帮助建立了这家公司,后来他们成为了董事会成员。如今,Infolks 成为一支不断壮大的团队,其大部分员工都来自 Kumaramputhur 及其周边地区。

Kolasseri 坦言:“公司的愿望是将我们的小村庄变得国际化,并为农村地区的年轻人提供更多谋生的机会。我们近200名员工中,90%都是20到25岁。”

在位于 Kumaramputhur 地区的 Infolks 办公室内,Kolasseri 与他的团队成员们正在交流互动 | 图片来源:FactorDaily

Infolks 的团队为多个领域提供数据服务,譬如医疗、机器人和农业等,他们约75%的工作涉及自动驾驶汽车领域。Kolasseri 的客户们包括德国汽车公司戴姆勒以及其他一些跨国高科技公司。 Kolasseri 表示,由于签署了保密协议的关系,他并不方便透露这些公司的名字。

在进行注解作业时,Infoks 一般会使用客户提供的工具,若客户没有提供的话,会借助第三方工具。Kolasseri 说道:“我们的研发团队正在开发我们自己的注解工具。目前正在测试阶段,应该在未来几周内就会推出。”Infolks 还在科泽科德地区附近的一家科技园设立了另一处办公室。他希望这一举措能提升公司营业额,因为新办公室位于一个经济特区或者说税收飞地,这有助于扩大其全球客户群。

印度人工智能的“后台”

亚马逊 MTurk 曾是印度热度很高的数据标注和注解众包平台,很多印度人在上面寻找这一类工作,但后来 MTurk 开始限制非美国工人。尽管 MTurk 后来取消了这些限制,但随着企业客户开始更加重视数据安全性,MTurk 在数据标注员中的热捧度开始下滑。此外,包括 Spare5、Cloudfactory 和 Figure 8 在内的新众包平台也进入了这一市场,这些平台更加专注于数据注解和标注。

Kolasseri 表示:“在创办公司之前的2015年至2016年间,我一直在 MTurk 平台接任务,但现在有更多类似的众包平台。但由于企业客户愈发关注数据安全,尤其是他们对大量数据集拥有专有产权,他们也就越来越不放心把这一类工作交给平台上的工人。”

图标来源:FactoryDaily

Playment 公司由 Flipkart 前员工 Mall、Ajinkya Malasane 和 Akshay Kumar Lal 共同创立,这家公司进入数据注解和数据标注行业的方式略有不同。

他们为各种应用场景开发了大量的注解工具并自己开发了一个众包平台。这个平台上的员工全部接受过培训,能使用他们所开发的注解工具。Playment 直接与有数据注解或标注业务需求的客户或 IT 服务公司合作。

Mall 解释道:“要将原始的数据转换为有注解的结构化数据,客户需要前端注解工具和熟练且划算的工人。另外,由于需要处理的数据量很大,客户还需要合适的中间平台来支持不同的工作流程,以及远程管理工人。”

据 Mall 称,Playment 的众包平台拥有超过30万名的数据注解员和数据标注员,其中获得公司认可的“高技术的一流工人”约有2.5万名,这些人几乎全天候都在平台上保持在线,平均月收入在20000印度卢比(约合290美元)至30000印度卢比(约合440美元)之间。

Playment 的大部分业务来自国际客户,包括三星、滴滴出行、阿里巴巴、Drive.ai 和德国大陆集团,这些业务大多涉及自自动驾驶汽车领域。

图表来源:FactorDaily

iMerit 的发展战略以员工为中心。公司2000多名员工中大约80%来自月收入低于100美元的家庭,其中大约一半为女性。Natarajan 表示:“我们的社会使命是在贫困社区中、以及缺乏公司和产业的地区创造技术就业的机会。我们在科技相对落后、科技就业机会较少的城市开展业务。”

这种所谓的利他主义有其商业上的道理。Natarajan 补充道:“工作的地区和员工决定了我们能低成本高收益地扩大注解和标注团队的规模,同时交付高质量的工作。”

尽管 iMerit 大部分的业务来自美国——其客户包括微软、易趣和猫途鹰,但其大约90%的数据注解和标注工作都在印度完成。

自动化数据注解

许多公司都在着手开发数据注解专用的自动化工具,但由于许多数据都需要按细致微妙的、客户指定的方式来注解或标注,自动化工具要能准确完成这样的任务还需要一段时间。

Natarajan 表示,不同于5年前用于区分猫狗的人工智能技术,如今的人工智能需要处理更高级的工作。他说:“机器学习已经向前发展了,已经很久没有人要数据标记员来区分猫和狗了。如今,每家公司都有着定制化并非常细化的要求,因此难以对其实现自动化,公司也不可能想都不想就把数据丢给一群匿名的(网络工人)进行标注。”

Jai Natarajan,iMerit 技术和营销副总裁 | 图片来源:FactorDaily

Natarajan 认为,基于人工智能的自动化注解工具必然诞生,但这并不会是一个威胁。Natarajan 表示:“自动注解工具本身,也需要用经过注解的高质量的数据集来训练。在你试图解决一个问题时,这些工具只能将你带到某个高度,而要超越这一高度的话,必然需要定制化的注解。”

但最终,自动化工具会变得更有效率,足以创建高质量的数据集。“长期来看,我们的工作就是不断淘汰我们所使用过的技能。当我们帮助客户达成需求,我们标注这一类数据的技能也就没用了,因为经过训练的人工智能已具备了结构化相关数据的能力。”Natarajan 说到:“但我们也发现这并不绝对,因为(人工智能)始终是一个不断学习和优化的过程。另外,客户们会继续研发新算法、解决下一个问题,而我们的工作又会重新开始。”

换句话说,印度的数据标注和注解公司尚未触顶。

编辑:奥利


咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部