AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

AI 背后的印度数据标注生意

16809
2019-04-02 20:57
2019-04-02 20:57
16809


像 Infolks、iMerit 和 Playment 这样的数据标注外包公司,正将印度打造成全球人工智能公司的“数据后台”。

编者按:原文作者 Anand Murali, 原文标题 How India's data labellers are powering the global AI race

Kumaramputhur 是在喀拉拉邦帕拉克卡德西北方向约45公里的一座小村庄,大约有3500户人家,可能比班加罗尔郊区大不了多少。这里没什么值得称道的产业。男女比例和文化水平都处于全国平均水平以下。除了能够看到一些现代社会的痕迹以外,Kumaramputhur 似乎没有什么特殊的地方。

高中辍学的 Mujeeb Kolasseri 就在这个村里带领一支200多人的团队,为美国、欧洲、澳洲和亚洲的人工智能公司服务。Infolks 公司于三年前创办,而28岁的 Kolasseri 是这家公司里年龄最大的员工。

在帕拉克卡德通往科泽科德的高速公路旁,有一栋不起眼的办公楼,里面大部分的团队成员都在忙着标注自动驾驶车上车载摄像头所拍摄的照片,他们要在其中标记出车辆、交通信号灯、路标和行人的影像。

除了摄像头拍摄的照片,还有一些影像来自被称作激光雷达(LIDAR)的远程传感器,这些远程传感器能创建3D地图,以帮助自动驾驶车辆感知其周围的物体。这些数据要比摄像头的影像数据更难精确标注。

Infolks 公司位于喀拉拉邦 Kumaramputhur 的办公楼 | 图片来源:FactoryDaily

在大约2000公里开外,靠近加尔各答西南边 Metiabruz 地区胡格利河岸边,约有200位女员工正在标注图像,用来训练自动驾驶汽车和增强现实系统的算法。

在印度和美国运营的数据注解公司 iMerit 的技术和营销部副总裁 Jai Natarajan 表示:“这些员工所做的是我们最尖端的图像项目。”也就是说,这些员工标注和准备的,是用于训练人工智能算法的数据。

在 iMerit 位于加尔各答、兰契、布巴内斯瓦尔、威扎吉和西隆的办事处内,还有数千名员工也在从事类似的工作,他们在标注数以百万计的数据点,这些数据会被世界各地的公司用来训练人工智能算法。

如今全球的巨头企业纷纷发展人工智能,越来越多用来训练人工智能的数据集被打上了“企业专有权”的标签,这就要求企业和数据标注团队在需求、质量控制、反馈和成果交付方面的互动更加紧密。

经历了世纪之交业务流程外包(business process outsourcing)的热潮之后,印度人对这些企业的需求和所用术语并不陌生。和业务流程外包类似,数据注解和数据标注重在对工作流程的管理,以达到精准作业,而其所需技能即使是高中学历的人也可以通过训练掌握。

在 Metiabruz 中心的 iMerit 创始人兼首席执行官 Radha Basu | 图片来源:FactorDaily

这类工作最开始以众包形式(编者注:即个人或私人团体直接从网上领取任务)为主,但随着更高级的需求出现,出现了像 Infolks、iMerit 和 Playment 这样的公司。这些公司服务于来自全球的客户,逐步将印度打造成了一个新兴的数据标注和数据注解工作中心。

印度软件与服务业企业协会(Nasscom)高级副总裁兼首席战略官 Sangeeta Gupta 表示:“在印度,这算是一个新兴的行业……大家渐渐意识到这一行业即将开启的巨大机遇。人工智能需要借助于被正确注解、分类和进行匿名处理的数据。在这件事上,无论人们观念如何,除了自动化手段以外,娴熟的工人同样必不可少,这便是印度的机遇。”

根据研究公司 Cognilytica 的一份报告显示,人工智能和机器学习相关的数据准备方案的市场规模在2018年为5亿美元,这一数字预计在2023年年底达到12亿美元。

什么是数据标注?

数据标注和数据注解,即对数据集通过贴标签、做记号、标颜色或划重点的方式,来标注出其中目标数据的不同点、相似点或类别。这些数据集可以是非结构化的,比如来自摄像头、传感器、电子邮件和社交媒体等,也可以是结构化的,比如来自数据库。经过这样的处理,用来训练人工智能的算法便可以正确地识别数据并进行学习。

打个比方,假如你想要用车载摄像头拍摄的图像训练一种算法,让其读懂路标,数据注解员或标注员就会利用注解工具仔细审查一遍图像数据集,标记或圈出不同的路标,并将这些标记好的数据提供给人工智能算法进行学习。当下次该算法在实际行驶中遇到某个区域内的路标时,便能加以识别。一个算法经过越多数据的训练,它的精确度就越高。

Infolks 创始人兼首席执行官 Mujeeb Kolasseri | 图片来源:FactorDaily

从互联网、社交媒体、传感器和其他来源获取的大量数据推动了人工智能或机器学习的迅猛发展。现今的算法能处理更多数据,于是其准确度也就更高。只要数据始终优质、便于识别,向算法输入百万个数据集,便能逐步提高其准确性。也就是说,AI 行业会一直需要更多准确注解和标注的数据。

根据 Cognilytica 的一份报告显示,目前,在大多数人工智能和机器学习项目中,数据准备和数据工程占了八成以上的时间。

总部位于班加罗尔和旧金山的 Playment 公司高管 Siddharth Mall 讲道:“就拿自动驾驶汽车来说,一小时的视频数据可能需要800个工时来处理。”该公司主要服务于自动驾驶汽车行业。

Infolks 的发展历程

Kolasseri 高中辍学后便进入铝加工行业,但之后由于健康问题不得不离开这个行业。他家里,他在亚马逊的众包平台 Mechanical Turk (MTurk) 上注册 ,开始承接来自全球各地公司的数据注解工作。

Kolasseri 说道:“在 MTurk 上,我保持着99.8的高评分,因为我交付的质量很高。有一个公司很认可我的工作,便直接联系我,给我了很多活。” Kolasseri 紧接着便组建了一个六人团队来完成这一工作。“最初,我们都在家里干活,到2016年年初,我们的业务更多了,于是便决定注册成立公司。”

创业之初,Kolasseri 的兄弟和朋友投资了25000印度卢比(约合362.39美元),帮助建立了这家公司,后来他们成为了董事会成员。如今,Infolks 成为一支不断壮大的团队,其大部分员工都来自 Kumaramputhur 及其周边地区。

Kolasseri 坦言:“公司的愿望是将我们的小村庄变得国际化,并为农村地区的年轻人提供更多谋生的机会。我们近200名员工中,90%都是20到25岁。”

在位于 Kumaramputhur 地区的 Infolks 办公室内,Kolasseri 与他的团队成员们正在交流互动 | 图片来源:FactorDaily

Infolks 的团队为多个领域提供数据服务,譬如医疗、机器人和农业等,他们约75%的工作涉及自动驾驶汽车领域。Kolasseri 的客户们包括德国汽车公司戴姆勒以及其他一些跨国高科技公司。 Kolasseri 表示,由于签署了保密协议的关系,他并不方便透露这些公司的名字。

在进行注解作业时,Infoks 一般会使用客户提供的工具,若客户没有提供的话,会借助第三方工具。Kolasseri 说道:“我们的研发团队正在开发我们自己的注解工具。目前正在测试阶段,应该在未来几周内就会推出。”Infolks 还在科泽科德地区附近的一家科技园设立了另一处办公室。他希望这一举措能提升公司营业额,因为新办公室位于一个经济特区或者说税收飞地,这有助于扩大其全球客户群。

印度人工智能的“后台”

亚马逊 MTurk 曾是印度热度很高的数据标注和注解众包平台,很多印度人在上面寻找这一类工作,但后来 MTurk 开始限制非美国工人。尽管 MTurk 后来取消了这些限制,但随着企业客户开始更加重视数据安全性,MTurk 在数据标注员中的热捧度开始下滑。此外,包括 Spare5、Cloudfactory 和 Figure 8 在内的新众包平台也进入了这一市场,这些平台更加专注于数据注解和标注。

Kolasseri 表示:“在创办公司之前的2015年至2016年间,我一直在 MTurk 平台接任务,但现在有更多类似的众包平台。但由于企业客户愈发关注数据安全,尤其是他们对大量数据集拥有专有产权,他们也就越来越不放心把这一类工作交给平台上的工人。”

图标来源:FactoryDaily

Playment 公司由 Flipkart 前员工 Mall、Ajinkya Malasane 和 Akshay Kumar Lal 共同创立,这家公司进入数据注解和数据标注行业的方式略有不同。

他们为各种应用场景开发了大量的注解工具并自己开发了一个众包平台。这个平台上的员工全部接受过培训,能使用他们所开发的注解工具。Playment 直接与有数据注解或标注业务需求的客户或 IT 服务公司合作。

Mall 解释道:“要将原始的数据转换为有注解的结构化数据,客户需要前端注解工具和熟练且划算的工人。另外,由于需要处理的数据量很大,客户还需要合适的中间平台来支持不同的工作流程,以及远程管理工人。”

据 Mall 称,Playment 的众包平台拥有超过30万名的数据注解员和数据标注员,其中获得公司认可的“高技术的一流工人”约有2.5万名,这些人几乎全天候都在平台上保持在线,平均月收入在20000印度卢比(约合290美元)至30000印度卢比(约合440美元)之间。

Playment 的大部分业务来自国际客户,包括三星、滴滴出行、阿里巴巴、Drive.ai 和德国大陆集团,这些业务大多涉及自自动驾驶汽车领域。

图表来源:FactorDaily

iMerit 的发展战略以员工为中心。公司2000多名员工中大约80%来自月收入低于100美元的家庭,其中大约一半为女性。Natarajan 表示:“我们的社会使命是在贫困社区中、以及缺乏公司和产业的地区创造技术就业的机会。我们在科技相对落后、科技就业机会较少的城市开展业务。”

这种所谓的利他主义有其商业上的道理。Natarajan 补充道:“工作的地区和员工决定了我们能低成本高收益地扩大注解和标注团队的规模,同时交付高质量的工作。”

尽管 iMerit 大部分的业务来自美国——其客户包括微软、易趣和猫途鹰,但其大约90%的数据注解和标注工作都在印度完成。

自动化数据注解

许多公司都在着手开发数据注解专用的自动化工具,但由于许多数据都需要按细致微妙的、客户指定的方式来注解或标注,自动化工具要能准确完成这样的任务还需要一段时间。

Natarajan 表示,不同于5年前用于区分猫狗的人工智能技术,如今的人工智能需要处理更高级的工作。他说:“机器学习已经向前发展了,已经很久没有人要数据标记员来区分猫和狗了。如今,每家公司都有着定制化并非常细化的要求,因此难以对其实现自动化,公司也不可能想都不想就把数据丢给一群匿名的(网络工人)进行标注。”

Jai Natarajan,iMerit 技术和营销副总裁 | 图片来源:FactorDaily

Natarajan 认为,基于人工智能的自动化注解工具必然诞生,但这并不会是一个威胁。Natarajan 表示:“自动注解工具本身,也需要用经过注解的高质量的数据集来训练。在你试图解决一个问题时,这些工具只能将你带到某个高度,而要超越这一高度的话,必然需要定制化的注解。”

但最终,自动化工具会变得更有效率,足以创建高质量的数据集。“长期来看,我们的工作就是不断淘汰我们所使用过的技能。当我们帮助客户达成需求,我们标注这一类数据的技能也就没用了,因为经过训练的人工智能已具备了结构化相关数据的能力。”Natarajan 说到:“但我们也发现这并不绝对,因为(人工智能)始终是一个不断学习和优化的过程。另外,客户们会继续研发新算法、解决下一个问题,而我们的工作又会重新开始。”

换句话说,印度的数据标注和注解公司尚未触顶。

编辑:奥利


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
土耳其电商市场不同地区消费差异明显,卖家依赖单一平台销售
AMZ123获悉,近日,根据土耳其贸易部数据,土耳其有79%线上卖家仅在一个电商平台上销售产品,这使得他们高度依赖平台的算法、定价和运营规则。因此,Trendyol和Hepsiburada在土耳其市场上拥有显著的主导地位,形成了明显的市场集中格局。数据显示,土耳其的电商支出持续增长。按土耳其货币计算,2024年土耳其的线上消费同比增长62%,其中通货膨胀是主要推动因素。换算为欧元后,土耳其的线上消费同比增长16%,线上消费总额达到615亿欧元(约896亿美元),交易量约为60亿笔,同比增幅约15%。按美元计算,线上消费几乎是2020年的四倍。目前,土耳其已有超过60万家公司活跃于在线销售。
TikTok Shop将重点排查这类视频,卖家切勿“踩雷”
“N条视频,下架清零;我的旺季,眼泪决堤。”近段时间,TikTok Shop官方悄然加码了对违规带货内容的处置力度,一系列被卖家称为“史上最严”的视频监管新规正在陆续落地。
美国万圣节支出将创131亿美元新高,糖果、服装和装饰品热卖
AMZ123获悉,近日,美国国家零售联合会(NRF)最新发布的消费者调查显示,今年万圣节零售支出预计将达到创纪录的131亿美元,高于去年的116亿美元,也超过2023年的122亿美元历史纪录。按人均计算,消费者支出预计达到114.45美元,较去年增长近11美元,并刷新2023年的108.24美元纪录。尽管有79%的消费者预计关税会推高商品价格,但有73%消费者仍计划庆祝万圣节,与去年的72%持平。在购买类别方面,糖果仍为最受欢迎的消费品类,总支出预计达到39亿美元。服装方面,约71%的消费者计划购买服饰,总支出预计达到43亿美元。
Allegro Q2财报出炉:营收同比增长超10%,全球活跃买家达2110万
AMZ123获悉,近日,波兰电商平台Allegro公布了2025年第二季度财务报告,集团营收同比增长超过10%,波兰市场收入同比增长18.1%,GMV(总交易额)同比增长9.8%。Allegro平台收入与销售额持续上升,上调了全年收入及调整后EBITDA预期。以下为Q2财务亮点:①集团收入同比增长超过10%;集团调整后EBITDA同比增长超20%。②广告业务同比增长超30%。③波兰市场收入同比增长18.1%,GMV(总交易额)同比增长9.8%,调整后EBITDA同比增长14.2%。
一文读懂丨生产型企业出口退税额计算
企业人员我们是新成立的生产型出口企业,听说生产型出口企业的退税额计算方式比较复杂,请问该如何正确计算呢?税务人员您好!很高兴为您服务!已登记为一般纳税人的生产型企业的出口货物劳务主要采用“免、抵、退”的计算方法。⏩“免” 是指免征出口环节增值税销项税额;⏩“抵” 是指相应的进项税额抵减应纳增值税额(不包括适用增值税即征即退、先征后退政策的应纳增值税额);⏩“退” 是指未抵减完的部分予以退还。
Keith律所代理意大利艺术家Michele Natale发起版权诉讼,涉及1张版权图片
案件编号:25-cv-11164起诉时间:2025 年 9 月 16 日原告:Michele Natale, d/b/a Michael Christmas Art侵权类型:版权侵权代理律所:Keith原告Michele Natale为意大利出生的当代艺术家,毕业于马泰拉与博洛尼亚艺术学院,后在威尼斯专攻动画。作品以女性、动物与宠物肖像为核心,色彩明亮,主题常围绕生命、创造、自由及人与自然的联结。他在墨尔本设立工作室,并通过 Etsy、Instagram 等平台向全球销售原作与限量印刷品,品牌名称为 “Michael Christmas Art”。
AMZ123星球专享丨9月第三周资讯汇总
亚马逊亚马逊宣布2025年Prime会员大促定于10月7日在全球18个国家和地区同步启动,其中包括首次参与的墨西哥和爱尔兰市场。9月15日消息,亚马逊美国站近日启动了“虚拟多件装”(VMP)试点计划,首次向第三方卖家开放此功能。该计划使卖家能够将同一ASIN的单件FBA库存虚拟组合为多件装商品页面,无需实际打包或更改发货流程,消费者则可以直接选择购买数量,订单依然由单件库存履行。9月15日消息,亚马逊墨西哥宣布,升级其线上超市业务 Amazon Súper,进一步巩固其在家庭日常必需品电商市场的地位。9月15日消息,亚马逊加拿大站点已全面开启卖家资质审核,未能通过审核的卖家将无法在该站点开店销售。
亚马逊突发限制!没填原产地,商品可能无法卖给欧盟和英国买家
亚马逊突发限制!没填原产地,商品可能无法卖给欧盟和英国买家很多卖家的美国站收到了没有填原产地限制向欧盟和英国买家发货的通知。如何处理?具体通知:我们将限制向欧盟境外的欧盟买家以及英国境外的英国买家销售没有原产国/原产地信息的商品。在提供原产国;原产地信息后,需要等待10天时间才能移除横幅。 解决这问题的步骤是非常简单的。因为这个原产地信息是在每个链接中都有的属性,只要填写这个属性值即可。 打开你的编辑页面去找到原产地的属性值。COO属性值可能会根据产品类型不同,而出现在以下四个页面的不同位置其中之一。可以逐个打开以下页面使用“atrl+F”搜索“原产国”的关键词。可能在安全与合规,商品详情。报价。
9月单量断崖式下滑?这次问题比你想的更复杂!
9月,本该是亚马逊卖家冲刺旺季前的关键时点。可今年,不少卖家却提前“过冬”。广告烧穿、转化暴跌、订单稀碎,不仅仅是你在苦撑,整个跨境圈都在集体喊冷。多站点集体掉线:从美到日,全面拉胯“去年旺季现在爆单,今年只有爆冷。”今年9月开始,不管你是做美站、欧站还是日站,大家都感受到了流量正在一天天消失。8月底开始,一批卖家就发现流量腰斩,有人日单从百单掉到个位数。美国站卖家反馈:汽摩配类从8月中就开始断崖式下滑,有的广告花费翻倍但点击寥寥。欧洲站更惨,周末直接成“订单空窗期”。日本站不少卖家甚至开玩笑说:“每天坐在电脑前发呆”。
白帽运营如何摆脱广告依赖?旺季过后全是广告单,如何提升自然流量?
匿名用户我的C位一、产品:定价区间10以下,6月和10月有个小旺季,评分4.1,25条,卖得最好的评分4.3,35条。二、运营:6月份接手这个产品,单量骤降,怕库存积压,500个库存。于是把两个核心出单词的竞价提高,并进行降价如图所示。一直到目前状况是90%的广告单,根本不能盈利。三、2个核心出单词(近6个月的情况):头部竞品大致的趋势也是一样,但是他们的自然排位都比我的高一截四、广告位的情况:问题:1、如何提升产品的自然排位?达到竞品的平均水平即可,实现盈利。
重磅!亚马逊AMC数据权限免费开放给卖家!
亚马逊偷偷放开的这项特权功能,以前只有大卖能用,现在人人都能上手!前段时间,网络上上有个名词频繁刷屏——AMC(Amazon Marketing Cloud)。过去你可能听都没听过这个词,那是因为这个工具以前确实不属于我们普通卖家的“权限范围”;一句话总结:这是亚马逊留给大品牌和大型代理商的专属数据表盘。但现在不一样了——2025年,亚马逊悄悄把AMC权限开放了。
这些坑,80%的卖家都踩过,你中招了吗?
亚马逊广告常见误区与正确做法在运营亚马逊广告的过程中,很多卖家都会踩坑:要么误解广告逻辑,要么直接放弃潜力词,要么预算设置不合理。今天整理了十个常见的误区,并给出对应的正确做法,帮助大家避免走弯路。一、把所有ASIN放在一个广告里不少卖家图省事,把所有 ASIN 都塞进一个广告活动里。但这样很容易出现内部竞争,预算和流量被分散。正确做法: 应按产品关联性和定位策略分组,比如新品一个组、爆款一个组。这样才能更精准地调整预算和竞价,也方便后期分析数据。二、放弃竞价太高的关键词有些卖家一看关键词出价高,就直接放弃。其实这类词往往意味着高需求和高转化潜力。正确做法: 不要一刀切。
86.2%成功率删除亚马逊恶意差评的方法!
深夜收到1星差评,点开买家主页倒吸一口凉气——清一色差评、无头像、昵称还是"垃圾产品别买"!这分明是恶意攻击!面对竞争对手雇佣水军、传统邮件申诉如同石沉大海,教你掌握如何后台自助申诉,实现高效维权。
月销百万美金!亚马逊十款美妆个护热销产品推荐
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1. 眼霜预计销售额:298,500美元/月销量:50,000+星级评分:4.2好评数量:23,085图源:亚马逊产品描述:Wake Up Eye Gel眼霜是一款专为缓解眼部疲劳设计的啫喱型产品,月销量超过5万单,销售额约29.85万美元,在亚马逊获得4.2星评分和超过2.3万条好评。该产品结合马黛茶、透明质酸、咖啡因和四肽成分,能有效减轻浮肿、黑眼圈并淡化细纹,同时补水并提亮眼周肌肤。啫喱质地清爽易吸收,适合所有肤质使用,且无香料添加,配方温和。
亚马逊加拿大站资质审核指南
Amazon亚马逊加拿大站卖家资质审核指南1审核背景亚马逊此次审核的主要目的是满足加拿大法律对商户身份验证的要求,从而增强平台的安全性,保护买卖双方的权益。所有希望在加拿大站销售的卖家都必须通过该审核,确保其符合当地的运营规范。2审核对象新卖家:所有新注册并希望在加拿大站点销售的卖家必须通过资质审核,才能获得销售权限。现有卖家:已经在加拿大站点销售的卖家,也需重新进行资质审核。审核时间要求卖家收到审核通知后,必须在60个自然日 内完成身份验证。如果逾期未完成,可能会影响销售权限或款项提现。3所需提交材料卖家需要准备以下几类材料来完成资质审核:个人身份证件:例如护照、驾驶证或其他政府颁发的身份验证文件。
日销200单爆款预定!变脸南瓜灯TikTok千万播放,10+独立站跟卖
说到万圣节南瓜灯,很多卖家第一反应是传统雕刻款,但今年可不是。现在TikTok上最火的一款南瓜灯,我愿称之为“邪恶南瓜小夜灯”,它长这样:值得关注的是,这款邪恶南瓜灯是去年爆火的焦虑南瓜夜灯的变体。如果你在TikTok搜Pumpkin Night Light,会发现随便点开一条视频就有10万+播放,上万收藏。视频主角正是这只面露难色的南瓜小夜灯。一个真正意义上的爆款,最直接的标志就是:生命周期长、持续有卖家跟进。焦虑南瓜灯就是从去年火到今年。通过BigSpy-广告信息搜索关键词可以看出,直到今年9月,仍有多个独立站在持续投流,包括Arriveedon、Glizm、Yeahmade和Opisther等。
《2025上半年TikTok Shop调研报告-TT123》PDF下载
2025年上半年,在特朗普加征超高关税、TikTok不卖就禁法案3度延期等诸多动荡里,逆风而行的TikTok Shop依旧交出了一份不错的成绩单。2025年上半年,TikTokShop全球GMV突破232亿美元,距离年初设定的100%增长目标更近一步。
《TikTok Shop 2024年健康类目报告(东南亚各站点)》PDF下载
泰国站健康品类细分市场成交主要集中在膳食补充剂、医疗用品及替代药物等,前两者成交GMV约5000万美元,但从价格梯队集中度来看,主要集中在30-50美元,医疗用品尤其明显,30-50美元价格段占医疗用品整年GMV约64%:在即食部分>100美元的品质市场约占整体70%,虽整体市场较小,但可重点关注高端市场
《TikTok Shop 2024年运动户外类目报告(欧美)》PDF下载
美国市场运动户外类GMV近一年进入TOP5门槛虽仅占TOP10份额的6%,但近半年增速约为30%凭借美国运动类深厚的客群,未来市场有望进一步提升
《TikTok Shop 2024年运动户外类目报告(东南亚)》PDF下载
运动户外品类在东南亚各站点近一年GMV各站点平均在1500万美元以上,尤其以泰国站领先优势明显;但近一年各品类排名仅马来站排名在TOP10,运动户外品类在东南亚站点相对容量较小,需要进一步培育市场和客户消费习惯
《2025年中国宠物食品出海分析报告》PDF下载
随着养宠规模的扩大和宠物主人对宠物健康关注度的提升,宠物食品市场规模持续扩大。预计未来几年,中国宠物食品行业将保持快速增长的态势 消费者对高端、天然、有机宠物食品的需求将持续攀升,推动宠物食品行业向高端化、精细化方向发展。科技的进步将为宠物食品行业的发展带来 新的机遇,如智能化设备的应用、大数据分析等,提高生产效率和质量控制水平。
《2025年美妆出海:开拓北美美丽新征程》PDF下载
美国美妆市场总值及增长趋势 市场分析:2023 年美国美妆市场总值超过 560 亿美元,预计到 2027 年将突破 700 亿美元,年均增长率为 6% 电商渠道的发展对美妆行业的影响 电商渠道占比:美妆产品的在线销售在整体市场中占比超过 30%,其中大约 70% 的消费者在网上购买美妆产品
《2025年美国消费电子行业趋势白皮书》PDF下载
当今世界正在经历着百年未有之大变局,全球产业链深度重构与数字技术革命交织激荡。中国以“双循环”新发展格局为战略牵引,开启高水平对外开放的“大航海时代”,推动外贸高质量发展。在此进程中中美经贸关系既牵动着全球经济复苏的关键变量,更映射出大国竞合的时代命题。
《2024中国宠物产业出海分析报告》PDF下载
随着宠物福利意识的不断提升,宠物用品市场正朝着更加多样化和专业化的方向发展。无论是宠物的食品和饮水、健康护理,还是它们的睡眠和娱乐用品,这些产品不仅满足了宠物的基本生理和心理需求,同时也为宠物主人提供了更加愉快的陪伴体验。
AMZ123卖家导航
这个人很懒,还没有自我介绍
侃侃跨境那些事儿
不侃废话,挣钱要紧!
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
首页
跨境头条
文章详情
热门活动
跨境资讯
跨境资讯
跨境早报
跨境社群
品类交流群
宠物品类交流群宠物品类交流群
加入
宠物品类交流群
扫码进群
家居品类交流群家居品类交流群
加入
家居品类交流群
扫码进群
母婴用品交流群母婴用品交流群
加入
母婴用品交流群
扫码进群
品类交流群
加入
跨境资料
亚马逊运营干货包亚马逊运营干货包
加入
亚马逊运营干货包
扫码进群
TikTok运营干货包TikTok运营干货包
加入
TikTok运营干货包
扫码进群
跨境电商行业报告跨境电商行业报告
加入
跨境电商行业报告
扫码进群
跨境资料
加入
官方社区
跨境电商交流群跨境电商交流群
加入
跨境电商交流群
扫码进群
亚马逊卖家交流群亚马逊卖家交流群
加入
亚马逊卖家交流群
扫码进群
独立站卖家交流群独立站卖家交流群
加入
独立站卖家交流群
扫码进群
官方社区
加入
立即扫码咨询
立即扫码咨询
AI 背后的印度数据标注生意
36氪出海
2019-04-02 20:57
16809


像 Infolks、iMerit 和 Playment 这样的数据标注外包公司,正将印度打造成全球人工智能公司的“数据后台”。

编者按:原文作者 Anand Murali, 原文标题 How India's data labellers are powering the global AI race

Kumaramputhur 是在喀拉拉邦帕拉克卡德西北方向约45公里的一座小村庄,大约有3500户人家,可能比班加罗尔郊区大不了多少。这里没什么值得称道的产业。男女比例和文化水平都处于全国平均水平以下。除了能够看到一些现代社会的痕迹以外,Kumaramputhur 似乎没有什么特殊的地方。

高中辍学的 Mujeeb Kolasseri 就在这个村里带领一支200多人的团队,为美国、欧洲、澳洲和亚洲的人工智能公司服务。Infolks 公司于三年前创办,而28岁的 Kolasseri 是这家公司里年龄最大的员工。

在帕拉克卡德通往科泽科德的高速公路旁,有一栋不起眼的办公楼,里面大部分的团队成员都在忙着标注自动驾驶车上车载摄像头所拍摄的照片,他们要在其中标记出车辆、交通信号灯、路标和行人的影像。

除了摄像头拍摄的照片,还有一些影像来自被称作激光雷达(LIDAR)的远程传感器,这些远程传感器能创建3D地图,以帮助自动驾驶车辆感知其周围的物体。这些数据要比摄像头的影像数据更难精确标注。

Infolks 公司位于喀拉拉邦 Kumaramputhur 的办公楼 | 图片来源:FactoryDaily

在大约2000公里开外,靠近加尔各答西南边 Metiabruz 地区胡格利河岸边,约有200位女员工正在标注图像,用来训练自动驾驶汽车和增强现实系统的算法。

在印度和美国运营的数据注解公司 iMerit 的技术和营销部副总裁 Jai Natarajan 表示:“这些员工所做的是我们最尖端的图像项目。”也就是说,这些员工标注和准备的,是用于训练人工智能算法的数据。

在 iMerit 位于加尔各答、兰契、布巴内斯瓦尔、威扎吉和西隆的办事处内,还有数千名员工也在从事类似的工作,他们在标注数以百万计的数据点,这些数据会被世界各地的公司用来训练人工智能算法。

如今全球的巨头企业纷纷发展人工智能,越来越多用来训练人工智能的数据集被打上了“企业专有权”的标签,这就要求企业和数据标注团队在需求、质量控制、反馈和成果交付方面的互动更加紧密。

经历了世纪之交业务流程外包(business process outsourcing)的热潮之后,印度人对这些企业的需求和所用术语并不陌生。和业务流程外包类似,数据注解和数据标注重在对工作流程的管理,以达到精准作业,而其所需技能即使是高中学历的人也可以通过训练掌握。

在 Metiabruz 中心的 iMerit 创始人兼首席执行官 Radha Basu | 图片来源:FactorDaily

这类工作最开始以众包形式(编者注:即个人或私人团体直接从网上领取任务)为主,但随着更高级的需求出现,出现了像 Infolks、iMerit 和 Playment 这样的公司。这些公司服务于来自全球的客户,逐步将印度打造成了一个新兴的数据标注和数据注解工作中心。

印度软件与服务业企业协会(Nasscom)高级副总裁兼首席战略官 Sangeeta Gupta 表示:“在印度,这算是一个新兴的行业……大家渐渐意识到这一行业即将开启的巨大机遇。人工智能需要借助于被正确注解、分类和进行匿名处理的数据。在这件事上,无论人们观念如何,除了自动化手段以外,娴熟的工人同样必不可少,这便是印度的机遇。”

根据研究公司 Cognilytica 的一份报告显示,人工智能和机器学习相关的数据准备方案的市场规模在2018年为5亿美元,这一数字预计在2023年年底达到12亿美元。

什么是数据标注?

数据标注和数据注解,即对数据集通过贴标签、做记号、标颜色或划重点的方式,来标注出其中目标数据的不同点、相似点或类别。这些数据集可以是非结构化的,比如来自摄像头、传感器、电子邮件和社交媒体等,也可以是结构化的,比如来自数据库。经过这样的处理,用来训练人工智能的算法便可以正确地识别数据并进行学习。

打个比方,假如你想要用车载摄像头拍摄的图像训练一种算法,让其读懂路标,数据注解员或标注员就会利用注解工具仔细审查一遍图像数据集,标记或圈出不同的路标,并将这些标记好的数据提供给人工智能算法进行学习。当下次该算法在实际行驶中遇到某个区域内的路标时,便能加以识别。一个算法经过越多数据的训练,它的精确度就越高。

Infolks 创始人兼首席执行官 Mujeeb Kolasseri | 图片来源:FactorDaily

从互联网、社交媒体、传感器和其他来源获取的大量数据推动了人工智能或机器学习的迅猛发展。现今的算法能处理更多数据,于是其准确度也就更高。只要数据始终优质、便于识别,向算法输入百万个数据集,便能逐步提高其准确性。也就是说,AI 行业会一直需要更多准确注解和标注的数据。

根据 Cognilytica 的一份报告显示,目前,在大多数人工智能和机器学习项目中,数据准备和数据工程占了八成以上的时间。

总部位于班加罗尔和旧金山的 Playment 公司高管 Siddharth Mall 讲道:“就拿自动驾驶汽车来说,一小时的视频数据可能需要800个工时来处理。”该公司主要服务于自动驾驶汽车行业。

Infolks 的发展历程

Kolasseri 高中辍学后便进入铝加工行业,但之后由于健康问题不得不离开这个行业。他家里,他在亚马逊的众包平台 Mechanical Turk (MTurk) 上注册 ,开始承接来自全球各地公司的数据注解工作。

Kolasseri 说道:“在 MTurk 上,我保持着99.8的高评分,因为我交付的质量很高。有一个公司很认可我的工作,便直接联系我,给我了很多活。” Kolasseri 紧接着便组建了一个六人团队来完成这一工作。“最初,我们都在家里干活,到2016年年初,我们的业务更多了,于是便决定注册成立公司。”

创业之初,Kolasseri 的兄弟和朋友投资了25000印度卢比(约合362.39美元),帮助建立了这家公司,后来他们成为了董事会成员。如今,Infolks 成为一支不断壮大的团队,其大部分员工都来自 Kumaramputhur 及其周边地区。

Kolasseri 坦言:“公司的愿望是将我们的小村庄变得国际化,并为农村地区的年轻人提供更多谋生的机会。我们近200名员工中,90%都是20到25岁。”

在位于 Kumaramputhur 地区的 Infolks 办公室内,Kolasseri 与他的团队成员们正在交流互动 | 图片来源:FactorDaily

Infolks 的团队为多个领域提供数据服务,譬如医疗、机器人和农业等,他们约75%的工作涉及自动驾驶汽车领域。Kolasseri 的客户们包括德国汽车公司戴姆勒以及其他一些跨国高科技公司。 Kolasseri 表示,由于签署了保密协议的关系,他并不方便透露这些公司的名字。

在进行注解作业时,Infoks 一般会使用客户提供的工具,若客户没有提供的话,会借助第三方工具。Kolasseri 说道:“我们的研发团队正在开发我们自己的注解工具。目前正在测试阶段,应该在未来几周内就会推出。”Infolks 还在科泽科德地区附近的一家科技园设立了另一处办公室。他希望这一举措能提升公司营业额,因为新办公室位于一个经济特区或者说税收飞地,这有助于扩大其全球客户群。

印度人工智能的“后台”

亚马逊 MTurk 曾是印度热度很高的数据标注和注解众包平台,很多印度人在上面寻找这一类工作,但后来 MTurk 开始限制非美国工人。尽管 MTurk 后来取消了这些限制,但随着企业客户开始更加重视数据安全性,MTurk 在数据标注员中的热捧度开始下滑。此外,包括 Spare5、Cloudfactory 和 Figure 8 在内的新众包平台也进入了这一市场,这些平台更加专注于数据注解和标注。

Kolasseri 表示:“在创办公司之前的2015年至2016年间,我一直在 MTurk 平台接任务,但现在有更多类似的众包平台。但由于企业客户愈发关注数据安全,尤其是他们对大量数据集拥有专有产权,他们也就越来越不放心把这一类工作交给平台上的工人。”

图标来源:FactoryDaily

Playment 公司由 Flipkart 前员工 Mall、Ajinkya Malasane 和 Akshay Kumar Lal 共同创立,这家公司进入数据注解和数据标注行业的方式略有不同。

他们为各种应用场景开发了大量的注解工具并自己开发了一个众包平台。这个平台上的员工全部接受过培训,能使用他们所开发的注解工具。Playment 直接与有数据注解或标注业务需求的客户或 IT 服务公司合作。

Mall 解释道:“要将原始的数据转换为有注解的结构化数据,客户需要前端注解工具和熟练且划算的工人。另外,由于需要处理的数据量很大,客户还需要合适的中间平台来支持不同的工作流程,以及远程管理工人。”

据 Mall 称,Playment 的众包平台拥有超过30万名的数据注解员和数据标注员,其中获得公司认可的“高技术的一流工人”约有2.5万名,这些人几乎全天候都在平台上保持在线,平均月收入在20000印度卢比(约合290美元)至30000印度卢比(约合440美元)之间。

Playment 的大部分业务来自国际客户,包括三星、滴滴出行、阿里巴巴、Drive.ai 和德国大陆集团,这些业务大多涉及自自动驾驶汽车领域。

图表来源:FactorDaily

iMerit 的发展战略以员工为中心。公司2000多名员工中大约80%来自月收入低于100美元的家庭,其中大约一半为女性。Natarajan 表示:“我们的社会使命是在贫困社区中、以及缺乏公司和产业的地区创造技术就业的机会。我们在科技相对落后、科技就业机会较少的城市开展业务。”

这种所谓的利他主义有其商业上的道理。Natarajan 补充道:“工作的地区和员工决定了我们能低成本高收益地扩大注解和标注团队的规模,同时交付高质量的工作。”

尽管 iMerit 大部分的业务来自美国——其客户包括微软、易趣和猫途鹰,但其大约90%的数据注解和标注工作都在印度完成。

自动化数据注解

许多公司都在着手开发数据注解专用的自动化工具,但由于许多数据都需要按细致微妙的、客户指定的方式来注解或标注,自动化工具要能准确完成这样的任务还需要一段时间。

Natarajan 表示,不同于5年前用于区分猫狗的人工智能技术,如今的人工智能需要处理更高级的工作。他说:“机器学习已经向前发展了,已经很久没有人要数据标记员来区分猫和狗了。如今,每家公司都有着定制化并非常细化的要求,因此难以对其实现自动化,公司也不可能想都不想就把数据丢给一群匿名的(网络工人)进行标注。”

Jai Natarajan,iMerit 技术和营销副总裁 | 图片来源:FactorDaily

Natarajan 认为,基于人工智能的自动化注解工具必然诞生,但这并不会是一个威胁。Natarajan 表示:“自动注解工具本身,也需要用经过注解的高质量的数据集来训练。在你试图解决一个问题时,这些工具只能将你带到某个高度,而要超越这一高度的话,必然需要定制化的注解。”

但最终,自动化工具会变得更有效率,足以创建高质量的数据集。“长期来看,我们的工作就是不断淘汰我们所使用过的技能。当我们帮助客户达成需求,我们标注这一类数据的技能也就没用了,因为经过训练的人工智能已具备了结构化相关数据的能力。”Natarajan 说到:“但我们也发现这并不绝对,因为(人工智能)始终是一个不断学习和优化的过程。另外,客户们会继续研发新算法、解决下一个问题,而我们的工作又会重新开始。”

换句话说,印度的数据标注和注解公司尚未触顶。

编辑:奥利


咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部