AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

AI 背后的印度数据标注生意

19221
2019-04-02 20:57
2019-04-02 20:57
19221


像 Infolks、iMerit 和 Playment 这样的数据标注外包公司,正将印度打造成全球人工智能公司的“数据后台”。

编者按:原文作者 Anand Murali, 原文标题 How India's data labellers are powering the global AI race

Kumaramputhur 是在喀拉拉邦帕拉克卡德西北方向约45公里的一座小村庄,大约有3500户人家,可能比班加罗尔郊区大不了多少。这里没什么值得称道的产业。男女比例和文化水平都处于全国平均水平以下。除了能够看到一些现代社会的痕迹以外,Kumaramputhur 似乎没有什么特殊的地方。

高中辍学的 Mujeeb Kolasseri 就在这个村里带领一支200多人的团队,为美国、欧洲、澳洲和亚洲的人工智能公司服务。Infolks 公司于三年前创办,而28岁的 Kolasseri 是这家公司里年龄最大的员工。

在帕拉克卡德通往科泽科德的高速公路旁,有一栋不起眼的办公楼,里面大部分的团队成员都在忙着标注自动驾驶车上车载摄像头所拍摄的照片,他们要在其中标记出车辆、交通信号灯、路标和行人的影像。

除了摄像头拍摄的照片,还有一些影像来自被称作激光雷达(LIDAR)的远程传感器,这些远程传感器能创建3D地图,以帮助自动驾驶车辆感知其周围的物体。这些数据要比摄像头的影像数据更难精确标注。

Infolks 公司位于喀拉拉邦 Kumaramputhur 的办公楼 | 图片来源:FactoryDaily

在大约2000公里开外,靠近加尔各答西南边 Metiabruz 地区胡格利河岸边,约有200位女员工正在标注图像,用来训练自动驾驶汽车和增强现实系统的算法。

在印度和美国运营的数据注解公司 iMerit 的技术和营销部副总裁 Jai Natarajan 表示:“这些员工所做的是我们最尖端的图像项目。”也就是说,这些员工标注和准备的,是用于训练人工智能算法的数据。

在 iMerit 位于加尔各答、兰契、布巴内斯瓦尔、威扎吉和西隆的办事处内,还有数千名员工也在从事类似的工作,他们在标注数以百万计的数据点,这些数据会被世界各地的公司用来训练人工智能算法。

如今全球的巨头企业纷纷发展人工智能,越来越多用来训练人工智能的数据集被打上了“企业专有权”的标签,这就要求企业和数据标注团队在需求、质量控制、反馈和成果交付方面的互动更加紧密。

经历了世纪之交业务流程外包(business process outsourcing)的热潮之后,印度人对这些企业的需求和所用术语并不陌生。和业务流程外包类似,数据注解和数据标注重在对工作流程的管理,以达到精准作业,而其所需技能即使是高中学历的人也可以通过训练掌握。

在 Metiabruz 中心的 iMerit 创始人兼首席执行官 Radha Basu | 图片来源:FactorDaily

这类工作最开始以众包形式(编者注:即个人或私人团体直接从网上领取任务)为主,但随着更高级的需求出现,出现了像 Infolks、iMerit 和 Playment 这样的公司。这些公司服务于来自全球的客户,逐步将印度打造成了一个新兴的数据标注和数据注解工作中心。

印度软件与服务业企业协会(Nasscom)高级副总裁兼首席战略官 Sangeeta Gupta 表示:“在印度,这算是一个新兴的行业……大家渐渐意识到这一行业即将开启的巨大机遇。人工智能需要借助于被正确注解、分类和进行匿名处理的数据。在这件事上,无论人们观念如何,除了自动化手段以外,娴熟的工人同样必不可少,这便是印度的机遇。”

根据研究公司 Cognilytica 的一份报告显示,人工智能和机器学习相关的数据准备方案的市场规模在2018年为5亿美元,这一数字预计在2023年年底达到12亿美元。

什么是数据标注?

数据标注和数据注解,即对数据集通过贴标签、做记号、标颜色或划重点的方式,来标注出其中目标数据的不同点、相似点或类别。这些数据集可以是非结构化的,比如来自摄像头、传感器、电子邮件和社交媒体等,也可以是结构化的,比如来自数据库。经过这样的处理,用来训练人工智能的算法便可以正确地识别数据并进行学习。

打个比方,假如你想要用车载摄像头拍摄的图像训练一种算法,让其读懂路标,数据注解员或标注员就会利用注解工具仔细审查一遍图像数据集,标记或圈出不同的路标,并将这些标记好的数据提供给人工智能算法进行学习。当下次该算法在实际行驶中遇到某个区域内的路标时,便能加以识别。一个算法经过越多数据的训练,它的精确度就越高。

Infolks 创始人兼首席执行官 Mujeeb Kolasseri | 图片来源:FactorDaily

从互联网、社交媒体、传感器和其他来源获取的大量数据推动了人工智能或机器学习的迅猛发展。现今的算法能处理更多数据,于是其准确度也就更高。只要数据始终优质、便于识别,向算法输入百万个数据集,便能逐步提高其准确性。也就是说,AI 行业会一直需要更多准确注解和标注的数据。

根据 Cognilytica 的一份报告显示,目前,在大多数人工智能和机器学习项目中,数据准备和数据工程占了八成以上的时间。

总部位于班加罗尔和旧金山的 Playment 公司高管 Siddharth Mall 讲道:“就拿自动驾驶汽车来说,一小时的视频数据可能需要800个工时来处理。”该公司主要服务于自动驾驶汽车行业。

Infolks 的发展历程

Kolasseri 高中辍学后便进入铝加工行业,但之后由于健康问题不得不离开这个行业。他家里,他在亚马逊的众包平台 Mechanical Turk (MTurk) 上注册 ,开始承接来自全球各地公司的数据注解工作。

Kolasseri 说道:“在 MTurk 上,我保持着99.8的高评分,因为我交付的质量很高。有一个公司很认可我的工作,便直接联系我,给我了很多活。” Kolasseri 紧接着便组建了一个六人团队来完成这一工作。“最初,我们都在家里干活,到2016年年初,我们的业务更多了,于是便决定注册成立公司。”

创业之初,Kolasseri 的兄弟和朋友投资了25000印度卢比(约合362.39美元),帮助建立了这家公司,后来他们成为了董事会成员。如今,Infolks 成为一支不断壮大的团队,其大部分员工都来自 Kumaramputhur 及其周边地区。

Kolasseri 坦言:“公司的愿望是将我们的小村庄变得国际化,并为农村地区的年轻人提供更多谋生的机会。我们近200名员工中,90%都是20到25岁。”

在位于 Kumaramputhur 地区的 Infolks 办公室内,Kolasseri 与他的团队成员们正在交流互动 | 图片来源:FactorDaily

Infolks 的团队为多个领域提供数据服务,譬如医疗、机器人和农业等,他们约75%的工作涉及自动驾驶汽车领域。Kolasseri 的客户们包括德国汽车公司戴姆勒以及其他一些跨国高科技公司。 Kolasseri 表示,由于签署了保密协议的关系,他并不方便透露这些公司的名字。

在进行注解作业时,Infoks 一般会使用客户提供的工具,若客户没有提供的话,会借助第三方工具。Kolasseri 说道:“我们的研发团队正在开发我们自己的注解工具。目前正在测试阶段,应该在未来几周内就会推出。”Infolks 还在科泽科德地区附近的一家科技园设立了另一处办公室。他希望这一举措能提升公司营业额,因为新办公室位于一个经济特区或者说税收飞地,这有助于扩大其全球客户群。

印度人工智能的“后台”

亚马逊 MTurk 曾是印度热度很高的数据标注和注解众包平台,很多印度人在上面寻找这一类工作,但后来 MTurk 开始限制非美国工人。尽管 MTurk 后来取消了这些限制,但随着企业客户开始更加重视数据安全性,MTurk 在数据标注员中的热捧度开始下滑。此外,包括 Spare5、Cloudfactory 和 Figure 8 在内的新众包平台也进入了这一市场,这些平台更加专注于数据注解和标注。

Kolasseri 表示:“在创办公司之前的2015年至2016年间,我一直在 MTurk 平台接任务,但现在有更多类似的众包平台。但由于企业客户愈发关注数据安全,尤其是他们对大量数据集拥有专有产权,他们也就越来越不放心把这一类工作交给平台上的工人。”

图标来源:FactoryDaily

Playment 公司由 Flipkart 前员工 Mall、Ajinkya Malasane 和 Akshay Kumar Lal 共同创立,这家公司进入数据注解和数据标注行业的方式略有不同。

他们为各种应用场景开发了大量的注解工具并自己开发了一个众包平台。这个平台上的员工全部接受过培训,能使用他们所开发的注解工具。Playment 直接与有数据注解或标注业务需求的客户或 IT 服务公司合作。

Mall 解释道:“要将原始的数据转换为有注解的结构化数据,客户需要前端注解工具和熟练且划算的工人。另外,由于需要处理的数据量很大,客户还需要合适的中间平台来支持不同的工作流程,以及远程管理工人。”

据 Mall 称,Playment 的众包平台拥有超过30万名的数据注解员和数据标注员,其中获得公司认可的“高技术的一流工人”约有2.5万名,这些人几乎全天候都在平台上保持在线,平均月收入在20000印度卢比(约合290美元)至30000印度卢比(约合440美元)之间。

Playment 的大部分业务来自国际客户,包括三星、滴滴出行、阿里巴巴、Drive.ai 和德国大陆集团,这些业务大多涉及自自动驾驶汽车领域。

图表来源:FactorDaily

iMerit 的发展战略以员工为中心。公司2000多名员工中大约80%来自月收入低于100美元的家庭,其中大约一半为女性。Natarajan 表示:“我们的社会使命是在贫困社区中、以及缺乏公司和产业的地区创造技术就业的机会。我们在科技相对落后、科技就业机会较少的城市开展业务。”

这种所谓的利他主义有其商业上的道理。Natarajan 补充道:“工作的地区和员工决定了我们能低成本高收益地扩大注解和标注团队的规模,同时交付高质量的工作。”

尽管 iMerit 大部分的业务来自美国——其客户包括微软、易趣和猫途鹰,但其大约90%的数据注解和标注工作都在印度完成。

自动化数据注解

许多公司都在着手开发数据注解专用的自动化工具,但由于许多数据都需要按细致微妙的、客户指定的方式来注解或标注,自动化工具要能准确完成这样的任务还需要一段时间。

Natarajan 表示,不同于5年前用于区分猫狗的人工智能技术,如今的人工智能需要处理更高级的工作。他说:“机器学习已经向前发展了,已经很久没有人要数据标记员来区分猫和狗了。如今,每家公司都有着定制化并非常细化的要求,因此难以对其实现自动化,公司也不可能想都不想就把数据丢给一群匿名的(网络工人)进行标注。”

Jai Natarajan,iMerit 技术和营销副总裁 | 图片来源:FactorDaily

Natarajan 认为,基于人工智能的自动化注解工具必然诞生,但这并不会是一个威胁。Natarajan 表示:“自动注解工具本身,也需要用经过注解的高质量的数据集来训练。在你试图解决一个问题时,这些工具只能将你带到某个高度,而要超越这一高度的话,必然需要定制化的注解。”

但最终,自动化工具会变得更有效率,足以创建高质量的数据集。“长期来看,我们的工作就是不断淘汰我们所使用过的技能。当我们帮助客户达成需求,我们标注这一类数据的技能也就没用了,因为经过训练的人工智能已具备了结构化相关数据的能力。”Natarajan 说到:“但我们也发现这并不绝对,因为(人工智能)始终是一个不断学习和优化的过程。另外,客户们会继续研发新算法、解决下一个问题,而我们的工作又会重新开始。”

换句话说,印度的数据标注和注解公司尚未触顶。

编辑:奥利


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
SHEIN发布全球循环报告,7 成用户注重性价比
AMZ123获悉,近日,SHEIN 发布2025 年全球循环性报告,调研覆盖21 个国家、约1.5万名用户,系统分析用户购买决策、穿着习惯、衣物处置与循环参与行为,为服装电商的可持续运营、循环服务设计与消费引导提供数据支撑。核心发现如下:一、影响用户购买决策的因素(一)核心决策因素1、性价比是第一决策前提价格是全球用户最统一、最优先的考量项。71.6% 的用户总是将最优价格作为首要考虑,19.2%经常考虑,合计占比高达 90.8%。在 21 个调研市场中,18 个市场将价格列为第一考量,且这些市场中超过 85% 的用户高度关注价格;其中南非、韩国用户价格敏感度最高,近 95% 总是 / 经常关注价格。
26年美国美妆消费者趋势:关税、AI、社媒影响购物决策
AMZ123获悉,随着新技术与平台不断涌现,不同世代美妆消费者的购物行为愈发复杂,不同产品类别对购买决策的影响也存在显著差异。同时,美国近年的关税政策与持续通胀也对市场格局造成影响,使品牌方面临竞争激烈且充满不确定性的环境。因此,Tinuiti发布了《2026年美妆营销研究报告》,从通胀影响到社交媒体趋势全面分析了消费者行为,以更好理解当前美国市场的美妆消费状况。一、市场现状1. 消费者对价格变化的反应数据显示,2025年美国美妆及个护电商市场规模已达到约610亿美元,电商渠道已占据接近一半的市场份额。随着技术进步和平台多样化,美容消费者的购物路径日益复杂。
25年日本家居电商市场达2.56万亿日元,平均单价提升
AMZ123获悉,近日,根据日本经济产业省发布的“2022-2025年电商市场调查”,2025年日本家居电商市场持续扩张,尽管新建住宅数量下降,消费者对线上购物的需求和高价值产品的偏好推动了市场增长。数据显示,近三年来,日本生活杂货、家具、家居类B2C电商市场规模和渗透率均呈稳步上升趋势,从2022年的2.35万亿日元(29.59%),增长至2025年的2.56万亿日元(32.58%%),同比增长3.62%。在商品行业中排名第三,仅次于“图书、视频及音乐软件”(56.45%)和“家用电器、音视频设备、电脑及周边设备等”(43.03%)。
25年全球美妆市场增长10%,AI与社交电商推动增长
AMZ123获悉,近日,根据尼尔森IQ(NielsenIQ)发布的《2026美妆市场报告》,2025年全球美妆市场同比增长10%,其中电商渠道的增速是线下实体店的六倍。对于品牌来说,加快数字化布局已成为赢得美妆市场的关键。从区域表现来看,北美市场增长10%,西欧增长4%,东欧增长8%,拉丁美洲增长14%,非洲和中东增长16%,亚太地区增长14%。这一趋势表明,无论市场成熟度如何,数字化渠道对全球美妆增长的推动作用普遍存在。AI驱动的产品推荐、社交电商以及直播购物正在改变消费者发现和购买产品的路径。超过50%的消费者正在使用AI购物工具,其中49%已经通过生成式AI获得美妆推荐,53%的消费者通过社交平台完成购买。
国产奶瓶刷打入美国母婴圈,在TikTok卖了200多万
给宝宝洗杯子,大概是所有父母最熟悉也最无奈的日常。不同于成人所用的敞口杯,婴幼儿专用杯包含防呛阀门、吸嘴等特殊饮水结构,复杂配件造就的诸多清洁死角,“滋生”的不光有缝隙处的霉菌刺客,更有为人父母对于“哪儿哪儿不干净”的卫生焦虑。近期在TikTok美区,一款能深入各个死角、分区清洁的杯刷工具正是为“绞杀”这番情绪而来,凭借5合1的全能型卖点迅速突围,成为母婴类目的一匹销量黑马。01母婴类目下的“死角克星”数据显示,在TikTok美区母婴用品类目,一款主打5合1的清洁杯刷以2445件的周销量,登上了大类销量榜第2的位置。虽然乍一看这款刷子与常规款无异,但在洗杯子这件事上,它的专业程度却毋庸置疑。
美国Q4电商销售额达3652亿美元,渗透率创新高
AMZ123获悉,近日,根据Digital Commerce 360对美国商务部数据的分析,2025年第四季度,美国电商销售额首次在单个季度突破3500亿美元大关,达到约3650亿美元,比历史数据高出约150亿美元。数据显示,2025年第四季度美国总零售额为1.461万亿美元,同比增长3.6%。其中,线下零售销售增长3%。分析显示,电商在美国零售市场的渗透率创历史新高,占美国总零售总额的25%。若将餐饮服务等零售销售也计入,美国电商占总零售额的比例为16.6%,未经调整的数据显示占比为18.3%。这是自美国商务部 1999年开始追踪在线销售以来,单季度电商渗透率最高的一次。
意大利对Revolut处以1150万欧元罚款
Fin123获悉,近日,意大利反垄断机构对 Revolut 处以 1150 万欧元的罚款。意大利竞争管理局(AGCM)指出,Revolut向客户散布了关于其投资产品的错误信息,同时未能清晰、完整地披露免佣金投资背后的隐性成本与交易限制。此外,意大利方面指出,Revolut在处理用户银行账户时,采用了激进且不透明的操作手法,包括就账户暂停、限制及冻结等事项提供不完整或误导性信息。此次罚款共涉及三项具体处罚:第一,Revolut Securities Europe UAB 与 Revolut Group Holdings Ltd 因投资服务信息披露不足,被罚500万欧元。
年销售额6.7亿美元!25年TikTok Shop美国站美妆标签Top10
AMZ123获悉,近日,根据Charm.io统计,TikTok Shop美国站上10个美妆类标签在过去12个月内创造了超过6.7亿美元的销售额,这些标签不仅描述产品,更直接激发购买行为。2025年超过7000万件美妆产品通过TikTok Shop售出。在TikTok Shop上,标签成为推动消费的基础形式。例如,#skincare护肤标签一年销售额约1.419亿美元,Dr. Melaxin Peel Shot Glow Rice安瓶套装因配方中的水稻提取物与AHA、BHA化学成分,能清理黑头、净化毛孔并防止痘痘,成为#skincare的代表产品。
亚马逊再调FBA费用,4月17日起生效!
中东战火延宕至今,仍未有“熄火”之意。当地时间4月2日,特朗普在最新表态中发出警告,称美国将在未来两到三周内对伊朗进行猛烈打击,国际油价应声飙涨。截至当天收盘,5月交货的美国WTI原油价格收于每桶111.54美元,上涨11.41%;6月交货的国际基准布伦特原油价格则收于每桶109.03美元,涨幅高达7.78%。在此背景下,一系列“涨价通知”如同多米诺骨牌,正逐级传导至跨境卖家们的利润表上。全链路合规难题现场答疑,4.17 深圳 | 深圳商务局&行业专家坐镇,落地实操一站获取!点击报名AMZ123了解到,当地时间4月2日,亚马逊美国站发布了一则加征物流相关附加费的通知。
26年美国美妆消费者趋势:关税、AI、社媒影响购物决策
AMZ123获悉,随着新技术与平台不断涌现,不同世代美妆消费者的购物行为愈发复杂,不同产品类别对购买决策的影响也存在显著差异。同时,美国近年的关税政策与持续通胀也对市场格局造成影响,使品牌方面临竞争激烈且充满不确定性的环境。因此,Tinuiti发布了《2026年美妆营销研究报告》,从通胀影响到社交媒体趋势全面分析了消费者行为,以更好理解当前美国市场的美妆消费状况。一、市场现状1. 消费者对价格变化的反应数据显示,2025年美国美妆及个护电商市场规模已达到约610亿美元,电商渠道已占据接近一半的市场份额。随着技术进步和平台多样化,美容消费者的购物路径日益复杂。
25年全球美妆市场增长10%,AI与社交电商推动增长
AMZ123获悉,近日,根据尼尔森IQ(NielsenIQ)发布的《2026美妆市场报告》,2025年全球美妆市场同比增长10%,其中电商渠道的增速是线下实体店的六倍。对于品牌来说,加快数字化布局已成为赢得美妆市场的关键。从区域表现来看,北美市场增长10%,西欧增长4%,东欧增长8%,拉丁美洲增长14%,非洲和中东增长16%,亚太地区增长14%。这一趋势表明,无论市场成熟度如何,数字化渠道对全球美妆增长的推动作用普遍存在。AI驱动的产品推荐、社交电商以及直播购物正在改变消费者发现和购买产品的路径。超过50%的消费者正在使用AI购物工具,其中49%已经通过生成式AI获得美妆推荐,53%的消费者通过社交平台完成购买。
年销售额6.7亿美元!25年TikTok Shop美国站美妆标签Top10
AMZ123获悉,近日,根据Charm.io统计,TikTok Shop美国站上10个美妆类标签在过去12个月内创造了超过6.7亿美元的销售额,这些标签不仅描述产品,更直接激发购买行为。2025年超过7000万件美妆产品通过TikTok Shop售出。在TikTok Shop上,标签成为推动消费的基础形式。例如,#skincare护肤标签一年销售额约1.419亿美元,Dr. Melaxin Peel Shot Glow Rice安瓶套装因配方中的水稻提取物与AHA、BHA化学成分,能清理黑头、净化毛孔并防止痘痘,成为#skincare的代表产品。
意大利对Revolut处以1150万欧元罚款
Fin123获悉,近日,意大利反垄断机构对 Revolut 处以 1150 万欧元的罚款。意大利竞争管理局(AGCM)指出,Revolut向客户散布了关于其投资产品的错误信息,同时未能清晰、完整地披露免佣金投资背后的隐性成本与交易限制。此外,意大利方面指出,Revolut在处理用户银行账户时,采用了激进且不透明的操作手法,包括就账户暂停、限制及冻结等事项提供不完整或误导性信息。此次罚款共涉及三项具体处罚:第一,Revolut Securities Europe UAB 与 Revolut Group Holdings Ltd 因投资服务信息披露不足,被罚500万欧元。
SHEIN发布全球循环报告,7 成用户注重性价比
AMZ123获悉,近日,SHEIN 发布2025 年全球循环性报告,调研覆盖21 个国家、约1.5万名用户,系统分析用户购买决策、穿着习惯、衣物处置与循环参与行为,为服装电商的可持续运营、循环服务设计与消费引导提供数据支撑。核心发现如下:一、影响用户购买决策的因素(一)核心决策因素1、性价比是第一决策前提价格是全球用户最统一、最优先的考量项。71.6% 的用户总是将最优价格作为首要考虑,19.2%经常考虑,合计占比高达 90.8%。在 21 个调研市场中,18 个市场将价格列为第一考量,且这些市场中超过 85% 的用户高度关注价格;其中南非、韩国用户价格敏感度最高,近 95% 总是 / 经常关注价格。
25年日本家居电商市场达2.56万亿日元,平均单价提升
AMZ123获悉,近日,根据日本经济产业省发布的“2022-2025年电商市场调查”,2025年日本家居电商市场持续扩张,尽管新建住宅数量下降,消费者对线上购物的需求和高价值产品的偏好推动了市场增长。数据显示,近三年来,日本生活杂货、家具、家居类B2C电商市场规模和渗透率均呈稳步上升趋势,从2022年的2.35万亿日元(29.59%),增长至2025年的2.56万亿日元(32.58%%),同比增长3.62%。在商品行业中排名第三,仅次于“图书、视频及音乐软件”(56.45%)和“家用电器、音视频设备、电脑及周边设备等”(43.03%)。
美国Q4电商销售额达3652亿美元,渗透率创新高
AMZ123获悉,近日,根据Digital Commerce 360对美国商务部数据的分析,2025年第四季度,美国电商销售额首次在单个季度突破3500亿美元大关,达到约3650亿美元,比历史数据高出约150亿美元。数据显示,2025年第四季度美国总零售额为1.461万亿美元,同比增长3.6%。其中,线下零售销售增长3%。分析显示,电商在美国零售市场的渗透率创历史新高,占美国总零售总额的25%。若将餐饮服务等零售销售也计入,美国电商占总零售额的比例为16.6%,未经调整的数据显示占比为18.3%。这是自美国商务部 1999年开始追踪在线销售以来,单季度电商渗透率最高的一次。
《TikTok Shop突破末次触达归因(LTA)ROAS分析报告》PDF下载
在数字化浪潮中,广告主正面临有效衡量广告支出回报率(ROAS)的挑战。传统未次触达归因(LTA)模型因数据收集难度和归因偏差问题已难以满足广告主的需求,因此,探索新的方法来解决这些问题显得尤为重要。
《未来电商报告:品牌独立站五步升级锁定未来确定性增长》PDF下载
调研显示,出海商家针对家居、时尚及消费电子等品类布局比例均超过30%。独立站凭借其高度品牌化、个性化、场景化及功能性等优势,精准契合上述品类对品牌调性、场景交互及沉浸式体验的核心诉求,正成为商家黑五大促期提升销量、构建品牌竞争壁垒的关键载体。
《TikTok Shop达人真实种草力报告》PDF下载
达人正在将文化内容、社群互动与商业转化深度融合,形成一个高度协同的内容商业生态,其价值早已不再局限于内容带来的直接收入。从更广义的商业视角来看,达人价值的核心在于真实影响力-即其内容对商品与服务产生影响并促成转化所形成的整体商业价值,这一能力正构成达人在内容电商体系中的带货价值基础。
《2026年第2季度儿童时尚品类报告》PDF下载
儿童时尚品类概览 主题选品合辑 巴西站点上新 泰国站点上新 菲律宾站点上新 越南站点上新
《TikTok Shop 2025年度报告》PDF下载
2025年,TikTok Shop进一步加快扩张步伐,在巩固欧美成熟市场的同时,积极开拓新兴市场,先后上线德国、意大利、法国、日本等站点。此举不仅为平台带来新增量,也体现出其多元化市场战略的初步成效,以分散地缘政治风险。
《Shopee2025印尼站点X 汽车摩托品类专题》PDF下载
印尼当地汽车保有量并不高,每一千人的机动车保有量仅96人,未来可提升的空间仍大。空间参照系可以看泰国和马来,2024年泰国汽车保有量为322辆/千人,马来西亚为531辆/千人。
《2026年Shopee运动户外类目自行车爆品分享》PDF下载
巴西骑行爱好群体广泛,但平台上热销品呈现出的国际大牌极少,推测可能原因是国际品牌可能主要通过线下经销或自行渠道销售,未深度参与Shopee等本土电商。因此巴西用户在平台上几乎接触不到这些高端品牌产品。平台上巴西用户更倾向购买本土品牌的自行车,可能出于价格实惠和售后便利考虑。
《2025年TikTok生态发展白皮书》PDF下载
2025年,全球内容电商迈入深度跃迁的新周期。TikTokShop正以前所未有的速度拓展市场版图,完成从高速增长向高质量增长的跃迁。在这一进程中,生态结构重构、参与者多元化、全球政策协同等因素叠加,构成内容电商演进的核心变量。
侃侃跨境那些事儿
不侃废话,挣钱要紧!
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
AMZ123卖家导航
这个人很懒,还没有自我介绍
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
跨境学院
跨境电商大小事,尽在跨境学院。
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
首页
跨境头条
文章详情
AI 背后的印度数据标注生意
36氪出海
2019-04-02 20:57
19220


像 Infolks、iMerit 和 Playment 这样的数据标注外包公司,正将印度打造成全球人工智能公司的“数据后台”。

编者按:原文作者 Anand Murali, 原文标题 How India's data labellers are powering the global AI race

Kumaramputhur 是在喀拉拉邦帕拉克卡德西北方向约45公里的一座小村庄,大约有3500户人家,可能比班加罗尔郊区大不了多少。这里没什么值得称道的产业。男女比例和文化水平都处于全国平均水平以下。除了能够看到一些现代社会的痕迹以外,Kumaramputhur 似乎没有什么特殊的地方。

高中辍学的 Mujeeb Kolasseri 就在这个村里带领一支200多人的团队,为美国、欧洲、澳洲和亚洲的人工智能公司服务。Infolks 公司于三年前创办,而28岁的 Kolasseri 是这家公司里年龄最大的员工。

在帕拉克卡德通往科泽科德的高速公路旁,有一栋不起眼的办公楼,里面大部分的团队成员都在忙着标注自动驾驶车上车载摄像头所拍摄的照片,他们要在其中标记出车辆、交通信号灯、路标和行人的影像。

除了摄像头拍摄的照片,还有一些影像来自被称作激光雷达(LIDAR)的远程传感器,这些远程传感器能创建3D地图,以帮助自动驾驶车辆感知其周围的物体。这些数据要比摄像头的影像数据更难精确标注。

Infolks 公司位于喀拉拉邦 Kumaramputhur 的办公楼 | 图片来源:FactoryDaily

在大约2000公里开外,靠近加尔各答西南边 Metiabruz 地区胡格利河岸边,约有200位女员工正在标注图像,用来训练自动驾驶汽车和增强现实系统的算法。

在印度和美国运营的数据注解公司 iMerit 的技术和营销部副总裁 Jai Natarajan 表示:“这些员工所做的是我们最尖端的图像项目。”也就是说,这些员工标注和准备的,是用于训练人工智能算法的数据。

在 iMerit 位于加尔各答、兰契、布巴内斯瓦尔、威扎吉和西隆的办事处内,还有数千名员工也在从事类似的工作,他们在标注数以百万计的数据点,这些数据会被世界各地的公司用来训练人工智能算法。

如今全球的巨头企业纷纷发展人工智能,越来越多用来训练人工智能的数据集被打上了“企业专有权”的标签,这就要求企业和数据标注团队在需求、质量控制、反馈和成果交付方面的互动更加紧密。

经历了世纪之交业务流程外包(business process outsourcing)的热潮之后,印度人对这些企业的需求和所用术语并不陌生。和业务流程外包类似,数据注解和数据标注重在对工作流程的管理,以达到精准作业,而其所需技能即使是高中学历的人也可以通过训练掌握。

在 Metiabruz 中心的 iMerit 创始人兼首席执行官 Radha Basu | 图片来源:FactorDaily

这类工作最开始以众包形式(编者注:即个人或私人团体直接从网上领取任务)为主,但随着更高级的需求出现,出现了像 Infolks、iMerit 和 Playment 这样的公司。这些公司服务于来自全球的客户,逐步将印度打造成了一个新兴的数据标注和数据注解工作中心。

印度软件与服务业企业协会(Nasscom)高级副总裁兼首席战略官 Sangeeta Gupta 表示:“在印度,这算是一个新兴的行业……大家渐渐意识到这一行业即将开启的巨大机遇。人工智能需要借助于被正确注解、分类和进行匿名处理的数据。在这件事上,无论人们观念如何,除了自动化手段以外,娴熟的工人同样必不可少,这便是印度的机遇。”

根据研究公司 Cognilytica 的一份报告显示,人工智能和机器学习相关的数据准备方案的市场规模在2018年为5亿美元,这一数字预计在2023年年底达到12亿美元。

什么是数据标注?

数据标注和数据注解,即对数据集通过贴标签、做记号、标颜色或划重点的方式,来标注出其中目标数据的不同点、相似点或类别。这些数据集可以是非结构化的,比如来自摄像头、传感器、电子邮件和社交媒体等,也可以是结构化的,比如来自数据库。经过这样的处理,用来训练人工智能的算法便可以正确地识别数据并进行学习。

打个比方,假如你想要用车载摄像头拍摄的图像训练一种算法,让其读懂路标,数据注解员或标注员就会利用注解工具仔细审查一遍图像数据集,标记或圈出不同的路标,并将这些标记好的数据提供给人工智能算法进行学习。当下次该算法在实际行驶中遇到某个区域内的路标时,便能加以识别。一个算法经过越多数据的训练,它的精确度就越高。

Infolks 创始人兼首席执行官 Mujeeb Kolasseri | 图片来源:FactorDaily

从互联网、社交媒体、传感器和其他来源获取的大量数据推动了人工智能或机器学习的迅猛发展。现今的算法能处理更多数据,于是其准确度也就更高。只要数据始终优质、便于识别,向算法输入百万个数据集,便能逐步提高其准确性。也就是说,AI 行业会一直需要更多准确注解和标注的数据。

根据 Cognilytica 的一份报告显示,目前,在大多数人工智能和机器学习项目中,数据准备和数据工程占了八成以上的时间。

总部位于班加罗尔和旧金山的 Playment 公司高管 Siddharth Mall 讲道:“就拿自动驾驶汽车来说,一小时的视频数据可能需要800个工时来处理。”该公司主要服务于自动驾驶汽车行业。

Infolks 的发展历程

Kolasseri 高中辍学后便进入铝加工行业,但之后由于健康问题不得不离开这个行业。他家里,他在亚马逊的众包平台 Mechanical Turk (MTurk) 上注册 ,开始承接来自全球各地公司的数据注解工作。

Kolasseri 说道:“在 MTurk 上,我保持着99.8的高评分,因为我交付的质量很高。有一个公司很认可我的工作,便直接联系我,给我了很多活。” Kolasseri 紧接着便组建了一个六人团队来完成这一工作。“最初,我们都在家里干活,到2016年年初,我们的业务更多了,于是便决定注册成立公司。”

创业之初,Kolasseri 的兄弟和朋友投资了25000印度卢比(约合362.39美元),帮助建立了这家公司,后来他们成为了董事会成员。如今,Infolks 成为一支不断壮大的团队,其大部分员工都来自 Kumaramputhur 及其周边地区。

Kolasseri 坦言:“公司的愿望是将我们的小村庄变得国际化,并为农村地区的年轻人提供更多谋生的机会。我们近200名员工中,90%都是20到25岁。”

在位于 Kumaramputhur 地区的 Infolks 办公室内,Kolasseri 与他的团队成员们正在交流互动 | 图片来源:FactorDaily

Infolks 的团队为多个领域提供数据服务,譬如医疗、机器人和农业等,他们约75%的工作涉及自动驾驶汽车领域。Kolasseri 的客户们包括德国汽车公司戴姆勒以及其他一些跨国高科技公司。 Kolasseri 表示,由于签署了保密协议的关系,他并不方便透露这些公司的名字。

在进行注解作业时,Infoks 一般会使用客户提供的工具,若客户没有提供的话,会借助第三方工具。Kolasseri 说道:“我们的研发团队正在开发我们自己的注解工具。目前正在测试阶段,应该在未来几周内就会推出。”Infolks 还在科泽科德地区附近的一家科技园设立了另一处办公室。他希望这一举措能提升公司营业额,因为新办公室位于一个经济特区或者说税收飞地,这有助于扩大其全球客户群。

印度人工智能的“后台”

亚马逊 MTurk 曾是印度热度很高的数据标注和注解众包平台,很多印度人在上面寻找这一类工作,但后来 MTurk 开始限制非美国工人。尽管 MTurk 后来取消了这些限制,但随着企业客户开始更加重视数据安全性,MTurk 在数据标注员中的热捧度开始下滑。此外,包括 Spare5、Cloudfactory 和 Figure 8 在内的新众包平台也进入了这一市场,这些平台更加专注于数据注解和标注。

Kolasseri 表示:“在创办公司之前的2015年至2016年间,我一直在 MTurk 平台接任务,但现在有更多类似的众包平台。但由于企业客户愈发关注数据安全,尤其是他们对大量数据集拥有专有产权,他们也就越来越不放心把这一类工作交给平台上的工人。”

图标来源:FactoryDaily

Playment 公司由 Flipkart 前员工 Mall、Ajinkya Malasane 和 Akshay Kumar Lal 共同创立,这家公司进入数据注解和数据标注行业的方式略有不同。

他们为各种应用场景开发了大量的注解工具并自己开发了一个众包平台。这个平台上的员工全部接受过培训,能使用他们所开发的注解工具。Playment 直接与有数据注解或标注业务需求的客户或 IT 服务公司合作。

Mall 解释道:“要将原始的数据转换为有注解的结构化数据,客户需要前端注解工具和熟练且划算的工人。另外,由于需要处理的数据量很大,客户还需要合适的中间平台来支持不同的工作流程,以及远程管理工人。”

据 Mall 称,Playment 的众包平台拥有超过30万名的数据注解员和数据标注员,其中获得公司认可的“高技术的一流工人”约有2.5万名,这些人几乎全天候都在平台上保持在线,平均月收入在20000印度卢比(约合290美元)至30000印度卢比(约合440美元)之间。

Playment 的大部分业务来自国际客户,包括三星、滴滴出行、阿里巴巴、Drive.ai 和德国大陆集团,这些业务大多涉及自自动驾驶汽车领域。

图表来源:FactorDaily

iMerit 的发展战略以员工为中心。公司2000多名员工中大约80%来自月收入低于100美元的家庭,其中大约一半为女性。Natarajan 表示:“我们的社会使命是在贫困社区中、以及缺乏公司和产业的地区创造技术就业的机会。我们在科技相对落后、科技就业机会较少的城市开展业务。”

这种所谓的利他主义有其商业上的道理。Natarajan 补充道:“工作的地区和员工决定了我们能低成本高收益地扩大注解和标注团队的规模,同时交付高质量的工作。”

尽管 iMerit 大部分的业务来自美国——其客户包括微软、易趣和猫途鹰,但其大约90%的数据注解和标注工作都在印度完成。

自动化数据注解

许多公司都在着手开发数据注解专用的自动化工具,但由于许多数据都需要按细致微妙的、客户指定的方式来注解或标注,自动化工具要能准确完成这样的任务还需要一段时间。

Natarajan 表示,不同于5年前用于区分猫狗的人工智能技术,如今的人工智能需要处理更高级的工作。他说:“机器学习已经向前发展了,已经很久没有人要数据标记员来区分猫和狗了。如今,每家公司都有着定制化并非常细化的要求,因此难以对其实现自动化,公司也不可能想都不想就把数据丢给一群匿名的(网络工人)进行标注。”

Jai Natarajan,iMerit 技术和营销副总裁 | 图片来源:FactorDaily

Natarajan 认为,基于人工智能的自动化注解工具必然诞生,但这并不会是一个威胁。Natarajan 表示:“自动注解工具本身,也需要用经过注解的高质量的数据集来训练。在你试图解决一个问题时,这些工具只能将你带到某个高度,而要超越这一高度的话,必然需要定制化的注解。”

但最终,自动化工具会变得更有效率,足以创建高质量的数据集。“长期来看,我们的工作就是不断淘汰我们所使用过的技能。当我们帮助客户达成需求,我们标注这一类数据的技能也就没用了,因为经过训练的人工智能已具备了结构化相关数据的能力。”Natarajan 说到:“但我们也发现这并不绝对,因为(人工智能)始终是一个不断学习和优化的过程。另外,客户们会继续研发新算法、解决下一个问题,而我们的工作又会重新开始。”

换句话说,印度的数据标注和注解公司尚未触顶。

编辑:奥利


咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部