AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

Word2vec技术-帮您更好地聆听客户

2041
2022-09-25 08:01
2022-09-25 08:01
2041

VoC和MLS是博鼎国际adtarg营销体验管理平台中帮助企业聆听客户和市场反馈的核心产品,要能准确地聆听就离不开语义分析的技术,之前文章中我们介绍过自然语言处理的基础概念和情感分析技术,这期我们说一下Word2vec如何帮助博鼎国际提升语义分析的效率和准确度。

图片

什么是Word2vec?

Word2vec是2013年发布的一种自然语言处理技术。维基百科是这样解释的“该算法使用神经网络模型从大量文本语料库中学习单词关联。一旦经过训练,这样的模型就可以检测同义词或句子中一部分额外的词。”在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

您看完的感觉是什么?是不是每个字都认识,就是不知道放一起什么意思?那我现在尝试抛开这些专业的描述和逻辑过程,跟大家解释博鼎国际是如何使用word2vec技术更好地聆听用户。

随着信息技术的发展,我们大部分人已经知道了计算机的世界里只有0和1,在把人类的语言转换成计算机语言的过程中,首先,我们会进行“分词”,即为将重要的文字转换成词向量。例如:【我想要吃橙子!】这句话,可以分成【我】,【想要】,【吃】,【橙子】,【!】这几个词,对于我们不需要的内容,比如【!】还有类似【的地嗯啊…】等“停用词”都可以删除,这里用到的是“去停用词”方法,去停用词以后,可以减少向量运算的维度和影响。
图片
“词向量” 又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。我们还是通过一组例子来进行理解,例如:

句子一:“我 想要 吃 橙子”,转化为计算机可理解的语言是【10,20,30,40】,我们编码为a;

句子二:“我 想要 吃 苹果”,对应【10,20,30,60】编码为 b;

句子三:“树上 结 满了 橙子”,对应【70, 80,90,40】编码为c;

根据这种方法计算机可以比较容易地区分出:a和b比较接近,而跟c相差较远。因此,通过对应关系,计算机就知道了句子一和句子二意思相近,跟句子三说的不是一回事儿。

以上例子只是为了形象描述自然语言到计算机编码转换的意思,实际上这样的转换和分析方式有很多种,word2vec是其中的一种。它是Google研究团队里的Tomas Mikolov等人于2013年的《Distributed Representations of Words and Phrases and their Compositionality》以及后续的《Efficient Estimation of Word Representations in Vector Space》两篇文章中提出的一种高效训练词向量的模型,基本出发点和Distributed representation类似:上下文相似的两个词,它们的词向量也应该相似,比如橙子和苹果在句子中可能经常出现在相同的上下文中,因此这两个词的表示向量应该就比较相似。

图片

按照word2vec的编码方式,我们得到一系列样本(x,y),这里x是词语,y是它们的词性,我们要构建f(x)->y的映射,但这里的数学模型f(比如神经网络、SVM)只接受数值型输入,而NLP里的词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入(word embedding) 的一种。大部分的有监督机器学习模型,都可以归结为:f(x)->y 在 NLP 中,把 x 看作一个句子里的一个词语,y 是这个词语的上下文词语,那么这里的 f,便是 NLP 中经常出现的『语言模型』(language model),这个模型的目的,就是判断 (x,y) 这个样本,是否符合自然语言的法则,更通俗点说就是:词语x和词语y放在一起,是不是人话。虽然基于这个思想,但它的最终目的,不是要把 f 训练得多么完美,而是只关心模型训练完后的副产物——模型参数(这里特指神经网络的权重),并将这些参数,作为输入 x的某种向量化的表示,这个向量便叫做——词向量。

图片

Word2vec的基本思想:句子之中相近的词之间是有联系的,比如今天后面经常出现上午、下午。所以它的基本思想就是用词来预测词,准确地说,word2vec仍然是一种编码方式,将一个个的词编码成向量,但是被编码而成的向量并不是随便生成的,而是能够体现这些单词之间的关系(如相似性等)。Word2vec可以利用连续词袋(CBOW)或跳字模型(skip-gram)两种模型架构中的任何一种来产生单词的分布式表示。在连续词袋结构中,模型从周围环境词的窗口中预测当前词。语境词的顺序并不影响预测(词包假设)。在跳字模型结构中,模型使用当前词来预测周围的语境词窗口。也就是说,跳字模型相当于给你一个词,让你猜前面和后面可能出现什么词。而连续词袋模型相当于一句话中去掉一个词,让你猜这个词是什么。根据作者的说明,CBOW的速度更快,而skip-gram对不经常出现的词做得更好。

上面的介绍可以简单理解为word2vec这个模型定义了一个概率分布,基于这个概率的模型, 计算机可以比较准确的“理解”看起来并不是完全一样但意思差不多的句子。这个技术已经在博鼎国际的VoC和MLS产品中用于电商评论和全网提及客户品牌信息的提炼和理解中,帮助信息专家们归并和整理相关文本信息,从而把更多精力放在信息关联建模和优化策略咨询中,大大提升了客户服务效率。比如我们在某户外品牌客户产品反馈中获得这样一个句子“I really like the blue tent, it is so great for…”,经过word2vec模型, 不论提及什么颜色或者材质的用户评论,系统都可以直接替换近义词和同类型词来准确理解其表达的产品方面,从而实现通过一句话学习理解很多类似的人类自然语言,也就是所有“I ___ like ___ tent, it is ____ for…”, 这样的句子都会被计算机自动归为一类而不必替换每一个颜色词来重新识别, 这样就极大提升了语义分析的效率并且准确度更高。

NLP(自然语言处理)已经成为AI技术的最前沿阵地, 国内外科技企业和人才都投入了大量的精力去探索和实践,使其成为智能社会基础设施。产业AI化一直都在加速,博鼎国际不断完善和强化产品技术布局,为企业的客户体验管理做全面的服务和助力,努力为出海企业的品牌化建设添砖加瓦。
博鼎国际adtarg智能营销平台充分发挥自然语言处理技术,精准解读产品、品牌、行业全网数据,帮助品牌了解评价和舆情等内容以及平时不易发觉的洞察并转化为可见的图表和报告。让品牌先人一步获得更多市场及消费者反馈及时调整产品及营销策略,节省技术和人力成本成创造良好的出海信息获取渠道。
参考资料(侵删):
1.《通俗易懂讲解Word2vec的本质》,知乎,作者对白,2021-0902

2.《[NLP] 秒懂词向量Word2vec的本质》,知乎,作者穆文。


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
26年澳洲情人节支出将达5.5亿澳元,消费意愿下降
AMZ123获悉,近日,根据澳大利亚零售协会(ARC)和Roy Morgan的最新调查,澳大利亚情人节的消费意愿出现明显下降,越来越多消费者在成本压力下减少对非必需品的支出,但参与者的平均支出仍保持稳定。调查显示,成本上涨正在持续影响家庭的可支配支出,许多家庭对非必需开支更加谨慎。今年仅有12%的澳大利亚成年人计划庆祝情人节,约为300万人,比去年下降4个百分点。与去年相比,计划为伴侣购买礼物的人数减少约80万人,主要原因是生活成本压力持续影响可自由支配支出。尽管参与人数下降,但澳大利亚情人节支出预计达到5.5亿澳元,较去年增长2.8%,人均支出约为152澳元。
Seedance2.0刷屏全网,TikTok卖家:红利来了!
字节正式发布Seedance2.0,TikTok卖家已经用上赚钱了!
月销数十万!这10个小众产品爆单亚马逊
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1.修复眼罩预计销售额:50万美元/月销量:5000+星级评分:4.3好评数量:8,505+图源:亚马逊产品介绍:该修复眼罩主要是专为眼部抗衰老与焕亮设计,通过缓释视黄醇成分有效减少细纹、改善皮肤饱满度,并针对性缓解黑眼圈与浮肿问题。产品采用融合海藻提取物、神经酰胺及脂肪酸的复合配方,能在夜间修复阶段滋养娇嫩眼周肌肤。适用于熬夜、疲劳或重要场合前的密集护理,亦可作为礼品。品牌介绍:Grace & Stella是一家成立于2016年的品牌,以“创造美好时刻”为核心理念,致力于通过日常护理提升生活品质。
Jumia 25财年营收1.9亿美元,同比增长13%
AMZ123获悉,近日,非洲电商平台Jumia发布了截至2025年12月31日的全年及第四季度财报。Jumia在2025年实现了GMV和收入增长,预计2026年有望保持强劲增长。以下为Q4财务亮点:①营收为6140万美元,同比2024年第四季度的4570万美元增长34%,按固定汇率计算增长24%。②GMV为2.795亿美元,同比2024年第四季度的2.061亿美元增长36%,按固定汇率计算增长23%。剔除南非和突尼斯市场,实物商品GMV同比增长38%。③运营亏损为1060万美元,同比2024年第四季度的1730万美元下降39%,按固定汇率计算下降22%。
血亏500万,跨境“黄金搭档”正式散伙
这两天,跨境圈又冒出一条不太体面的公告。不是封号,不是裁员,而是一场曾被寄予厚望的上市公司级合作,正式宣告失败。1月23日,浙江永强发布公告,确认与跨境大卖傲基股份中止跨境电商合作。双方通过互相转让子公司股权,彻底清空交叉持股关系。一句话概括这段合作的结局:故事很完整,结果很现实。图源网络,侵删01从制造+跨境的理想模版,到体面分手时间回到2023年11月。当时的傲基,已经完成从3C铺货向家居、家具赛道的转型;而浙江永强,作为国内户外家具龙头,正寻找新的增长出口。
暴涨94%!25年TikTok Shop全球GMV达643亿美元
AMZ123获悉,近日,据Momentum的最新报告显示,2025年,美国仍是TikTokShop最大的市场,GMV达到151亿美元,同比增长68%,高于2024年的90亿美元。尽管增速不及2024年爆发式增长,但仍显示出强劲扩张势头,反映出TikTok Shop正在从初期试验阶段向系统化运营阶段过渡。全球范围内,TikTok Shop在16个市场的总GMV达到643亿美元,同比大幅增长94%。其中,东南亚市场依然是主要增长引擎,2025年东南亚地区GMV同比增长一倍,达到456亿美元。马来西亚、印尼和泰国的增长最为突出,其中印尼市场达到131亿美元,成为TikTok Shop全球第二大市场。
新一轮物流危机来袭,大批跨境货物滞留港口!
腊月尾声,年味渐浓,状况频出的物流难题却成为了横亘在卖家面前的一头“年兽”。随着全国主要港口拥堵、陆路运费疯涨的事态持续升温,物流延误焦虑正在跨境电商行业蔓延。AMZ123了解到,春节前夕历来是跨境电商的出货高峰期——在国外不停卖、国内要放假、物流时效长、怕平台断货等多重因素的叠加影响下,大批卖家通常会抢在节前集中把货物发出。但在今年,这一出货高峰期带来的连锁效应格外汹涌。据物流人士透露,2026年2月,上海、宁波、盐田、南沙等主要港口都进入了超负荷运行状态,出现严重爆仓、收箱收紧等情况,导致大量卖家货物堆积在码头,面临甩柜率高企的风险。
巨额年终奖!跨境公司给员工发了200万
每逢年关,跨境打工人们总是格外悲喜交集。喜的是,春节假期、年终奖的发放近在咫尺,终于即将迎来“歇一口气”的休憩时间;悲的是,同样是辛勤奋战一年,有人硕果累累,喜提巨额年终奖,亦有人一无所获,铩羽而归。根据AMZ123此前发起的一项调查,今年约有68%的跨境打工人预计自己拿不到年终奖,32%能拿到年终奖的跨境打工人中,有22%的年终奖折算月薪在1至3个月区间。在一众感慨行业年终奖缩水的讨论中,深圳一家跨境企业发放巨额奖金的消息格外显眼。AMZ123获悉,这两天,#年终奖#、#原来你们真有年终奖啊# 等话题相继登上了热搜。其中,深圳3D打印公司员工最高拿到200万元年终奖的消息被多家媒体争相报道,成为了热议焦点。
亚马逊竞品分析后应该做什么?竞品分析目标确定
对于亚马逊卖家而言,竞品分析不是一次性的调研动作,而是贯穿产品运营全周期的决策依据。完成数据采集与对比后,核心问题转化为:如何基于分析结果锚定精准目标,并落地为可执行的运营动作?本文将从目标锚定与行动拆解两个维度,为卖家提供严谨的操作框架。一、锚定竞品分析的三大核心目标竞品分析的价值,在于从海量数据中提炼可落地的运营方向,需聚焦三大核心目标:量化差距,明确竞争定位通过价格、评论数量、评价等级、品类排名等基础维度,完成自身商品与竞品的量化对标,定位自身在竞争格局中的位置,识别核心优劣势,为后续流量布局与转化优化提供基础依据。
浙江永强与傲基合作宣布终止,双方亏损近500万!
AMZ123获悉,近日,据媒体报道,上市公司浙江永强与跨境电商大卖傲基股份的业务合作宣布终止。双方通过相互转让持有的合资公司股权,解除了为期两年多的交叉持股关系,最终以合资公司经营亏损近500万元的结果黯然落幕。回溯至2023年11月,双方曾以优势互补的理念签署《投资合作协议》。彼时,浙江永强希望借助傲基成熟的海外渠道与运营经验,突破品牌出海壁垒;而傲基则看中了浙江永强背后稳定、优质的供应链与产能,以解决其产品开发与供货的痛点。
月销百万美金!亚马逊10款高复购+高评分产品推荐
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1. 智能戒指预计销售额:819万美元/月销量:32,050+星级评分:4.1好评数量:8,284+图源:亚马逊产品介绍:该智能戒指通过内置传感器持续监测用户的睡眠、活动、心率、体温变化等多项健康数据,并通过手机应用进行整合分析。产品采用全钛金属结构,支持全天候佩戴,具备防水性能和较长续航时间。相比传统可穿戴设备,其无屏幕设计降低了使用干扰,更侧重长期健康数据的连续采集与趋势分析。品牌介绍:Oura 是一家成立于 2013 年的芬兰健康科技公司,以智能戒指作为核心产品,聚焦睡眠与身体恢复管理。
亚马逊英国推出银行账户支付方式
Fin123获悉,近日,亚马逊宣布,在英国站点 amazon.co.uk 正式推出全新的支付方式“Pay by Bank”。该服务允许消费者直接通过英国银行账户完成购物支付,无需使用银行卡,未来还将支持Prime会员订阅费用支付。据悉,Pay by Bank是一种无需输入或存储银行卡信息的支付方式。该服务通过在客户与其银行之间建立安全连接来完成交易。支付过程中,安全验证依托用户自身的手机银行应用程序,通过生物识别或PIN码验证完成授权。这种方式能够保护用户的财务信息,并让消费者对每一笔交易拥有直接控制权。在退款方面,Pay by Bank也提升了效率。
小众清洁神器在TikTok逆袭,20多天卖了近百万!
距离新冠疫情这一公共卫生安全危机过去已经快2年时间,属于那段经历的回忆或许正在远去,但缘起的健康卫生意识,大部分民众保留至今。后口罩时代,民众对清洁的认知不再仅仅停留于“表面功夫”,TikTok上随处可见的卫生科普,敦促着民众深入微观层面处,在狭小缝隙间寻找清洁死角,这一市场需求被不少商机敏感型卖家捕捉,并精准变现。01全美热议的清洁“主理人”近期,TT123发现,一款主打超声波清洁的新品,冲上了TikTok美区家电大类的热销榜。
花费35亿!SHEIN在广东建设物流中心
AMZ123获悉,近日,据媒体报道,SHEIN计划投资约35亿元,在广东建设一个总建筑面积达60万平方米的大型物流中心。该中心由14栋双层建筑组成,预计于2026年上半年建成并投入使用。这一举动标志着SHEIN在其供应链布局策略上的一个显著转变。过往,SHEIN在广东乃至全国的物流设施多依赖于租赁第三方专业仓库。此次SHEIN投建自营的超级物流中心,意在将其打造为一个集商品分拣、包装和出口发运于一体的核心枢纽,旨在显著提升其全球订单的履约效率和供应链控制力。此外,此次物流中心投资,是SHEIN近年来在粤港澳大湾区持续加大投入的一个缩影。
价值数千万元货物滞留美国仓库!跨境物流再暴雷
AMZ123获悉,近日,据媒体报道,一则关于跨境物流企业疑似暴雷的消息在卖家圈内持续发酵。据悉,涉事企业为深圳星*跨境供应链有限公司,其在美国加州、休斯顿和新泽西运营的多个海外仓目前已陷入停滞,导致大量货物滞留海外。初步估算,受影响货物总值达数千万元,其中个别卖家积压货值高达1500万元。当部分卖家前往该公司位于深圳的办公地寻求解决方案时,发现其已人去楼空,该公司的负责人及核心团队均无法取得联系。在此之前,该公司客服曾一度维持有限回应,声称每日处理约千笔订单,但卖家后续核查发现,实际仅有约30%的订单有初步物流信息,其余均无下文,最终连客服也彻底失联。
《中企出海美国季度研究报告》PDF下载
近年来,随着全球化进程的深化与中国经济实力的持续提升,越来越多的中国企业将目光投向海外市场。美国作为全球最大经济体创新高地和消费市场,始终是中企出海战略中的关键目标。从制造业到科技领域,从消费品到金融服务,中国企业的国际化步伐不断加快,既彰显了“中国智造”的全球竞争力,也面临复杂的政策环境、文化差异与市场竞争等挑战。
《跨境蓝海拉美市场洞察 - 墨西哥篇》PDF下载
墨西哥位于北美大陆南部,北邻美国,政局稳定,法律健全,是拉丁美洲地区第一贸易大国和重要的外国直接投资目的地。墨西哥拥有 1.28亿人口,是仅次于巴西的拉美第二大经济体,同时也是拉美第三大线上零售市场,无论是互联网的普及率还是使用率在拉美市场都处于佼佼者。
《东南亚出海合规实操指南手册》PDF下载
近年来,东南亚电商市场以迅猛的增长态势成为全球贸易的新蓝海,印尼马来西亚、新加坡等六国凭借庞大的人口基数、持续提升的互联网渗透率吸引着无数中国卖家前来布局。
《2025中国新能源汽车产业链出海洞察报告 - 匈牙利篇》PDF下载
中国汽车市场新能源汽车渗透率已达50%,各主机厂纷纷开启价格战,让利消费者,并承担相应的利润损失,在中国新能源汽车市场逐渐成为红海的的大背景下,海逐渐成为各主机厂主动或被动的选择。
《2024哥伦比亚电商市场概览报告》PDF下载
哥伦比亚位于南美洲西北部,是拉丁美洲第三大国家,北部是加勒比海,东部与委内瑞拉接壤,东南方是巴西,南方是秘鲁和厄瓜多尔,西部是巴拿马和太平洋。

《2026独立站卖家日历》PDF下载
2026 独立站卖家日历 2026 全年营销节奏
《2025中东北非消费者数字经济报告》PDF下载
2025年的报告不仅持续跟踪数字经济的同比增长,也更深入:我们探讨了新兴技术对下一波数字化转型的影响力,还首次将中东北非国家及地区的消费者行为偏好与全球其他市场进行对比。
《2025年终大促旺季AI消费趋势报告》PDF下载
随着人工智能 AI的爆发式增长,如 ChatGPT、Perplexity 和Llama等交互式聊天机器人正在渐渐成为大众研究和推荐的首选工具。根据 AI智能体功能的更新迭代,目前已经可以完成网购下单、预订服务、及交易支付,现已被统称为 AI智能体电商Agentic Commerce,且其采用率正呈现出滚雪球式的增长。
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
跨境学院
跨境电商大小事,尽在跨境学院。
侃侃跨境那些事儿
不侃废话,挣钱要紧!
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
首页
跨境头条
文章详情
Word2vec技术-帮您更好地聆听客户
WeBranding
2022-09-25 08:01
2041

VoC和MLS是博鼎国际adtarg营销体验管理平台中帮助企业聆听客户和市场反馈的核心产品,要能准确地聆听就离不开语义分析的技术,之前文章中我们介绍过自然语言处理的基础概念和情感分析技术,这期我们说一下Word2vec如何帮助博鼎国际提升语义分析的效率和准确度。

图片

什么是Word2vec?

Word2vec是2013年发布的一种自然语言处理技术。维基百科是这样解释的“该算法使用神经网络模型从大量文本语料库中学习单词关联。一旦经过训练,这样的模型就可以检测同义词或句子中一部分额外的词。”在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

您看完的感觉是什么?是不是每个字都认识,就是不知道放一起什么意思?那我现在尝试抛开这些专业的描述和逻辑过程,跟大家解释博鼎国际是如何使用word2vec技术更好地聆听用户。

随着信息技术的发展,我们大部分人已经知道了计算机的世界里只有0和1,在把人类的语言转换成计算机语言的过程中,首先,我们会进行“分词”,即为将重要的文字转换成词向量。例如:【我想要吃橙子!】这句话,可以分成【我】,【想要】,【吃】,【橙子】,【!】这几个词,对于我们不需要的内容,比如【!】还有类似【的地嗯啊…】等“停用词”都可以删除,这里用到的是“去停用词”方法,去停用词以后,可以减少向量运算的维度和影响。
图片
“词向量” 又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。我们还是通过一组例子来进行理解,例如:

句子一:“我 想要 吃 橙子”,转化为计算机可理解的语言是【10,20,30,40】,我们编码为a;

句子二:“我 想要 吃 苹果”,对应【10,20,30,60】编码为 b;

句子三:“树上 结 满了 橙子”,对应【70, 80,90,40】编码为c;

根据这种方法计算机可以比较容易地区分出:a和b比较接近,而跟c相差较远。因此,通过对应关系,计算机就知道了句子一和句子二意思相近,跟句子三说的不是一回事儿。

以上例子只是为了形象描述自然语言到计算机编码转换的意思,实际上这样的转换和分析方式有很多种,word2vec是其中的一种。它是Google研究团队里的Tomas Mikolov等人于2013年的《Distributed Representations of Words and Phrases and their Compositionality》以及后续的《Efficient Estimation of Word Representations in Vector Space》两篇文章中提出的一种高效训练词向量的模型,基本出发点和Distributed representation类似:上下文相似的两个词,它们的词向量也应该相似,比如橙子和苹果在句子中可能经常出现在相同的上下文中,因此这两个词的表示向量应该就比较相似。

图片

按照word2vec的编码方式,我们得到一系列样本(x,y),这里x是词语,y是它们的词性,我们要构建f(x)->y的映射,但这里的数学模型f(比如神经网络、SVM)只接受数值型输入,而NLP里的词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入(word embedding) 的一种。大部分的有监督机器学习模型,都可以归结为:f(x)->y 在 NLP 中,把 x 看作一个句子里的一个词语,y 是这个词语的上下文词语,那么这里的 f,便是 NLP 中经常出现的『语言模型』(language model),这个模型的目的,就是判断 (x,y) 这个样本,是否符合自然语言的法则,更通俗点说就是:词语x和词语y放在一起,是不是人话。虽然基于这个思想,但它的最终目的,不是要把 f 训练得多么完美,而是只关心模型训练完后的副产物——模型参数(这里特指神经网络的权重),并将这些参数,作为输入 x的某种向量化的表示,这个向量便叫做——词向量。

图片

Word2vec的基本思想:句子之中相近的词之间是有联系的,比如今天后面经常出现上午、下午。所以它的基本思想就是用词来预测词,准确地说,word2vec仍然是一种编码方式,将一个个的词编码成向量,但是被编码而成的向量并不是随便生成的,而是能够体现这些单词之间的关系(如相似性等)。Word2vec可以利用连续词袋(CBOW)或跳字模型(skip-gram)两种模型架构中的任何一种来产生单词的分布式表示。在连续词袋结构中,模型从周围环境词的窗口中预测当前词。语境词的顺序并不影响预测(词包假设)。在跳字模型结构中,模型使用当前词来预测周围的语境词窗口。也就是说,跳字模型相当于给你一个词,让你猜前面和后面可能出现什么词。而连续词袋模型相当于一句话中去掉一个词,让你猜这个词是什么。根据作者的说明,CBOW的速度更快,而skip-gram对不经常出现的词做得更好。

上面的介绍可以简单理解为word2vec这个模型定义了一个概率分布,基于这个概率的模型, 计算机可以比较准确的“理解”看起来并不是完全一样但意思差不多的句子。这个技术已经在博鼎国际的VoC和MLS产品中用于电商评论和全网提及客户品牌信息的提炼和理解中,帮助信息专家们归并和整理相关文本信息,从而把更多精力放在信息关联建模和优化策略咨询中,大大提升了客户服务效率。比如我们在某户外品牌客户产品反馈中获得这样一个句子“I really like the blue tent, it is so great for…”,经过word2vec模型, 不论提及什么颜色或者材质的用户评论,系统都可以直接替换近义词和同类型词来准确理解其表达的产品方面,从而实现通过一句话学习理解很多类似的人类自然语言,也就是所有“I ___ like ___ tent, it is ____ for…”, 这样的句子都会被计算机自动归为一类而不必替换每一个颜色词来重新识别, 这样就极大提升了语义分析的效率并且准确度更高。

NLP(自然语言处理)已经成为AI技术的最前沿阵地, 国内外科技企业和人才都投入了大量的精力去探索和实践,使其成为智能社会基础设施。产业AI化一直都在加速,博鼎国际不断完善和强化产品技术布局,为企业的客户体验管理做全面的服务和助力,努力为出海企业的品牌化建设添砖加瓦。
博鼎国际adtarg智能营销平台充分发挥自然语言处理技术,精准解读产品、品牌、行业全网数据,帮助品牌了解评价和舆情等内容以及平时不易发觉的洞察并转化为可见的图表和报告。让品牌先人一步获得更多市场及消费者反馈及时调整产品及营销策略,节省技术和人力成本成创造良好的出海信息获取渠道。
参考资料(侵删):
1.《通俗易懂讲解Word2vec的本质》,知乎,作者对白,2021-0902

2.《[NLP] 秒懂词向量Word2vec的本质》,知乎,作者穆文。


咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部