AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

Word2vec技术-帮您更好地聆听客户

2197
2022-09-25 08:01
2022-09-25 08:01
2197

VoC和MLS是博鼎国际adtarg营销体验管理平台中帮助企业聆听客户和市场反馈的核心产品,要能准确地聆听就离不开语义分析的技术,之前文章中我们介绍过自然语言处理的基础概念和情感分析技术,这期我们说一下Word2vec如何帮助博鼎国际提升语义分析的效率和准确度。

图片

什么是Word2vec?

Word2vec是2013年发布的一种自然语言处理技术。维基百科是这样解释的“该算法使用神经网络模型从大量文本语料库中学习单词关联。一旦经过训练,这样的模型就可以检测同义词或句子中一部分额外的词。”在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

您看完的感觉是什么?是不是每个字都认识,就是不知道放一起什么意思?那我现在尝试抛开这些专业的描述和逻辑过程,跟大家解释博鼎国际是如何使用word2vec技术更好地聆听用户。

随着信息技术的发展,我们大部分人已经知道了计算机的世界里只有0和1,在把人类的语言转换成计算机语言的过程中,首先,我们会进行“分词”,即为将重要的文字转换成词向量。例如:【我想要吃橙子!】这句话,可以分成【我】,【想要】,【吃】,【橙子】,【!】这几个词,对于我们不需要的内容,比如【!】还有类似【的地嗯啊…】等“停用词”都可以删除,这里用到的是“去停用词”方法,去停用词以后,可以减少向量运算的维度和影响。
图片
“词向量” 又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。我们还是通过一组例子来进行理解,例如:

句子一:“我 想要 吃 橙子”,转化为计算机可理解的语言是【10,20,30,40】,我们编码为a;

句子二:“我 想要 吃 苹果”,对应【10,20,30,60】编码为 b;

句子三:“树上 结 满了 橙子”,对应【70, 80,90,40】编码为c;

根据这种方法计算机可以比较容易地区分出:a和b比较接近,而跟c相差较远。因此,通过对应关系,计算机就知道了句子一和句子二意思相近,跟句子三说的不是一回事儿。

以上例子只是为了形象描述自然语言到计算机编码转换的意思,实际上这样的转换和分析方式有很多种,word2vec是其中的一种。它是Google研究团队里的Tomas Mikolov等人于2013年的《Distributed Representations of Words and Phrases and their Compositionality》以及后续的《Efficient Estimation of Word Representations in Vector Space》两篇文章中提出的一种高效训练词向量的模型,基本出发点和Distributed representation类似:上下文相似的两个词,它们的词向量也应该相似,比如橙子和苹果在句子中可能经常出现在相同的上下文中,因此这两个词的表示向量应该就比较相似。

图片

按照word2vec的编码方式,我们得到一系列样本(x,y),这里x是词语,y是它们的词性,我们要构建f(x)->y的映射,但这里的数学模型f(比如神经网络、SVM)只接受数值型输入,而NLP里的词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入(word embedding) 的一种。大部分的有监督机器学习模型,都可以归结为:f(x)->y 在 NLP 中,把 x 看作一个句子里的一个词语,y 是这个词语的上下文词语,那么这里的 f,便是 NLP 中经常出现的『语言模型』(language model),这个模型的目的,就是判断 (x,y) 这个样本,是否符合自然语言的法则,更通俗点说就是:词语x和词语y放在一起,是不是人话。虽然基于这个思想,但它的最终目的,不是要把 f 训练得多么完美,而是只关心模型训练完后的副产物——模型参数(这里特指神经网络的权重),并将这些参数,作为输入 x的某种向量化的表示,这个向量便叫做——词向量。

图片

Word2vec的基本思想:句子之中相近的词之间是有联系的,比如今天后面经常出现上午、下午。所以它的基本思想就是用词来预测词,准确地说,word2vec仍然是一种编码方式,将一个个的词编码成向量,但是被编码而成的向量并不是随便生成的,而是能够体现这些单词之间的关系(如相似性等)。Word2vec可以利用连续词袋(CBOW)或跳字模型(skip-gram)两种模型架构中的任何一种来产生单词的分布式表示。在连续词袋结构中,模型从周围环境词的窗口中预测当前词。语境词的顺序并不影响预测(词包假设)。在跳字模型结构中,模型使用当前词来预测周围的语境词窗口。也就是说,跳字模型相当于给你一个词,让你猜前面和后面可能出现什么词。而连续词袋模型相当于一句话中去掉一个词,让你猜这个词是什么。根据作者的说明,CBOW的速度更快,而skip-gram对不经常出现的词做得更好。

上面的介绍可以简单理解为word2vec这个模型定义了一个概率分布,基于这个概率的模型, 计算机可以比较准确的“理解”看起来并不是完全一样但意思差不多的句子。这个技术已经在博鼎国际的VoC和MLS产品中用于电商评论和全网提及客户品牌信息的提炼和理解中,帮助信息专家们归并和整理相关文本信息,从而把更多精力放在信息关联建模和优化策略咨询中,大大提升了客户服务效率。比如我们在某户外品牌客户产品反馈中获得这样一个句子“I really like the blue tent, it is so great for…”,经过word2vec模型, 不论提及什么颜色或者材质的用户评论,系统都可以直接替换近义词和同类型词来准确理解其表达的产品方面,从而实现通过一句话学习理解很多类似的人类自然语言,也就是所有“I ___ like ___ tent, it is ____ for…”, 这样的句子都会被计算机自动归为一类而不必替换每一个颜色词来重新识别, 这样就极大提升了语义分析的效率并且准确度更高。

NLP(自然语言处理)已经成为AI技术的最前沿阵地, 国内外科技企业和人才都投入了大量的精力去探索和实践,使其成为智能社会基础设施。产业AI化一直都在加速,博鼎国际不断完善和强化产品技术布局,为企业的客户体验管理做全面的服务和助力,努力为出海企业的品牌化建设添砖加瓦。
博鼎国际adtarg智能营销平台充分发挥自然语言处理技术,精准解读产品、品牌、行业全网数据,帮助品牌了解评价和舆情等内容以及平时不易发觉的洞察并转化为可见的图表和报告。让品牌先人一步获得更多市场及消费者反馈及时调整产品及营销策略,节省技术和人力成本成创造良好的出海信息获取渠道。
参考资料(侵删):
1.《通俗易懂讲解Word2vec的本质》,知乎,作者对白,2021-0902

2.《[NLP] 秒懂词向量Word2vec的本质》,知乎,作者穆文。


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
26年美国复活节消费将达249亿美元,创历史新高
AMZ123获悉,近日,根据Adobe的预测,随着4月5日美国复活节临近,2026年3月28日至29日期间,线上与节日相关商品的消费额将较2026年以来的平均水平增长255%,明显高于2025年同期132%的增幅。从具体品类来看,节日相关商品需求大幅提升。塑料彩蛋的线上支出预计增长1030%(2025年为587%),复活节篮子增长870%(2025年为553%),染蛋用品增长810%(2025年为388%),节日装饰增长645%(2025年为395%),毛绒兔增长390%(2025年为257%)。
Shopee扩大越南中小企业扶持计划,“越南商品馆”将上线
AMZ123获悉,近日,据外媒报道,Shopee正在加大对越南中小企业的支持力度,通过一系列长期举措推动越南本地电商发展、提升运营能力等多个方向。在本地市场层面,Shopee通过“Shopee Local Rise – Local Breakthrough(本地崛起)”项目,与各地政府和机构合作,推动电商发展规划,并帮助中小企业、合作社及个体经营者提升数字化能力。在胡志明市,通过“越南人优先使用越南商品”活动,Shopee与当地工贸部门合作推进“我爱越南商品”项目,帮助本地企业通过电商渠道触达全国消费者。2026年,该项目将继续推进,并通过每月固定的直播活动推广本土品牌和正品商品。
趣味开瓶器爆火,靠情绪价值在TikTok拿下百万GMV
近年来,从圣诞树造型的厨房隔热垫,马卡龙配色的高颜值五金工具,再到能在浴室K歌的麦克风花洒,不难看出这些TikTok爆品的共性在于,跳出了 “纯工具、纯实用” 的刻板框架,转而以颜值、趣味、娱乐社交属性等为突破口,给人耳目一新的体验感。近期在TikTok美区,又一司空见惯的厨房用品成为被“选中的孩子”,凭借赋能后的趣味技能点在酒桌上开辟出一片“整活修罗场”。01TikTok爆款开瓶器TT123观察到,在一周的TikTok美区视频带货热销榜,新入围了一款炒热酒桌氛围的神器,发令枪开瓶器。近一周时间, 这款产品在一则播放突破420万+视频的拉动下,成为炙手可热的单品。
亚马逊澳洲站上线韩妆专区
AMZ123获悉,近日,亚马逊澳大利亚站Amazon.com.au上线了全新“K-Beauty(韩妆)”专区,集中引入超过60个来自韩国的正品护肤和彩妆品牌。该专区旨在帮助消费者更清晰地了解和选择韩妆产品,通过结构化的页面设计降低选购门槛。从页面结构来看,该专区围绕韩国护肤常见的多步骤流程进行分类,包括双重清洁、功效护理以及针对性成分护理等环节,使消费者能够按照完整护肤步骤进行选购。同时,产品重点突出当前在社交媒体上流行的成分,如肽类成分、植物提取物(如积雪草)以及PDRN(鲑鱼DNA)等,这些成分因强调修复和功效导向,在年轻消费群体中关注度较高。
亚洲食品在俄热销,Wildberries多品类增速翻倍
AMZ123获悉,近日,俄罗斯电商平台Wildberries发布数据显示,2025年该平台来自亚洲国家的食品销售额同比增长40%,多个品类在2026年初继续保持快速增长态势。这一增长反映出Wildberries所覆盖市场对亚洲产品的需求持续上升。目前,Wildberries在欧亚地区拥有超过7900万活跃客户,亚洲文化和美食在其业务所在国日益普及,为亚洲制造商拓展区域销售提供了有利条件。从具体品类来看,中国大陆食品表现突出。2025年,主打健康概念的大豆制品销量同比增长超过四倍。进入2026年,低碳水化合物和无麸质面条在1月至2月期间的销量较去年同期翻了一番。印度食品在Wildberries平台上同样增长显著。
世贸组织电商关税禁令谈判陷入僵局
AMZ123获悉,近日,据外媒报道,World Trade Organization(世贸组织)第14届部长级会议(MC14)围绕是否延长跨境电商关税禁令展开激烈讨论,但成员之间始终存在分歧。该禁令自1998年实施以来,要求各成员不对电商(如数字下载和在线服务)征收关税,并在过去近30年中每两年延长一次。在本次会议中,多方一度考虑将该禁令延长五年,甚至有草案提出将期限延长至2031年6月30日。然而,截至会议结束,各方仍未达成最终一致意见。会议在喀麦隆首都雅温得举行,为期四天,最终未能形成正式协议或部长宣言。
亚马逊生意,加速向少数卖家集中
“强者愈强、富者愈富”的马太效应,正在亚马逊美国站疯狂上演。来自Marketplace Pulse的最新数据显示,截至2026年2月,在亚马逊美国站上,仅7760名的头部卖家就包揽了平台第三方总GMV的50%,而这部分卖家占活跃卖家总数的比例仅为1.6%。对比三年前,这项数据呈现出的趋势更为显著:2023年贡献50%份额的卖家尚有15000名,不到三年时间,撑起亚马逊半壁江山的卖家数量几乎锐减了一半,财富集中度正急剧上升。属于草根卖家的野蛮生长时代,正在彻底宣告落幕。中国卖家们在性价比的战场上大打出手,在品牌化的舞台上却有些力不从心。
4月上线!TikTok墨西哥站开放美国发货通道!
五种自运营模式并行,短视频驱动420亿比索销售额,你准备好了吗?
深圳制造又出爆款,电热冰淇淋勺在TikTok爆单
又一国产小家电火遍海外,TikTok卖家已入账数百万
严查启动!亚马逊大批链接被下架|跨境圈一周头条
|圈子知道01严查启动!亚马逊大批链接被下架近日,有卖家反馈,亚马逊加拿大站已启动针对儿童学习用品的合规审查,部分不符合要求的商品链接已被批量下架。此次审查基于《危险产品法案》及SOR相关法规,对产品安全性和标签信息提出了严格要求。尤其是涉及软塑料和涂层材料的产品,如书包、笔袋、文具盒等,需严格控制邻苯二甲酸盐及铅含量,超标即面临下架风险。除材质要求外,标签规范也成为重点审核内容。产品需使用英法双语标识,且必须为印刷形式;同时需标明制造商信息、生产日期、批次编号及适用年龄等完整信息。此外,检测报告要求同样严格,必须由ISO 17025或ILAC认可实验室出具,且有效期仅为一年,过期需重新提交。
亚马逊生意,加速向少数卖家集中
“强者愈强、富者愈富”的马太效应,正在亚马逊美国站疯狂上演。来自Marketplace Pulse的最新数据显示,截至2026年2月,在亚马逊美国站上,仅7760名的头部卖家就包揽了平台第三方总GMV的50%,而这部分卖家占活跃卖家总数的比例仅为1.6%。对比三年前,这项数据呈现出的趋势更为显著:2023年贡献50%份额的卖家尚有15000名,不到三年时间,撑起亚马逊半壁江山的卖家数量几乎锐减了一半,财富集中度正急剧上升。属于草根卖家的野蛮生长时代,正在彻底宣告落幕。中国卖家们在性价比的战场上大打出手,在品牌化的舞台上却有些力不从心。
世贸组织电商关税禁令谈判陷入僵局
AMZ123获悉,近日,据外媒报道,World Trade Organization(世贸组织)第14届部长级会议(MC14)围绕是否延长跨境电商关税禁令展开激烈讨论,但成员之间始终存在分歧。该禁令自1998年实施以来,要求各成员不对电商(如数字下载和在线服务)征收关税,并在过去近30年中每两年延长一次。在本次会议中,多方一度考虑将该禁令延长五年,甚至有草案提出将期限延长至2031年6月30日。然而,截至会议结束,各方仍未达成最终一致意见。会议在喀麦隆首都雅温得举行,为期四天,最终未能形成正式协议或部长宣言。
欧盟拟对跨境电商包裹加收新处理费,最迟11月实施
AMZ123获悉,近日,欧洲议会与欧盟理事会就欧盟关税法改革达成初步协议,这是自1968年以来最重要的一次改革。该改革重点围绕电商平台责任、包裹收费机制以及海关系统数字化等方面展开,旨在加强对来自欧盟以外国家商品的监管,提升市场公平性与安全性。根据协议,未来从非欧盟国家直接寄送至欧洲消费者的商品,将新增一项“处理费用”,用于覆盖不断增长的小额包裹带来的额外海关处理成本。该费用将由负责缴纳关税的同一主体承担,以避免成本转嫁给消费者。具体收费标准将由欧盟委员会制定,并每两年进行一次评估。成员国需在相关信息系统上线后开始征收,最迟不晚于2026年11月1日实施。
三个国家与伊朗达成协议,部分船只可以通过霍尔木兹海峡
在中东冲突持续升级、全球航运通道高度紧张的背景下,霍尔木兹海峡出现有限度“松动”迹象。3月28日,泰国、巴基斯坦和马来西亚相继确认,已通过外交渠道与伊朗达成沟通安排,部分本国船只获准通过这一全球最关键的能源运输咽喉。据多方消息,泰国方面表示,已与伊朗达成协议,泰国油轮可在安全条件下通过霍尔木兹海峡,以缓解国内油价上涨压力;巴基斯坦则获得伊朗新增放行20艘船只的许可,未来预计每日将有2艘船舶获准通行;马来西亚方面也确认,数艘此前滞留在海峡的油轮已获放行,但仍需等待合适的“通行窗口”。不过,这一“放行”并不意味着航道恢复正常。当前霍尔木兹海峡依然处于高度管控状态。
趣味开瓶器爆火,靠情绪价值在TikTok拿下百万GMV
近年来,从圣诞树造型的厨房隔热垫,马卡龙配色的高颜值五金工具,再到能在浴室K歌的麦克风花洒,不难看出这些TikTok爆品的共性在于,跳出了 “纯工具、纯实用” 的刻板框架,转而以颜值、趣味、娱乐社交属性等为突破口,给人耳目一新的体验感。近期在TikTok美区,又一司空见惯的厨房用品成为被“选中的孩子”,凭借赋能后的趣味技能点在酒桌上开辟出一片“整活修罗场”。01TikTok爆款开瓶器TT123观察到,在一周的TikTok美区视频带货热销榜,新入围了一款炒热酒桌氛围的神器,发令枪开瓶器。近一周时间, 这款产品在一则播放突破420万+视频的拉动下,成为炙手可热的单品。
境外主体也难逃!亚马逊Q4税务数据穿透公司外壳,直指中国卖家!
注册地不再是“护身符”,税务合规已成跨境生存底线!
《TikTok Shop 2025年度报告》PDF下载
2025年,TikTok Shop进一步加快扩张步伐,在巩固欧美成熟市场的同时,积极开拓新兴市场,先后上线德国、意大利、法国、日本等站点。此举不仅为平台带来新增量,也体现出其多元化市场战略的初步成效,以分散地缘政治风险。
《Shopee2025印尼站点X 汽车摩托品类专题》PDF下载
印尼当地汽车保有量并不高,每一千人的机动车保有量仅96人,未来可提升的空间仍大。空间参照系可以看泰国和马来,2024年泰国汽车保有量为322辆/千人,马来西亚为531辆/千人。
《2026年Shopee运动户外类目自行车爆品分享》PDF下载
巴西骑行爱好群体广泛,但平台上热销品呈现出的国际大牌极少,推测可能原因是国际品牌可能主要通过线下经销或自行渠道销售,未深度参与Shopee等本土电商。因此巴西用户在平台上几乎接触不到这些高端品牌产品。平台上巴西用户更倾向购买本土品牌的自行车,可能出于价格实惠和售后便利考虑。
2025年TikTok生态发展白皮书
2025年,全球内容电商迈入深度跃迁的新周期。TikTokShop正以前所未有的速度拓展市场版图,完成从高速增长向高质量增长的跃迁。在这一进程中,生态结构重构、参与者多元化、全球政策协同等因素叠加,构成内容电商演进的核心变量。
《2026美妆健康与保健创新报告》PDF下载
每年,我们都会分析美妆与个护以及健康与家居类目的动态变化。但2026 年呈现了一个意外的新现象:这两个类目不再孤立运营。美妆和健康正与食品杂货融合,形成由配方创新、成分病毒式传播和消费者行为演变所驱动的强大三方生态系统。
《中国宠物食品行业出海国别机会洞察报告》PDF下载
本报告旨在深入分析中国宠物食品的全球出口机遇与国别差异,通过对行业发展现状、出口趋势及各国政策环境的研究,揭示中国宠物食品企业在国际市场中的竞争优势与面临的潜在挑战。
《市场洞察:2025中国汽车出海英国市场动态追踪》PDF下载
根据英国汽车制造商与贸易商协会数据显示,2025年1-9月中国汽车出海英国累计销量142,684辆,同比增长91%,远超英国整体市场4.2%增速。中国汽车出海英国市场份额从年初5%升至9月12.4%,成为英国第二大汽车来源国,仅次于德国。
《2026取暖电器行业简析报告》PDF下载
系统梳理了行业发展脉络、市场格局与未来趋势。取暖电器按能源类型与产品形态可分为电取暖、燃气取暖、辅助本报告为 2026 年中国取暖电器行业专业简析,集成类三大核心品类,行业发展历经萌芽起步、快速成长、加速升级、高质量发展四大阶段,完成了从单一功能向智能化、节能化、场景化的全面演进。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
侃侃跨境那些事儿
不侃废话,挣钱要紧!
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
AMZ123跨境电商
专注跨境行业热点事件报道,每日坚持推送原创深度热文
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
首页
跨境头条
文章详情
Word2vec技术-帮您更好地聆听客户
WeBranding
2022-09-25 08:01
2196

VoC和MLS是博鼎国际adtarg营销体验管理平台中帮助企业聆听客户和市场反馈的核心产品,要能准确地聆听就离不开语义分析的技术,之前文章中我们介绍过自然语言处理的基础概念和情感分析技术,这期我们说一下Word2vec如何帮助博鼎国际提升语义分析的效率和准确度。

图片

什么是Word2vec?

Word2vec是2013年发布的一种自然语言处理技术。维基百科是这样解释的“该算法使用神经网络模型从大量文本语料库中学习单词关联。一旦经过训练,这样的模型就可以检测同义词或句子中一部分额外的词。”在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

您看完的感觉是什么?是不是每个字都认识,就是不知道放一起什么意思?那我现在尝试抛开这些专业的描述和逻辑过程,跟大家解释博鼎国际是如何使用word2vec技术更好地聆听用户。

随着信息技术的发展,我们大部分人已经知道了计算机的世界里只有0和1,在把人类的语言转换成计算机语言的过程中,首先,我们会进行“分词”,即为将重要的文字转换成词向量。例如:【我想要吃橙子!】这句话,可以分成【我】,【想要】,【吃】,【橙子】,【!】这几个词,对于我们不需要的内容,比如【!】还有类似【的地嗯啊…】等“停用词”都可以删除,这里用到的是“去停用词”方法,去停用词以后,可以减少向量运算的维度和影响。
图片
“词向量” 又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。我们还是通过一组例子来进行理解,例如:

句子一:“我 想要 吃 橙子”,转化为计算机可理解的语言是【10,20,30,40】,我们编码为a;

句子二:“我 想要 吃 苹果”,对应【10,20,30,60】编码为 b;

句子三:“树上 结 满了 橙子”,对应【70, 80,90,40】编码为c;

根据这种方法计算机可以比较容易地区分出:a和b比较接近,而跟c相差较远。因此,通过对应关系,计算机就知道了句子一和句子二意思相近,跟句子三说的不是一回事儿。

以上例子只是为了形象描述自然语言到计算机编码转换的意思,实际上这样的转换和分析方式有很多种,word2vec是其中的一种。它是Google研究团队里的Tomas Mikolov等人于2013年的《Distributed Representations of Words and Phrases and their Compositionality》以及后续的《Efficient Estimation of Word Representations in Vector Space》两篇文章中提出的一种高效训练词向量的模型,基本出发点和Distributed representation类似:上下文相似的两个词,它们的词向量也应该相似,比如橙子和苹果在句子中可能经常出现在相同的上下文中,因此这两个词的表示向量应该就比较相似。

图片

按照word2vec的编码方式,我们得到一系列样本(x,y),这里x是词语,y是它们的词性,我们要构建f(x)->y的映射,但这里的数学模型f(比如神经网络、SVM)只接受数值型输入,而NLP里的词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入(word embedding) 的一种。大部分的有监督机器学习模型,都可以归结为:f(x)->y 在 NLP 中,把 x 看作一个句子里的一个词语,y 是这个词语的上下文词语,那么这里的 f,便是 NLP 中经常出现的『语言模型』(language model),这个模型的目的,就是判断 (x,y) 这个样本,是否符合自然语言的法则,更通俗点说就是:词语x和词语y放在一起,是不是人话。虽然基于这个思想,但它的最终目的,不是要把 f 训练得多么完美,而是只关心模型训练完后的副产物——模型参数(这里特指神经网络的权重),并将这些参数,作为输入 x的某种向量化的表示,这个向量便叫做——词向量。

图片

Word2vec的基本思想:句子之中相近的词之间是有联系的,比如今天后面经常出现上午、下午。所以它的基本思想就是用词来预测词,准确地说,word2vec仍然是一种编码方式,将一个个的词编码成向量,但是被编码而成的向量并不是随便生成的,而是能够体现这些单词之间的关系(如相似性等)。Word2vec可以利用连续词袋(CBOW)或跳字模型(skip-gram)两种模型架构中的任何一种来产生单词的分布式表示。在连续词袋结构中,模型从周围环境词的窗口中预测当前词。语境词的顺序并不影响预测(词包假设)。在跳字模型结构中,模型使用当前词来预测周围的语境词窗口。也就是说,跳字模型相当于给你一个词,让你猜前面和后面可能出现什么词。而连续词袋模型相当于一句话中去掉一个词,让你猜这个词是什么。根据作者的说明,CBOW的速度更快,而skip-gram对不经常出现的词做得更好。

上面的介绍可以简单理解为word2vec这个模型定义了一个概率分布,基于这个概率的模型, 计算机可以比较准确的“理解”看起来并不是完全一样但意思差不多的句子。这个技术已经在博鼎国际的VoC和MLS产品中用于电商评论和全网提及客户品牌信息的提炼和理解中,帮助信息专家们归并和整理相关文本信息,从而把更多精力放在信息关联建模和优化策略咨询中,大大提升了客户服务效率。比如我们在某户外品牌客户产品反馈中获得这样一个句子“I really like the blue tent, it is so great for…”,经过word2vec模型, 不论提及什么颜色或者材质的用户评论,系统都可以直接替换近义词和同类型词来准确理解其表达的产品方面,从而实现通过一句话学习理解很多类似的人类自然语言,也就是所有“I ___ like ___ tent, it is ____ for…”, 这样的句子都会被计算机自动归为一类而不必替换每一个颜色词来重新识别, 这样就极大提升了语义分析的效率并且准确度更高。

NLP(自然语言处理)已经成为AI技术的最前沿阵地, 国内外科技企业和人才都投入了大量的精力去探索和实践,使其成为智能社会基础设施。产业AI化一直都在加速,博鼎国际不断完善和强化产品技术布局,为企业的客户体验管理做全面的服务和助力,努力为出海企业的品牌化建设添砖加瓦。
博鼎国际adtarg智能营销平台充分发挥自然语言处理技术,精准解读产品、品牌、行业全网数据,帮助品牌了解评价和舆情等内容以及平时不易发觉的洞察并转化为可见的图表和报告。让品牌先人一步获得更多市场及消费者反馈及时调整产品及营销策略,节省技术和人力成本成创造良好的出海信息获取渠道。
参考资料(侵删):
1.《通俗易懂讲解Word2vec的本质》,知乎,作者对白,2021-0902

2.《[NLP] 秒懂词向量Word2vec的本质》,知乎,作者穆文。


咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部