AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

Word2vec技术-帮您更好地聆听客户

1791
2022-09-25 08:01
2022-09-25 08:01
1791

VoC和MLS是博鼎国际adtarg营销体验管理平台中帮助企业聆听客户和市场反馈的核心产品,要能准确地聆听就离不开语义分析的技术,之前文章中我们介绍过自然语言处理的基础概念和情感分析技术,这期我们说一下Word2vec如何帮助博鼎国际提升语义分析的效率和准确度。

图片

什么是Word2vec?

Word2vec是2013年发布的一种自然语言处理技术。维基百科是这样解释的“该算法使用神经网络模型从大量文本语料库中学习单词关联。一旦经过训练,这样的模型就可以检测同义词或句子中一部分额外的词。”在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

您看完的感觉是什么?是不是每个字都认识,就是不知道放一起什么意思?那我现在尝试抛开这些专业的描述和逻辑过程,跟大家解释博鼎国际是如何使用word2vec技术更好地聆听用户。

随着信息技术的发展,我们大部分人已经知道了计算机的世界里只有0和1,在把人类的语言转换成计算机语言的过程中,首先,我们会进行“分词”,即为将重要的文字转换成词向量。例如:【我想要吃橙子!】这句话,可以分成【我】,【想要】,【吃】,【橙子】,【!】这几个词,对于我们不需要的内容,比如【!】还有类似【的地嗯啊…】等“停用词”都可以删除,这里用到的是“去停用词”方法,去停用词以后,可以减少向量运算的维度和影响。
图片
“词向量” 又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。我们还是通过一组例子来进行理解,例如:

句子一:“我 想要 吃 橙子”,转化为计算机可理解的语言是【10,20,30,40】,我们编码为a;

句子二:“我 想要 吃 苹果”,对应【10,20,30,60】编码为 b;

句子三:“树上 结 满了 橙子”,对应【70, 80,90,40】编码为c;

根据这种方法计算机可以比较容易地区分出:a和b比较接近,而跟c相差较远。因此,通过对应关系,计算机就知道了句子一和句子二意思相近,跟句子三说的不是一回事儿。

以上例子只是为了形象描述自然语言到计算机编码转换的意思,实际上这样的转换和分析方式有很多种,word2vec是其中的一种。它是Google研究团队里的Tomas Mikolov等人于2013年的《Distributed Representations of Words and Phrases and their Compositionality》以及后续的《Efficient Estimation of Word Representations in Vector Space》两篇文章中提出的一种高效训练词向量的模型,基本出发点和Distributed representation类似:上下文相似的两个词,它们的词向量也应该相似,比如橙子和苹果在句子中可能经常出现在相同的上下文中,因此这两个词的表示向量应该就比较相似。

图片

按照word2vec的编码方式,我们得到一系列样本(x,y),这里x是词语,y是它们的词性,我们要构建f(x)->y的映射,但这里的数学模型f(比如神经网络、SVM)只接受数值型输入,而NLP里的词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入(word embedding) 的一种。大部分的有监督机器学习模型,都可以归结为:f(x)->y 在 NLP 中,把 x 看作一个句子里的一个词语,y 是这个词语的上下文词语,那么这里的 f,便是 NLP 中经常出现的『语言模型』(language model),这个模型的目的,就是判断 (x,y) 这个样本,是否符合自然语言的法则,更通俗点说就是:词语x和词语y放在一起,是不是人话。虽然基于这个思想,但它的最终目的,不是要把 f 训练得多么完美,而是只关心模型训练完后的副产物——模型参数(这里特指神经网络的权重),并将这些参数,作为输入 x的某种向量化的表示,这个向量便叫做——词向量。

图片

Word2vec的基本思想:句子之中相近的词之间是有联系的,比如今天后面经常出现上午、下午。所以它的基本思想就是用词来预测词,准确地说,word2vec仍然是一种编码方式,将一个个的词编码成向量,但是被编码而成的向量并不是随便生成的,而是能够体现这些单词之间的关系(如相似性等)。Word2vec可以利用连续词袋(CBOW)或跳字模型(skip-gram)两种模型架构中的任何一种来产生单词的分布式表示。在连续词袋结构中,模型从周围环境词的窗口中预测当前词。语境词的顺序并不影响预测(词包假设)。在跳字模型结构中,模型使用当前词来预测周围的语境词窗口。也就是说,跳字模型相当于给你一个词,让你猜前面和后面可能出现什么词。而连续词袋模型相当于一句话中去掉一个词,让你猜这个词是什么。根据作者的说明,CBOW的速度更快,而skip-gram对不经常出现的词做得更好。

上面的介绍可以简单理解为word2vec这个模型定义了一个概率分布,基于这个概率的模型, 计算机可以比较准确的“理解”看起来并不是完全一样但意思差不多的句子。这个技术已经在博鼎国际的VoC和MLS产品中用于电商评论和全网提及客户品牌信息的提炼和理解中,帮助信息专家们归并和整理相关文本信息,从而把更多精力放在信息关联建模和优化策略咨询中,大大提升了客户服务效率。比如我们在某户外品牌客户产品反馈中获得这样一个句子“I really like the blue tent, it is so great for…”,经过word2vec模型, 不论提及什么颜色或者材质的用户评论,系统都可以直接替换近义词和同类型词来准确理解其表达的产品方面,从而实现通过一句话学习理解很多类似的人类自然语言,也就是所有“I ___ like ___ tent, it is ____ for…”, 这样的句子都会被计算机自动归为一类而不必替换每一个颜色词来重新识别, 这样就极大提升了语义分析的效率并且准确度更高。

NLP(自然语言处理)已经成为AI技术的最前沿阵地, 国内外科技企业和人才都投入了大量的精力去探索和实践,使其成为智能社会基础设施。产业AI化一直都在加速,博鼎国际不断完善和强化产品技术布局,为企业的客户体验管理做全面的服务和助力,努力为出海企业的品牌化建设添砖加瓦。
博鼎国际adtarg智能营销平台充分发挥自然语言处理技术,精准解读产品、品牌、行业全网数据,帮助品牌了解评价和舆情等内容以及平时不易发觉的洞察并转化为可见的图表和报告。让品牌先人一步获得更多市场及消费者反馈及时调整产品及营销策略,节省技术和人力成本成创造良好的出海信息获取渠道。
参考资料(侵删):
1.《通俗易懂讲解Word2vec的本质》,知乎,作者对白,2021-0902

2.《[NLP] 秒懂词向量Word2vec的本质》,知乎,作者穆文。


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
AMZ123星球专享丨12月第一周资讯汇总
亚马逊亚马逊的AI购物助手Rufus已新增识别虚假折扣的功能。用户可以查询商品在过去30天内的价格走势,系统将显示当前价格、促销价及历史折扣时段,并提供价格曲线图以辅助决策。市场研究机构Wells Fargo估算,亚马逊在美国服装市场的影响力持续扩大。亚马逊服装与鞋类品类在2024年销售额超过670亿美元,占据近13%的市场份额;预计在2025年销售额将超过720亿美元。亚马逊宣布,自12月15日起,对欧洲市场卖家收费进行大幅调整,重点下调服装与配饰等低价商品的推荐费,并在2026年继续对多个类别下调推荐费与履约费,以应对来自Shein、Temu等低价平台的竞争。
亚马逊新功能,能救你一整条链接!
最近有卖家后台发现,亚马逊多了一个新功能,看起来不起眼,实则很关键——绩效提醒(Performance Notifications)。这个功能解决了我们运营过程中的一个老大难:链接出问题时能不能第一时间被提醒?以前我们发现Listing出状况,大多靠“事后诸葛”:出单突然断了,去查是不是被下架;关键词排名一夜暴跌,才想起去对比转化率;广告Acos拉爆、CTR异常,才知道图可能挂了;等你发现问题,可能已经晚了。这次,亚马逊终于“良心发现”,开始主动提醒你链接的数据异常了。这个新功能到底能干啥?说白了,它就是一个链接级别的数据异常预警系统。
从念珠到圣诞树,来看TikTok Shop的节庆爆品学——一个用仪式感点亮销量的“黄金季度”
每年的9月至12月,是全球电商最火热的节庆黄金季。从印尼的婚礼旺季到欧美的万圣节、圣诞节,TikTok Shop正成为节日消费的风向标。但你是否注意到了?这一季的爆品故事,不仅仅是数字销量的奇迹。NO.1从小店逆袭到百万爆单在印尼,一家仅有 2400粉丝 的小店 @s1d1_online 在两周内狂销 190万件派对用品。主打穆斯林念珠与婚礼装饰,这家小店精准踩中宗教与节庆结合的消费节点。爆款念珠销量高达 55万件,打包展示和场景布置类短视频轻松破百万播放。我们可以看到,节庆消费不仅属于大品牌,文化共鸣与仪式感场景,让小店也能逆袭出圈。
同样是为了拉新促活,海外本土手游的营销打法为什么更有效?
过去五年,中国手游在海外获得了持续稳定的增长。根据 Sensor Tower 与 Data.ai 等机构的数据显示,中国游戏厂商在北美、欧洲、东南亚的市占率处于不断攀升的状态,不少头部产品在当地市场的收入甚至超过其在国内的表现。尤其是 SLG、MMORPG、模拟经营、休闲社交类产品,已在全球不同地区成为了主流产品。但与增长同步的,是愈发激烈的市场竞争。随着海外游戏广告库存趋紧、CPM上涨、同质化竞争加剧,用户获取成本在 2023–2025 年间持续攀升。在这种环境下,“重买量、强投放”已不再是过去高ROI的稳健路径。
【退货/退款】浏览退货/退款仪表板的操作指南
退货/退款仪表板和卖家关键行动过滤器1.退货/退款主标签卖家现在可以在不同标签间切换,以更好地管理正在进行的退货/退款、取消和失败交付案例:-所有 (All) - 显示所有收到的退货/退款、取消或失败交付案例的请求概览-退货/退款 (Return/Refund)- 所有即时退货或正常退货/退款的请求-取消 (Cancellation)- 所有正在审核或已退款给买家的请求-配送失败 (Failed Delivery)- 所有退回给卖家的请求2.退货/退款主标签根据当前状态进行细分和过滤-所有 (All) - 所有收到的退货/退款请求-审核中 (Under Review) - 正在由Shopee审核的退货/退款请求-
亚马逊物流 “黑”科技大爆发:AI+机器人+无人机,配送能力全面升级
在2025年亚马逊全球开店跨境峰会上,亚马逊全球开店跨境供应链管理负责人陈鸣与亚马逊物流科学家团队全球高级总监沈昕阳深度对话物流创新,聚焦最新物流基建布局与技术赋能卖家高效经营。左陈鸣,右沈昕阳本次峰会上,亚马逊发布“下一代跨境链”战略,以“全球统一库存池”为核心,通过FFO源仓全球履约服务与GWD全球智能枢纽仓,实现工厂直连全球消费者。依托AI智能决策系统、全球机器人作业网络及无人机配送技术等持续基建创新,亚马逊正以科技重塑全球物流,构建更快捷智能的跨境电商生态。今天,小编就来带大家走进FBA的科技实验室,一探这些改变未来物流格局的“黑”科技。
“月薪3W”的运营因工作敷衍被辞,一线运营应具备哪些综合素质和竞争力?
匿名用户我的C位上个月公司招的一个运营离职了面试的的时候表现非常好据他所说,他上一份工作的综合薪资在3W左右面试的时候他的想法也是有的,所以我也给的比相对比较高的底薪。
AMZ123PayPal计算器使用指南及常见问题详解(内附计算公式)
Paypal手续费计算器介绍及计算公式分享 https://www.amz123.com/tools-paypal
入职一年反被公司索赔 9 万多!前运营侵权致 TRO 罚款,我未及时响应需赔 12900 刀?
匿名用户我的C位求助一下业内大佬们!本人有2年精铺经验,2024年6月入职一家跨境电商公司担任运营职务,3个月试用期。2024年10月7日收到TRO邮件要求回复并出庭,TRO原因为前运营上架产品侵权,当时本人未及时回复,到11月27日才处理,致使店铺资金账号被冻结。跟原告律师协商达成和解,和解金额为25000美金以及800美金律师服务费,总计25800美金。公司与本人协商结果为个人承担50%和解金额即12900美金(此前双方都没有此类经验),按照汇率7.25结算,折合人民币93525元,从每季度发放提成奖金中扣除,直至结清为止,已签订合约。
破天荒!亚马逊欧洲站下调多类目销售佣金
2025年行至尾声,亚马逊一年一度的费用变更政策如期而至。出乎卖家意料的是,亚马逊欧洲站这次“破天荒”地下调了部分FBA费用,引起业内一片哗然。AMZ123获悉,12月2日,亚马逊欧洲站发布了销售佣金和物流费用的更新通知,宣布将实施有史以来规模最大的费用更新计划,以推动在欧洲站销售商品的卖家业务增长,降低双方的成本。具体费用调整情况如下(日期均为欧洲时间):1、物流费用下调2025年12月15日起,英国、德国、法国、意大利和西班牙站的物流配送费用有所降低,每件商品平均降低0.26英镑/0.32欧元。
闷声发大财的小众赛道!海外年销15亿,卖的居然是这些......
近年来,欧美市场盛行DIY(“自己动手”)文化,自己动手改善居住环境、制作礼物、纪念品等,已经成为当地居民日常生活方式的一部分。随着越来越多的海外消费者参与其中,工具类、耗材类产品的需求大幅增加,为出海商家带来了前所未有的机遇。尤其是便携式打印、3D打印等,已经从“小众领域”拓展成家庭场景日常需求热门品类。DIY礼物促使3D打印成家庭热门需求手机软件一键操作,小至礼品、卡片、大至模型、房屋装修材料等,各种DIY创意都能通过3D打印实现。尤其是在家庭场景领域,越来越多的3D打印产品被作为礼物,送给家人、朋友。
重磅!亚马逊公布2026年战略重心变化
AMZ123获悉,12月4日,2025年亚马逊全球开店跨境峰会上,亚马逊回顾了过去一年里中国卖家在亚马逊上所取得的进展,并围绕2026年四大业务战略重点——供应链服务、AI赋能、全球拓展布局、本地服务,揭晓了40余项创新举措。根据亚马逊披露的数据:2025年以来,中国卖家通过亚马逊全球站点售出数十亿件商品,在美欧等成熟站点的销售额增长超过15%,在新兴站点的销售额增长超过30%;2025年以来,销售额达到200万、500万、800万美金的中国卖家数量,增长均超过20%;销售额超过1000万美金的中国卖家数量,增幅近30%。
卖家还在等口径!欠税公示制度却已明确落地
卖家还在“等政策”,但政策已明确趋严过去几个月里,跨境卖家对税务政策最大的期待就是——“能不能再等等,看会不会有新口径”。但事实上,政策并没有往宽松走,而是沿着“数据透明—提醒申报—强化监管”这条路径一步步推进。AMZ123了解到,目前已有超过7000家境内外平台完成涉税信息报送,卖家的线上线下销售数据已全面纳入监管体系。随着数据比对展开,税务部门对申报明显低于平台数据的经营者陆续发出提示,要求补充申报;多数卖家在收到提示后完成了更正,但也的确还有部分经营者迟迟没有动作,继续处于观望甚至低申报的状态。在这种情况下,监管的态度也开始变得更为明确:对于未按规定申报的行为,将从提醒阶段进入到强化管理阶段。
TikTok Shop美国站多个品类平均价格上涨,涨幅高达103%
AMZ123获悉,近日,电商情报公司Charm的分析显示,TikTok Shop美国站的商品价格在过去一年显著上涨。数据显示,2025年TikTok Shop多个核心品类的平均售价较去年同期明显提高,其中鞋类商品在2025年 4 月至 10 月的平均单价达到 28.64 美元,比 2024 年同期的 14.06 美元上涨 103%。此外,体育与户外用品、箱包及时尚配饰等品类的平均价格也分别上涨了 54%、43% 和 42%;玩具、女装、电脑与办公设备等品类同样显著增长,涨幅超10%。TikTok Shop于2023年9月在美国上线时以高额补贴吸引卖家与消费者,平台售价明显低于其他电商。
汽配类目又现吸金王,TikTok卖家30天入账1100万
月销量暴涨36007900%,这一汽配用品在TikTok卖爆了
《亚马逊生活日用品类攻略手册》PDF下载
作为日常生活不可或缺的重要组成,生活百货品类覆盖范围广泛,包括家居用品、家具、车用配件、户外装备、园艺 工具、运动器材、家装用品、厨房、玩具以及宠物用品等众多领域。这类产品不仅是满足基本生活所需,更体现了人们对美好生活的向往和追求。
《掘金泰国-市场洞察与战略机遇报告2025》PDF下载
随着全球经济一体化的加速,泰国作为东盟的核心枢纽,凭借其独特的地缘优势庞大的消费市场以及持续优化的营商环境,成为众多企业战略布局的重要目标。本报告深入剖析泰国市场的政策红利、消费趋势、产业机遇以及合规挑战,旨在为有志于开拓泰国市场的中国企业提供行动指南,助力企业在东盟这片充满活力的土地上把握机遇、应对挑战、!实现可持续发展。
《2025欧美假日购物季营销指南》PDF下载
2025年美国假日购物季零售额预计同比仅增长1.2%,总销售额约1.359万亿美元,虽仍保持正增长,但为2009年以来最低增速,市场正在步入低增长的新常态。
《2025年跨境电商东南亚市场进入战略白皮书》PDF下载
东南亚电商,正以惊人的速度复刻中国电商高速增长的黄金时代。2024年东南亚电商GMV达到1284亿美元,短短5年涨幅超过3倍。全球电商2024年GMV增幅最快的十大市场中,东南亚独占四席。东南亚是拥有约6.7亿人口的广阔市场,在现今全球关税的不确定性大格局下,因其电商基建完善,利好的贸易政策,和更高的年轻人口占比,成为跨境卖家生意拓张焦点之一。
《2025年TikTok Shop玩具品类行业报告(欧美站)》PDF下载
分析TikTok Shop美国市场、英国市场、西班牙市场、墨西哥市场等主流市场点短视频及直播电商数据,选取TikTok与玩具爱好品类相关的内容进行分析报告。
《2025 洗护品类趋势与创新洞察》PDF下载
本报告独特价值:将消费者的“行为结果”据),揭示消费者深层心理动机、并能精准预判未来增长机会
《亚马逊双轨增长指南》PDF下载
亚马逊以“以客户为中心”为核心理念,通过整合B2B与B2C的全渠道服务,帮助卖家实现“一店双拓”-- 一次上架,同步触达个人消费者与企业买家,获得双重收益。同时,基于Direct to Buyer(直接触达买家)的模式,更能有效减少中间环节,提升利润空间与品牌掌控力。
《亚马逊全球线上商采趋势与区域洞察》PDF下载
随着全球企业数字化转型的深入推进,B2B商采有望成为下一个万亿级别的蓝海市场然而,中国卖家在开拓海外企业商采市场时往往面临着一个关键挑战:难以准确把握海外企业买家的商采行为和决策模式。这种认知偏差不仅影响了产品开发方向,也制约了市场拓展策略的制定。
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
AMZ123选品观察员
选品推荐及选品技巧分享。
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
侃侃跨境那些事儿
不侃废话,挣钱要紧!
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
首页
跨境头条
文章详情
Word2vec技术-帮您更好地聆听客户
WeBranding
2022-09-25 08:01
1790

VoC和MLS是博鼎国际adtarg营销体验管理平台中帮助企业聆听客户和市场反馈的核心产品,要能准确地聆听就离不开语义分析的技术,之前文章中我们介绍过自然语言处理的基础概念和情感分析技术,这期我们说一下Word2vec如何帮助博鼎国际提升语义分析的效率和准确度。

图片

什么是Word2vec?

Word2vec是2013年发布的一种自然语言处理技术。维基百科是这样解释的“该算法使用神经网络模型从大量文本语料库中学习单词关联。一旦经过训练,这样的模型就可以检测同义词或句子中一部分额外的词。”在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

您看完的感觉是什么?是不是每个字都认识,就是不知道放一起什么意思?那我现在尝试抛开这些专业的描述和逻辑过程,跟大家解释博鼎国际是如何使用word2vec技术更好地聆听用户。

随着信息技术的发展,我们大部分人已经知道了计算机的世界里只有0和1,在把人类的语言转换成计算机语言的过程中,首先,我们会进行“分词”,即为将重要的文字转换成词向量。例如:【我想要吃橙子!】这句话,可以分成【我】,【想要】,【吃】,【橙子】,【!】这几个词,对于我们不需要的内容,比如【!】还有类似【的地嗯啊…】等“停用词”都可以删除,这里用到的是“去停用词”方法,去停用词以后,可以减少向量运算的维度和影响。
图片
“词向量” 又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。我们还是通过一组例子来进行理解,例如:

句子一:“我 想要 吃 橙子”,转化为计算机可理解的语言是【10,20,30,40】,我们编码为a;

句子二:“我 想要 吃 苹果”,对应【10,20,30,60】编码为 b;

句子三:“树上 结 满了 橙子”,对应【70, 80,90,40】编码为c;

根据这种方法计算机可以比较容易地区分出:a和b比较接近,而跟c相差较远。因此,通过对应关系,计算机就知道了句子一和句子二意思相近,跟句子三说的不是一回事儿。

以上例子只是为了形象描述自然语言到计算机编码转换的意思,实际上这样的转换和分析方式有很多种,word2vec是其中的一种。它是Google研究团队里的Tomas Mikolov等人于2013年的《Distributed Representations of Words and Phrases and their Compositionality》以及后续的《Efficient Estimation of Word Representations in Vector Space》两篇文章中提出的一种高效训练词向量的模型,基本出发点和Distributed representation类似:上下文相似的两个词,它们的词向量也应该相似,比如橙子和苹果在句子中可能经常出现在相同的上下文中,因此这两个词的表示向量应该就比较相似。

图片

按照word2vec的编码方式,我们得到一系列样本(x,y),这里x是词语,y是它们的词性,我们要构建f(x)->y的映射,但这里的数学模型f(比如神经网络、SVM)只接受数值型输入,而NLP里的词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入(word embedding) 的一种。大部分的有监督机器学习模型,都可以归结为:f(x)->y 在 NLP 中,把 x 看作一个句子里的一个词语,y 是这个词语的上下文词语,那么这里的 f,便是 NLP 中经常出现的『语言模型』(language model),这个模型的目的,就是判断 (x,y) 这个样本,是否符合自然语言的法则,更通俗点说就是:词语x和词语y放在一起,是不是人话。虽然基于这个思想,但它的最终目的,不是要把 f 训练得多么完美,而是只关心模型训练完后的副产物——模型参数(这里特指神经网络的权重),并将这些参数,作为输入 x的某种向量化的表示,这个向量便叫做——词向量。

图片

Word2vec的基本思想:句子之中相近的词之间是有联系的,比如今天后面经常出现上午、下午。所以它的基本思想就是用词来预测词,准确地说,word2vec仍然是一种编码方式,将一个个的词编码成向量,但是被编码而成的向量并不是随便生成的,而是能够体现这些单词之间的关系(如相似性等)。Word2vec可以利用连续词袋(CBOW)或跳字模型(skip-gram)两种模型架构中的任何一种来产生单词的分布式表示。在连续词袋结构中,模型从周围环境词的窗口中预测当前词。语境词的顺序并不影响预测(词包假设)。在跳字模型结构中,模型使用当前词来预测周围的语境词窗口。也就是说,跳字模型相当于给你一个词,让你猜前面和后面可能出现什么词。而连续词袋模型相当于一句话中去掉一个词,让你猜这个词是什么。根据作者的说明,CBOW的速度更快,而skip-gram对不经常出现的词做得更好。

上面的介绍可以简单理解为word2vec这个模型定义了一个概率分布,基于这个概率的模型, 计算机可以比较准确的“理解”看起来并不是完全一样但意思差不多的句子。这个技术已经在博鼎国际的VoC和MLS产品中用于电商评论和全网提及客户品牌信息的提炼和理解中,帮助信息专家们归并和整理相关文本信息,从而把更多精力放在信息关联建模和优化策略咨询中,大大提升了客户服务效率。比如我们在某户外品牌客户产品反馈中获得这样一个句子“I really like the blue tent, it is so great for…”,经过word2vec模型, 不论提及什么颜色或者材质的用户评论,系统都可以直接替换近义词和同类型词来准确理解其表达的产品方面,从而实现通过一句话学习理解很多类似的人类自然语言,也就是所有“I ___ like ___ tent, it is ____ for…”, 这样的句子都会被计算机自动归为一类而不必替换每一个颜色词来重新识别, 这样就极大提升了语义分析的效率并且准确度更高。

NLP(自然语言处理)已经成为AI技术的最前沿阵地, 国内外科技企业和人才都投入了大量的精力去探索和实践,使其成为智能社会基础设施。产业AI化一直都在加速,博鼎国际不断完善和强化产品技术布局,为企业的客户体验管理做全面的服务和助力,努力为出海企业的品牌化建设添砖加瓦。
博鼎国际adtarg智能营销平台充分发挥自然语言处理技术,精准解读产品、品牌、行业全网数据,帮助品牌了解评价和舆情等内容以及平时不易发觉的洞察并转化为可见的图表和报告。让品牌先人一步获得更多市场及消费者反馈及时调整产品及营销策略,节省技术和人力成本成创造良好的出海信息获取渠道。
参考资料(侵删):
1.《通俗易懂讲解Word2vec的本质》,知乎,作者对白,2021-0902

2.《[NLP] 秒懂词向量Word2vec的本质》,知乎,作者穆文。


咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部