AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

Brightdata代理IP创建、代理管理器规则配置&自动化简述指南

10548
2021-12-21 14:58
2021-12-21 14:58
10548


目录:

  • 什么是代理IP?

  • 为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

  • 代理如何配合网站抓取数据收集&自动化执行?

  • 我们需要多少代理IP来进行数据收集或自动化

  • 如何在Brightdata中创建设置代理IP?

  • 设置代理管理器Proxy Manager来统一分规则智能管理所有代理IP

  • Proxy Manager针对不同功能需求的规则设置指南

  • 社交媒体自动化简单举例


相关链接:

Brightdata官网&中文经理对接专属注册地址:

Brightdata官方注册&中文经理服务链接:https://bit.ly/3DM8bH1



什么是代理IP?

代理IP就是代理服务商提供给我们的IP地址,能够在我们访问目标网站时匿名我们的真实用户IP;同时,我们想要抓取某个站点时,他们也不会检测到我们的真实IP以做出封锁或者误导的举措。

当你对目标网站进行大规模数据爬取时,使用代理就可以匿名

一个优质的代理服务商不仅能够提供你需要的IP地址,还能提供一个综合的代理管理器,让你在没有任何代码的情况下也能有效的使用数据爬虫去进行抓取以及管理。

 

为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

3个核心原因:

  1. 隐藏本地真实使用IP

  2. 绕过地理封锁

  3. 有效控制在目标网站上的速率限制问题

这样的操作也有利于保护用户个人信息,并且保证数据抓取的真实程度,同时针对地理封锁,举个例子,或许在某些国家某些广告是侵权的,但是在其他国家正常,那么如果你用当地IP去收集数据,那么这些侵权广告将会被屏蔽,而如果你用其他地区的IP去抓取,这些广告又会展示出来。

另外一方面,如果你想在单个站点上抓取数千个网页,单纯只用一个或者少量IP发出过多的请求如果被网站检测到,那么他们就会采取限速或者是其他封锁的举动,所以为了防止这种情况的出现,我们需要使用Brightdata的代理管理器,运用大量的代理IP,设置一定的规则,将请求均匀的分配给这些代理代理IP,这样目标网站只能看到单个IP仅有少量的请求,从而避免被限制。


 

代理如何配合网站抓取收集&自动化执行?

大型的网站一般都会采取很多的方式监控并限制阻止抓取,所以如果我们需要在这些网站上抓取数据,那就必须以智取胜。

我们在实际操作中经常会遇到以下的情况:轮转代理IP(Proxy Rotation),应对被禁止Ban,节流会话(Throttling),会话管理(Session Management),减少带宽(Ruduce Bandwidth)、SSL可视化(SSL Decryption)、黑名单(Blacklisting)等等。

Brightdata的代理管理器(https://bit.ly/3DM8bH1)就能够完全覆盖这些问题,

  • 识别禁令(Identify Bans):能够检测出多种类型的禁令,排除故障并且修复潜在问题。例如捕获、重定向、封锁、隐藏、重复错误、超时等等,那么如果代理管理器遇到这些问题,就可以使用不同的代理IP进行重试请求。

  • 管理用户代理(UA):对于良性爬虫是至关重要的,用户代理能让目标网络识别出访问IP的使用设备、操作系统等,以响应不同的界面,例如PC端和手机端,就是不一样的。

  • 管理控制代理:有一些爬取项目需要在同一个代理下保持会话,那么我们就需要使用代理管理器配置代理以同意这个情况。

  • 增加延迟:随机的延迟以及良性节流能够有效掩盖正在数据抓取的行动。

  • 地理位置定位:有些时候我们需要设定某些特定地理位置的代理IP去访问网站

  • 多种类型的线路:通过使用不同类型的代理IP发送请求,自定义规则以获得最具性价比的数据结果。

  • 减小带宽:使用代理管理器像正则表达式或者自定义规则以减少带宽流量的产出。

 


我们需要多少代理IP来进行数据收集或自动化?

代理池的大小取决于很多的因素,我们主要考量以下方面:

1.首先计算每小时预计发出的请求数量,通常每个小时每个代理发送500个请求左右不太容易引起注意。

2.根据目标网站来进行考量,越大的网站会有更多的反机器人措施,所以我们需要更大的代理池

3.根据你需求的代理类型来考量(数据中心、动态住宅、静态住宅、移动IP)

4.根据你项目的复杂性来考量具体代理池的大小,例如代理轮转,减小带宽等等,这些因素对代理池的质量和有效性都有很大的影响

 

 

如何在Brightdata中创建设置代理IP?


进入Brightdata(https://bit.ly/3DM8bH1):在侧边栏中找到代理通道,点击页面中的创建通道。



进入页面,如果我们是养号,那么直接选择静态住宅IP即可,如果是数据抓取,那么就根据我们的数据需求来选择相应适合的代理。

最新的是右上方可以输入你想要爬取的网站域名,系统会给你推荐适合的,不过一般我们自行选取即可。

一般如果网站阻止或者封锁后,我们就需要选择Web Unlocker亮网络解锁器,常规来说网络解锁器用的也是住宅IP,同时解锁率能够达到100%。


使用网络解锁器的优势在于:

能够解决验证码的问题

能够捕获处理标记的变化

自动重试


那么接下来我们就需要进一步设置,通道名称这个时候可以直接设置成域名,这样便于分辨;

另外独享的IP组意味着你创建这个通道后能够获得一组专属于你的IPS供你一个人使用,这其中的所有IPs都没有任何人使用过在你的目标网站。

最后选择授权是否需要定位到更加细化的地理位置等,最后点击创建通道,zone创建成功。

zone创建后,我们需要使用代理管理器来创建端口以及设置代理管理器的规则。

 

设置代理管理器LPM来统一分规则智能管理所有的代理IP


代理管理器很多很好的功能:

  • 例如整个流量日志的实时预览;

  • 用于分割贷款流量的统计规则以及可以自动重试失败请求的成本优化规则;

  • 调整header和ssl指纹的方法;

  • 代理轮转以及会话管理等等;



当然,如果本地安装代理管理器觉得速度慢,占用空间。也可以使用Brightdata提供的云代理管理器或者将代理管理器配置与vps里。

Win和Mac、Linux的安装方式不一样,win直接下载安装包即可,而mac则需要跟随向导进行安装,







有关于mac的安装方法我着重讲一下:

1.在Mac上打开“Terminal”



2.我们输入

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

或者

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

这两个安装脚本中的一个,即可,如果两个都不行,那么只能手动安装,





大概需要花费10分钟的时间运行后,我们复制中间的URL到浏览器中,进行代理管理器后台的登录


然后我们需要为刚刚创建的通道创建一个新的端口,点击右上角的Add New Port

端口指的是电脑上特定虚拟位置的数字,然后我们在通道的地方选择我们刚刚创建的那个zone。然后一路点继续,这个端口就创建成功了。


我们点击创建好的post,进入设置页面,选择定位,我们可以自行设置国家、州、省等



然后我们来到IP control这个选项中,找到DNS lookup,这里有两种选项,一个是“Local(dafault)-resolved by super proxy”,这个选项会让我们的本地速度加快,更适合于养号的时候开启;

那如果我们现在要进行的是数据收集,就选择“Remote-resolved by peer”,这个选项会让我们有更高的匿名性

我们还会把Session Terminaation这个选项打开,如果不能打开,先到设置里讲SSL Analyzing打开,这样做的意义在于当这个IP无效时,就会停止发送重试请求,这对于社交媒体账号是非常重要的,因为在登录社交媒体账号的过程中更改IP对于账号来说是非常不利的。


我们可以看到代理池大小和轮转ips都是被禁止的状态,而且我们也点不动,这是因为我们上面预设选择的是“Long Single session(IP)(default)”长单一会话模式,这种模式最适合的就是社交媒体或者是自动化会话,因为在会话期更换IP会容易跳验证或者是被检测到异常。





如果你需要轮转IP,那么就选择第二个选项“Rotating(IPs)”,这样的话你就能打开下面的滑块了,并且设置IP池的大小。


在这情况下,你可以在不登录的状态下抓取社交媒体账号或者是电子商务网站的数据。

那么我们在对于社交媒体账号相关的时候,一般还是选择长单一会话模式

接下来我们来看看


Proxy Manager针对不同功能需求的规则设置指南





URL:指的是在特定的url触发,当你想从数据中心切换到住宅或者移动IP时可以使用这个触发器(特定url触发行为)

Status code:在请求响应的特定页面上的url状态代码,就像你可以选择200/403/404/500等等响应正文

Response body:正文触发器,在html响应正文包含使用正则表达式的指定字符串时,它将扫描正文以查找指定此触发器的字符串用于捕获问题。


至于下面的两个请求的时间大于或者小于的规则,则是可以设置响应时间毫秒,例如禁止慢速ips或者快速的。

我们选择了任意一个触发器后,就需要选择一个action动作。


对于URL触发来说,action有以下几种方式:


举个例子:来设置一个规则去重试当一个新的IP状态是显示403

403又叫做错误代码,这意味着通道入口被拒绝,我们一般可以通过更换新的IP来解决这个问题。

要设置这个触发器,我们需要选择状态代码status code这个选项,状态代码选择403,下面的动作我们选择以一个新IP重试。而重试次数我们自己设置即可。



如果我们不想用同样类型的IP,那么我们可以选择以新的代理端口进行重试,这意味着我们可以选择其他类型的代理IP,从不同的端口发送同样的请求,以测试实现数据收集的最优成本。

当然,这里的新端口我们需要在Brightdata通道管理中提前开好,就可以选择了。



另外一个例子就是我们想要设置减少带宽的有效方法是使用正则表达式,通过选择列出的文件格式,它将从请求中删除选定的文件格式,并且响应会更轻



另外一个节省数据抓取的重要规则就是刚开始的时候我们选择使用数据中心IP.根据后期的一个反馈再考虑是否切换到住宅或者移动IP这种成本比较高的代理。这可以通过设置URL的触发器来实现,

选择触发器为URL,输入触发的url网址,然后选择动作是”选择一个新的端口重试“



以上就是我对代理管理器的一个大致的讲解以及设置方面的介绍。


那么很多人就问,这种代理IP具体在社交媒体中的用处是什么呢?

其实有很多方面,我们不仅可以使用代理IP收集数据,同样的我们也能用他们进行一些自动化的功能操作,当然这些还需要配一些第三方的功能软件才能很好的去使用,


社交媒体自动化简单举例


举个例子,我们使用Brightdata的静态住宅养facebook的账号,然后在此环境下,运行自动化和facebook好友群发信息的功能。例如群发广告等等,那么这样,极大地减少了人工操作的成本和时间。

就比如下面这个平台的,首先我们在我们搭建好的养号环境中,登录我们的账号,这个脚本会自动抓取在同浏览器已经登录的facebook的cookie进行登录。


第二步我们设置我们需要群发的信息,设置相关想要发送的东西

并且在上面批量上传我们需要群发的facebook用户的个人主页链接。


之后下一步就会开始运行,系统也会记录整个流程运行的问题,

那么可以看到,我最后运行失败,facebook账号跳了验证,就是因为这个整个过程我是直接在电脑上,并没有在一个纯净隔离的IP环境去登录这个账号,所以导致fb查到异常而封号。

这也是为什么我一直在强调代理IP的重要性。




免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
俄罗斯电商市场快速增长,综合平台优势大于独立站
AMZ123获悉,近日,Euromonitor、EMARKETER及Yakov and Partners发布了《俄罗斯电商市场发展现状》报告。报告基于2020-2024年的数据,对俄罗斯电商市场的发展趋势、综合电商平台与独立电商的竞争格局、各品类表现、未来市场预测进行了系统分析。一、俄罗斯电商趋势1.互联网渗透率增长放缓2020至2024年,俄罗斯互联网使用率从78.1%(约9560万用户)提升至85.5%(约1.04亿用户),四年间增加7.4%(新增约790万用户)。俄罗斯的互联网渗透率增速正在逐年放缓,预计到2029年互联网渗透率将达到89%(约1.08亿用户)。
越南加强进口商品监管,修订多项增值税和海关规则
AMZ123获悉,近日,越南海关公布了2026年对增值税(VAT)、特别消费税(SCT)及电子交易管理的多项修订,核心在于统一税制规则、扩大免税范围并加强跨境与电子化申报管理。此次调整既有减轻企业合规成本、扶持出口与产业链升级的内容,也伴随对部分消费品与临时进口再出口环节的更严监管,直接影响生产、进出口和跨境电商卖家。在增值税方面,新法律将此前零散的官方函件并入法律和配套法令,提升透明度并便于电子化处理。关键变化包括扩大增值税免税目录:列入政府清单的自然资源与矿产(无论原料还是加工品)在出口时被明确归为增值税免税项目。
TikTok Shop黑五复盘,一堆中国卖家晒出百万GMV
黑五复盘,TikTok卖家:“库存差点给我爆完了!”
存生命危险!美国CPSC紧急召回超1万件儿童手写板玩具
AMZ123获悉,近日,美国消费品安全委员会(CPSC)宣布,紧急召回亚马逊在售的KTEBO品牌的儿童书写板玩具,原因是该产品未能符合玩具类产品的强制性安全标准,电池仓固定螺丝无法保持牢固,可能导致纽扣电池外露。若儿童误吞纽扣电池,可能造成严重伤害、内部化学灼伤,甚至威胁生命。此次召回涉及KTEBO品牌的双件套书写平板玩具,召回数量约10,380件,产品提供四种颜色组合,包括粉色/蓝色、绿色/黄色、橙色/蓝色以及紫色/红色,并有8.5英寸与10英寸两种规格,每套配有与机身同色的手写笔。
AliExpress波兰11月增长显著,双十一活动日活用户增长37%
AMZ123获悉,近日,AliExpress的数据显示,平台11月的消费者参与度与卖家销售额大幅增长。今年11月11日至19日举行的AliExpress双十一购物节活动期间,波兰用户的参与度显著提升,日活跃用户数量同比增长37%。随着去年秋季AliExpress开放波兰本地卖家入驻,今年波兰本地卖家的参与度也明显提高,他们在此次双十一促销期间的GMV同比增长74%。从消费偏好来看,智能生活类产品持续吸引波兰消费者,智能家居与清洁设备成为销售榜单的主导品类。Dreame、ILIFE、Laresar等品牌的扫地机器人和自动吸尘设备进入最畅销产品行列,反映波兰家庭对智能化、便捷化生活方式的需求不断上升。
亚马逊印度计划投资127亿美元,推动本地云和AI基础设施建设
AMZ123获悉,近日,亚马逊宣布,将在2030年前进一步推动人工智能在印度的普及,计划投入127亿美元建设本地云和AI基础设施。亚马逊表示,这项长期投资将为超过1500万家中小企业带来AI应用能力,同时在2030年前为400万名公立学校学生提供AI素养课程与职业教育,提高数字技能普及度。亚马逊认为,AI正成为提升印度数字包容性的关键力量,能够突破语言、读写能力与访问渠道的限制,让更多个人与企业受益。在中小企业领域,亚马逊正在推出新一代AI工具,以降低经营门槛、简化业务操作并提升增长效率。
“黑五网一”DTC投放数据复盘,流量都去哪了?
2025 年“黑五网一”大战,终于落下帷幕。除了 GMV ,这场仗花了多少“弹药”,你算清楚了吗?流量场上的每一发子弹,都正中靶心了吗?偏离的原因找到了吗?除了看自己后台的数据,还要看清整个大盘的趋势——这决定了我们下一步该往哪儿走。基于 GoodsFox 监控的投放数据,我们有以下发现:服装、美妆的竞争力度只增不减3D 打印与机械键盘,从“小众圈层”跃升为热门赛道宠物经济的流量稳定,不靠爆点也能撑起大盘这些变化背后,都在重塑今年“黑五网一”的投放结构,我们先从流量基本盘讲起——尽管每年都有新风口,但从广告投放的绝对体量来看,传统大盘仍在支撑整体流量水位。
还在“索评”?亚马逊Review管理的红线与出路
亚马逊的评论管理格局是如何改变的?首先要明确一点:过去几年,亚马逊的Review生态系统发生了剧变,这对各类管理工具产生了深远影响。在买家端,那些专门用来标记“虚假评论”(或帮助买家鉴别真伪)的老一代工具正在失效甚至消失。不少买家就因为Fakespot在平台冲突、合规问题和数据接口变更的压力下关停而感到措手不及。Fakespot是一个分析电商产品评论真实性、帮助消费者识别虚假评价的平台。在卖家端,亚马逊的政策合规和风控机制变得更加严厉。这意味着Review的风险红线变了:以前那些“地毯式索评”或“送测(Giveaway)”的套路可能有效,但现在操作这些手段的封号风险极高。
AMZ123PayPal计算器使用指南及常见问题详解(内附计算公式)
Paypal手续费计算器介绍及计算公式分享 https://www.amz123.com/tools-paypal
重磅!亚马逊公布2026年战略重心变化
AMZ123获悉,12月4日,2025年亚马逊全球开店跨境峰会上,亚马逊回顾了过去一年里中国卖家在亚马逊上所取得的进展,并围绕2026年四大业务战略重点——供应链服务、AI赋能、全球拓展布局、本地服务,揭晓了40余项创新举措。根据亚马逊披露的数据:2025年以来,中国卖家通过亚马逊全球站点售出数十亿件商品,在美欧等成熟站点的销售额增长超过15%,在新兴站点的销售额增长超过30%;2025年以来,销售额达到200万、500万、800万美金的中国卖家数量,增长均超过20%;销售额超过1000万美金的中国卖家数量,增幅近30%。
亚马逊新功能,能救你一整条链接!
最近有卖家后台发现,亚马逊多了一个新功能,看起来不起眼,实则很关键——绩效提醒(Performance Notifications)。这个功能解决了我们运营过程中的一个老大难:链接出问题时能不能第一时间被提醒?以前我们发现Listing出状况,大多靠“事后诸葛”:出单突然断了,去查是不是被下架;关键词排名一夜暴跌,才想起去对比转化率;广告Acos拉爆、CTR异常,才知道图可能挂了;等你发现问题,可能已经晚了。这次,亚马逊终于“良心发现”,开始主动提醒你链接的数据异常了。这个新功能到底能干啥?说白了,它就是一个链接级别的数据异常预警系统。
宠物消费持续升温,亚马逊10款月销过万宠物产品推荐
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1. 猫咪情绪舒缓喷雾预计销售额:139.84万美元/月销量:26,000+星级评分:4.4好评数量:12,694+图源:亚马逊产品描述:FELIWAY Optimum猫咪情绪舒缓喷雾的专利信息素复合物能显著减少猫咪的应激表现,包括喷尿、抓挠、恐惧反应、紧张冲突等。产品无药性、安全且不干扰人类与其他宠物,每个喷雾覆盖面积约 700 平方英尺。
汽配类目又现吸金王,TikTok卖家30天入账1100万
月销量暴涨36007900%,这一汽配用品在TikTok卖爆了
跨界AI失败?深圳大卖资产重组终止!
12月2日,跨境3C 配件大卖杰美特发布公告,宣布决定终止筹划以现金方式收购AI 算力解决方案提供商思腾合力(天津)科技有限公司(以下简称“思腾合力”)控制权的重大资产重组事项。这场筹划半年、备受行业关注的跨界收购突然落幕,消息一出引发市场热议。AMZ123获悉,杰美特于2025年6月21日首次披露了筹划重组的提示性公告,拟通过现金交易控股思腾合力,该交易初步测算构成重大资产重组,且不涉及发行股份、不构成关联交易,也不会导致公司控制权变更。杰美特是“中国手机壳第一股”,主营业务为移动智能终端保护类产品的研发、设计与销售,产品包括手机、平板及穿戴设备的保护壳与表带等。
“月薪3W”的运营因工作敷衍被辞,一线运营应具备哪些综合素质和竞争力?
匿名用户我的C位上个月公司招的一个运营离职了面试的的时候表现非常好据他所说,他上一份工作的综合薪资在3W左右面试的时候他的想法也是有的,所以我也给的比相对比较高的底薪。
25-cv-14634,橙色小雏菊花卉图案有TRO冻结风险,已立案维权!
本案是keith律所代理英国艺术家Rachael Taylor发起的版权维权案件,涉案作品为一张 1970年代小雏菊花卉图,该作品于2025年6月24日获得美国版权认证,版权号为:VA 2-455-354,被广泛用于面料印刷、家居装饰以及礼品包装等多个领域。
《亚马逊生活日用品类攻略手册》PDF下载
作为日常生活不可或缺的重要组成,生活百货品类覆盖范围广泛,包括家居用品、家具、车用配件、户外装备、园艺 工具、运动器材、家装用品、厨房、玩具以及宠物用品等众多领域。这类产品不仅是满足基本生活所需,更体现了人们对美好生活的向往和追求。
《掘金泰国-市场洞察与战略机遇报告2025》PDF下载
随着全球经济一体化的加速,泰国作为东盟的核心枢纽,凭借其独特的地缘优势庞大的消费市场以及持续优化的营商环境,成为众多企业战略布局的重要目标。本报告深入剖析泰国市场的政策红利、消费趋势、产业机遇以及合规挑战,旨在为有志于开拓泰国市场的中国企业提供行动指南,助力企业在东盟这片充满活力的土地上把握机遇、应对挑战、!实现可持续发展。
《2025欧美假日购物季营销指南》PDF下载
2025年美国假日购物季零售额预计同比仅增长1.2%,总销售额约1.359万亿美元,虽仍保持正增长,但为2009年以来最低增速,市场正在步入低增长的新常态。
《2025年跨境电商东南亚市场进入战略白皮书》PDF下载
东南亚电商,正以惊人的速度复刻中国电商高速增长的黄金时代。2024年东南亚电商GMV达到1284亿美元,短短5年涨幅超过3倍。全球电商2024年GMV增幅最快的十大市场中,东南亚独占四席。东南亚是拥有约6.7亿人口的广阔市场,在现今全球关税的不确定性大格局下,因其电商基建完善,利好的贸易政策,和更高的年轻人口占比,成为跨境卖家生意拓张焦点之一。
《2025年TikTok Shop玩具品类行业报告(欧美站)》PDF下载
分析TikTok Shop美国市场、英国市场、西班牙市场、墨西哥市场等主流市场点短视频及直播电商数据,选取TikTok与玩具爱好品类相关的内容进行分析报告。
《2025 洗护品类趋势与创新洞察》PDF下载
本报告独特价值:将消费者的“行为结果”据),揭示消费者深层心理动机、并能精准预判未来增长机会
《亚马逊双轨增长指南》PDF下载
亚马逊以“以客户为中心”为核心理念,通过整合B2B与B2C的全渠道服务,帮助卖家实现“一店双拓”-- 一次上架,同步触达个人消费者与企业买家,获得双重收益。同时,基于Direct to Buyer(直接触达买家)的模式,更能有效减少中间环节,提升利润空间与品牌掌控力。
《亚马逊全球线上商采趋势与区域洞察》PDF下载
随着全球企业数字化转型的深入推进,B2B商采有望成为下一个万亿级别的蓝海市场然而,中国卖家在开拓海外企业商采市场时往往面临着一个关键挑战:难以准确把握海外企业买家的商采行为和决策模式。这种认知偏差不仅影响了产品开发方向,也制约了市场拓展策略的制定。
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
AMZ123卖家导航
这个人很懒,还没有自我介绍
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
AMZ123选品观察员
选品推荐及选品技巧分享。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
侃侃跨境那些事儿
不侃废话,挣钱要紧!
首页
跨境头条
文章详情
Brightdata代理IP创建、代理管理器规则配置&自动化简述指南
花虞HY聊跨境电商
2021-12-21 14:58
10548


目录:

  • 什么是代理IP?

  • 为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

  • 代理如何配合网站抓取数据收集&自动化执行?

  • 我们需要多少代理IP来进行数据收集或自动化

  • 如何在Brightdata中创建设置代理IP?

  • 设置代理管理器Proxy Manager来统一分规则智能管理所有代理IP

  • Proxy Manager针对不同功能需求的规则设置指南

  • 社交媒体自动化简单举例


相关链接:

Brightdata官网&中文经理对接专属注册地址:

Brightdata官方注册&中文经理服务链接:https://bit.ly/3DM8bH1



什么是代理IP?

代理IP就是代理服务商提供给我们的IP地址,能够在我们访问目标网站时匿名我们的真实用户IP;同时,我们想要抓取某个站点时,他们也不会检测到我们的真实IP以做出封锁或者误导的举措。

当你对目标网站进行大规模数据爬取时,使用代理就可以匿名

一个优质的代理服务商不仅能够提供你需要的IP地址,还能提供一个综合的代理管理器,让你在没有任何代码的情况下也能有效的使用数据爬虫去进行抓取以及管理。

 

为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

3个核心原因:

  1. 隐藏本地真实使用IP

  2. 绕过地理封锁

  3. 有效控制在目标网站上的速率限制问题

这样的操作也有利于保护用户个人信息,并且保证数据抓取的真实程度,同时针对地理封锁,举个例子,或许在某些国家某些广告是侵权的,但是在其他国家正常,那么如果你用当地IP去收集数据,那么这些侵权广告将会被屏蔽,而如果你用其他地区的IP去抓取,这些广告又会展示出来。

另外一方面,如果你想在单个站点上抓取数千个网页,单纯只用一个或者少量IP发出过多的请求如果被网站检测到,那么他们就会采取限速或者是其他封锁的举动,所以为了防止这种情况的出现,我们需要使用Brightdata的代理管理器,运用大量的代理IP,设置一定的规则,将请求均匀的分配给这些代理代理IP,这样目标网站只能看到单个IP仅有少量的请求,从而避免被限制。


 

代理如何配合网站抓取收集&自动化执行?

大型的网站一般都会采取很多的方式监控并限制阻止抓取,所以如果我们需要在这些网站上抓取数据,那就必须以智取胜。

我们在实际操作中经常会遇到以下的情况:轮转代理IP(Proxy Rotation),应对被禁止Ban,节流会话(Throttling),会话管理(Session Management),减少带宽(Ruduce Bandwidth)、SSL可视化(SSL Decryption)、黑名单(Blacklisting)等等。

Brightdata的代理管理器(https://bit.ly/3DM8bH1)就能够完全覆盖这些问题,

  • 识别禁令(Identify Bans):能够检测出多种类型的禁令,排除故障并且修复潜在问题。例如捕获、重定向、封锁、隐藏、重复错误、超时等等,那么如果代理管理器遇到这些问题,就可以使用不同的代理IP进行重试请求。

  • 管理用户代理(UA):对于良性爬虫是至关重要的,用户代理能让目标网络识别出访问IP的使用设备、操作系统等,以响应不同的界面,例如PC端和手机端,就是不一样的。

  • 管理控制代理:有一些爬取项目需要在同一个代理下保持会话,那么我们就需要使用代理管理器配置代理以同意这个情况。

  • 增加延迟:随机的延迟以及良性节流能够有效掩盖正在数据抓取的行动。

  • 地理位置定位:有些时候我们需要设定某些特定地理位置的代理IP去访问网站

  • 多种类型的线路:通过使用不同类型的代理IP发送请求,自定义规则以获得最具性价比的数据结果。

  • 减小带宽:使用代理管理器像正则表达式或者自定义规则以减少带宽流量的产出。

 


我们需要多少代理IP来进行数据收集或自动化?

代理池的大小取决于很多的因素,我们主要考量以下方面:

1.首先计算每小时预计发出的请求数量,通常每个小时每个代理发送500个请求左右不太容易引起注意。

2.根据目标网站来进行考量,越大的网站会有更多的反机器人措施,所以我们需要更大的代理池

3.根据你需求的代理类型来考量(数据中心、动态住宅、静态住宅、移动IP)

4.根据你项目的复杂性来考量具体代理池的大小,例如代理轮转,减小带宽等等,这些因素对代理池的质量和有效性都有很大的影响

 

 

如何在Brightdata中创建设置代理IP?


进入Brightdata(https://bit.ly/3DM8bH1):在侧边栏中找到代理通道,点击页面中的创建通道。



进入页面,如果我们是养号,那么直接选择静态住宅IP即可,如果是数据抓取,那么就根据我们的数据需求来选择相应适合的代理。

最新的是右上方可以输入你想要爬取的网站域名,系统会给你推荐适合的,不过一般我们自行选取即可。

一般如果网站阻止或者封锁后,我们就需要选择Web Unlocker亮网络解锁器,常规来说网络解锁器用的也是住宅IP,同时解锁率能够达到100%。


使用网络解锁器的优势在于:

能够解决验证码的问题

能够捕获处理标记的变化

自动重试


那么接下来我们就需要进一步设置,通道名称这个时候可以直接设置成域名,这样便于分辨;

另外独享的IP组意味着你创建这个通道后能够获得一组专属于你的IPS供你一个人使用,这其中的所有IPs都没有任何人使用过在你的目标网站。

最后选择授权是否需要定位到更加细化的地理位置等,最后点击创建通道,zone创建成功。

zone创建后,我们需要使用代理管理器来创建端口以及设置代理管理器的规则。

 

设置代理管理器LPM来统一分规则智能管理所有的代理IP


代理管理器很多很好的功能:

  • 例如整个流量日志的实时预览;

  • 用于分割贷款流量的统计规则以及可以自动重试失败请求的成本优化规则;

  • 调整header和ssl指纹的方法;

  • 代理轮转以及会话管理等等;



当然,如果本地安装代理管理器觉得速度慢,占用空间。也可以使用Brightdata提供的云代理管理器或者将代理管理器配置与vps里。

Win和Mac、Linux的安装方式不一样,win直接下载安装包即可,而mac则需要跟随向导进行安装,







有关于mac的安装方法我着重讲一下:

1.在Mac上打开“Terminal”



2.我们输入

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

或者

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

这两个安装脚本中的一个,即可,如果两个都不行,那么只能手动安装,





大概需要花费10分钟的时间运行后,我们复制中间的URL到浏览器中,进行代理管理器后台的登录


然后我们需要为刚刚创建的通道创建一个新的端口,点击右上角的Add New Port

端口指的是电脑上特定虚拟位置的数字,然后我们在通道的地方选择我们刚刚创建的那个zone。然后一路点继续,这个端口就创建成功了。


我们点击创建好的post,进入设置页面,选择定位,我们可以自行设置国家、州、省等



然后我们来到IP control这个选项中,找到DNS lookup,这里有两种选项,一个是“Local(dafault)-resolved by super proxy”,这个选项会让我们的本地速度加快,更适合于养号的时候开启;

那如果我们现在要进行的是数据收集,就选择“Remote-resolved by peer”,这个选项会让我们有更高的匿名性

我们还会把Session Terminaation这个选项打开,如果不能打开,先到设置里讲SSL Analyzing打开,这样做的意义在于当这个IP无效时,就会停止发送重试请求,这对于社交媒体账号是非常重要的,因为在登录社交媒体账号的过程中更改IP对于账号来说是非常不利的。


我们可以看到代理池大小和轮转ips都是被禁止的状态,而且我们也点不动,这是因为我们上面预设选择的是“Long Single session(IP)(default)”长单一会话模式,这种模式最适合的就是社交媒体或者是自动化会话,因为在会话期更换IP会容易跳验证或者是被检测到异常。





如果你需要轮转IP,那么就选择第二个选项“Rotating(IPs)”,这样的话你就能打开下面的滑块了,并且设置IP池的大小。


在这情况下,你可以在不登录的状态下抓取社交媒体账号或者是电子商务网站的数据。

那么我们在对于社交媒体账号相关的时候,一般还是选择长单一会话模式

接下来我们来看看


Proxy Manager针对不同功能需求的规则设置指南





URL:指的是在特定的url触发,当你想从数据中心切换到住宅或者移动IP时可以使用这个触发器(特定url触发行为)

Status code:在请求响应的特定页面上的url状态代码,就像你可以选择200/403/404/500等等响应正文

Response body:正文触发器,在html响应正文包含使用正则表达式的指定字符串时,它将扫描正文以查找指定此触发器的字符串用于捕获问题。


至于下面的两个请求的时间大于或者小于的规则,则是可以设置响应时间毫秒,例如禁止慢速ips或者快速的。

我们选择了任意一个触发器后,就需要选择一个action动作。


对于URL触发来说,action有以下几种方式:


举个例子:来设置一个规则去重试当一个新的IP状态是显示403

403又叫做错误代码,这意味着通道入口被拒绝,我们一般可以通过更换新的IP来解决这个问题。

要设置这个触发器,我们需要选择状态代码status code这个选项,状态代码选择403,下面的动作我们选择以一个新IP重试。而重试次数我们自己设置即可。



如果我们不想用同样类型的IP,那么我们可以选择以新的代理端口进行重试,这意味着我们可以选择其他类型的代理IP,从不同的端口发送同样的请求,以测试实现数据收集的最优成本。

当然,这里的新端口我们需要在Brightdata通道管理中提前开好,就可以选择了。



另外一个例子就是我们想要设置减少带宽的有效方法是使用正则表达式,通过选择列出的文件格式,它将从请求中删除选定的文件格式,并且响应会更轻



另外一个节省数据抓取的重要规则就是刚开始的时候我们选择使用数据中心IP.根据后期的一个反馈再考虑是否切换到住宅或者移动IP这种成本比较高的代理。这可以通过设置URL的触发器来实现,

选择触发器为URL,输入触发的url网址,然后选择动作是”选择一个新的端口重试“



以上就是我对代理管理器的一个大致的讲解以及设置方面的介绍。


那么很多人就问,这种代理IP具体在社交媒体中的用处是什么呢?

其实有很多方面,我们不仅可以使用代理IP收集数据,同样的我们也能用他们进行一些自动化的功能操作,当然这些还需要配一些第三方的功能软件才能很好的去使用,


社交媒体自动化简单举例


举个例子,我们使用Brightdata的静态住宅养facebook的账号,然后在此环境下,运行自动化和facebook好友群发信息的功能。例如群发广告等等,那么这样,极大地减少了人工操作的成本和时间。

就比如下面这个平台的,首先我们在我们搭建好的养号环境中,登录我们的账号,这个脚本会自动抓取在同浏览器已经登录的facebook的cookie进行登录。


第二步我们设置我们需要群发的信息,设置相关想要发送的东西

并且在上面批量上传我们需要群发的facebook用户的个人主页链接。


之后下一步就会开始运行,系统也会记录整个流程运行的问题,

那么可以看到,我最后运行失败,facebook账号跳了验证,就是因为这个整个过程我是直接在电脑上,并没有在一个纯净隔离的IP环境去登录这个账号,所以导致fb查到异常而封号。

这也是为什么我一直在强调代理IP的重要性。




咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部