AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

Brightdata代理IP创建、代理管理器规则配置&自动化简述指南

11312
2021-12-21 14:58
2021-12-21 14:58
11312


目录:

  • 什么是代理IP?

  • 为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

  • 代理如何配合网站抓取数据收集&自动化执行?

  • 我们需要多少代理IP来进行数据收集或自动化

  • 如何在Brightdata中创建设置代理IP?

  • 设置代理管理器Proxy Manager来统一分规则智能管理所有代理IP

  • Proxy Manager针对不同功能需求的规则设置指南

  • 社交媒体自动化简单举例


相关链接:

Brightdata官网&中文经理对接专属注册地址:

Brightdata官方注册&中文经理服务链接:https://bit.ly/3DM8bH1



什么是代理IP?

代理IP就是代理服务商提供给我们的IP地址,能够在我们访问目标网站时匿名我们的真实用户IP;同时,我们想要抓取某个站点时,他们也不会检测到我们的真实IP以做出封锁或者误导的举措。

当你对目标网站进行大规模数据爬取时,使用代理就可以匿名

一个优质的代理服务商不仅能够提供你需要的IP地址,还能提供一个综合的代理管理器,让你在没有任何代码的情况下也能有效的使用数据爬虫去进行抓取以及管理。

 

为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

3个核心原因:

  1. 隐藏本地真实使用IP

  2. 绕过地理封锁

  3. 有效控制在目标网站上的速率限制问题

这样的操作也有利于保护用户个人信息,并且保证数据抓取的真实程度,同时针对地理封锁,举个例子,或许在某些国家某些广告是侵权的,但是在其他国家正常,那么如果你用当地IP去收集数据,那么这些侵权广告将会被屏蔽,而如果你用其他地区的IP去抓取,这些广告又会展示出来。

另外一方面,如果你想在单个站点上抓取数千个网页,单纯只用一个或者少量IP发出过多的请求如果被网站检测到,那么他们就会采取限速或者是其他封锁的举动,所以为了防止这种情况的出现,我们需要使用Brightdata的代理管理器,运用大量的代理IP,设置一定的规则,将请求均匀的分配给这些代理代理IP,这样目标网站只能看到单个IP仅有少量的请求,从而避免被限制。


 

代理如何配合网站抓取收集&自动化执行?

大型的网站一般都会采取很多的方式监控并限制阻止抓取,所以如果我们需要在这些网站上抓取数据,那就必须以智取胜。

我们在实际操作中经常会遇到以下的情况:轮转代理IP(Proxy Rotation),应对被禁止Ban,节流会话(Throttling),会话管理(Session Management),减少带宽(Ruduce Bandwidth)、SSL可视化(SSL Decryption)、黑名单(Blacklisting)等等。

Brightdata的代理管理器(https://bit.ly/3DM8bH1)就能够完全覆盖这些问题,

  • 识别禁令(Identify Bans):能够检测出多种类型的禁令,排除故障并且修复潜在问题。例如捕获、重定向、封锁、隐藏、重复错误、超时等等,那么如果代理管理器遇到这些问题,就可以使用不同的代理IP进行重试请求。

  • 管理用户代理(UA):对于良性爬虫是至关重要的,用户代理能让目标网络识别出访问IP的使用设备、操作系统等,以响应不同的界面,例如PC端和手机端,就是不一样的。

  • 管理控制代理:有一些爬取项目需要在同一个代理下保持会话,那么我们就需要使用代理管理器配置代理以同意这个情况。

  • 增加延迟:随机的延迟以及良性节流能够有效掩盖正在数据抓取的行动。

  • 地理位置定位:有些时候我们需要设定某些特定地理位置的代理IP去访问网站

  • 多种类型的线路:通过使用不同类型的代理IP发送请求,自定义规则以获得最具性价比的数据结果。

  • 减小带宽:使用代理管理器像正则表达式或者自定义规则以减少带宽流量的产出。

 


我们需要多少代理IP来进行数据收集或自动化?

代理池的大小取决于很多的因素,我们主要考量以下方面:

1.首先计算每小时预计发出的请求数量,通常每个小时每个代理发送500个请求左右不太容易引起注意。

2.根据目标网站来进行考量,越大的网站会有更多的反机器人措施,所以我们需要更大的代理池

3.根据你需求的代理类型来考量(数据中心、动态住宅、静态住宅、移动IP)

4.根据你项目的复杂性来考量具体代理池的大小,例如代理轮转,减小带宽等等,这些因素对代理池的质量和有效性都有很大的影响

 

 

如何在Brightdata中创建设置代理IP?


进入Brightdata(https://bit.ly/3DM8bH1):在侧边栏中找到代理通道,点击页面中的创建通道。



进入页面,如果我们是养号,那么直接选择静态住宅IP即可,如果是数据抓取,那么就根据我们的数据需求来选择相应适合的代理。

最新的是右上方可以输入你想要爬取的网站域名,系统会给你推荐适合的,不过一般我们自行选取即可。

一般如果网站阻止或者封锁后,我们就需要选择Web Unlocker亮网络解锁器,常规来说网络解锁器用的也是住宅IP,同时解锁率能够达到100%。


使用网络解锁器的优势在于:

能够解决验证码的问题

能够捕获处理标记的变化

自动重试


那么接下来我们就需要进一步设置,通道名称这个时候可以直接设置成域名,这样便于分辨;

另外独享的IP组意味着你创建这个通道后能够获得一组专属于你的IPS供你一个人使用,这其中的所有IPs都没有任何人使用过在你的目标网站。

最后选择授权是否需要定位到更加细化的地理位置等,最后点击创建通道,zone创建成功。

zone创建后,我们需要使用代理管理器来创建端口以及设置代理管理器的规则。

 

设置代理管理器LPM来统一分规则智能管理所有的代理IP


代理管理器很多很好的功能:

  • 例如整个流量日志的实时预览;

  • 用于分割贷款流量的统计规则以及可以自动重试失败请求的成本优化规则;

  • 调整header和ssl指纹的方法;

  • 代理轮转以及会话管理等等;



当然,如果本地安装代理管理器觉得速度慢,占用空间。也可以使用Brightdata提供的云代理管理器或者将代理管理器配置与vps里。

Win和Mac、Linux的安装方式不一样,win直接下载安装包即可,而mac则需要跟随向导进行安装,







有关于mac的安装方法我着重讲一下:

1.在Mac上打开“Terminal”



2.我们输入

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

或者

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

这两个安装脚本中的一个,即可,如果两个都不行,那么只能手动安装,





大概需要花费10分钟的时间运行后,我们复制中间的URL到浏览器中,进行代理管理器后台的登录


然后我们需要为刚刚创建的通道创建一个新的端口,点击右上角的Add New Port

端口指的是电脑上特定虚拟位置的数字,然后我们在通道的地方选择我们刚刚创建的那个zone。然后一路点继续,这个端口就创建成功了。


我们点击创建好的post,进入设置页面,选择定位,我们可以自行设置国家、州、省等



然后我们来到IP control这个选项中,找到DNS lookup,这里有两种选项,一个是“Local(dafault)-resolved by super proxy”,这个选项会让我们的本地速度加快,更适合于养号的时候开启;

那如果我们现在要进行的是数据收集,就选择“Remote-resolved by peer”,这个选项会让我们有更高的匿名性

我们还会把Session Terminaation这个选项打开,如果不能打开,先到设置里讲SSL Analyzing打开,这样做的意义在于当这个IP无效时,就会停止发送重试请求,这对于社交媒体账号是非常重要的,因为在登录社交媒体账号的过程中更改IP对于账号来说是非常不利的。


我们可以看到代理池大小和轮转ips都是被禁止的状态,而且我们也点不动,这是因为我们上面预设选择的是“Long Single session(IP)(default)”长单一会话模式,这种模式最适合的就是社交媒体或者是自动化会话,因为在会话期更换IP会容易跳验证或者是被检测到异常。





如果你需要轮转IP,那么就选择第二个选项“Rotating(IPs)”,这样的话你就能打开下面的滑块了,并且设置IP池的大小。


在这情况下,你可以在不登录的状态下抓取社交媒体账号或者是电子商务网站的数据。

那么我们在对于社交媒体账号相关的时候,一般还是选择长单一会话模式

接下来我们来看看


Proxy Manager针对不同功能需求的规则设置指南





URL:指的是在特定的url触发,当你想从数据中心切换到住宅或者移动IP时可以使用这个触发器(特定url触发行为)

Status code:在请求响应的特定页面上的url状态代码,就像你可以选择200/403/404/500等等响应正文

Response body:正文触发器,在html响应正文包含使用正则表达式的指定字符串时,它将扫描正文以查找指定此触发器的字符串用于捕获问题。


至于下面的两个请求的时间大于或者小于的规则,则是可以设置响应时间毫秒,例如禁止慢速ips或者快速的。

我们选择了任意一个触发器后,就需要选择一个action动作。


对于URL触发来说,action有以下几种方式:


举个例子:来设置一个规则去重试当一个新的IP状态是显示403

403又叫做错误代码,这意味着通道入口被拒绝,我们一般可以通过更换新的IP来解决这个问题。

要设置这个触发器,我们需要选择状态代码status code这个选项,状态代码选择403,下面的动作我们选择以一个新IP重试。而重试次数我们自己设置即可。



如果我们不想用同样类型的IP,那么我们可以选择以新的代理端口进行重试,这意味着我们可以选择其他类型的代理IP,从不同的端口发送同样的请求,以测试实现数据收集的最优成本。

当然,这里的新端口我们需要在Brightdata通道管理中提前开好,就可以选择了。



另外一个例子就是我们想要设置减少带宽的有效方法是使用正则表达式,通过选择列出的文件格式,它将从请求中删除选定的文件格式,并且响应会更轻



另外一个节省数据抓取的重要规则就是刚开始的时候我们选择使用数据中心IP.根据后期的一个反馈再考虑是否切换到住宅或者移动IP这种成本比较高的代理。这可以通过设置URL的触发器来实现,

选择触发器为URL,输入触发的url网址,然后选择动作是”选择一个新的端口重试“



以上就是我对代理管理器的一个大致的讲解以及设置方面的介绍。


那么很多人就问,这种代理IP具体在社交媒体中的用处是什么呢?

其实有很多方面,我们不仅可以使用代理IP收集数据,同样的我们也能用他们进行一些自动化的功能操作,当然这些还需要配一些第三方的功能软件才能很好的去使用,


社交媒体自动化简单举例


举个例子,我们使用Brightdata的静态住宅养facebook的账号,然后在此环境下,运行自动化和facebook好友群发信息的功能。例如群发广告等等,那么这样,极大地减少了人工操作的成本和时间。

就比如下面这个平台的,首先我们在我们搭建好的养号环境中,登录我们的账号,这个脚本会自动抓取在同浏览器已经登录的facebook的cookie进行登录。


第二步我们设置我们需要群发的信息,设置相关想要发送的东西

并且在上面批量上传我们需要群发的facebook用户的个人主页链接。


之后下一步就会开始运行,系统也会记录整个流程运行的问题,

那么可以看到,我最后运行失败,facebook账号跳了验证,就是因为这个整个过程我是直接在电脑上,并没有在一个纯净隔离的IP环境去登录这个账号,所以导致fb查到异常而封号。

这也是为什么我一直在强调代理IP的重要性。




免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
26年澳洲情人节支出将达5.5亿澳元,消费意愿下降
AMZ123获悉,近日,根据澳大利亚零售协会(ARC)和Roy Morgan的最新调查,澳大利亚情人节的消费意愿出现明显下降,越来越多消费者在成本压力下减少对非必需品的支出,但参与者的平均支出仍保持稳定。调查显示,成本上涨正在持续影响家庭的可支配支出,许多家庭对非必需开支更加谨慎。今年仅有12%的澳大利亚成年人计划庆祝情人节,约为300万人,比去年下降4个百分点。与去年相比,计划为伴侣购买礼物的人数减少约80万人,主要原因是生活成本压力持续影响可自由支配支出。尽管参与人数下降,但澳大利亚情人节支出预计达到5.5亿澳元,较去年增长2.8%,人均支出约为152澳元。
Seedance2.0刷屏全网,TikTok卖家:红利来了!
字节正式发布Seedance2.0,TikTok卖家已经用上赚钱了!
月销数十万!这10个小众产品爆单亚马逊
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1.修复眼罩预计销售额:50万美元/月销量:5000+星级评分:4.3好评数量:8,505+图源:亚马逊产品介绍:该修复眼罩主要是专为眼部抗衰老与焕亮设计,通过缓释视黄醇成分有效减少细纹、改善皮肤饱满度,并针对性缓解黑眼圈与浮肿问题。产品采用融合海藻提取物、神经酰胺及脂肪酸的复合配方,能在夜间修复阶段滋养娇嫩眼周肌肤。适用于熬夜、疲劳或重要场合前的密集护理,亦可作为礼品。品牌介绍:Grace & Stella是一家成立于2016年的品牌,以“创造美好时刻”为核心理念,致力于通过日常护理提升生活品质。
Jumia 25财年营收1.9亿美元,同比增长13%
AMZ123获悉,近日,非洲电商平台Jumia发布了截至2025年12月31日的全年及第四季度财报。Jumia在2025年实现了GMV和收入增长,预计2026年有望保持强劲增长。以下为Q4财务亮点:①营收为6140万美元,同比2024年第四季度的4570万美元增长34%,按固定汇率计算增长24%。②GMV为2.795亿美元,同比2024年第四季度的2.061亿美元增长36%,按固定汇率计算增长23%。剔除南非和突尼斯市场,实物商品GMV同比增长38%。③运营亏损为1060万美元,同比2024年第四季度的1730万美元下降39%,按固定汇率计算下降22%。
血亏500万,跨境“黄金搭档”正式散伙
这两天,跨境圈又冒出一条不太体面的公告。不是封号,不是裁员,而是一场曾被寄予厚望的上市公司级合作,正式宣告失败。1月23日,浙江永强发布公告,确认与跨境大卖傲基股份中止跨境电商合作。双方通过互相转让子公司股权,彻底清空交叉持股关系。一句话概括这段合作的结局:故事很完整,结果很现实。图源网络,侵删01从制造+跨境的理想模版,到体面分手时间回到2023年11月。当时的傲基,已经完成从3C铺货向家居、家具赛道的转型;而浙江永强,作为国内户外家具龙头,正寻找新的增长出口。
暴涨94%!25年TikTok Shop全球GMV达643亿美元
AMZ123获悉,近日,据Momentum的最新报告显示,2025年,美国仍是TikTokShop最大的市场,GMV达到151亿美元,同比增长68%,高于2024年的90亿美元。尽管增速不及2024年爆发式增长,但仍显示出强劲扩张势头,反映出TikTok Shop正在从初期试验阶段向系统化运营阶段过渡。全球范围内,TikTok Shop在16个市场的总GMV达到643亿美元,同比大幅增长94%。其中,东南亚市场依然是主要增长引擎,2025年东南亚地区GMV同比增长一倍,达到456亿美元。马来西亚、印尼和泰国的增长最为突出,其中印尼市场达到131亿美元,成为TikTok Shop全球第二大市场。
新一轮物流危机来袭,大批跨境货物滞留港口!
腊月尾声,年味渐浓,状况频出的物流难题却成为了横亘在卖家面前的一头“年兽”。随着全国主要港口拥堵、陆路运费疯涨的事态持续升温,物流延误焦虑正在跨境电商行业蔓延。AMZ123了解到,春节前夕历来是跨境电商的出货高峰期——在国外不停卖、国内要放假、物流时效长、怕平台断货等多重因素的叠加影响下,大批卖家通常会抢在节前集中把货物发出。但在今年,这一出货高峰期带来的连锁效应格外汹涌。据物流人士透露,2026年2月,上海、宁波、盐田、南沙等主要港口都进入了超负荷运行状态,出现严重爆仓、收箱收紧等情况,导致大量卖家货物堆积在码头,面临甩柜率高企的风险。
月销百万美金!亚马逊10款高复购+高评分产品推荐
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1. 智能戒指预计销售额:819万美元/月销量:32,050+星级评分:4.1好评数量:8,284+图源:亚马逊产品介绍:该智能戒指通过内置传感器持续监测用户的睡眠、活动、心率、体温变化等多项健康数据,并通过手机应用进行整合分析。产品采用全钛金属结构,支持全天候佩戴,具备防水性能和较长续航时间。相比传统可穿戴设备,其无屏幕设计降低了使用干扰,更侧重长期健康数据的连续采集与趋势分析。品牌介绍:Oura 是一家成立于 2013 年的芬兰健康科技公司,以智能戒指作为核心产品,聚焦睡眠与身体恢复管理。
月销数十万!这10个小众产品爆单亚马逊
AMZ123获悉,近日,亚马逊各类产品搜索量增长显著,以下10款产品在亚马逊上销量表现突出,深受消费者欢迎。1.修复眼罩预计销售额:50万美元/月销量:5000+星级评分:4.3好评数量:8,505+图源:亚马逊产品介绍:该修复眼罩主要是专为眼部抗衰老与焕亮设计,通过缓释视黄醇成分有效减少细纹、改善皮肤饱满度,并针对性缓解黑眼圈与浮肿问题。产品采用融合海藻提取物、神经酰胺及脂肪酸的复合配方,能在夜间修复阶段滋养娇嫩眼周肌肤。适用于熬夜、疲劳或重要场合前的密集护理,亦可作为礼品。品牌介绍:Grace & Stella是一家成立于2016年的品牌,以“创造美好时刻”为核心理念,致力于通过日常护理提升生活品质。
新一轮物流危机来袭,大批跨境货物滞留港口!
腊月尾声,年味渐浓,状况频出的物流难题却成为了横亘在卖家面前的一头“年兽”。随着全国主要港口拥堵、陆路运费疯涨的事态持续升温,物流延误焦虑正在跨境电商行业蔓延。AMZ123了解到,春节前夕历来是跨境电商的出货高峰期——在国外不停卖、国内要放假、物流时效长、怕平台断货等多重因素的叠加影响下,大批卖家通常会抢在节前集中把货物发出。但在今年,这一出货高峰期带来的连锁效应格外汹涌。据物流人士透露,2026年2月,上海、宁波、盐田、南沙等主要港口都进入了超负荷运行状态,出现严重爆仓、收箱收紧等情况,导致大量卖家货物堆积在码头,面临甩柜率高企的风险。
Seedance2.0刷屏全网,TikTok卖家:红利来了!
字节正式发布Seedance2.0,TikTok卖家已经用上赚钱了!
暴涨94%!25年TikTok Shop全球GMV达643亿美元
AMZ123获悉,近日,据Momentum的最新报告显示,2025年,美国仍是TikTokShop最大的市场,GMV达到151亿美元,同比增长68%,高于2024年的90亿美元。尽管增速不及2024年爆发式增长,但仍显示出强劲扩张势头,反映出TikTok Shop正在从初期试验阶段向系统化运营阶段过渡。全球范围内,TikTok Shop在16个市场的总GMV达到643亿美元,同比大幅增长94%。其中,东南亚市场依然是主要增长引擎,2025年东南亚地区GMV同比增长一倍,达到456亿美元。马来西亚、印尼和泰国的增长最为突出,其中印尼市场达到131亿美元,成为TikTok Shop全球第二大市场。
血亏500万,跨境“黄金搭档”正式散伙
这两天,跨境圈又冒出一条不太体面的公告。不是封号,不是裁员,而是一场曾被寄予厚望的上市公司级合作,正式宣告失败。1月23日,浙江永强发布公告,确认与跨境大卖傲基股份中止跨境电商合作。双方通过互相转让子公司股权,彻底清空交叉持股关系。一句话概括这段合作的结局:故事很完整,结果很现实。图源网络,侵删01从制造+跨境的理想模版,到体面分手时间回到2023年11月。当时的傲基,已经完成从3C铺货向家居、家具赛道的转型;而浙江永强,作为国内户外家具龙头,正寻找新的增长出口。
AMZ123会员专享丨2月第2周资讯汇总
亚马逊亚马逊巴西宣布下调物流费用,并扩大FBA服务的覆盖范围,以进一步降低卖家使用门槛,吸引更多中小卖家参与。Marketplacepulse的数据显示,2025年亚马逊平台商品交易总额(GMV)已超过8000亿美元,达到约8300亿美元。据外媒报道,亚马逊在上一财年利润同比增长45%,达到近900亿美元,但是其应纳税额从前一年的90亿美元降至12亿美元。据外媒报道,亚马逊持有的人工智能初创公司Anthropic的股权价值已攀升至606亿美元。这笔巨额资产主要由价值458亿美元的可转换债券与148亿美元的无投票权优先股构成。
26年澳洲情人节支出将达5.5亿澳元,消费意愿下降
AMZ123获悉,近日,根据澳大利亚零售协会(ARC)和Roy Morgan的最新调查,澳大利亚情人节的消费意愿出现明显下降,越来越多消费者在成本压力下减少对非必需品的支出,但参与者的平均支出仍保持稳定。调查显示,成本上涨正在持续影响家庭的可支配支出,许多家庭对非必需开支更加谨慎。今年仅有12%的澳大利亚成年人计划庆祝情人节,约为300万人,比去年下降4个百分点。与去年相比,计划为伴侣购买礼物的人数减少约80万人,主要原因是生活成本压力持续影响可自由支配支出。尽管参与人数下降,但澳大利亚情人节支出预计达到5.5亿澳元,较去年增长2.8%,人均支出约为152澳元。
《中企出海美国季度研究报告》PDF下载
近年来,随着全球化进程的深化与中国经济实力的持续提升,越来越多的中国企业将目光投向海外市场。美国作为全球最大经济体创新高地和消费市场,始终是中企出海战略中的关键目标。从制造业到科技领域,从消费品到金融服务,中国企业的国际化步伐不断加快,既彰显了“中国智造”的全球竞争力,也面临复杂的政策环境、文化差异与市场竞争等挑战。
《跨境蓝海拉美市场洞察 - 墨西哥篇》PDF下载
墨西哥位于北美大陆南部,北邻美国,政局稳定,法律健全,是拉丁美洲地区第一贸易大国和重要的外国直接投资目的地。墨西哥拥有 1.28亿人口,是仅次于巴西的拉美第二大经济体,同时也是拉美第三大线上零售市场,无论是互联网的普及率还是使用率在拉美市场都处于佼佼者。
《东南亚出海合规实操指南手册》PDF下载
近年来,东南亚电商市场以迅猛的增长态势成为全球贸易的新蓝海,印尼马来西亚、新加坡等六国凭借庞大的人口基数、持续提升的互联网渗透率吸引着无数中国卖家前来布局。
《2025中国新能源汽车产业链出海洞察报告 - 匈牙利篇》PDF下载
中国汽车市场新能源汽车渗透率已达50%,各主机厂纷纷开启价格战,让利消费者,并承担相应的利润损失,在中国新能源汽车市场逐渐成为红海的的大背景下,海逐渐成为各主机厂主动或被动的选择。
《2024哥伦比亚电商市场概览报告》PDF下载
哥伦比亚位于南美洲西北部,是拉丁美洲第三大国家,北部是加勒比海,东部与委内瑞拉接壤,东南方是巴西,南方是秘鲁和厄瓜多尔,西部是巴拿马和太平洋。

《2026独立站卖家日历》PDF下载
2026 独立站卖家日历 2026 全年营销节奏
《2025中东北非消费者数字经济报告》PDF下载
2025年的报告不仅持续跟踪数字经济的同比增长,也更深入:我们探讨了新兴技术对下一波数字化转型的影响力,还首次将中东北非国家及地区的消费者行为偏好与全球其他市场进行对比。
《2025年终大促旺季AI消费趋势报告》PDF下载
随着人工智能 AI的爆发式增长,如 ChatGPT、Perplexity 和Llama等交互式聊天机器人正在渐渐成为大众研究和推荐的首选工具。根据 AI智能体功能的更新迭代,目前已经可以完成网购下单、预订服务、及交易支付,现已被统称为 AI智能体电商Agentic Commerce,且其采用率正呈现出滚雪球式的增长。
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
AMZ123选品观察员
选品推荐及选品技巧分享。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
跨境学院
跨境电商大小事,尽在跨境学院。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
首页
跨境头条
文章详情
Brightdata代理IP创建、代理管理器规则配置&自动化简述指南
花虞HY聊跨境电商
2021-12-21 14:58
11312


目录:

  • 什么是代理IP?

  • 为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

  • 代理如何配合网站抓取数据收集&自动化执行?

  • 我们需要多少代理IP来进行数据收集或自动化

  • 如何在Brightdata中创建设置代理IP?

  • 设置代理管理器Proxy Manager来统一分规则智能管理所有代理IP

  • Proxy Manager针对不同功能需求的规则设置指南

  • 社交媒体自动化简单举例


相关链接:

Brightdata官网&中文经理对接专属注册地址:

Brightdata官方注册&中文经理服务链接:https://bit.ly/3DM8bH1



什么是代理IP?

代理IP就是代理服务商提供给我们的IP地址,能够在我们访问目标网站时匿名我们的真实用户IP;同时,我们想要抓取某个站点时,他们也不会检测到我们的真实IP以做出封锁或者误导的举措。

当你对目标网站进行大规模数据爬取时,使用代理就可以匿名

一个优质的代理服务商不仅能够提供你需要的IP地址,还能提供一个综合的代理管理器,让你在没有任何代码的情况下也能有效的使用数据爬虫去进行抓取以及管理。

 

为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

3个核心原因:

  1. 隐藏本地真实使用IP

  2. 绕过地理封锁

  3. 有效控制在目标网站上的速率限制问题

这样的操作也有利于保护用户个人信息,并且保证数据抓取的真实程度,同时针对地理封锁,举个例子,或许在某些国家某些广告是侵权的,但是在其他国家正常,那么如果你用当地IP去收集数据,那么这些侵权广告将会被屏蔽,而如果你用其他地区的IP去抓取,这些广告又会展示出来。

另外一方面,如果你想在单个站点上抓取数千个网页,单纯只用一个或者少量IP发出过多的请求如果被网站检测到,那么他们就会采取限速或者是其他封锁的举动,所以为了防止这种情况的出现,我们需要使用Brightdata的代理管理器,运用大量的代理IP,设置一定的规则,将请求均匀的分配给这些代理代理IP,这样目标网站只能看到单个IP仅有少量的请求,从而避免被限制。


 

代理如何配合网站抓取收集&自动化执行?

大型的网站一般都会采取很多的方式监控并限制阻止抓取,所以如果我们需要在这些网站上抓取数据,那就必须以智取胜。

我们在实际操作中经常会遇到以下的情况:轮转代理IP(Proxy Rotation),应对被禁止Ban,节流会话(Throttling),会话管理(Session Management),减少带宽(Ruduce Bandwidth)、SSL可视化(SSL Decryption)、黑名单(Blacklisting)等等。

Brightdata的代理管理器(https://bit.ly/3DM8bH1)就能够完全覆盖这些问题,

  • 识别禁令(Identify Bans):能够检测出多种类型的禁令,排除故障并且修复潜在问题。例如捕获、重定向、封锁、隐藏、重复错误、超时等等,那么如果代理管理器遇到这些问题,就可以使用不同的代理IP进行重试请求。

  • 管理用户代理(UA):对于良性爬虫是至关重要的,用户代理能让目标网络识别出访问IP的使用设备、操作系统等,以响应不同的界面,例如PC端和手机端,就是不一样的。

  • 管理控制代理:有一些爬取项目需要在同一个代理下保持会话,那么我们就需要使用代理管理器配置代理以同意这个情况。

  • 增加延迟:随机的延迟以及良性节流能够有效掩盖正在数据抓取的行动。

  • 地理位置定位:有些时候我们需要设定某些特定地理位置的代理IP去访问网站

  • 多种类型的线路:通过使用不同类型的代理IP发送请求,自定义规则以获得最具性价比的数据结果。

  • 减小带宽:使用代理管理器像正则表达式或者自定义规则以减少带宽流量的产出。

 


我们需要多少代理IP来进行数据收集或自动化?

代理池的大小取决于很多的因素,我们主要考量以下方面:

1.首先计算每小时预计发出的请求数量,通常每个小时每个代理发送500个请求左右不太容易引起注意。

2.根据目标网站来进行考量,越大的网站会有更多的反机器人措施,所以我们需要更大的代理池

3.根据你需求的代理类型来考量(数据中心、动态住宅、静态住宅、移动IP)

4.根据你项目的复杂性来考量具体代理池的大小,例如代理轮转,减小带宽等等,这些因素对代理池的质量和有效性都有很大的影响

 

 

如何在Brightdata中创建设置代理IP?


进入Brightdata(https://bit.ly/3DM8bH1):在侧边栏中找到代理通道,点击页面中的创建通道。



进入页面,如果我们是养号,那么直接选择静态住宅IP即可,如果是数据抓取,那么就根据我们的数据需求来选择相应适合的代理。

最新的是右上方可以输入你想要爬取的网站域名,系统会给你推荐适合的,不过一般我们自行选取即可。

一般如果网站阻止或者封锁后,我们就需要选择Web Unlocker亮网络解锁器,常规来说网络解锁器用的也是住宅IP,同时解锁率能够达到100%。


使用网络解锁器的优势在于:

能够解决验证码的问题

能够捕获处理标记的变化

自动重试


那么接下来我们就需要进一步设置,通道名称这个时候可以直接设置成域名,这样便于分辨;

另外独享的IP组意味着你创建这个通道后能够获得一组专属于你的IPS供你一个人使用,这其中的所有IPs都没有任何人使用过在你的目标网站。

最后选择授权是否需要定位到更加细化的地理位置等,最后点击创建通道,zone创建成功。

zone创建后,我们需要使用代理管理器来创建端口以及设置代理管理器的规则。

 

设置代理管理器LPM来统一分规则智能管理所有的代理IP


代理管理器很多很好的功能:

  • 例如整个流量日志的实时预览;

  • 用于分割贷款流量的统计规则以及可以自动重试失败请求的成本优化规则;

  • 调整header和ssl指纹的方法;

  • 代理轮转以及会话管理等等;



当然,如果本地安装代理管理器觉得速度慢,占用空间。也可以使用Brightdata提供的云代理管理器或者将代理管理器配置与vps里。

Win和Mac、Linux的安装方式不一样,win直接下载安装包即可,而mac则需要跟随向导进行安装,







有关于mac的安装方法我着重讲一下:

1.在Mac上打开“Terminal”



2.我们输入

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

或者

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

这两个安装脚本中的一个,即可,如果两个都不行,那么只能手动安装,





大概需要花费10分钟的时间运行后,我们复制中间的URL到浏览器中,进行代理管理器后台的登录


然后我们需要为刚刚创建的通道创建一个新的端口,点击右上角的Add New Port

端口指的是电脑上特定虚拟位置的数字,然后我们在通道的地方选择我们刚刚创建的那个zone。然后一路点继续,这个端口就创建成功了。


我们点击创建好的post,进入设置页面,选择定位,我们可以自行设置国家、州、省等



然后我们来到IP control这个选项中,找到DNS lookup,这里有两种选项,一个是“Local(dafault)-resolved by super proxy”,这个选项会让我们的本地速度加快,更适合于养号的时候开启;

那如果我们现在要进行的是数据收集,就选择“Remote-resolved by peer”,这个选项会让我们有更高的匿名性

我们还会把Session Terminaation这个选项打开,如果不能打开,先到设置里讲SSL Analyzing打开,这样做的意义在于当这个IP无效时,就会停止发送重试请求,这对于社交媒体账号是非常重要的,因为在登录社交媒体账号的过程中更改IP对于账号来说是非常不利的。


我们可以看到代理池大小和轮转ips都是被禁止的状态,而且我们也点不动,这是因为我们上面预设选择的是“Long Single session(IP)(default)”长单一会话模式,这种模式最适合的就是社交媒体或者是自动化会话,因为在会话期更换IP会容易跳验证或者是被检测到异常。





如果你需要轮转IP,那么就选择第二个选项“Rotating(IPs)”,这样的话你就能打开下面的滑块了,并且设置IP池的大小。


在这情况下,你可以在不登录的状态下抓取社交媒体账号或者是电子商务网站的数据。

那么我们在对于社交媒体账号相关的时候,一般还是选择长单一会话模式

接下来我们来看看


Proxy Manager针对不同功能需求的规则设置指南





URL:指的是在特定的url触发,当你想从数据中心切换到住宅或者移动IP时可以使用这个触发器(特定url触发行为)

Status code:在请求响应的特定页面上的url状态代码,就像你可以选择200/403/404/500等等响应正文

Response body:正文触发器,在html响应正文包含使用正则表达式的指定字符串时,它将扫描正文以查找指定此触发器的字符串用于捕获问题。


至于下面的两个请求的时间大于或者小于的规则,则是可以设置响应时间毫秒,例如禁止慢速ips或者快速的。

我们选择了任意一个触发器后,就需要选择一个action动作。


对于URL触发来说,action有以下几种方式:


举个例子:来设置一个规则去重试当一个新的IP状态是显示403

403又叫做错误代码,这意味着通道入口被拒绝,我们一般可以通过更换新的IP来解决这个问题。

要设置这个触发器,我们需要选择状态代码status code这个选项,状态代码选择403,下面的动作我们选择以一个新IP重试。而重试次数我们自己设置即可。



如果我们不想用同样类型的IP,那么我们可以选择以新的代理端口进行重试,这意味着我们可以选择其他类型的代理IP,从不同的端口发送同样的请求,以测试实现数据收集的最优成本。

当然,这里的新端口我们需要在Brightdata通道管理中提前开好,就可以选择了。



另外一个例子就是我们想要设置减少带宽的有效方法是使用正则表达式,通过选择列出的文件格式,它将从请求中删除选定的文件格式,并且响应会更轻



另外一个节省数据抓取的重要规则就是刚开始的时候我们选择使用数据中心IP.根据后期的一个反馈再考虑是否切换到住宅或者移动IP这种成本比较高的代理。这可以通过设置URL的触发器来实现,

选择触发器为URL,输入触发的url网址,然后选择动作是”选择一个新的端口重试“



以上就是我对代理管理器的一个大致的讲解以及设置方面的介绍。


那么很多人就问,这种代理IP具体在社交媒体中的用处是什么呢?

其实有很多方面,我们不仅可以使用代理IP收集数据,同样的我们也能用他们进行一些自动化的功能操作,当然这些还需要配一些第三方的功能软件才能很好的去使用,


社交媒体自动化简单举例


举个例子,我们使用Brightdata的静态住宅养facebook的账号,然后在此环境下,运行自动化和facebook好友群发信息的功能。例如群发广告等等,那么这样,极大地减少了人工操作的成本和时间。

就比如下面这个平台的,首先我们在我们搭建好的养号环境中,登录我们的账号,这个脚本会自动抓取在同浏览器已经登录的facebook的cookie进行登录。


第二步我们设置我们需要群发的信息,设置相关想要发送的东西

并且在上面批量上传我们需要群发的facebook用户的个人主页链接。


之后下一步就会开始运行,系统也会记录整个流程运行的问题,

那么可以看到,我最后运行失败,facebook账号跳了验证,就是因为这个整个过程我是直接在电脑上,并没有在一个纯净隔离的IP环境去登录这个账号,所以导致fb查到异常而封号。

这也是为什么我一直在强调代理IP的重要性。




咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部