AMZ123跨境卖家导航
拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条文章详情

Brightdata代理IP创建、代理管理器规则配置&自动化简述指南

10786
2021-12-21 14:58
2021-12-21 14:58
10786


目录:

  • 什么是代理IP?

  • 为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

  • 代理如何配合网站抓取数据收集&自动化执行?

  • 我们需要多少代理IP来进行数据收集或自动化

  • 如何在Brightdata中创建设置代理IP?

  • 设置代理管理器Proxy Manager来统一分规则智能管理所有代理IP

  • Proxy Manager针对不同功能需求的规则设置指南

  • 社交媒体自动化简单举例


相关链接:

Brightdata官网&中文经理对接专属注册地址:

Brightdata官方注册&中文经理服务链接:https://bit.ly/3DM8bH1



什么是代理IP?

代理IP就是代理服务商提供给我们的IP地址,能够在我们访问目标网站时匿名我们的真实用户IP;同时,我们想要抓取某个站点时,他们也不会检测到我们的真实IP以做出封锁或者误导的举措。

当你对目标网站进行大规模数据爬取时,使用代理就可以匿名

一个优质的代理服务商不仅能够提供你需要的IP地址,还能提供一个综合的代理管理器,让你在没有任何代码的情况下也能有效的使用数据爬虫去进行抓取以及管理。

 

为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

3个核心原因:

  1. 隐藏本地真实使用IP

  2. 绕过地理封锁

  3. 有效控制在目标网站上的速率限制问题

这样的操作也有利于保护用户个人信息,并且保证数据抓取的真实程度,同时针对地理封锁,举个例子,或许在某些国家某些广告是侵权的,但是在其他国家正常,那么如果你用当地IP去收集数据,那么这些侵权广告将会被屏蔽,而如果你用其他地区的IP去抓取,这些广告又会展示出来。

另外一方面,如果你想在单个站点上抓取数千个网页,单纯只用一个或者少量IP发出过多的请求如果被网站检测到,那么他们就会采取限速或者是其他封锁的举动,所以为了防止这种情况的出现,我们需要使用Brightdata的代理管理器,运用大量的代理IP,设置一定的规则,将请求均匀的分配给这些代理代理IP,这样目标网站只能看到单个IP仅有少量的请求,从而避免被限制。


 

代理如何配合网站抓取收集&自动化执行?

大型的网站一般都会采取很多的方式监控并限制阻止抓取,所以如果我们需要在这些网站上抓取数据,那就必须以智取胜。

我们在实际操作中经常会遇到以下的情况:轮转代理IP(Proxy Rotation),应对被禁止Ban,节流会话(Throttling),会话管理(Session Management),减少带宽(Ruduce Bandwidth)、SSL可视化(SSL Decryption)、黑名单(Blacklisting)等等。

Brightdata的代理管理器(https://bit.ly/3DM8bH1)就能够完全覆盖这些问题,

  • 识别禁令(Identify Bans):能够检测出多种类型的禁令,排除故障并且修复潜在问题。例如捕获、重定向、封锁、隐藏、重复错误、超时等等,那么如果代理管理器遇到这些问题,就可以使用不同的代理IP进行重试请求。

  • 管理用户代理(UA):对于良性爬虫是至关重要的,用户代理能让目标网络识别出访问IP的使用设备、操作系统等,以响应不同的界面,例如PC端和手机端,就是不一样的。

  • 管理控制代理:有一些爬取项目需要在同一个代理下保持会话,那么我们就需要使用代理管理器配置代理以同意这个情况。

  • 增加延迟:随机的延迟以及良性节流能够有效掩盖正在数据抓取的行动。

  • 地理位置定位:有些时候我们需要设定某些特定地理位置的代理IP去访问网站

  • 多种类型的线路:通过使用不同类型的代理IP发送请求,自定义规则以获得最具性价比的数据结果。

  • 减小带宽:使用代理管理器像正则表达式或者自定义规则以减少带宽流量的产出。

 


我们需要多少代理IP来进行数据收集或自动化?

代理池的大小取决于很多的因素,我们主要考量以下方面:

1.首先计算每小时预计发出的请求数量,通常每个小时每个代理发送500个请求左右不太容易引起注意。

2.根据目标网站来进行考量,越大的网站会有更多的反机器人措施,所以我们需要更大的代理池

3.根据你需求的代理类型来考量(数据中心、动态住宅、静态住宅、移动IP)

4.根据你项目的复杂性来考量具体代理池的大小,例如代理轮转,减小带宽等等,这些因素对代理池的质量和有效性都有很大的影响

 

 

如何在Brightdata中创建设置代理IP?


进入Brightdata(https://bit.ly/3DM8bH1):在侧边栏中找到代理通道,点击页面中的创建通道。



进入页面,如果我们是养号,那么直接选择静态住宅IP即可,如果是数据抓取,那么就根据我们的数据需求来选择相应适合的代理。

最新的是右上方可以输入你想要爬取的网站域名,系统会给你推荐适合的,不过一般我们自行选取即可。

一般如果网站阻止或者封锁后,我们就需要选择Web Unlocker亮网络解锁器,常规来说网络解锁器用的也是住宅IP,同时解锁率能够达到100%。


使用网络解锁器的优势在于:

能够解决验证码的问题

能够捕获处理标记的变化

自动重试


那么接下来我们就需要进一步设置,通道名称这个时候可以直接设置成域名,这样便于分辨;

另外独享的IP组意味着你创建这个通道后能够获得一组专属于你的IPS供你一个人使用,这其中的所有IPs都没有任何人使用过在你的目标网站。

最后选择授权是否需要定位到更加细化的地理位置等,最后点击创建通道,zone创建成功。

zone创建后,我们需要使用代理管理器来创建端口以及设置代理管理器的规则。

 

设置代理管理器LPM来统一分规则智能管理所有的代理IP


代理管理器很多很好的功能:

  • 例如整个流量日志的实时预览;

  • 用于分割贷款流量的统计规则以及可以自动重试失败请求的成本优化规则;

  • 调整header和ssl指纹的方法;

  • 代理轮转以及会话管理等等;



当然,如果本地安装代理管理器觉得速度慢,占用空间。也可以使用Brightdata提供的云代理管理器或者将代理管理器配置与vps里。

Win和Mac、Linux的安装方式不一样,win直接下载安装包即可,而mac则需要跟随向导进行安装,







有关于mac的安装方法我着重讲一下:

1.在Mac上打开“Terminal”



2.我们输入

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

或者

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

这两个安装脚本中的一个,即可,如果两个都不行,那么只能手动安装,





大概需要花费10分钟的时间运行后,我们复制中间的URL到浏览器中,进行代理管理器后台的登录


然后我们需要为刚刚创建的通道创建一个新的端口,点击右上角的Add New Port

端口指的是电脑上特定虚拟位置的数字,然后我们在通道的地方选择我们刚刚创建的那个zone。然后一路点继续,这个端口就创建成功了。


我们点击创建好的post,进入设置页面,选择定位,我们可以自行设置国家、州、省等



然后我们来到IP control这个选项中,找到DNS lookup,这里有两种选项,一个是“Local(dafault)-resolved by super proxy”,这个选项会让我们的本地速度加快,更适合于养号的时候开启;

那如果我们现在要进行的是数据收集,就选择“Remote-resolved by peer”,这个选项会让我们有更高的匿名性

我们还会把Session Terminaation这个选项打开,如果不能打开,先到设置里讲SSL Analyzing打开,这样做的意义在于当这个IP无效时,就会停止发送重试请求,这对于社交媒体账号是非常重要的,因为在登录社交媒体账号的过程中更改IP对于账号来说是非常不利的。


我们可以看到代理池大小和轮转ips都是被禁止的状态,而且我们也点不动,这是因为我们上面预设选择的是“Long Single session(IP)(default)”长单一会话模式,这种模式最适合的就是社交媒体或者是自动化会话,因为在会话期更换IP会容易跳验证或者是被检测到异常。





如果你需要轮转IP,那么就选择第二个选项“Rotating(IPs)”,这样的话你就能打开下面的滑块了,并且设置IP池的大小。


在这情况下,你可以在不登录的状态下抓取社交媒体账号或者是电子商务网站的数据。

那么我们在对于社交媒体账号相关的时候,一般还是选择长单一会话模式

接下来我们来看看


Proxy Manager针对不同功能需求的规则设置指南





URL:指的是在特定的url触发,当你想从数据中心切换到住宅或者移动IP时可以使用这个触发器(特定url触发行为)

Status code:在请求响应的特定页面上的url状态代码,就像你可以选择200/403/404/500等等响应正文

Response body:正文触发器,在html响应正文包含使用正则表达式的指定字符串时,它将扫描正文以查找指定此触发器的字符串用于捕获问题。


至于下面的两个请求的时间大于或者小于的规则,则是可以设置响应时间毫秒,例如禁止慢速ips或者快速的。

我们选择了任意一个触发器后,就需要选择一个action动作。


对于URL触发来说,action有以下几种方式:


举个例子:来设置一个规则去重试当一个新的IP状态是显示403

403又叫做错误代码,这意味着通道入口被拒绝,我们一般可以通过更换新的IP来解决这个问题。

要设置这个触发器,我们需要选择状态代码status code这个选项,状态代码选择403,下面的动作我们选择以一个新IP重试。而重试次数我们自己设置即可。



如果我们不想用同样类型的IP,那么我们可以选择以新的代理端口进行重试,这意味着我们可以选择其他类型的代理IP,从不同的端口发送同样的请求,以测试实现数据收集的最优成本。

当然,这里的新端口我们需要在Brightdata通道管理中提前开好,就可以选择了。



另外一个例子就是我们想要设置减少带宽的有效方法是使用正则表达式,通过选择列出的文件格式,它将从请求中删除选定的文件格式,并且响应会更轻



另外一个节省数据抓取的重要规则就是刚开始的时候我们选择使用数据中心IP.根据后期的一个反馈再考虑是否切换到住宅或者移动IP这种成本比较高的代理。这可以通过设置URL的触发器来实现,

选择触发器为URL,输入触发的url网址,然后选择动作是”选择一个新的端口重试“



以上就是我对代理管理器的一个大致的讲解以及设置方面的介绍。


那么很多人就问,这种代理IP具体在社交媒体中的用处是什么呢?

其实有很多方面,我们不仅可以使用代理IP收集数据,同样的我们也能用他们进行一些自动化的功能操作,当然这些还需要配一些第三方的功能软件才能很好的去使用,


社交媒体自动化简单举例


举个例子,我们使用Brightdata的静态住宅养facebook的账号,然后在此环境下,运行自动化和facebook好友群发信息的功能。例如群发广告等等,那么这样,极大地减少了人工操作的成本和时间。

就比如下面这个平台的,首先我们在我们搭建好的养号环境中,登录我们的账号,这个脚本会自动抓取在同浏览器已经登录的facebook的cookie进行登录。


第二步我们设置我们需要群发的信息,设置相关想要发送的东西

并且在上面批量上传我们需要群发的facebook用户的个人主页链接。


之后下一步就会开始运行,系统也会记录整个流程运行的问题,

那么可以看到,我最后运行失败,facebook账号跳了验证,就是因为这个整个过程我是直接在电脑上,并没有在一个纯净隔离的IP环境去登录这个账号,所以导致fb查到异常而封号。

这也是为什么我一直在强调代理IP的重要性。




免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
TikTok助力超20万英国中小企业实现营收
AMZ123获悉,近日,据外媒报道,英国小型企业正在通过 TikTok Shop 获得前所未有的增长机遇。最新数据显示,已有超过20万家英国小型企业通过 TikTok Shop 实现营收,这一数量较去年同期翻了一番。增长在2025年黑色星期五期间集中爆发,当天成为 TikTok Shop 在英国历史上销售额最高的一天,平台上的创业者平均每秒售出27件商品。目前,TikTok Shop 在英国每天举办超过6000场直播带货活动,为卖家创造持续的实时销售机会。
黑五大捷收官!法国乐天冬季大促选品机会全盘点
冬季大促在即,把握选品方向,提前布局,助力年终业绩稳步增长!
涉及四站点卖家,Shopee征收5%技术支持费;TikTok Shop英国站打破历史纪录;罚款、销毁,越南一卖家被查
01 涉及四站点卖家Shopee征收5%技术支持费据 Shopee 消息,为了持续提供优质的服务与资源,更好地支持多元化卖家群体,Shopee 将对部分费用进行调整,以保障生态的健康发展。具体如下:预计从 2026 年 2 月起,Shopee 在新加坡、马来西亚、泰国、越南站点新增技术支持费(具体生效时间平台将另行通知)Shopee技术支持费,是针对所有卖家收取的标准平台费用;当您的订单完成,系统将自动从您的销售额中扣除固定比例。同时,考虑卖家的实际经营情况,Shopee在初期会根据卖家增长潜力和营销需求,为符合条件的卖家赠送不超过已完成订单销售额 5% 的广告金,以协助扶持卖家更好地运营推广、提升店铺整体流量。
不是你操作错了,亚马逊今天确实出了两个 BUG
今日分享「不用拆变体,如何实现自然流量翻倍?」
12月25日生效!亚马逊新规涉及这些品类卖家
本期干货资料《亚马逊突破Listing流量瓶颈策略》
出口紧急预警:东南亚大国查验率飙升,合规风险大幅攀升!
近期,印尼外贸领域正经历一场前所未有的严格监管风暴,尤其是当下正值印尼惯例的清关“红灯期”,查验率更是飙升至惊人程度,给众多出口印尼的外贸人带来了巨大挑战。据市场反馈,在当前的严打态势下,雅加达、唐格朗等印尼核心港口对多类商品展开了近乎严苛的100%开箱查验。这些被重点“关照”的商品涵盖了纺织品和服装、电子产品、化妆品、陶瓷制品以及儿童玩具等,均被视为“高风险”品类。海关在查验过程中,重点核查货物是否具备有效的SNI认证、进口配额、进口许可等关键合规文件,任何一项缺失或不符合要求,都可能导致货物滞留甚至被退回。长期以来,印尼海关的形象在公众眼中并不光彩,被普遍认为是“收黑钱的窝点”。
立刻下架!大批卖家链接被投诉
临近圣诞旺季,跨境电商平台的版权维权风波也愈演愈烈。近期,Keith律所密集发起多起版权侵权诉讼,涉及圣诞主题图片、版画及特色文创产品等多个品类。以下是多起案件的核心信息整理,相关卖家务必对照自查,速速下架涉案产品,谨防TRO冻结!Lawrence Hersberger圣诞图片版权维权案件编号:2025-cv-14843起诉时间:2025年12月8日原告方:Lawrence Hersberger原告律所:Keith侵权类型:版权侵权案件核心信息:原告Lawrence Hersberger是擅长圣诞主题的获奖创作者,以艺术技巧融合与多元授权服务闻名,此次针对三幅圣诞相关图片发起版权维权。
突发!亚马逊后台系统又崩溃
AMZ123获悉,自12月23日下午起,陆续有多位卖家发帖反馈亚马逊后台系统再次出现异常。此次故障主要表现为卖家在创建货件时,页面反复提示“出错了。请尝试刷新页面。如果不起作用,请删除工作流程,然后创建一个新工作流程。”然而,即便卖家多次按照提示尝试刷新或重新操作,问题依然未得到解决,导致无法正常创建货件。“我也是这样,从昨天下午到今天都创建不了。”“我就说怎么一直建不了 我还以为是我远程的问题。”“我试了一下午,还以为怎么了。”据了解,此次系统故障波及范围较广,影响包括欧洲站、美国站在内的多个站点。尽管部分卖家提出了一些临时应对方法,例如可以手动填写发货数量,或者重复开货件与更换vpn等方式。
中国跨境卖家抢占新主场,出海游戏规则变了
十年前,流量红利、政策温床、廉价供应链等时势造就了跨境行业的的几何式爆发。然而时代巨轮滚滚向前,无声碾过野蛮生长和走量厮杀的旧秩序,在全球经贸局势波诡云谲的2025年,跨境出海从市场环境到竞争路径再至行业格局,无一不在加速重构。在这个游戏规则悄然转变的时代,跨境卖家开始积极寻找一个能够在撬动确定性增长的同时,承载价值深耕、品牌与用户深度链接的阵地。而面对这一风向,TikTok Shop早已为卖家搭好了舞台。2025年,TikTok Shop跨境自运营(POP)模式展现出强劲势能,黑五大促对比年中翻倍增长,跑出无数靠好商品、好内容、好营销、好服务实现生意增长与品牌建设双开花的出海商家。
亚马逊新功能上线,卖家转化率有救了!
关注公众号回复“加群”加入卖家交流群在数字购物时代,消费者的购买路径日益复杂,往往需要多次比较才会下单。为帮助卖家精准把握消费者决策的关键时刻,亚马逊广告近期对亚马逊品牌推广和亚马逊商品推广进行了全面升级,推出多项亚马逊广告新功能。首先亮相的是“品牌推广预留展示份额”,采用预付定价模式,让广告稳定出现在品牌词搜索结果首页顶部。这一创新的亚马逊广告投放方式,测试数据显示品牌关键词展示份额从63%大幅提升至99%,点击归因销售额增长143%。2026年初,亚马逊品牌推广合集将迎来全新升级,取消场景图和自定义标题要求,聚焦产品本身展示。
明年1月起,亚马逊将延长FBM退款处理期
AMZ123获悉,近日,亚马逊宣布,将于2026年1月26日更新自配送卖家(Fulfilled by Merchant,FBM)的退款政策,主要调整卖家处理退货退款的时间规则。亚马逊表示,此次调整旨在优化卖家的退货管理体验,并给予卖家更多时间对退回商品进行检查。按照新政策,自配送订单的退款处理期限将从原先的“收到退货后2个工作日”,延长为“4个自然日”。在大多数退货送达日期下,卖家可获得更长的处理时间,用于确认商品状态并决定是否退款。不过,如果卖家在收到退货后的4个自然日内仍未完成退款处理,亚马逊将可能自动向买家发起退款。
亚马逊季度税务报告正式推送:卖家数据为何“对不上账”?
这两天,不少亚马逊卖家几乎在同一时间,收到了来自平台的一封“重量级”邮件。图源:卖家爆料邮件内容并不复杂:根据中国最新监管要求,亚马逊需要按季度向中国税务机关报送中国卖家的相关经营数据,并且会将同一份季度税务报告同步给卖家本人查看。首份报告已覆盖 2025年7月至9月,下载链接仅保留7天。表面来看,这是一件“信息更透明”的好事。但真正打开报告后,卖家圈却迅速炸锅——图源:知无不言大量卖家发现:报告里的收入、利润、成本,和自己平时核算的账,差得不止一点点。一、亚马逊季度税务报告,到底报了哪些内容?先明确一个事实:这份报告并不是“卖家利润表”,而是平台按监管要求生成的一份信息披露报告。
TikTok又现义乌爆款!“香烟盒泡泡”28天营收百万
溢价超30倍,这款“解压神器”在TikTok已卖180万+
亚马逊关联ASIN常出现在哪些流量位置?
在亚马逊平台上,ASIN是商品的唯一标识,而关联ASIN的合理布局,直接影响着产品的曝光与转化。对于刚入行的新手卖家而言,不了解ASIN在平台中的流量分布规律,往往会导致推广资源错配、流量抓取不足,甚至错失爆款打造机会。许多新人卖家在运营初期常陷入“有产品却无人访问”“广告花费高但转化差”的困境,其背后一个重要原因就是对关联ASIN的流量入口和展示机制缺乏认知。掌握ASIN常见的流量位置,是提升曝光、优化广告投放、实现自然流量增长的关键一步。
宠物类目再出爆款!一款训狗神器在TikTok卖出百万
冬天,起床困难是常态。积雪地滑, 出门不便,打工人宁愿扣钱也要与被窝多温存几分钟,但广大养宠家庭却难以享受这份“特权”,尤其是狗主人们。TT123观察到,这一微观需求近日为TikTok美区一宠物用品卖家所捕捉,其上架不过“足月”的训狗神器,目前已捞金百万元。01宠物“社会化”神器“你叽里咕噜说啥呢。”铲屎官表示,不懂,也不需要懂。旋即掏出一神秘长方体, 对着狗子一顿“施法”,世界旋即安静下来。切换场景,换条狗狗,一键止吠的效果依旧拔群。不是AI,也并非剪辑或科技消音,是真·一键让狗狗平复心情的训狗神器,展现以上场景的TikTok带货视频,成功引起狗圈一阵沸腾。
《TikTok Shop 2025年全站点Q3季报》PDF下载
2025年前三季度,TikTok Shop在全球市场继续保持强劲增长势头。截至第三季度结束,累计GMV已突破414亿美元。美国站依旧稳居全球第一,前三季度GMV达112亿美元:东南亚仍是总体增长最具韧性的板块,印尼站以83.4亿美元位列第二,增速较上季度保持稳定,与泰国(69亿美元)、越南(52亿美元)继续构成区域主力。马来西亚(40亿美元)与菲律宾(37亿美元)表现同样稳健。
《2026掘金指南:全球全品类20大消费趋势报告》PDF下载
生活百货类关键趋势解读 消费电子类关键趋势解读 消费品类关键趋势解读 时尚品类关键趋势解读
《亚马逊生活日用品类攻略手册》PDF下载
作为日常生活不可或缺的重要组成,生活百货品类覆盖范围广泛,包括家居用品、家具、车用配件、户外装备、园艺 工具、运动器材、家装用品、厨房、玩具以及宠物用品等众多领域。这类产品不仅是满足基本生活所需,更体现了人们对美好生活的向往和追求。
《掘金泰国-市场洞察与战略机遇报告2025》PDF下载
随着全球经济一体化的加速,泰国作为东盟的核心枢纽,凭借其独特的地缘优势庞大的消费市场以及持续优化的营商环境,成为众多企业战略布局的重要目标。本报告深入剖析泰国市场的政策红利、消费趋势、产业机遇以及合规挑战,旨在为有志于开拓泰国市场的中国企业提供行动指南,助力企业在东盟这片充满活力的土地上把握机遇、应对挑战、!实现可持续发展。
《2025欧美假日购物季营销指南》PDF下载
2025年美国假日购物季零售额预计同比仅增长1.2%,总销售额约1.359万亿美元,虽仍保持正增长,但为2009年以来最低增速,市场正在步入低增长的新常态。
《2025年跨境电商东南亚市场进入战略白皮书》PDF下载
东南亚电商,正以惊人的速度复刻中国电商高速增长的黄金时代。2024年东南亚电商GMV达到1284亿美元,短短5年涨幅超过3倍。全球电商2024年GMV增幅最快的十大市场中,东南亚独占四席。东南亚是拥有约6.7亿人口的广阔市场,在现今全球关税的不确定性大格局下,因其电商基建完善,利好的贸易政策,和更高的年轻人口占比,成为跨境卖家生意拓张焦点之一。
《2025年TikTok Shop玩具品类行业报告(欧美站)》PDF下载
分析TikTok Shop美国市场、英国市场、西班牙市场、墨西哥市场等主流市场点短视频及直播电商数据,选取TikTok与玩具爱好品类相关的内容进行分析报告。
《2025 洗护品类趋势与创新洞察》PDF下载
本报告独特价值:将消费者的“行为结果”据),揭示消费者深层心理动机、并能精准预判未来增长机会
跨境平台资讯
AMZ123旗下跨境电商平台新闻栏目,专注全球跨境电商平台热点事件,为广大卖家提供跨境电商平台最新动态、最热新闻。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
AMZ123卖家导航
这个人很懒,还没有自我介绍
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
跨境学院
跨境电商大小事,尽在跨境学院。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
首页
跨境头条
文章详情
Brightdata代理IP创建、代理管理器规则配置&自动化简述指南
花虞HY聊跨境电商
2021-12-21 14:58
10786


目录:

  • 什么是代理IP?

  • 为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

  • 代理如何配合网站抓取数据收集&自动化执行?

  • 我们需要多少代理IP来进行数据收集或自动化

  • 如何在Brightdata中创建设置代理IP?

  • 设置代理管理器Proxy Manager来统一分规则智能管理所有代理IP

  • Proxy Manager针对不同功能需求的规则设置指南

  • 社交媒体自动化简单举例


相关链接:

Brightdata官网&中文经理对接专属注册地址:

Brightdata官方注册&中文经理服务链接:https://bit.ly/3DM8bH1



什么是代理IP?

代理IP就是代理服务商提供给我们的IP地址,能够在我们访问目标网站时匿名我们的真实用户IP;同时,我们想要抓取某个站点时,他们也不会检测到我们的真实IP以做出封锁或者误导的举措。

当你对目标网站进行大规模数据爬取时,使用代理就可以匿名

一个优质的代理服务商不仅能够提供你需要的IP地址,还能提供一个综合的代理管理器,让你在没有任何代码的情况下也能有效的使用数据爬虫去进行抓取以及管理。

 

为什么使用代理IP进行社交媒体的数据爬取&自动化执行?

3个核心原因:

  1. 隐藏本地真实使用IP

  2. 绕过地理封锁

  3. 有效控制在目标网站上的速率限制问题

这样的操作也有利于保护用户个人信息,并且保证数据抓取的真实程度,同时针对地理封锁,举个例子,或许在某些国家某些广告是侵权的,但是在其他国家正常,那么如果你用当地IP去收集数据,那么这些侵权广告将会被屏蔽,而如果你用其他地区的IP去抓取,这些广告又会展示出来。

另外一方面,如果你想在单个站点上抓取数千个网页,单纯只用一个或者少量IP发出过多的请求如果被网站检测到,那么他们就会采取限速或者是其他封锁的举动,所以为了防止这种情况的出现,我们需要使用Brightdata的代理管理器,运用大量的代理IP,设置一定的规则,将请求均匀的分配给这些代理代理IP,这样目标网站只能看到单个IP仅有少量的请求,从而避免被限制。


 

代理如何配合网站抓取收集&自动化执行?

大型的网站一般都会采取很多的方式监控并限制阻止抓取,所以如果我们需要在这些网站上抓取数据,那就必须以智取胜。

我们在实际操作中经常会遇到以下的情况:轮转代理IP(Proxy Rotation),应对被禁止Ban,节流会话(Throttling),会话管理(Session Management),减少带宽(Ruduce Bandwidth)、SSL可视化(SSL Decryption)、黑名单(Blacklisting)等等。

Brightdata的代理管理器(https://bit.ly/3DM8bH1)就能够完全覆盖这些问题,

  • 识别禁令(Identify Bans):能够检测出多种类型的禁令,排除故障并且修复潜在问题。例如捕获、重定向、封锁、隐藏、重复错误、超时等等,那么如果代理管理器遇到这些问题,就可以使用不同的代理IP进行重试请求。

  • 管理用户代理(UA):对于良性爬虫是至关重要的,用户代理能让目标网络识别出访问IP的使用设备、操作系统等,以响应不同的界面,例如PC端和手机端,就是不一样的。

  • 管理控制代理:有一些爬取项目需要在同一个代理下保持会话,那么我们就需要使用代理管理器配置代理以同意这个情况。

  • 增加延迟:随机的延迟以及良性节流能够有效掩盖正在数据抓取的行动。

  • 地理位置定位:有些时候我们需要设定某些特定地理位置的代理IP去访问网站

  • 多种类型的线路:通过使用不同类型的代理IP发送请求,自定义规则以获得最具性价比的数据结果。

  • 减小带宽:使用代理管理器像正则表达式或者自定义规则以减少带宽流量的产出。

 


我们需要多少代理IP来进行数据收集或自动化?

代理池的大小取决于很多的因素,我们主要考量以下方面:

1.首先计算每小时预计发出的请求数量,通常每个小时每个代理发送500个请求左右不太容易引起注意。

2.根据目标网站来进行考量,越大的网站会有更多的反机器人措施,所以我们需要更大的代理池

3.根据你需求的代理类型来考量(数据中心、动态住宅、静态住宅、移动IP)

4.根据你项目的复杂性来考量具体代理池的大小,例如代理轮转,减小带宽等等,这些因素对代理池的质量和有效性都有很大的影响

 

 

如何在Brightdata中创建设置代理IP?


进入Brightdata(https://bit.ly/3DM8bH1):在侧边栏中找到代理通道,点击页面中的创建通道。



进入页面,如果我们是养号,那么直接选择静态住宅IP即可,如果是数据抓取,那么就根据我们的数据需求来选择相应适合的代理。

最新的是右上方可以输入你想要爬取的网站域名,系统会给你推荐适合的,不过一般我们自行选取即可。

一般如果网站阻止或者封锁后,我们就需要选择Web Unlocker亮网络解锁器,常规来说网络解锁器用的也是住宅IP,同时解锁率能够达到100%。


使用网络解锁器的优势在于:

能够解决验证码的问题

能够捕获处理标记的变化

自动重试


那么接下来我们就需要进一步设置,通道名称这个时候可以直接设置成域名,这样便于分辨;

另外独享的IP组意味着你创建这个通道后能够获得一组专属于你的IPS供你一个人使用,这其中的所有IPs都没有任何人使用过在你的目标网站。

最后选择授权是否需要定位到更加细化的地理位置等,最后点击创建通道,zone创建成功。

zone创建后,我们需要使用代理管理器来创建端口以及设置代理管理器的规则。

 

设置代理管理器LPM来统一分规则智能管理所有的代理IP


代理管理器很多很好的功能:

  • 例如整个流量日志的实时预览;

  • 用于分割贷款流量的统计规则以及可以自动重试失败请求的成本优化规则;

  • 调整header和ssl指纹的方法;

  • 代理轮转以及会话管理等等;



当然,如果本地安装代理管理器觉得速度慢,占用空间。也可以使用Brightdata提供的云代理管理器或者将代理管理器配置与vps里。

Win和Mac、Linux的安装方式不一样,win直接下载安装包即可,而mac则需要跟随向导进行安装,







有关于mac的安装方法我着重讲一下:

1.在Mac上打开“Terminal”



2.我们输入

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

或者

curl -L https://luminati-china.biz/static/lpm/luminati-proxy-latest-setup.sh | bash

这两个安装脚本中的一个,即可,如果两个都不行,那么只能手动安装,





大概需要花费10分钟的时间运行后,我们复制中间的URL到浏览器中,进行代理管理器后台的登录


然后我们需要为刚刚创建的通道创建一个新的端口,点击右上角的Add New Port

端口指的是电脑上特定虚拟位置的数字,然后我们在通道的地方选择我们刚刚创建的那个zone。然后一路点继续,这个端口就创建成功了。


我们点击创建好的post,进入设置页面,选择定位,我们可以自行设置国家、州、省等



然后我们来到IP control这个选项中,找到DNS lookup,这里有两种选项,一个是“Local(dafault)-resolved by super proxy”,这个选项会让我们的本地速度加快,更适合于养号的时候开启;

那如果我们现在要进行的是数据收集,就选择“Remote-resolved by peer”,这个选项会让我们有更高的匿名性

我们还会把Session Terminaation这个选项打开,如果不能打开,先到设置里讲SSL Analyzing打开,这样做的意义在于当这个IP无效时,就会停止发送重试请求,这对于社交媒体账号是非常重要的,因为在登录社交媒体账号的过程中更改IP对于账号来说是非常不利的。


我们可以看到代理池大小和轮转ips都是被禁止的状态,而且我们也点不动,这是因为我们上面预设选择的是“Long Single session(IP)(default)”长单一会话模式,这种模式最适合的就是社交媒体或者是自动化会话,因为在会话期更换IP会容易跳验证或者是被检测到异常。





如果你需要轮转IP,那么就选择第二个选项“Rotating(IPs)”,这样的话你就能打开下面的滑块了,并且设置IP池的大小。


在这情况下,你可以在不登录的状态下抓取社交媒体账号或者是电子商务网站的数据。

那么我们在对于社交媒体账号相关的时候,一般还是选择长单一会话模式

接下来我们来看看


Proxy Manager针对不同功能需求的规则设置指南





URL:指的是在特定的url触发,当你想从数据中心切换到住宅或者移动IP时可以使用这个触发器(特定url触发行为)

Status code:在请求响应的特定页面上的url状态代码,就像你可以选择200/403/404/500等等响应正文

Response body:正文触发器,在html响应正文包含使用正则表达式的指定字符串时,它将扫描正文以查找指定此触发器的字符串用于捕获问题。


至于下面的两个请求的时间大于或者小于的规则,则是可以设置响应时间毫秒,例如禁止慢速ips或者快速的。

我们选择了任意一个触发器后,就需要选择一个action动作。


对于URL触发来说,action有以下几种方式:


举个例子:来设置一个规则去重试当一个新的IP状态是显示403

403又叫做错误代码,这意味着通道入口被拒绝,我们一般可以通过更换新的IP来解决这个问题。

要设置这个触发器,我们需要选择状态代码status code这个选项,状态代码选择403,下面的动作我们选择以一个新IP重试。而重试次数我们自己设置即可。



如果我们不想用同样类型的IP,那么我们可以选择以新的代理端口进行重试,这意味着我们可以选择其他类型的代理IP,从不同的端口发送同样的请求,以测试实现数据收集的最优成本。

当然,这里的新端口我们需要在Brightdata通道管理中提前开好,就可以选择了。



另外一个例子就是我们想要设置减少带宽的有效方法是使用正则表达式,通过选择列出的文件格式,它将从请求中删除选定的文件格式,并且响应会更轻



另外一个节省数据抓取的重要规则就是刚开始的时候我们选择使用数据中心IP.根据后期的一个反馈再考虑是否切换到住宅或者移动IP这种成本比较高的代理。这可以通过设置URL的触发器来实现,

选择触发器为URL,输入触发的url网址,然后选择动作是”选择一个新的端口重试“



以上就是我对代理管理器的一个大致的讲解以及设置方面的介绍。


那么很多人就问,这种代理IP具体在社交媒体中的用处是什么呢?

其实有很多方面,我们不仅可以使用代理IP收集数据,同样的我们也能用他们进行一些自动化的功能操作,当然这些还需要配一些第三方的功能软件才能很好的去使用,


社交媒体自动化简单举例


举个例子,我们使用Brightdata的静态住宅养facebook的账号,然后在此环境下,运行自动化和facebook好友群发信息的功能。例如群发广告等等,那么这样,极大地减少了人工操作的成本和时间。

就比如下面这个平台的,首先我们在我们搭建好的养号环境中,登录我们的账号,这个脚本会自动抓取在同浏览器已经登录的facebook的cookie进行登录。


第二步我们设置我们需要群发的信息,设置相关想要发送的东西

并且在上面批量上传我们需要群发的facebook用户的个人主页链接。


之后下一步就会开始运行,系统也会记录整个流程运行的问题,

那么可以看到,我最后运行失败,facebook账号跳了验证,就是因为这个整个过程我是直接在电脑上,并没有在一个纯净隔离的IP环境去登录这个账号,所以导致fb查到异常而封号。

这也是为什么我一直在强调代理IP的重要性。




咨询
官方微信群
官方客服

扫码添加,立即咨询

加群
官方微信群
官方微信群

扫码添加,拉你进群

更多
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部