
文章插圖
一、建立IP代理池的思路:
做爬蟲時(shí),遇到訪問太頻繁IP被封是難以避免的,而本地單個(gè)IP是不足以進(jìn)行大規(guī)模爬取,并且自己并不想購買付費(fèi)代理,那么,構(gòu)建一個(gè)IP代理池是非常有必要的 。思路如下:
圖1
二、建立IP 代理池的步驟:
- 爬取代理IP:搜索選擇代理IP網(wǎng)站,選取免費(fèi)代理;代碼如下:
# _*_ coding:UTF-8 _*_# 開發(fā)作者:Jason Zhang# 創(chuàng)建時(shí)間:2020/12/29 17:58# 文件名稱:爬取代理IP.PY# 開發(fā)工具:PyCharmimport requestsimport lxml.htmlimport osheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}url_list = ['http://www.xicidaili.com/nn/%r' % i for i in range(1,10)]ip_list = []for url in url_list:r = requests.get(url,headers=headers)etree = lxml.html.fromstring(r.text)ips = etree.xpath('//tr[@class="odd"]')for ip in ips:IP = ip.xpath('//td/text()')ip = IP[0] +':'+ IP[1]ip_list.append(ip)f = open('ip.txt','wb')f.write(','.join(ip_list).encode('utf-8'))f.close(- 驗(yàn)證代理IP:
# _*_ coding:UTF-8 _*_# 開發(fā)作者:關(guān)中老玉米# 創(chuàng)建時(shí)間:2020/12/29 18:27# 文件名稱:驗(yàn)證代理IP.PY# 開發(fā)工具:PyCharmimport requestsip_list = open('ip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}qurl = 'https://www.baidu.com' #用百度來測(cè)試IP是否能正常連網(wǎng)for i in ip_list: #設(shè)置超時(shí)時(shí)間timeout為2 s,超時(shí)則為不可用IPr = requests.get(url, proxies={'http': 'http://' + ip[i]}, headers=headers,timeout=2)if r.text:qip.append(qip[i])else:continuef = open('quality_ip.txt','wb')f.write(','.join(quality_ip).encode('utf-8'))f.close()- 使用代理IP:
# _*_ coding:UTF-8 _*_# 開發(fā)作者:Jason Zhang# 創(chuàng)建時(shí)間:2020/12/31 18:03# 文件名稱:使用代理IP.PY# 開發(fā)工具:PyCharm# (1)使用隨機(jī) IP,代碼如下:import randomimport requestsip_list = open('quality_ip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}url = 'http://*********'r = requests.get(url, proxies={'http': 'http://'+random.choice(ip_list)},headers=headers)# (2)因?yàn)槊赓M(fèi)的代理時(shí)效很短,在后續(xù)的爬取任務(wù)中很容易失效,所以當(dāng)出現(xiàn)訪問錯(cuò)誤(響應(yīng)碼不等于 200)時(shí),更換 IP,代碼如下:ip_list = open('qip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}for ip in ip_list:for i in range(len(url_list)):r = requests.get(url_list[i], proxies={'http': 'http://'+ip},headers=headers)if r.status_code != 200:break以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問題,請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專業(yè)人士給予相關(guān)指導(dǎo)!
「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對(duì)您有所幫助:- 一鍵cdn服務(wù)器搭建 阿里云cdn加速教程
- 教程教您輕松搭建網(wǎng)站 php網(wǎng)站搭建教程
- 五行屬性認(rèn)定的六大定律
- 八字看工作穩(wěn)定情況
- lol上分最穩(wěn)的英雄 lol投降指令快捷鍵
- 投資小利潤(rùn)高的小生意 做什么賺錢最快最穩(wěn)又不用本
- 球蛋白正常值是多少?
- 新婚夫妻感情不穩(wěn)定怎么辦 新婚夫妻感情不和的原因
- 由八字看你命中注定的災(zāi)禍
- 2021公認(rèn)十大最穩(wěn)定路由器 路由器拆解可以做什么
