博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Beautifulsoup分解
阅读量:4985 次
发布时间:2019-06-12

本文共 1029 字,大约阅读时间需要 3 分钟。

from urllib.request import Request, ProxyHandlerfrom urllib.request import build_openerfrom bs4 import BeautifulSoupimport redisurlfront = "http://www.xicidaili.com"url = "http://www.xicidaili.com/nn/1"r = redis.Redis(host='127.0.0.1', port=6379,db=0)# def spider_IP(url):# 获取整个页面def get_allcode(url):    # 设置代理IP    proxy = {
'https': '110.73.0.45:8123'} proxy_support = ProxyHandler(proxy); opener = build_opener(proxy_support) # 设置访问http协议头,模拟浏览器 opener.addheaders = [ ('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6')] r = opener.open(url) html = r.read().decode("UTF-8"); # print(html) return str(html)# 根据URl用beautifulsoup提取,可以写方法def find_ip(s): soup = BeautifulSoup(s, 'html.parser'); aList = soup.find_all(name="tr",class_="odd") for items in aList: link = items.find_all("td") print("%s:%s" %(link[1].get_text(),link[2].get_text()))find_ip(get_allcode(url))

 

转载于:https://www.cnblogs.com/qieyu/p/7846085.html

你可能感兴趣的文章
bzoj4034: [HAOI2015]树上操作(树剖)
查看>>
android-Activity
查看>>
${sessionScope.user}的使用方法
查看>>
IOS断点下载
查看>>
Steal 偷天换日 题解(From luoguBlog)
查看>>
Hadoop HDFS学习总结
查看>>
C#wxpay和alipay
查看>>
Combination Sum
查看>>
WCF开发框架形成之旅---结合代码生成工具实现快速开发
查看>>
Spring事务管理
查看>>
JS||JQUERY常用语法
查看>>
talend hive数据导入到mysql中
查看>>
ORA-01093: ALTER DATABASE CLOSE only permitted with no sessions connected
查看>>
linux下mysql配置文件my.cnf详解
查看>>
获取微信用户列表Openid
查看>>
架构必备词汇
查看>>
SublimeText快捷键操作
查看>>
Python开发 基礎知識 (未完代補)
查看>>
监听器的使用,以及实现, 测试
查看>>
java基础二 分支循环
查看>>