显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

Aruilture

无论何时何地也别忘了自己当初屌丝般的诺言!

 
 
 
 
 
 

爬虫第二节课!

2017-4-18 23:35:57 阅读10 评论0 182017/04 Apr18

通过上次的代码    就能把一个网站的HTML 源代码获取下来  整理好  ,但是我们要的不是全部!
今天写段代码来筛选源代码里的图片  ,把图片提取出来:
爬虫第二节课! - aruilture - Aruilture
通过上面的照片可以看到    用find_all()来获取所有图片的属性 (因为图片都是src=“”图片地址“”)    
所有我就利用正则来获取了所有图片的地址!

作者  | 2017-4-18 23:35:57 | 阅读(10) |评论(0) | 阅读全文>>

学习爬虫第一课

2017-4-17 14:27:57 阅读7 评论0 172017/04 Apr17

因为走的是爬虫方向    所以快速的浏览了一遍python3的书籍     就开始迫不及待的学习写爬虫了!
而我本人是用的python3.6的环境:

首先用到的是Python本身自带的库 URLLIB,BS4(外带的,需要安装) , 这两个库我感觉非常的强大!

 首先我先去获取一下网站的整个源码:

学习爬虫第一课 - aruilture - Aruilture
 
先用urllib库的模块requset.urlopen() 来获取一个网站的html源代码, 
然后再用BS4库的模块BeautifulSoup来整理HTML源代码 
因为用urlopen()爬下来的源代码全部集中在一行了,

作者  | 2017-4-17 14:27:57 | 阅读(7) |评论(0) | 阅读全文>>

查看所有日志>>

 
 
 
 
 
 
 
 

四川省 眉山市

 发消息  写留言

 
博客等级加载中...
今日访问加载中...
总访问量加载中...
最后登录加载中...
 
 
 
 
 
 
 
心情随笔列表加载中...
 
 
 
 
 
 
 
博友列表加载中...
 
 
 
 
 

发现好博客

 
 
列表加载中...
 
 
 
 
 
 
 
列表加载中...
 
 
 
 
 
 我要留言
 
 
 
留言列表加载中...
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018

注册 登录  
 加关注