博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
20171123初学demo爬去网页资料
阅读量:5239 次
发布时间:2019-06-14

本文共 763 字,大约阅读时间需要 2 分钟。

一、工具vs2015 +python3.5

import urllib.request import urllib.errorimport redef getcontent(url,page):     head=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko")     opener=urllib.request.build_opener()     opener.addheaders=[head]     urllib.request.install_opener(opener)     try:       data=urllib.request.urlopen(url).read().decode("utf-8")       contentpat='
(.*?)
' contentlist=re.compile(contentpat,re.S).findall(data) for cont in contentlist: print(cont) except urllib.error.URLError as e: print(e.reason)for i in range(1,29): url="https://www.qiushibaike.com/8hr/page/"+str(i) getcontent(url,i)

 模仿浏览访问,正则表达式匹配内容,打印结果

转载于:https://www.cnblogs.com/Soar-Pang/p/7884928.html

你可能感兴趣的文章
Python3多线程爬取meizitu的图片
查看>>
树状数组及其他特别简单的扩展
查看>>
Linux vi/vim
查看>>
zookeeper适用场景:分布式锁实现
查看>>
110104_LC-Display(液晶显示屏)
查看>>
javascript全局变量
查看>>
全连接神经网络(DNN)
查看>>
httpd_Vhosts文件的配置
查看>>
php学习笔记
查看>>
28 hashlib 模块 logging 模块 和 configparser模块 functools模块的偏函数partial
查看>>
普通求素数和线性筛素数
查看>>
React Router 4.0 基本使用
查看>>
作业完成2
查看>>
PHP截取中英文混合字符
查看>>
HTA - OnKeyDown
查看>>
【洛谷P1816 忠诚】线段树
查看>>
CDN 学习笔记
查看>>
电子眼抓拍大解密
查看>>
Linux系统下 /etc/shadow 档案结构
查看>>
多线程---线程间的通信
查看>>