Python网页爬虫在实际的使用中需要我们注意很多的地方,其实有的东西大家看着难但是在实际操作起来的话都很简单。下面我们就来学习下如何自己动手编写一个Python网页爬虫。

创新互联-专业网站定制、快速模板网站建设、高性价比塔河网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式塔河网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖塔河地区。费用合理售后完善,10多年实体公司更值得信赖。
这个程序因为主页面链接到的页面都在同一个目录下,结构很简单,只有一层。因此写了一些硬编码做链接地址的分析。
 代码如下:
- #!/usr/bin/env python
 - # -*- coding: GBK -*-
 - import urllib
 - from sgmllib import SGMLParser
 - class URLLister(SGMLParser):
 - def reset(self):
 - SGMLParser.reset(self)
 - self.urls = []
 - def start_a(self, attrs):
 - href = [v for k, v in attrs if k == 'href']
 - if href:
 - self.urls.extend(href)
 - url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
 
ngShuoShenMo/'- sock = urllib.urlopen(url)
 - htmlSource = sock.read()
 - sock.close()
 - #print htmlSource
 - f = file('jingangjing.html', 'w')
 - f.write(htmlSource)
 - f.close()
 - mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
 
gJingShuoShenMo/'- parser = URLLister()
 - parser.feed(htmlSource)
 - for url in parser.urls:
 - myurl = mypath + url
 - print "get: " + myurl
 - sock2 = urllib.urlopen(myurl)
 - html2 = sock2.read()
 - sock2.close()
 - # 保存到文件
 - print "save as: " + url
 - f2 = file(url, 'w')
 - f2.write(html2)
 - f2.close()
 
以上就是对Python网页爬虫在编写过程中的详细介绍。
【编辑推荐】
                本文名称:Python网页爬虫制作DIY实际操作
                
                转载来源:http://www.csdahua.cn/qtweb/news45/394295.html
            
网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网