【python】抄写大神的糗事百科代码-白红宇

【python】抄写大神的糗事百科代码

阅读量：6826 次

发布时间：2019-06-26

本文共 3416 字，大约阅读时间需要 11 分钟。

照着静觅大神的博客学习，原文在这：

划重点：

1. str.strip() strip函数会把字符串的前后多余的空白字符去掉

2. response.read().decode('utf-8','ignore') 要加'ignore'忽略非法字符，不然总是报解码错误

3. python 3.x 中 raw_input 改成 input 了

4. 代码最好用notepad++先写格式清晰一点容易发现错尤其是缩进和中文标点的错误

5. .*? 常用组合，后面的?表示非贪婪模式

用python3.4.3实现的糗百爬虫代码如下（就是照着大神的抄的，把2.x的部分给改了而已）：

import urllib.requestimport urllib.parseimport reimport time#糗事百科爬虫类class QSBK:    #初始化方法，定义一些变量    def __init__(self):        self.pageIndex = 1        self.user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36'        self.headers = {
   'User-Agent' : self.user_agent}        #存放段子的变量，每个元素是每一页的段子        self.stories = []        #存放程序是否继续运行的变量        self.enable = False    #传入某一页的索引获得页面代码    def getPage(self, pageIndex):        try:            url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)            request = urllib.request.Request(url, headers = self.headers)            response = urllib.request.urlopen(request)            pageCode = response.read().decode('utf-8','ignore') #这个ignore忽略非法字符 一定要加 不然总报解码错误            return pageCode        except urllib.error.URLError as e:            if hasattr(e, "reason"):                print(u"连接糗事百科失败，错误原因：", e.reason)                return None    #传入某一页代码，返回本页不断图片的段子列表    def getPageItems(self, pageIndex):        pageCode = self.getPage(pageIndex)        if not pageCode:            print(u"页面加载失败....")            return None        pattern = re.compile('
     
      .*?
      
       
        (.*?).*?
        
         (.*?)
         .*?(.*?)
         
          (.*?)', re.S)        items = re.findall(pattern, pageCode)        #用来存储每页的段子        pageStories = []        for item in items:            haveImg = re.search("img", item[3])            if not haveImg:                replaceBR = re.compile('
          
')                text = re.sub(replaceBR, "\n", item[1])                pageStories.append([item[0].strip(), text.strip(),item[4].strip()]) #.strip（） 用来删除空白符        return pageStories    #加载并提取页面的内容，加入到列表中    def loadPage(self):        #如果当前未看的页数少于2页，则加载新一页        if self.enable == True:            if len(self.stories) < 2:                #获取新一页                pageStories = self.getPageItems(self.pageIndex)                #将该页的段子存放到全局list中                if pageStories:                    self.stories.append(pageStories)                    #页码加1，下次读取下一页                    self.pageIndex += 1    #每次敲回车打印一个段子    def getOneStory(self,pageStories,page):        #遍历一页的段子        for story in pageStories:            #等待用户输入            input_v = input()            #每当输入回车一次，判断一下是否要加载新页面            self.loadPage()            #如果输入Q则程序结束            if input_v == "Q":                self.enable = False                return            print(u"第%d页\t发布人：%s\t赞：%s\n%s" % (page, story[0], story[2],story[1]))    #开始方法    def start(self):        print(u"正在读取糗事百科，按回车查看新段子，Q退出")        #使变量为True，程序可以正常运行        self.enable = True        #先加载一页内容        self.loadPage()        #局部变量，控制当前读到2了第几页        nowPage = 0        while self.enable:            if len(self.stories) > 0:                #从全局list中获取一页段子                pageStories = self.stories[0]                #当前读到的页数加1                nowPage += 1                #删除已经取出的元素                del self.stories[0]                #输出该页的段子                self.getOneStory(pageStories,nowPage)spider = QSBK()spider.start()