-
# -*- coding: utf-8 -*-
-
-
import urllib2
-
import urllib
-
import re
-
import thread
-
import time
-
-
-
#----------- 加载处理糗事百科 -----------
-
class Spider_Model:
-
-
def __init__(self):
-
self.page = 1
-
self.pages = []
-
self.enable = False
-
-
# 将所有的段子都扣出来,添加到列表中并且返回列表
-
def GetPage(self,page):
-
myUrl = "" + page
-
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
-
headers = { 'User-Agent' : user_agent }
-
req = urllib2.Request(myUrl, headers = headers)
-
myResponse = urllib2.urlopen(req)
-
myPage = myResponse.read()
-
#encode的作用是将unicode编码转换成其他编码的字符串
-
#decode的作用是将其他编码的字符串转换成unicode编码
-
unicodePage = myPage.decode("utf-8")
-
-
# 找出所有class="content"的div标记
-
#re.S是任意匹配模式,也就是.可以匹配换行符
-
myItems = re.findall('
(.*?)