中文源码网欢迎您！会员登录会员注册发布自媒体发布模版发布源码发布模版发布酷站

推荐源码常用源码帮助中心

栏目导航

Python语言技术文档

微信小程序技术文档

php语言技术文档

jsp语言技术文档

asp语言技术文档

C#/.NET语言技术文档

html5/css技术文档

html5
CSS

javascript

点击排行

您现在的位置：首页 > 技术文档 > Python网络爬虫

Python爬虫——爬取豆瓣电影Top250代码实例

来源：中文源码网浏览：203 次日期：2024-04-19 03:50:50

【下载文档: Python爬虫——爬取豆瓣电影Top250代码实例.txt 】

Python爬虫――爬取豆瓣电影Top250代码实例
利用python爬取豆瓣电影Top250的相关信息，包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容，然后将爬取的信息写入Excel表中。基本上爬取结果还是挺好的。具体代码如下：
#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt
#得到页面全部内容
def askURL(url):
request = urllib2.Request(url)#发送请求
try:
response = urllib2.urlopen(request)#取得响应
html= response.read()#获取网页内容
#print html
except urllib2.URLError, e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
return html
#获取相关内容
def getData(baseurl):
findLink=re.compile(r'')#找到影片详情链接
findImgSrc=re.compile(r'findTitle=re.compile(r'(.*)')#找到片名
#找到评分
findRating=re.compile(r'(.*)')
#找到评价人数
findJudge=re.compile(r'(\d*)人评价')
#找到概况
findInq=re.compile(r'(.*)')
#找到影片相关内容：导演，主演，年份，地区，类别
findBd=re.compile(r'

(.*?)

',re.S)
#去掉无关内容
remove=re.compile(r' |\n|
|\.*')
datalist=[]
for i in range(0,10):
url=baseurl+str(i*25)
html=askURL(url)
soup = BeautifulSoup(html, "html.parser")
for item in soup.find_all('div',class_='item'):#找到每一个影片项
data=[]
item=str(item)#转换成字符串
#print item
link=re.findall(findLink,item)[0]
data.append(link)#添加详情链接
imgSrc=re.findall(findImgSrc,item)[0]
data.append(imgSrc)#添加图片链接
titles=re.findall(findTitle,item)
#片名可能只有一个中文名，没有外国名
if(len(titles)==2):
ctitle=titles[0]
data.append(ctitle)#添加中文片名
otitle=titles[1].replace(" / ","")#去掉无关符号
data.append(otitle)#添加外国片名
else:
data.append(titles[0])#添加中文片名
data.append(' ')#留空
rating=re.findall(findRating,item)[0]
data.append(rating)#添加评分
judgeNum=re.findall(findJudge,item)[0]
data.append(judgeNum)#添加评论人数
inq=re.findall(findInq,item)
#可能没有概况
if len(inq)!=0:
inq=inq[0].replace("。","")#去掉句号
data.append(inq)#添加概况
else:
data.append(' ')#留空
bd=re.findall(findBd,item)[0]
bd=re.sub(remove,"",bd)
bd=re.sub('
'," ",bd)#去掉

bd=re.sub('/'," ",bd)#替换/
#data.append(bd)
words=bd.split(" ")
for s in words:
if len(s)!=0 and s!=' ':#去掉空白内容
data.append(s)
#主演有可能因为导演内容太长而没有
if(len(data)!=12):
data.insert(8,' ')#留空
datalist.append(data)
return datalist
#将相关数据写入excel中
def saveData(datalist,savepath):
book=xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
col=('电影详情链接','图片链接','影片中文名','影片外国名',
'评分','评价数','概况','导演','主演','年份','地区','类别')
for i in range(0,12):
sheet.write(0,i,col[i])#列名
for i in range(0,250):
data=datalist[i]
for j in range(0,12):
sheet.write(i+1,j,data[j])#数据
book.save(savepath)#保存
def main():
baseurl='http://movie.douban.com/top250?start='
datalist=getData(baseurl)
savapath=u'豆瓣电影Top250.xlsx'
saveData(datalist,savapath)
main()
Excel表部分内容如下：
以上所述是小编给大家介绍的Python爬取豆瓣电影Top250实例详解整合，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对中文源码网网站的支持！

上一篇：Python爬虫常用库的安装及其环境配置

下一篇：Python爬虫_将headers请求头字符串转为字典的方法

相关内容

QQ客服

公众号
手机版

帮助中心