睡鼠的故事 b > p>
从前有三个小姐妹;他们的名字是
<! - Elsie - > ,
Lacie 和
Tillie ;
他们住在井底。 p>
... p>
“”“
如果我们喝汤得到了上面那段HTML的结构提取内容方法如下
1.通过标签名查找soup.select( '标题'),如需要取出含有一个标签的内容则soup.select( 'a')的
2.通过类名查找soup.select( 'CLASS_NAME ')如取出标题的内容则soup.select('。标题')
3.通过ID名字查找soup.select( '#ID_NAME')如取出ID = LINK2的内容则soup.select( '#LINK2')
上述元素名字可以利用左上角箭头取出,如下图
三,程序编写
# -*- coding:utf-8 -*-
import requests
import sys
import io
from bs4 import BeautifulSoup
import sys
import xlwt
import urllib,urllib2
import re
def get_text():
#登录后才能访问的网页,这个就是我们在network里查看到的Request URL
url = 'http://app-ticketsys.hezongyun.com/index.php/ticket/ticket_iframe/'
#浏览器登录后得到的cookie,这个就是我们在network里查看到的Coockie
cookie_str = r'ci_ticketsys_session=‘***********************************'
#把cookie字符串处理成字典
cookies = {}
for line in cookie_str.split(';'):
key, value = line.split('=', 1)
cookies[key] = value
#设置请求头
headers = {'User-Agent':'Mozilla/5.0(Windows NT 10.0; Win64;x64)AppleWebKit/537.36 (KHTML, like Gecko)Chrome/67.0.3396.62 Safari/537.36'}
#在发送get请求时带上请求头和cookies
resp = requests.get(url, cookies = cookies,headers = headers)
soup = BeautifulSoup(resp.text,"html.parser")
print soup
上述代码就能得到登陆网页的HTML源码,这个源码呈一个树形结构,接下来针对需求我们提取需要的内容进行提取
我们需要工单号,对应时间,对应标题
按箭头点击到对应工单大块,可以查询到,所有的工单号,工单发起时间,工单标题均在
QQ客服
公众号
手机版
帮助中心