点击排行

您现在的位置：首页 > 技术文档 > Python网络爬虫

Python通过requests实现腾讯新闻抓取爬虫的方法

来源：中文源码网浏览：540 次日期：2024-04-27 19:10:29

【下载文档: Python通过requests实现腾讯新闻抓取爬虫的方法.txt 】

Python 通过requests实现腾讯新闻抓取爬虫的方法
最近也是学习了一些爬虫方面的知识。以我自己的理解，通常我们用浏览器查看网页时，是通过浏览器向服务器发送请求，然后服务器响应以后返回一些代码数据，再经过浏览器解析后呈现出来。而爬虫则是通过程序向服务器发送请求，并且将服务器返回的信息，通过一些处理后，就能得到我们想要的数据了。
以下是前段时间我用python写的一个爬取TX新闻标题及其网址的一个简单爬虫：
首先需要用到python中requests（方便全面的http请求库）和 BeautifulSoup（html解析库）。
通过pip来安装这两个库，命令分别是：pip install requests 和 pip install bs4 (如下图)
先放上完整的代码
# coding:utf-8
import requests
from bs4 import BeautifulSoup
url = "http://news.qq.com/"
# 请求腾讯新闻的URL，获取其text文本
wbdata = requests.get(url).text
# 对获取到的文本进行解析
soup = BeautifulSoup(wbdata,'lxml')
# 从解析文件中通过select选择器定位指定的元素，返回一个列表
news_titles = soup.select("div.text > em.f14 > a.linkto")
# 对返回的列表进行遍历
for n in news_titles:
title = n.get_text()
link = n.get("href")
data = {
'标题':title,
'链接':link
}
print(data)
首先引入上述两个库
import requests
from bs4 import BeautifulSoup
然后get请求腾讯新闻网url，返回的字符串实质上就是我们手动打开这个网站，然后查看网页源代码所看到的html代码。
wbdata = requests.get(url).text
我们需要的仅仅是某些特定标签里的内容：
可以看出，每条新闻链接、标题都在

标签的标签下
之后我们将刚刚请求得到的html代码进行处理，这时候就需要用到BeautifulSoap库了
soup = BeautifulSoup(wbdata,'lxml')
这一行的意思是对获取的信息进行解析处理,也可以将lxml库换成html.parser库，效果是相同的
news_titles = soup.select("div.text > em.f14 > a.linkto")
这一行是利用刚刚经过解析获取的soup对象，选择我们需要的标签，返回值是一个列表。列表中存放了我们需要的所有标签内容。也可以使用BeautifulSoup中的find()方法或findall()方法来对标签进行选择。
最后用 for in 对列表进行遍历，分别取出标签中的内容（新闻标题）和标签中href的值（新闻网址），存放在data字典中
for n in news_titles:
title = n.get_text()
link = n.get("href")
data = {
'标题':title,
'链接':link
}
data存放的就是所有的新闻标题和链接了，下图是部分结果
这样一个爬虫就完成了，当然这只是一个最简单的爬虫。深入爬虫的话还有许多模拟浏览器行为、安全问题、效率优化、多线程等等需要考虑，不得不说爬虫是一个很深的坑。
python中爬虫可以通过各种库或者框架来完成，requests只是比较常用的一种而已。其他语言中也会有许多爬虫方面的库，例如php可以使用curl库。爬虫的原理都是一样的，只是用不同语言、不同库来实现的方法不一样。
以上这篇Python 通过requests实现腾讯新闻抓取爬虫的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持中文源码网。

上一篇：Python网络爬虫之爬取微博热搜

下一篇：Python数据抓取爬虫代理防封IP方法

相关内容

• 在scrapy中使用phantomJS实现异步爬取的方法

• 用xpath获取指定标签下的所有text的实例

• 用python爬取租房网站信息的代码

• 用Python爬取QQ音乐评论并制成词云图的实例

• 用python3 urllib破解有道翻译反爬虫机制详解

• 一步步教你用python的scrapy编写一个爬虫

• 选择Python写网络爬虫的优势和理由

• 详解用python写网络爬虫-爬取新浪微博评论

• 详解Selenium+PhantomJS+python简单实现爬虫的功能

• 详解Python爬取并下载《电影天堂》3千多部电影

• 详解python爬虫系列之初识爬虫

• 详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

• 详解python3 + Scrapy爬虫学习之创建项目

• 详解Python 爬取13个旅游城市，告诉你五一大家最爱去哪玩？

• 详解python 爬取12306验证码

• 详解python selenium 爬取网易云音乐歌单名

• 通过python爬虫赚钱的方法

• 使用selenium和pyquery爬取京东商品列表过程解析

• 使用Scrapy爬取动态数据

• 使用python实现抓取腾讯视频所有电影的爬虫

• 使用python爬取微博数据打造一颗“心”

• 使用python爬取抖音视频列表信息

• 使用python itchat包爬取微信好友头像形成矩形头像集的方法

• 如何使用python爬虫爬取要登陆的网站

• 如何爬取通过ajax加载数据的网站

• 浅谈Scrapy网络爬虫框架的工作原理和数据采集

• 浅谈Python爬虫基本套路

• 利用selenium爬虫抓取数据的基础教程

• 利用Python检测URL状态

• 利用Pyhton中的requests包进行网页访问测试的方法

• 利用PyCharm Profile分析异步爬虫效率详解

• 检测python爬虫时是否代理ip伪装成功的方法

• 几行Python代码爬取3000+上市公司的信息

• 基于python历史天气采集的分析

• 基于python框架Scrapy爬取自己的博客内容过程详解

• 基于Python的Post请求数据爬取的方法详解

• 基于Python打造账号共享浏览器功能

• 搞定这套Python爬虫面试题(面试会so easy)

• 对python3中的RE(正则表达式)-详细总结

• 超简单的Python HTTP服务

• windows下搭建python scrapy爬虫框架步骤

• windows7 32、64位下python爬虫框架scrapy环境的搭建方法

• selenium+python设置爬虫代理IP的方法

• selenium+PhantomJS爬取豆瓣读书

• Scrapy框架爬取西刺代理网免费高匿代理的实现代码

• Scrapy框架爬取Boss直聘网Python职位信息的源码

• python做反被爬保护的方法

• python抓取网页内容并进行语音播报的方法

• Python中利用aiohttp制作异步爬虫及简单应用

• python中xpath爬虫实例详解

• Python正则匹配判断手机号是否合法的方法

• python正则爬取某段子网站前20页段子(request库)过程解析

• python正则表达式去除两个特殊字符间的内容方法

• Python正则表达式匹配字符串中的http链接方法

• Python正则表达式匹配日期与时间的方法

• Python正则表达式匹配和提取IP地址

• python正则表达式匹配不包含某几个字符的字符串方法

• python正则表达式匹配[]中间为任意字符的实例

• python正向最大匹配分词和逆向最大匹配分词的实例

• python用match()函数爬数据方法详解

• python协程gevent案例爬取斗鱼图片过程解析

• Python微信爬虫完整实例【单线程与多线程】

• Python网页正文转换语音文件的操作方法

• Python网络爬虫之爬取微博热搜

• Python通过requests实现腾讯新闻抓取爬虫的方法

• Python数据抓取爬虫代理防封IP方法

• Python使用Selenium爬取淘宝异步加载的数据方法

• Python使用scrapy爬取阳光热线问政平台过程解析

• python使用requests模块实现爬取电影天堂最新电影信息

• Python使用mongodb保存爬取豆瓣电影的数据过程解析

• python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比

• Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

• python实现知乎高颜值图片爬取

• python实现爬山算法的思路详解

• Python实现爬取亚马逊数据并打印出Excel文件操作示例

• Python实现爬取马云的微博功能示例

• python实现爬取百度图片的方法示例

• python实现爬虫抓取小说功能示例【抓取金庸小说】

• Python实现的文轩网爬虫完整示例

• Python实现的爬取小说爬虫功能示例

• python实现的爬取电影下载链接功能示例

• Python实现的爬取百度文库功能示例

• Python实现的爬取百度贴吧图片功能完整示例

• Python实现12306火车票抢票系统

• Python如何爬取微信公众号文章和评论(基于 Fiddler 抓包分析)

• python如何爬取网站数据并进行数据可视化

• Python如何爬取实时变化的WebSocket数据的方法

• python批量爬取下载抖音视频

• Python爬取智联招聘数据分析师岗位相关信息的方法

• python爬取指定微信公众号文章

• python爬取学信网登录页面的例子

• python爬取微信公众号文章的方法

• python爬取网易云音乐评论

• python爬取淘宝商品销量信息

• Python爬取数据保存为Json格式的代码示例

• Python爬取视频(其实是一篇福利)过程解析

• Python爬取商家联系电话以及各种数据的方法

• python爬取盘搜的有效链接实现代码

• python爬取内容存入Excel实例

• python爬取酷狗音乐排行榜

• python爬取基于m3u8协议的ts文件并合并

• Python爬取成语接龙类网站

• python爬取百度贴吧前1000页内容（requests库面向对象思想实现）

• python爬取cnvd漏洞库信息的实例

• python爬取Ajax动态加载网页过程解析

• python爬虫租房信息在地图上显示的方法

• Python爬虫抓取技术的一些经验

• python爬虫之自制英汉字典

• python爬虫之自动登录与验证码识别

• Python爬虫之正则表达式的使用教程详解

• python爬虫之验证码篇3-滑动验证码识别技术

• python爬虫之爬取百度音乐的实现方法

• python爬虫之快速对js内容进行破解

• Python爬虫之UserAgent的使用实例

• python爬虫之urllib库常用方法用法总结大全

• python爬虫之urllib,伪装,超时设置,异常处理的方法

• python爬虫增加访问量的方法

• Python爬虫运用正则表达式的方法和优缺点

• Python爬虫学习之获取指定网页源码

• Python爬虫学习之翻译小程序

QQ客服

公众号

手机版

帮助中心