我的第一个小爬虫:爬取腾讯新闻保存到TXT

最近喜欢上了Pyhon这门语言,简洁、高效、简单,像我这种菜鸟都能学会的语言,我就不多说了,你懂的。

“Python在设计上坚持了清晰划一的风格,这使得Python成为一门易读、易维护,并且被大量用户所欢迎的、用途广泛的语言。”
“Python的设计哲学是“优雅”、“明确”、“简单”。” ————摘自百度百科


下面是学习三天写的一个小玩意,爬取腾讯新闻并保存到TXT文件,很简单的一个小爬虫。

# -*- coding:utf-8 -*-
# 操作系统功能
import os
# 网络交互
import requests
# 提取HTML数据
from bs4 import BeautifulSoup

# 定义一个类
class Spider:
# 定义一个函数
    def get_news(self,url):
        # 伪装浏览器UA
        headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 \
            (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
                     }
        # 请求网页
        r = requests.get(url,headers=headers)
        # 解析网页源代码
        soup = BeautifulSoup(r.text,'lxml')
        # 提取需要内容
        news_tittle = soup.select('div.text > em.f14 > a.linkto')
        # 保存数据到TXT
        with open ('qqnews.txt','a',encoding='utf-8') as fo:
            for i in news_tittle:
                title= i.get_text()
                link = i.get('href')
                data = {'标题':title,'链接':link}
                print (data)
                fo.write(str(data) + '\n')
            fo.close
#============================开始爬取==============================

# 要爬的网址
url = 'http://news.qq.com/'

# 开始执行
spider = Spider()
spider.get_news(url)

执行结果:

执行结果

本文链接:

https://www.wrdan.com/tech/qqnews-spider.html
1 + 4 =
2 评论
    东硕电子QQ Browser 7Android M
    2017年01月23日 回复

    这个干神马用的?

      DanChrome 55Windows 10
      2017年01月23日 回复

      @东硕电子 抓取网上数据