设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2201|回复: 1

Python爬虫: 抓取One网页上的每日一话和图

[复制链接]

171

主题

398

金钱

605

积分

初级用户

发表于 2016-6-23 15:49:21 | 显示全部楼层 |阅读模式
来源:http://www.jianshu.com/p/c4f35dfe1a1f
(一)一台MAC电脑(二)Python环境搭建(所有命令都是在terminal中输入的)(三)分析目的:找出三个内容所在的网页标签的位置,然后将它们提取出来。
网址:http://wufazhuce.com/one/1293
谷歌浏览器,右键->显示网页源代码,然后就会弹出一堆HTML的东西了。这样的:

网页源文件
我想要的内容是这段话:“即使热恋者的情感是错觉、幻象或自恋行为,那又何妨,所谓人生就是一段不断追求情爱的路程。 by 森山大道”。它在图中画红线的地方。在<heda>标签里的<meta>中,之后会用到,先往下看。
图片的链接在哪里?显然不在<head>中,往下找,然后就在<body>中,发现2处和图片类似的链接。看图

图片链接地址
哪个链接是呢,点击去,发现后一个链接,也就是67行这个img标签的链接是。
然后,我还想知道哪一天的图和文字。嗯,在回到<head>标签里,很明显有个<title>,里面的东西就是我们要的。这样:
<title>VOL.1271 - 「ONE · 一个」</title>
  
(四)python编码想要抓取网页上的内容,又不想自己去解析HTML,只好求助万能的Google了。然后就找到了上面的链接。主要有两个工具:request加载网页,BeautifulSoup4解析HTML。
首先,抓取我们需要的哪三个内容:
进入python环境,然后敲入下面的代码:
import requestsimport bs4response = requests.get('http://wufazhuce.com/one/1295')soup = bs4.BeautifulSoup(response.text,"html.parser")这样,就可以将网页信息存储到soup中了。你可以敲入print soup试试。
接下来,我们获得<title>VOL.1271 - 「ONE · 一个」</title>中的数字1271。怎么获得呢,beautifulsoup4教程,提供了很好的方法,可以通过tag查找得到title的内容,然后截取字符串。termianl中输入:
soup.title.string[3:7]title是tag值,string是tag=title的字符串的值,也就是<title></title>之间的值,因为只有一个<title>tag,所以不用做判断,直接获取即可。
接下来,获取一段话。

要截取的内容
这段话在<meta>中,而这里又有太多的<meta>了,怎么办。这里要用到select方法了,它可以查找所有的<meta>,并返回一个列表。还要用到get方法,get可以获得tag的属性,如tag: <meta attr='abc'> tag.get('attr')值等于abc。这里我们要获取的属性是name,通过name='description'来区分。
for meta in soup.select('meta'):    if meta.get('name') == 'description':        print meta.get('content')接下来,在两个img标签中,查找第2个img标签标定的链接。这里通过find_all方法,它可以查找所有的符合要求的标签。
soup.find_all('img')[1]['src']这样,我们就把所需要的信息找出来了。

终端示例
等等,之后我们还需要并发和保存文件。在此之前,先来看点别的。map函数有两个参数,一个是函数,一个是序列。将序列的每个值,作为参数传递给函数,返回一个列表。参考这里
示例:
def echoInfo(num):    return numdata = map(echoInfo, range(0,10))print data结果: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
然后并发, python可以跨平台使用,自身提供了多进程支持模块:multiprocessing。而pool可以用来创建大量的子进程。
保存数据到文件。这里我们是吧数据解析后存储到字典中,然后序列化为JSON模型,最后保存到文件的。
即:字典->JSON模型->存储到文件。
字典->JSON模型,使用的是JSON模块的json.dumps方法,该方法有一个参数,参数为字典,返回值是JSON字符串。
JSON模型->文件,使用的是json.load方法,可以将JSON存储到文件中。
全部的代码示例如下:
import argparseimport refrom multiprocessing import Poolimport requestsimport bs4import timeimport jsonimport ioroot_url = 'http://wufazhuce.com'def get_url(num):    return root_url + '/one/' + str(num)def get_urls(num):    urls = map(get_url, range(100,100+num))    return urlsdef get_data(url):  dataList = {}  response = requests.get(url)  if response.status_code != 200:      return {'noValue': 'noValue'}  soup = bs4.BeautifulSoup(response.text,"html.parser")  dataList["index"] = soup.title.string[4:7]  for meta in soup.select('meta'):    if meta.get('name') == 'description':      dataList["content"] = meta.get('content')  dataList["imgUrl"] = soup.find_all('img')[1]['src']  return dataListif __name__=='__main__':  pool = Pool(4)  dataList = []  urls = get_urls(10)  start = time.time()  dataList = pool.map(get_data, urls)  end = time.time()  print 'use: %.2f s' % (end - start)  jsonData = json.dumps({'data':dataList})  with open('data.txt', 'w') as outfile:    json.dump(jsonData, outfile)

10

主题

77

金钱

241

积分

入门用户

发表于 2016-8-23 15:21:55 | 显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表