PHP爬虫:百万级别知乎用户数据爬取与分析
发布时间:2016-10-13 12:49:06 所属栏目:PHP教程 来源:站长网
导读:副标题#e# 这次抓取了110万的用户数据,数据分析结果如下: 498)this.width=498;' onmousewheel = 'javascript:return big(this)' width="503" height="233" alt="" src="http://www.aspzz.cn/uploads/allimg/160130/1G554Hc_0.jpg" /> 开发前的准备 安装Li
实现了多进程编程之后,就想着多开几条进程不断地抓取用户的数据,后来开了8调进程跑了一个晚上后发现只能拿到20W的数据,没有多大的提升。于是 查阅资料发现,根据系统优化的CPU性能调优,程序的最大进程数不能随便给的,要根据CPU的核数和来给,最大进程数最好是cpu核数的2倍。因此需要查 看cpu的信息来看看cpu的核数。在Linux下查看cpu的信息的命令:
结果如下: 其中,model name表示cpu类型信息,cpu cores表示cpu核数。这里的核数是1,因为是在虚拟机下运行,分配到的cpu核数比较少,因此只能开2条进程。最终的结果是,用了一个周末就抓取了110万的用户数据。 多进程编程中Redis和MySQL连接问题 在多进程条件下,程序运行了一段时间后,发现数据不能插入到数据库,会报mysql too many connections的错误,redis也是如此。 下面这段代码会执行失败:
(编辑:开发网_开封站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |