Skip to main content

爬虫

用 php 爬 sohu blog 的一个小爬虫

隐约感觉 sohu blog 也快不行了,所以看到一个不错的英语部分,就扒了下来。

爬虫本身很简单,关键点是搜狐博客标题列表是用 Ajax 加载的,所以找到列表就完成一半了。

其实很简单,用 HttpWatch 找到其链接就可以了,比如:

http://liuyongli99.blog.sohu.com/action/v_frag-ebi_93b2b93792-pg_112-c_2729466/entry/

剩下的就简单了,用的是 phpspider,代码如下: