Tag: 采集器
通用文章采集器的设计与实现
2010-05-12, Nortan Posted in 人生百味 | 7 回复 | 查看全文>>
最近头脑有点发热,想做一个采集器来采集文章,然后做一个类似垃圾站的东西,当然,使用的文章发布程序还是用wordpress,wordpress上的采集器不太多,他们大多都是通过rss采集,这也不太合适我,因为如果做为文章采集,采集的对象可能有文章内分页,所以最终还是自己写一个程序吧,自己最熟悉的还是java,那就用java写吧。
采集一堆文章,主要有如下步骤:
第一:采集规则定义
第二:按指定的规则进行文章采集
根据以上步骤,我们分开来实现。采集规则的定义实际就是你要做什么,怎么做的定义,我们这里很明确,就是指定一个列表的url地址,提取列表中所有文章的url,然后再一一采集各文章中的标题、内容,如果每篇文章有内分页,还要分别提取。所以,我们首先要做的,就是给定一个url地址,取得对应的html源码。下面是一个实现,它模拟浏览器,向url发出http请求,服务器返回 查看全文…