存档

文章标签 ‘抓取’

PHP通过MYSQL的全文检索实现利用样式和ID特征码识别抓取网页的研究

2009年8月13日 5 条评论

如何在抓取页面的时候,从千差万别的页面结构中,分析到对应的分析规则?网页结构的不同大可以说是因为样式的不同。同一个规则下的网页都是使用相同的样式。没有长的像的两个网页用的样式是一样的。所以,我们可以通过HTML里使用的样式来区分一组网页。而不同网页的标签的ID更是不同。结合样式和ID,我们完全可以区分出每一个规则的样式来。利用MYSQL自带的全文检索很容易完成这项曾经复杂的工作。

阅读全文

分类: PHP+MYSQL 标签: , ,