PHP通过MYSQL的全文检索实现利用样式和ID特征码识别抓取网页的研究
2009年8月13日
5 条评论
如何在抓取页面的时候,从千差万别的页面结构中,分析到对应的分析规则?网页结构的不同大可以说是因为样式的不同。同一个规则下的网页都是使用相同的样式。没有长的像的两个网页用的样式是一样的。所以,我们可以通过HTML里使用的样式来区分一组网页。而不同网页的标签的ID更是不同。结合样式和ID,我们完全可以区分出每一个规则的样式来。利用MYSQL自带的全文检索很容易完成这项曾经复杂的工作。