加强内功


用python写了一个蜘蛛,可以实现如下功能:
1、自动采集网易体育板块下的新闻链接,并入库。只要第一次给了种子链接,就能够自动发现新链接。
2、读取mysql库中的新闻链接,采集需要的字段,写入数据库,实现自动发布。对新闻正文,能够做到95%以上的采集正确率。
3、通过分词技术,分析正文关键字,作为标签入库。
以上几点,实现了sablog的完全自动发布。只要花很少的时间,就可以发布海量文章。
但是现在还有很多问题。
程序健壮性差,经常会遇到exception中断,无法实现无人值守自动运行。内容仅是简单的采集,距离原创或是二次创作很远,谷歌倒是收录了很多,但是百度不知道为什么只收录首页,而且长时间不更新。可是谷歌收录了没用啊,没有任何流量。可能还是域名的问题。
不管怎样,通过这个例子,至少可以看出,通过程序自动采集、提取、发布的流程是可行的,海量内容博取长尾关键字的流量是可行的。内功还需要加强,看书是非常必要的。现在只是最简单的采集,还称不上是一个健壮的蜘蛛。还要进一步的完善和提升。
这需要做很多的工作。
下一步,就是要做一个图书cps的网站了。这一步,就是成功与否的关键所在。看书看不出什么,考虑自己翻译python文档。然后,网站程序,flask+bootstrap,或者Drupal,也要抉择。
今年是转折年。加油。