欢迎光临

会员注册 会员登录

浅谈采集内容的一种认识,采集网站内容的实现?

最近自己其实针对伊人集写过不少功能插件,但因为盗版的原因,我就放弃继续公开和提供了。
有人说为什么不加密?个人感觉没有必要,PHP尽管是一种开源的代码,但其实在国外版权及专利必须认真或者依法的制度下,做为开发者是享受保护的。
当然,在中国这个环境下一切都是在不断完善的,我没有贬低自己成长的国度。但毕竟这是一个神奇的地方,有时大家想当然的就这样做了,甚至……完全是一副厚颜无耻的脸面,如死猪一条不怕烫的样子——其实,这对于开发环境,是一种悲哀,大家会失去一种开发的激情……
以上是题外话,盗者无视。
做为站长,一般是没有那么多精力去写出原创的文章和内容来的,如果你不信?!那除非你是作家,而不是站长……
做为站长,一般是没有那么多的原创内容展现到自己的网站上来的,这你必须相信,因为你不可能天天去原创的。
做为一个站长,可以有原创,也可以有转载。其实大的网站,他们也是采集或者转载文章内容的。
所以,有时,转载就是一种采集——无非是一些人工转化为机械化的操作而完成的。这里就牵涉到我们说的采集技术,而实现采集的技术有N种语言,也有N种方法。
从而,也就相应的产生了反采集技术——事物的发展总是相对的,一种事物的产生就会促生另一种事物,没有相对独立的个体存在,事物的存在也是相对的独立的存在——NND,这整的辨证法上面来了,放弃……
说一说我知道的PHP的采集:
一种是通过自己网站的触发访问,去唤醒站内采集脚本,从而自动去抓取设定的外站内容。优点是自己控制让人感觉舒服,就似开车一样自己开感觉是种自信,别人开不放心。缺点是因为运行于自己的服务器,一定会发生占用资源的这种现象,当然这是自然的存在;
一种是通过软件的形式进行的采集,如早期的火车头和后期的XXX,其实思路是一样的,通过软件的抓取,提交到网站的数据库中。它的特点是软件采集,消耗的资源较少,但因为毕竟还是要加入到网站数据库中的,也一定会发生占用资源的这种现象,这也是一种自然的存在;
还有一种是嫁接到别人站点的采集,思路是融合了以上两种办法,转接到第三方网站执行。这种方法我并不欣赏,第三方的加入无非是为了获利,而不是方便用户。
以上是我的一点思想,而对于伊人集来说,这也是一份原创。呵呵,看来原创内容也是挺简单的,但就是这样一个一个的码出字来,也是一种辛苦。

相关活动

赞助伊人集模板计划活动

已邀请:

要回复讨论请先登录注册