通常在新的网站做好后,会需要添加一些前期数据,不然会显得网站就是空空的,即使有客户访问了也没什么东西可以看。除了一些业务简介的页面外,我们还需要添加一些比较有参考价值的文章内容。
对于使用 WordPress 创建的网站也是如此,但想要快速和批量的添加数据无非就两种方式,要么人工一篇文章一篇文章的发布,要么就使用工具进行批量的发布内容。
人工手动的发布信息是比较原始和低效率的方式,但也是最简单的,适合已经有了初始数据 (内容较少) 只需要复制粘贴的工作类型。
但通常我们是希望文章数据越多越好,而且要能高质量可以正常阅读,做为原创的文章数据最佳。这里我们只讨论技术和实际操作,对于采集数据是否合乎道德、版权以及伪原创什么的性质不进行评价。
想要获取数据通常需要以下几个步骤:
1 、数据收集
收集数据是指的你需要为自己站点添加什么信息、哪些类型或哪种文章,比如你的网站是卖某个品牌的衣服,那么你要找的就是包含此品牌信息的一些文字和网站,并且将这些内容的链接和网址整理到一起以便下面使用。
2 、数据分类
有了第一步收集的数据后,我们就相当于有了一个小型的 「数据库」,现在必须要对这些内容进行一下分类,比如那些只是行业或者品牌的新闻,那些有阅读和参考价值。
分清楚这些是很重要的,因为这牵涉到我们后面处理数据的难易程度。对于一些看一眼就过了的文章可以随便些,但高质量的内容能帮我们减轻很多实际工作中的麻烦,比如客户售后、常见问题等。
3 、开始采集
在采集数据时要确保你已经有了至少一款常用和熟悉的采集软件 (工具),对于 WordPress 的采集工具薇晓朵会抽空整理一篇文章专门讲到。采集工具的好坏会直接导致你获取的数据质量如何。
对于获取到的这些数据,我们称之为原始数据,也就是未经过加工的,这些数据可能包含一些原站点 (采集目标站) 的广告、关键词、外链等。如果直接导入这些数据到我们的新站中,毫无意义,纯粹就是垃圾数据而已 (当然,如果你本身就是想要做垃圾站的也无所谓) 。
4 、数据处理
数据处理其实简单点说无非就是对文字、图片、链接、内容关键词的修改和替换,删除广告内容和无用的文章,还有就是比如语言的转换,简体转繁体,英文转中文等等,更进一步的可以做伪原创的操作。
数据能处理到什么程度完全取决于你个人喜好和愿意花费的时间。这些都是可以通过批量处理来实现,一般来说如果原始数据有 1000 篇文章,处理完成后能有个 700~800 篇内容都还是很好的。
5 、数据导入
导入数据得看你究竟是什么样的网站程序,还是以我们使用的 WordPress 为例,我们可以通过将数据导出为 CVS 表格或者 .XML 文件的方式,很轻松的导入到 WordPress 网站中。
如果你的采集工具本身就支持 WordPress 的话,那么也轻松很多,会省下很多麻烦,比如数据格式的转换、调整文件字符编码等等。
完整的数据采集及处理流程:
光说不做并不是薇晓朵的风格,下面是我们给出的工作室去年所使用的站点数据填充采集流程。
我们在此进行公开,方便给需要的朋友一些灵感和建议。现在互联网已经进入了大数据时代,这也是普通网站获取大量数据的方法之一。
因为薇晓朵是使用的 WordPress 进行数据采集和后期导入,所以这张图很使用 WordPress 用户,对于其他 CMS 的朋友也是具有参考价值的。
如果在具体操作过程中有什么问题,也可以在博客或者薇晓朵技术论坛给我们留言或提问告知。
发表回复