行业网站在网络推广前的四大准备工作
行业网站推广前四步准备工作,如下:
网站推广前提之一、关键词的提取
从人们现在的认识和实践来开,网页所含关键词是网页内容特征的一个最好代表,于是预处理阶段中必需的一项基本任务,就是要提取网页源文件的内容部分所含的关键词。
对于中文来说,就是要根据一个词典Σ,用一个所谓的"切词软件",从网页文字中切出Σ所含的词语来。这样,一篇网页主要就用一组词来近似代表了。
一般来讲,我们可能得到很多词,同一个词可能在一篇网页中多次出现。从效果和效率考虑,不应该让所有的词都出现在网页的表示中,要去除诸如“的”,“在”等没有内容指示意义的词,称为“停用词”。
这样,对一篇网页来说,有效的词语数量大约在200左右。
网站推广前提之二、重复或转载网页的消除
与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便利,因此,我们看到的Web上的信息存在大量的重复现象。这种现象对于广大的网民来说是有正面意义的,因为有了更多的信息访问机会;但是对于搜索引擎来说,则主要是负面的,它不仅在搜集网页是要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义的消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复了,给我一个就够了”。因此消除内容重复或者主题重复的网页是预处理阶段的一个重要任务。
具体搜索引擎是怎么“消重”的,以后会有详细的分析。
网站推广前提之三、链接分析
大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机。
从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据的就是“共有词汇假设”,即内容所包含的关键词集合,最多加上TF(词频)和DF(文档频率)之类的统计量,而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者某些内容的相关性,这是很有意义的。
有了HTML标记后,情况可以得到进一步的改善,例如,在同一篇文档中,h1和/h1之间的信息很可能就比在h4和/h4之间的信息更重要。
特别的,HTML文档中所包含的指向其他文档的链接信息是人们近年来特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。
网站推广前提之四、网页重要程度的计算
预处理阶段可能形成的所谓“重要性”因素(既然是在预处理阶段形成的,就是和用户查询无关的),核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过HTML超链在网页之间体现的非常好,作为Google创立核心技术PageRank就是这种思路的成功体现。
除此之外,网页上要基本一个明确的主题内容。在一个网站推广规划方案里有这几步,之后的推广工作会轻松很多。
相关阅读:实现你的网络营

|
|
|
