Archive七月 2015

中大型网站该如何进行SEO?

中大型网站SEO工作应该如何开展是很多从从企业站转到中大型网站(比如电子商务站,B2C,B2B网站)的朋友首先关心的问题,因为过去的经验无从复制,而现在的出境却又非常的无助,虽然公司会有相应的培训,但是远水解不了近渴,总体来说,所有的焦虑是没有一个很好的指导方向。下面CK就以工作中的一些经验来说一下,在操作中大型网站的SEO时应该有的策略。


既是策略就是对不同情况下的一系列的解决方案的总体,那么优化工作也是如此,也一样会出现各种不同的状况,问题的发生就会有解决方案提出,废话不多说,总的SEO策略按照时间来排序;

优化初期

优化中期

优化后期

优化初期的重点方向有三:

URL规范化,页面元素优化,站内核心资源抓取效率。

重点讲解一下,其实中大型网站有一个特点,这个特点就是“中大型”,换言之就是网站的内容体量大,url层级深,并且会因为技术的原因造成url的形式多样。

URL规范化:此为优化之根本,解决的是SE网页库,索引库,URL库中的key的问题,规范化影响着网站核心资源被抓取及索引效率,权重等等因素。

页面元素优化:页面元素的优化决定着网站未来流量上升的高度,TD的描述在不同的场景使用不同的模块,这个会跟分词及一些用户需求相关联;H\B\P\strong\alt\nofollow等的正确使用。

核心资源抓取效率:优化的初期如果没有清晰地指导,我们总会找最显眼的数据来去观察,比如说网站的关键词排名等等,但是中大型网站的SEO初期优化工作却是要将重心放在整站的收录率上来的,一般情况下中大型网站优化初期的收录率会在70%左右为最佳。

URL规范化和robots禁止策略是最易操作也是做有效的。

优化中期所遇到的问题:

URL老旧:多域名;全静态化、全动态化、半静态化等多套URL规范;url层级太深,url解析代码复杂冗余,性能低维护成本高。

问题与挑战:

参数全静态化,但是本质上还是动态化,SEO效果差;跟前端工程师的合作效率低,如:js拼接静态url问题;url中特殊字符解析问题如:%2F(/),%4E(N);form表单提交产生多余的301跳转,增加前端性能负担20ms左右

URL规范化的问题及其对策:

noindex,nofollow标签,301跳转,canonical标签;webmaster可设置动态参数处理方式。

核心资源的抓取率如何优化呢?

其实站点的扁平结构在后期优化时已经非常的难改变了,所以就先从面包屑导航上来优化,增加相关性等;sitemap每天全量的更新补充spider url库;页面部分推荐模块如是异步则改成同步加载,核心资源的url部署到权重高的页面。

减少无效URL的抓取

robots.txt中直接禁止无效url的抓取和索引,无意义的url可以直接添加nofollow标签,已告知蜘蛛别在这条URL上花心思了,换个有意义的去爬吧。

提升网站的抓取量

避免SE的蜘蛛被安全软件拦截,逐步上调百度站长工具中的抓取压力,及时更新网站中的死链文档及sitemap.

优化中后期中应当注意的三点

搜索词收集整理,搜索词分析,搜索词需求提取,词库分库分档

调排名,针对2  3页的排名进行重点调优,3页之后的关键词的ROI低适当放弃

无论如何走正常的渠道进行优化!但是要研究anti-spam,防止不正确的优化被判作弊。

URL规范化-网站的抓取和收录的解决之法

我们在做网站结构相关SEO工作时,都应该考虑以下三个问题:
        1,Baiduspider能不能找到所有网页
        2,Baiduspider是否知道哪个网页是重要的
        3,Baiduspider能否顺利提取网页内容bqqk
        4,Baiduspider能否在网页中提炼有用信息 
下面讲的内容便是解决前两个问题的:

一,友好的网站结构

         1,  扁平or树型:一说到网站结构,大家都会提到扁平结构和树型结构,言必称“结构扁平化”,这些指的是物理结构,即基于内容聚合的目录及文件位置决定的结构。其实对于百度搜索引擎来说,只要结构合理、有逻辑性、内容有规律可循都可以,都是友好的。

         2,  链接结构:相对于物理结构,就要说到逻辑结构:即通过内部链接形成的链接结构,逻辑结构才是搜索引擎最关注的。对于一个网站来说,网页仅仅可以通过首页——目录1——目录2一层一层follow到是远远不够的,一个优秀的链接结构应该是网状的。

        1)首页链接应该链向重要的频道页,频道页再链向下面的节点页或普通页面。同时,频道页、节点页和普通页面都应该可以链回到首页

        2)无论哪些页面之间互相链接,都需要一个描述恰当的锚文本

        3)链接不要放在JS、FLASH等搜索引擎不可见的位置,使用图片做链接入口应该完善alt标签

              *百度搜索引擎目前仅支持对部分JS和FLASH进行解析,绝大多数放在JS和FLASH里的链接都是获取不到的

       4)为重要页面留更多入口。百度搜索引擎认为,获得更多内部投票的网页相对来说更加重要

        5) “离首页越近”的网页,越容易受到百度重视。这个“近”指的是页面离首页的点击距离。即使URL所在目录层级较深,只要在首页有入口,百度也认为这是一个非常重要的页面。

        6)不要产生可怕的孤岛页面。虽然百度在提交入口、社会化挖掘方面做了许多工作,但链接抓取依然是百度获得新页面的最重要渠道

二,通过导航让百度更好地认识站点

        对于用户,导航要解决的问题是:我在网站的什么位置,我想看上一级、甚至上上一级更多内容的入口在哪里;对于spider,导航要解决的问题是:这个页面属于哪个领域,要表达的主题是什么。所以说,清晰的导航系统不仅有助于提高用户体验,对SEO的意义也是重大的,所有SEO做得出色的网站基本都拥有清晰明确的导航。

       1,导航内容搜索引擎可见:有网站的导航对用户来说美观友好,对百度来说却是不可见的。目前百度还不能搞定所有的JS和FLASH,保险起见,还是使用HTML的好。图片虽然美丽,作为导航也是对搜索引擎不友好的行为。

        2,导航稳定:导航内容应该是相对固定的,不要让导航成为“滚动条”。

        3,重要网页尽可能地在导航处可以follow到:百度认为主导航中出现的链接,其重要性仅次于网站首页,所以应该尽量将站内的页面在主导航中安排个位置。当然,主导航上也不可能放过多的内容,哪些链接可以上主导航还需要SEO人员进行平衡。

        4,巧用面包屑导航:上面说到,导航对于用户来说,解决了“想看上一级、甚至上上一级更多内容”的问题,这个导航指的就是面包屑导航。面包屑导航可以使结构复杂庞大的大中型网站变得清晰轻盈,在spider进行页面解析时会着重查看面包屑导航内容,强烈建议使用。

三,合理的domain结构

        除了在网站建设的时候站长会思考到底使用二级域名还是子目录,在网站运营的过程中,也会考虑是否要把子目录的内容拆分成二级域名。因为很多SEO人员认为二级域名相对独立,其首页会得到百度的重视,能获得更好的排位——其实这是一个片面的错误观点,百度会通过很多指标对同domain下的二级域名和子目录进行重要程度判断,并没有武断地认为谁天生就会比谁强一些。

        当SEO认为站内结构已经阻碍了网站高速发展就会考虑改版,最常见的改版便是将子目录移出主站点、单独形成二级域名。但大家都知道,改版肯定会对站点的收录排名和流量造成影响,一定要谨慎。那么在什么情况下才真的需要将子目录换成二级域名呢?其实只有一点:即子目录的内容足够丰富,且与主域的主题关联性不强!

四,url结构很重要

1,url结构规律化:同一个网页有不同url,会造成多个url同时被用户推荐导致权值分散;同时百度最终选择展现的那个url不一定符合你的预期。站点应该尽量不把sessionid和统计代码等不必要的内容放在url,如果一定要这样做可以通过robots禁止百度抓取这些非规范url

2,最好能让用户从url即可判断出网页内容,便于蜘蛛解析的同时便于用户间传播
3,url尽量短
              ●蜘蛛喜欢:http://tieba,baidu,com/f?kw=百度
              ●蜘蛛不喜欢:http://tieba,baidu,com/f?ct=&tn=&rn=&ln=&cn=0&kw=百度&rs2=&un=&rs1=&rs5=&sn=&rs6=&nvselectvalue=0&oword=百度&tb=cn
       4,不要添加蜘蛛难以解析的字符,如
         http://mp3,XXX,com/albumlist/234254;;;;;;;%B9&CE%EDWF%.html
              http://news,xxx,com/1233,242,111,0.shtml
       5,动态参数不要太多太复杂,目前百度对动态url已经有了很好的处理,但是参数过多过复杂的url有可能被蜘蛛认为不重要而抛弃

SEO中的日志分析有多重要?

做SEO从来都是以数据说话的,但是平常的时候拿什么数据来说话呢?有什么数据可以来说明我们的网站上存在的问题呢?

也许你会说,平常的统计工具统计来的数据都可以拿来作为分析使用啊,比如说PV、UV、IP、跳出率、网站访问时长等,热点图也可以看见很多访客踪迹的,于是,就会有很多运营人员就直接查看统计工具上的一些数据了,但是一些比较细的地方在统计工具是不能看到的。

下面就从博主操作的一个项目上来说一说如何通过shell来分析网站日志而得到一些不常见的数据。

博主的这个网站主要是做自动化设备的,同时也在做着百度推广,现在的需求是要查看一下这个网站的百度蜘蛛抓取量是什么样的。

首先介绍一下,楼主的工作环境是windows,所以利用shell分析网站日志的话就要使用一些linux方面的工具了,首先就是cygwin,如何安装cygwin请自行百度,这个也是比较的简单的只要跟着帖子的步骤走就可以了。

cygwin安装好了之后就要把工作路径给设置好,但是常常我们会碰到一个问题,就是windows下的路径到Documents and setting这一块就不好往下走了,这里给出一个解决方案,希望可以好好地记住并且利用

winhome ="/cygdrive/Documents and setting/Administrator/Desktop/"
cd "$winhome"

上面的代码就可以很好进入到工作路径中的。

首先作分析必须得有物料,这个物料就是网站日志了,从ftp中将网站进来一周的数据down下来。

进入到工作路径的文件夹下,利用命令将这几个文件合并到一起,合并的文件为all.log

比如可以使用less all.log可以查看整个文件内的内容,按q可以退出文件内容的浏览。

现在的需求是要看最近一段时间百度蜘蛛对网站的抓取情况,所以就只要对百度蜘蛛处理就ok了,将这一部分的内容切割成一份文件,重新命名为baidu.log。

接下来要对网站的状态码个数进行统计,这个座位后面的分析要用的。

从上面中可以看到百度的总抓取量为3865个,端口80,当然也会有单独的查看百度抓取量的命令了

百度的不重复抓取量如下所示,可以统计得到的:

统计一下百度抓取的最多的钱20个文件或者页面吧:

可以看到百度蜘蛛对于网站的css文件和新闻页面比较偏爱的!所以站长朋友们要常常更新新闻哦。

许多朋友想看自己占中的404页面有多少,那么久来查看一下我这个项目的404错误吧,希望不要太多哦~

哦哦~  网站中么有404,感觉不错,继续来看一下吧,说百度经常抓网站的js但是得有证据啊,咱们就来看一看百度到底抓不抓网站的js文件吧

不错吧,百度蜘蛛是抓取js文件的,而且量还不少,于是乎,在咱们进行js文件或者css文件中的id或者class命名的时候要注意了哦,百度也许会通过这个来判断网站是站群是否是模板站呢~

好了,一般情况下一个中小站点的日志分析到这里也就结束了,那么来总结下我们得到的情报吧。

1.百度蜘蛛的总抓取量为7天的总抓取量是3865次

2.不重复的抓取量为320个

3.其中抓取最多的页面或者文件居然不是我们通常认为的首页文件哦

4.css文件抓取的最为频繁,其后则是我们的uploadfile中的图片了,相当大的量占据了我们的蜘蛛抓取额度,这样真的好嘛?有办法处理吗?这个就需要小伙伴们细细思考了哦~

python中的对象到底是什么?

python作为一门面向对象的编程语言,有其自有的风格,python中一切皆对象,函数是对象,类型也是对象。今天就对python的对象来仔细说道说道。

首先来回顾一下Python对象的三个要素,分别是:

身份(id):这个可以通过内建函数id()来获得!

类型(type):也可以通过内建函数type()来获得!

值:就是对象代表的数据

在python中所有的对象都可以分为两类分别是类型对象(type object)和非类型(non-type object)