分类目录SEO

SEO十三问,你能回答多少?

1. 影响页面质量因素有哪些?

典型的低质量页面有以下特征:

  • 主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)
  • 死链
  • 虚假信息/诈骗等
  • 点不稳定
  • 影响主需求的权限问题(下载/浏览需要注册会员/积分等)
  • 信息不完整(转载不全等)
  • 浏览体验差(广告/字体/页面布局等)

典型的高质量页面存在以下一些特征:

  • 访问速度快(页面加载快/资源下载速度快)
  • 页面整洁干净,主体内容在显著位置。
  • 页面信息完整。
  • 页面元素丰富(文字、图片、评论、相关推荐等)

2. 平时用啥分析日志?
平时都用shell分析网站日志,常用的shell命令有:

  • curl
  • cat
  • grep
  • sed
  • awk

3. 你了解你网站的结构和产品吗?聊聊你的认识?
网站的结构即是网站的架构从大方面上说的是前端+后端

前端:

  • 内容
    • 让访问者浏览的信息(内容归于前端是因为内容是显性的,但对于内容的处理确实隐形的,那个归于后端)
  • 结构层(HTML)
    • 使内容具有逻辑性和易用性
  • 表现层(CSS)
    • 修饰内容的外在表现使之看起来美观
  • 行为层(Javascript)
    • 与内容的交互操作
  • UI(User Interface)
    • 用户界面要注意用户体验

后端:

  • 服务器
    • Apache
    • Nginx
    • IIS
  • 程序语言
    • php
    • asp
    • python
  • 数据库
    • access
    • mysql
    • mongodb
  • 各种模块
    • CMS

4. 熟悉http协议吗?稍微讲讲
HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。
Web服务器有:Apache服务器,IIS服务器(Internet Information Services)等。
Web服务器根据接收到的请求后,向客户端发送响应信息。
HTTP默认端口号为80,但是你也可以改为8080或者其他端口。

HTTP的三点注意事项:

  • HTTP是无连接的
  • HTTP是媒体独立的
  • HTTP是无状态的

5. 我挖了相关行业的10万关键字,请问接下来你准备如何处理?

  • 提取实体
  • 去重
  • 受控词表
  • 分类
    • 按照意图进行分类
      • 导航:自己做or单独做个频道
      • 信息:放入资讯,问答,产品库
      • 事务:一般放在主力产品线上,页面上会有功能体现,比如”添加到购物车”,”下载链接“,”在线预定”等等

处理词之后能做什么呢?
1.内容关联
2.自动tagging
3.提高站内检索精度


6. 如果让你生成一个100万url的sitemap,请问如何处理?
使用python程序进行处理。


7. 如何保证定时更新
CMS定时更新


8. 你熟悉ga吗?平时你都用ga做什么?
还行吧,一般都是看看流量和排名以及索引的数据


9. 请问什么是ajax技术?对seo的影响又是啥?
AJAX即“Asynchronous JavaScript and XML”(异步的JavaScript与XML技术),指的是一套综合了多项技术的浏览器端网页开发技术

使用Ajax的最大优点,就是能在不更新整个页面的前提下维护数据。这使得Web应用程序更为迅捷地回应用户动作,并避免了在网络上发送那些没有改变的信息。

Ajax不需要任何浏览器插件,但需要用户允许JavaScript在浏览器上执行。就像DHTML应用程序那样,Ajax应用程序必须在众多不同的浏览器和平台上经过严格的测试。随着Ajax的成熟,一些简化Ajax使用方法的程序库也相继问世。同样,也出现了另一种辅助程序设计的技术,为那些不支持JavaScript的用户提供替代功能。

对应用Ajax最主要的批评就是,它可能破坏浏览器的后退功能。在动态更新页面的情况下,用户无法回到前一个页面状态,这是因为浏览器仅能记下历史记录中的静态页面。

一个被完整读入的页面与一个已经被动态修改过的页面之间的差别非常微妙;用户通常都希望单击后退按钮,就能够取消他们的前一次操作,但是在Ajax应用程序中,却无法这样做。

不过开发者已想出了种种办法来解决这个问题,当中大多数都是在用户单击后退按钮访问历史记录时,通过创建或使用一个隐藏的IFRAME来重现页面上的变更。(例如,当用户在Google Maps中单击后退时,它在一个隐藏的IFRAME中进行搜索,然后将搜索结果反映到Ajax元素上,以便将应用程序状态恢复到当时的状态。)

一个相关的观点认为,使用动态页面更新使得用户难于将某个特定的状态保存到收藏夹中。该问题的解决方案也已出现,大部分都使用URL片断标识符(通常被称为锚点,即URL中#后面的部分)来保持追踪,允许用户回到指定的某个应用程序状态。(许多浏览器允许JavaScript动态更新锚点,这使得Ajax应用程序能够在更新显示内容的同时更新锚点。)这些解决方案也同时解决了许多关于不支持后退按钮的争论。

进行Ajax开发时,网络延迟——即用户发出请求到服务器发出响应之间的间隔——需要慎重考虑。如果不给予用户明确的回应,没有恰当的预读数据,或者对XMLHttpRequest的不恰当处理,都会使用户感到厌烦。通常的解决方案是,使用一个可视化的组件来告诉用户系统正在进行后台操作并且正在读取数据和内容。


10. 请问什么是卡片分拣技术?请模拟一下卡片分拣对于关键的分类作用
是一种人工分拣关键词的方法,可以集思广益,在操作的过程中可以进行一定的筛选和层级的把控。此方法详见图书《锦绣蓝图,如何规划一个让人流连忘返的网站》


11. 你对于seo频道是怎么看的?
SEO频道从信息的角度来看是不同于网站中其他页面的,它包含了很多的内容元素,诸如: 通用性信息,交互性信息,及时性信息,推荐性信息,排行性信息,形式主要以图片,文本,视频,表格,链接等展现。


12. 你平时是如何模拟post抓取的?
使用火车头进行post抓取,也会使用python去写一个


13. 对于防采集,你有好的想法吗?你一般是如何处理的?
防采集一般情况下是使用几种不同的模板,其中内容 布局等都是一样的,只是类等命名不同,所以利用这个不同的命名的方法即可简单的防止采集。

 

——————ITSEO日比哥专属问答,转载注明出处!

详解Shell采集百度下拉框中各个命令的作用及参考文献

curl -s “https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=seo”|iconv -f gbk -t utf-8|awk -F”:” ‘{print $4}’|grep -oP ‘(?<=”).*?(?=”)’|sed ‘s/,//g’

自此,分析一下这个表达式的组成,将网址以[website]代指:

curl -s “[website]” | iconv -f gbk -t utf-8 | awk -F":"
'{print $4}'
| grep -oP '(?<=").*?(?=")' | sed 's/,//g'

对以上的命令进行拆分,如下:

  1. curl -s “[website]”
  2. | iconv -f gbk -t utf-8
  3. | awk -F":"
    '{print $4}'
  4. | grep -oP '(?<=").*?(?=")'
  5. | sed 's/,//g'

逐一解释:
| 这个符号是管道的意思,起着承接的作用,表示将此命令得到的结果传递到下一个命令中。

第一节

curl -s 和 -d有什么区别?
-s–silent静默模式的简写,意思就是不显示错误和进度,如果没有指定-d(或者其他方式)默认为GET
-d–data的简写,–data使用POST的方法,-d和面的是post的数据。
其中大写的-S和-D均有其他意思,-S/--show-error:显示错误。 -D/--dump-header<file>:把header信息写入到该文件中

第二节

iconv -f gbk -t utf-8命令是什么意思
此命令的意思呢就是把GBK编码的文件转成UTF-8编码的文件,其中值得注意的是如果原来就是utf-8编码,使用iconv -f GBK -t UTF-8命令转换后,会出现乱码,或截断等各种问题;一定要保证原文件是不是utf-8编码。

iconv有如下选项可用
输入/输出格式规范:
-f, --from-code=名称 原始文本编码
-t, --to-code=名称 输出编码
信息:
-l, --list 列举所有已知的字符集
输出控制:
-c 从输出中忽略无效的字符
-o, --output=FILE 输出文件
-s, --silent 关闭警告
--verbose 打印进度信息

第三节

awk -F”:” ‘{print $4}’ 是什么意思?
cawk 也是一个非常棒的数据处理工具!sed 常常用于一整个行的处理, awk 则比较倾向于一行当中分成数个『栏位』(或者称为一个域,也就是一列)来处理。因此,awk 相当的适合处理小型的数据数据处理呢!awk 通常运行的模式是这样的:
awk '条件类型1{动作1} 条件类型2{动作2} ...' filename
参考如下链接
Shell awk入门
AWK的用法示例,从0到1的理解并实操

第四节

grep -oP ‘(?<=”).*?(?=”)’ 命令是什么意思?
Grep
全称Global Regular Expression Print,表示全局正则表达式
是一个强大的文本搜索工具,采用正则匹配
1、命令格式
grep [options] files
2、主要参数
-c: 只输出匹配行的数目
-i: 不区分大小写
-n:显示匹配航以及行号
-l:查询多文件的时候只输出包含匹配字符的文件名
-v:反向匹配,即显示不匹配的行
-h: 查询的时候不适用文件名
-s:不显示错误信息
3、部分正则表达式
\ 反义字符:如”\”\”“表示匹配””
^$ 开始和结束
[] 单个字符,[A]
[ – ] 匹配一个范围,[0-9a-zA-Z]匹配所有数字和字母
*前面的字符出现0次或者多次
+前面的字符出现了一次或者多次
. 任意字符
参考:Grep命令详解-9个经典使用场景

第五节

sed ‘s/,//g’的命令是什么意思?
再解释这个命令前我们来看看下面这个是什么意思吧:
sed ‘s/[0-9]//g’
去除文本中的所有数字
[0-9]匹配一个数字,
s/A/B/ 将A替换为B
g表示全局替换

那么上面的例子就不难看出了,其意思就是去除文本中的所有,符号。
参考链接:sed入门教程

请最后来看一看这个shell的意思吧:
curl -s "https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=seo"|iconv -f gbk -t utf-8|awk -F":" '{print $4}'|grep -oP '(?<=").*?(?=")'|sed 's/,//g'

Fatal error: Call to undefined function wp()解决方法!

wordpress出现Fatal error: Call to undefined function wp()怎么办?

1.其实出现这个现象的时候,首先不要慌。

2.进入FTP中,查看wp-config这个文件的信息,如果是0kb,那么就删除这个文件。

3.此时FTP中也会有一些其它的文件,名称是wp-config-sample,下载一份

到桌面中,使用notepad++修改。这个时候你要将你的数据库信息,数据库表前缀给按照文件中的提示填好,此时修改文件名为wp-config,然后再上传到FTP中。

4.好了,这个问题就解决了!庆祝一下吧!

中大型网站该如何进行SEO?

中大型网站SEO工作应该如何开展是很多从从企业站转到中大型网站(比如电子商务站,B2C,B2B网站)的朋友首先关心的问题,因为过去的经验无从复制,而现在的出境却又非常的无助,虽然公司会有相应的培训,但是远水解不了近渴,总体来说,所有的焦虑是没有一个很好的指导方向。下面CK就以工作中的一些经验来说一下,在操作中大型网站的SEO时应该有的策略。


既是策略就是对不同情况下的一系列的解决方案的总体,那么优化工作也是如此,也一样会出现各种不同的状况,问题的发生就会有解决方案提出,废话不多说,总的SEO策略按照时间来排序;

优化初期

优化中期

优化后期

优化初期的重点方向有三:

URL规范化,页面元素优化,站内核心资源抓取效率。

重点讲解一下,其实中大型网站有一个特点,这个特点就是“中大型”,换言之就是网站的内容体量大,url层级深,并且会因为技术的原因造成url的形式多样。

URL规范化:此为优化之根本,解决的是SE网页库,索引库,URL库中的key的问题,规范化影响着网站核心资源被抓取及索引效率,权重等等因素。

页面元素优化:页面元素的优化决定着网站未来流量上升的高度,TD的描述在不同的场景使用不同的模块,这个会跟分词及一些用户需求相关联;H\B\P\strong\alt\nofollow等的正确使用。

核心资源抓取效率:优化的初期如果没有清晰地指导,我们总会找最显眼的数据来去观察,比如说网站的关键词排名等等,但是中大型网站的SEO初期优化工作却是要将重心放在整站的收录率上来的,一般情况下中大型网站优化初期的收录率会在70%左右为最佳。

URL规范化和robots禁止策略是最易操作也是做有效的。

优化中期所遇到的问题:

URL老旧:多域名;全静态化、全动态化、半静态化等多套URL规范;url层级太深,url解析代码复杂冗余,性能低维护成本高。

问题与挑战:

参数全静态化,但是本质上还是动态化,SEO效果差;跟前端工程师的合作效率低,如:js拼接静态url问题;url中特殊字符解析问题如:%2F(/),%4E(N);form表单提交产生多余的301跳转,增加前端性能负担20ms左右

URL规范化的问题及其对策:

noindex,nofollow标签,301跳转,canonical标签;webmaster可设置动态参数处理方式。

核心资源的抓取率如何优化呢?

其实站点的扁平结构在后期优化时已经非常的难改变了,所以就先从面包屑导航上来优化,增加相关性等;sitemap每天全量的更新补充spider url库;页面部分推荐模块如是异步则改成同步加载,核心资源的url部署到权重高的页面。

减少无效URL的抓取

robots.txt中直接禁止无效url的抓取和索引,无意义的url可以直接添加nofollow标签,已告知蜘蛛别在这条URL上花心思了,换个有意义的去爬吧。

提升网站的抓取量

避免SE的蜘蛛被安全软件拦截,逐步上调百度站长工具中的抓取压力,及时更新网站中的死链文档及sitemap.

优化中后期中应当注意的三点

搜索词收集整理,搜索词分析,搜索词需求提取,词库分库分档

调排名,针对2  3页的排名进行重点调优,3页之后的关键词的ROI低适当放弃

无论如何走正常的渠道进行优化!但是要研究anti-spam,防止不正确的优化被判作弊。

URL规范化-网站的抓取和收录的解决之法

我们在做网站结构相关SEO工作时,都应该考虑以下三个问题:
        1,Baiduspider能不能找到所有网页
        2,Baiduspider是否知道哪个网页是重要的
        3,Baiduspider能否顺利提取网页内容bqqk
        4,Baiduspider能否在网页中提炼有用信息 
下面讲的内容便是解决前两个问题的:

一,友好的网站结构

         1,  扁平or树型:一说到网站结构,大家都会提到扁平结构和树型结构,言必称“结构扁平化”,这些指的是物理结构,即基于内容聚合的目录及文件位置决定的结构。其实对于百度搜索引擎来说,只要结构合理、有逻辑性、内容有规律可循都可以,都是友好的。

         2,  链接结构:相对于物理结构,就要说到逻辑结构:即通过内部链接形成的链接结构,逻辑结构才是搜索引擎最关注的。对于一个网站来说,网页仅仅可以通过首页——目录1——目录2一层一层follow到是远远不够的,一个优秀的链接结构应该是网状的。

        1)首页链接应该链向重要的频道页,频道页再链向下面的节点页或普通页面。同时,频道页、节点页和普通页面都应该可以链回到首页

        2)无论哪些页面之间互相链接,都需要一个描述恰当的锚文本

        3)链接不要放在JS、FLASH等搜索引擎不可见的位置,使用图片做链接入口应该完善alt标签

              *百度搜索引擎目前仅支持对部分JS和FLASH进行解析,绝大多数放在JS和FLASH里的链接都是获取不到的

       4)为重要页面留更多入口。百度搜索引擎认为,获得更多内部投票的网页相对来说更加重要

        5) “离首页越近”的网页,越容易受到百度重视。这个“近”指的是页面离首页的点击距离。即使URL所在目录层级较深,只要在首页有入口,百度也认为这是一个非常重要的页面。

        6)不要产生可怕的孤岛页面。虽然百度在提交入口、社会化挖掘方面做了许多工作,但链接抓取依然是百度获得新页面的最重要渠道

二,通过导航让百度更好地认识站点

        对于用户,导航要解决的问题是:我在网站的什么位置,我想看上一级、甚至上上一级更多内容的入口在哪里;对于spider,导航要解决的问题是:这个页面属于哪个领域,要表达的主题是什么。所以说,清晰的导航系统不仅有助于提高用户体验,对SEO的意义也是重大的,所有SEO做得出色的网站基本都拥有清晰明确的导航。

       1,导航内容搜索引擎可见:有网站的导航对用户来说美观友好,对百度来说却是不可见的。目前百度还不能搞定所有的JS和FLASH,保险起见,还是使用HTML的好。图片虽然美丽,作为导航也是对搜索引擎不友好的行为。

        2,导航稳定:导航内容应该是相对固定的,不要让导航成为“滚动条”。

        3,重要网页尽可能地在导航处可以follow到:百度认为主导航中出现的链接,其重要性仅次于网站首页,所以应该尽量将站内的页面在主导航中安排个位置。当然,主导航上也不可能放过多的内容,哪些链接可以上主导航还需要SEO人员进行平衡。

        4,巧用面包屑导航:上面说到,导航对于用户来说,解决了“想看上一级、甚至上上一级更多内容”的问题,这个导航指的就是面包屑导航。面包屑导航可以使结构复杂庞大的大中型网站变得清晰轻盈,在spider进行页面解析时会着重查看面包屑导航内容,强烈建议使用。

三,合理的domain结构

        除了在网站建设的时候站长会思考到底使用二级域名还是子目录,在网站运营的过程中,也会考虑是否要把子目录的内容拆分成二级域名。因为很多SEO人员认为二级域名相对独立,其首页会得到百度的重视,能获得更好的排位——其实这是一个片面的错误观点,百度会通过很多指标对同domain下的二级域名和子目录进行重要程度判断,并没有武断地认为谁天生就会比谁强一些。

        当SEO认为站内结构已经阻碍了网站高速发展就会考虑改版,最常见的改版便是将子目录移出主站点、单独形成二级域名。但大家都知道,改版肯定会对站点的收录排名和流量造成影响,一定要谨慎。那么在什么情况下才真的需要将子目录换成二级域名呢?其实只有一点:即子目录的内容足够丰富,且与主域的主题关联性不强!

四,url结构很重要

1,url结构规律化:同一个网页有不同url,会造成多个url同时被用户推荐导致权值分散;同时百度最终选择展现的那个url不一定符合你的预期。站点应该尽量不把sessionid和统计代码等不必要的内容放在url,如果一定要这样做可以通过robots禁止百度抓取这些非规范url

2,最好能让用户从url即可判断出网页内容,便于蜘蛛解析的同时便于用户间传播
3,url尽量短
              ●蜘蛛喜欢:http://tieba,baidu,com/f?kw=百度
              ●蜘蛛不喜欢:http://tieba,baidu,com/f?ct=&tn=&rn=&ln=&cn=0&kw=百度&rs2=&un=&rs1=&rs5=&sn=&rs6=&nvselectvalue=0&oword=百度&tb=cn
       4,不要添加蜘蛛难以解析的字符,如
         http://mp3,XXX,com/albumlist/234254;;;;;;;%B9&CE%EDWF%.html
              http://news,xxx,com/1233,242,111,0.shtml
       5,动态参数不要太多太复杂,目前百度对动态url已经有了很好的处理,但是参数过多过复杂的url有可能被蜘蛛认为不重要而抛弃