【zero】与多位百度人员沟通得到的内部信息

2015-07-31 SEO
字号:T|T

此贴记录一些我曾和百度内部一些人员的沟通中,比较重要的几部分,内容会比较散。

1. From 运营@百度空间

百度内部产品的网页收录,不是由百度爬虫进行抓取,而是直接提交结构化数据。

百度产品也想要从其它搜索引擎获取流量。

2. From PM@百度知道

百度的几个流量产品,其流量的SEO占比极其高。

百度的产品也想方设法从百度搜索获取更多流量。

之所以目前SERP上多数百度知道的结果下面都有相关问题链接,这和一些人想象当中相反,是百度在打压百度知道。因为本来百度知道很多时候在SERP可以占据多条搜索结果,现在很多情况下被并为一条。

3. From RD@大搜索-基础排序

百度判断网页的层级关系,主要依赖于面包屑导航。

竞价与自然搜索是完全分开的两块,彼此拿不到对方的数据。

百度的流量产品想获取更多百度SEO流量十分简单,只要内部调整一下权重值。

在基础排序的角度看来,多数页面的相关性都一样——标题有关键词、内容有关键词...所以在这种情况下会依赖于站点的权重、用户行为数据来决定最终排名。

4. From RD@大搜索-反作弊

百度内部想让一个站提升或者下降SEO流量十分简单,且可以控制变化的流量量级。

反作弊规则有两大类,上策略与上数据。上数据的话,会有一批作弊URL被处理,隔段时间可能下一批URL被处理;上策略的话,新的作弊URL一旦产生即被处理。

5. From RD@大搜索-爬虫(通过他人间接沟通)

对于单IP多子域名,百度会提取一个子域名作为核心,重点抓取。其余均视为*.xxx.com,近似平均分配抓取。

抓取限制的策略比较复杂,总体而言抓取以抓取总量为上限。

6. From RD@大搜索-爬虫(另一人)

哪怕总体而言抓取以抓取总量为上限,因为规则不是单一的,因此加快网页加载速度让每个页面抓取更快的话,总抓取量还是会上升。

#######################################

谷歌官方的人说谷歌蜘蛛会将一段URL切割成好几块来爬取  #修改,说的不严谨,应该是有时候会这么处理。
例如:www.seoqx.com/aa/bb/1.htm
会切割成:
www.seoqx.com/aa/bb/
www.seoqx.com/aa/
www.seoqx.com/
据观察百度有类似行为。

如无特别说明,本站文章皆为原创,若要转载,务必请注明以下原文信息:
日志标题:《【zero】与多位百度人员沟通得到的内部信息》
日志链接:http://qieyi.org/seo/111.html
博客名称:惬意SEO博客

www.seoqx.com/aa/bb/1.htm 会切割成: www.seoqx.com/aa/bb/ www.seoqx.com/aa/ www.seoqx.com/ 据观察百度有类似行为。__惬意SEO博客',}" >

【上一篇】

【下一篇】

3 篇回应 (访客:2 篇, 博主:0 篇, 其它:1 篇)

NOTICE1:请申请gravatar头像,没有头像的评论可能不会被回复|头像相关帮助!

回到顶部