正在加载中

各大搜索引擎爬虫(蜘蛛)名称

1. Google爬虫名称

1) Googlebot:从Google的网站索引和新闻索引中抓取网页

2) Googlebot-Mobile针对Google的移动索引抓取网页

3) Googlebot-Image:针对Google的图片索引抓取网页

4) Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广告的情况下,Google才会使用此漫游器来抓取您的网站。

robots.txt的概念、语法及其常见使用技巧

  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
  每个网站,或每个域名(包括子域名),只能有一个robots.txt。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt给网站带来的好处和坏处

  理论上说,robots.txt只是告诉搜索引擎的Spider网站内哪些内容不允许其索引与收录,它并不是网站的必不可少的组成部分,一个未配置robots.txt的网站只不过对搜索引擎Spider的爬行不作限制而矣。从这个角度看,不设置robots.txt对网站功能没有影响。

  但另一方面,恰当地设置robots.txt,可以更好地维护Web 服务器,提高网站的综合性能。从这个角度,网站最好配置robots.txt。

robots.txt的常见问题及高级设置技巧

网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

wordpress的robots.txt设置技巧

WordPress自从2.1版本开始,在Privacy选项里面允许用户设置是否被搜索引擎索引。但是它只有2个选项,一个是允许所有搜索引擎的机器人(Spider)索引所有内容,另外一个就是不允许。其实robots.txt的用法有很多,最近看了一些文章说,在WordPress中阻止Spider爬行一些目录和文件,不但可以有效的节省搜索引擎对服务器带宽的占用,还可以提高网站在搜索引擎中的排名,这篇文章说,通过将comment feeds与Trackbacks排除在外,他的网站访问量上升了11.3%。

针对google的SEO技巧之(十二)网站管理员工具篇

主流的搜索引擎,包括Google为网站管理员提供了很多免费的工具。Google网站管理员工具帮助网站管理员更好地控制Google与他们网站的互动和从Google获取一些关于他们网站的有用信息。使用网站管理员工具并不会帮助你的网站得到优惠待遇,不管怎样,它可以帮助你识别问题,可以让你的网站在搜索结果里表现得更好。通过这些服务网站管理员可以:

针对google的SEO技巧之(十一)网站推广篇

当人们通过搜索引擎或者其它方式发现你的网站并链接它时,链向你网站的链接也会逐渐增加,Google会明白你很希望别人知道你网站上那些辛勤的劳动成果。有效推广网站上的新内容可以更好地引导那些有相同兴趣的人去发现它们。当然你肯定发现了这个指南上所涉及的优化要点很多,但如果你使用过渡的话却很可能物极必返,消弱你网站的信誉。

针对google的SEO技巧之(十)链接的nofollow属性篇

为一个链接的”rel”属性值添加”nofollow”可以告诉Google你网站的某些链接不允许被跟踪或分享你的信誉。不跟踪一个链接的做法是在链接的锚标签里添加rel=”nofollow”.

针对google的SEO技巧之(九)使用robots.txt篇

一个robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去抓取。而这个文件不旦必须命名成”robots.txt”,还得放在你网站的根目录上。

针对google的SEO技巧之(八)网页图片优化篇

图片就像你网站很直观的零件,但是你依然可以优化它们。所有的图片你都可以有一个很直接的文件名和一个“alt”属性,这两者你都可以好好地加以利用。

如果你的图片出于某种原因无法显示,”alt”属性允许你为它添加一个替代文字。