Google如何为网站建立索引?
本文目录
如何让搜索引擎搜索收录自己的网站
★页面主题优化
一个页面的<title></title>部分是很重要的,许多SEO都坚信,Google会优先寻找这里的文字,因此好多网站就疯狂的在这里写下一堆关键字,希望增加被搜索的概率,就像我们的“搜客搜索”一样:
<TITLE>搜客搜索-集成搜索,分类搜索,搜索引擎外壳 www.souk.cn</TITLE>
呵呵,你会觉得Google这么傻吗?这么容易就被一个title所左右了?其实,我们不妨老实一些,实事求是的写下自己网站的名字,当然,网站的名字要考虑好,最好包含网站的主要内容,比如说,如果你的网站是一个原创文学站点,可能会起名叫“雅文轩”,很好听,但不疼不痒,Google不会知道“雅文轩”是干什么的,那么这里你可以写成“雅文轩原创文学”就好多了。
★页面头部优化
页面头部指的是代码中<head></head>部分,具体一点就是<meta>中的“Description(描述)”和“Keywords(关键字)”两部分,这部分也是SEO们比较花心思的地方,理论一大堆!总结起来就是:
1、“描述”部分应该用近乎描述的语言写下一段介绍你网站的文字,在这其中,你应该适当的对你网站的特色内容加以重复以求突出,比如:
<meta name="description" content="搜客网www.SouK.cn(原全搜搜索)是全有网旗下的集成搜索引擎,包括网页搜索,新闻搜索,论坛搜索,音乐搜索,图片搜索,影视搜索,游戏搜索,软件搜索,地图搜索,文学搜索,购物搜索,手机搜索,常用工具和网址大全"/>
这是全有网集成搜索引擎全搜升级后的搜客搜索(),在描述中就恰到好处的介绍了网站的内容,同时反复强调了“搜索”二字,这是比较合理的,而相比下边这家网站的描述那:
<META NAME="Description" CONTENT="美容美发,中国美容美发,美容美发网,中国美容美发网,美容美发传播网,沈阳美容美发传播网,中国美容美发传播网">
这只能被搜索引擎忽略,因为很明显这是在堆积关键字愚弄搜索引擎程序。
2、“关键字”部分也很简单,你只需在这里列出你认为合适的,能突出网站内容的关键字就可以了,不要太多,10个8个就可以了,多了也没用,搜索引擎只会浏览靠前的几个,余下的都是浪费。不过有一点大家要明白,现在的主流搜索引擎都不再依靠<meta>中的关键字了,因此,这部分内容我们也只是“例行公事”,个人觉得意义不大,不过总好过没有。而且关键字的选择也是一门学问,具体可以参考网上的相关文章,别像下面这个网站这样做无聊的重复,显得太傻。
<META NAME="Keywords" CONTENT="美容美发,中国美容美发,美容美发网,中国美容美发网,美容美发传播网,沈阳美容美发传播网,中国美容美发传播网">
★超链接优化
搜索引擎为何可以能够索引全世界的网站,是因为各个搜索引擎程序中都有一个会自动“爬行”于互联网上的智能机器人程序,这个机器人就是顺着网站之间的链接游览世界的,那么我们就应该为它创造一个良好的爬行通道——合理的设置链接。
怎样的链接才是合理的呢?你只需牢记以下几点:
1、采用纯文本链接,少用,最好是别用Flash动画设置链接,因为搜索引擎无法识别Flash上的文字,许多公司、个人都喜欢酷酷的Flash动画,网站的入口也做成Flash片断,呵呵,这么做在目前几乎就是“自寻死路”,搜索引擎很难光顾这样的网站。而且个别设计者非常马虎,把网站的入口链接放在了Flash上,有时因为网络繁忙、缺少Flash插件而导致用户根本就看不到网站的内容,失败,失败中的失败。
2、按规范书写超链接,就像这样:<a href="/index.htm" title="网站评测,免费推广">中国酷站</a>,别小看这个title属性,它既可以起到提示访客的作用,也可以让搜索引擎知道它要去哪里,注意,别写的太罗嗦:title="中国酷站导航是权威站点评测机构,免费推广你的网站",这么写的人八成精神有问题,而且时间富余的很。
3、最好别使用图片热点链接,理由和第一点差不多。
★图片优化
图片优化不是让你修改图片的大小、颜色,而是你应该为每个<img>标签加上alt属性,就像这样:<img src="/1.jpg" alt="庐山瀑布"/>,alt属性的作用是当图片无法显示时以文字作为替代显示出来,而对于SEO来说,它可以令搜索引擎有机会索引你网站上的图片,大家都用过baidu和google的图片搜索功能吧,你以为搜索引擎是怎么找到图片的,不会以为Google能看懂图片吧!?对于一些确实没什么意义的图片,最好也不要省略alt,而应该留空,即 alt=""。
★为网站制作一个“网站地图”
什么是网站地图?说白了就是一个页面,在这个页面上呢,列出了你网站中各个栏目的入口地址,就像这个(),站点地图的作用很大,首先,对于一个栏目众多的网站,它可以帮助访客最快速度找到所需的内容;二则,可以给搜索引擎提供一份自己网站的“鸟瞰图”,方便搜索机器人依次索引整个网站。
★PageRank(pr值)
PR值是Google提出的一个重要参数,它标明了某个网站的重要程度,那么pr值是如何确定的呢?目前普通的解释为:假如有ABC三个网站,彼此互作友情链接,那么当一个访客通过A上的友情链接来到B时,Google就认为A为B投了“一票”,同理,如果有人从C访问B,那么B又得一票,如果全世界的网站上都有B的友情链接,呵呵,可想而知,B就是世界上最重要的网站了!
那么如何提供我们自己的pr哪,找别人交换链接啊!不过不能乱找,也不能狂找,而应该找一些和自己网站内容相近,且较为优秀的网站,当然,你自己的网站也不能太差,谁会愿意和一个臭棋篓子下棋啊^_^
切记!不要疯狂的交换链接,如果你的首页上一下子搞了几百个友情链接,呵呵,Google不但不会提升你的pr,没准还得认为你作弊,从而把你从自己的数据库中删除,到时你就哭吧。
★静态页面与动态页面
目前所有的SEO都认为,Google一类的搜索引擎会尽量避免索引带有参数动态页面,而喜欢索引普通的静态页面,这一点并未得到Google等搜索引擎的明确回答,但从效果来看是这样,毕竟动态页面的变数太大,举个例子,你发了一个帖子,可能在论坛某板块的第1页上,可随着跟贴的增加你的发言可能就被挤到第10页上了,你说搜索引擎是不是很头疼啊。
因此,制作网站的时候,最好避免使用动态页面,或者改良技术,让动态页面自动生成对应的静态页面,既能便于搜索引擎收录,也可以降低网站服务器、数据库负担,一举两得,不过这也不是觉对的,还是那句话,网站流量决定一切,即便是一个全部采用动态页面的网站,但因为很受欢迎访客不断,那么它还是会被搜索引擎青睐,还是会出现在搜索结果的前列。而且,随着技术的进步,搜索引擎也会改进,搜索动态页面将来必定会更加容易。
★避免大“体积”的页面
有经验标明,搜索引擎不喜欢索引大体积的页面,即一个页面代码部分的体积不要太大,控制在100kb内为佳,我见过一个网站,其首页光HTML代码部分的体积就高达近300kb,呵呵,每次浏览它都相当于下载一个小软件了,多亏现在是宽带,要是以前用56k小猫,非得以为死机了不可。
★最重要的一点!合理的代码结构
搜索引擎喜欢格式清晰,结构分明的页面,理论上XML是最合乎搜索引擎的胃口了,呵呵,当然,这太极端了,不过如果采用最新的XHTML+CSS技术将页面数据同表现分离,即避免大量嵌套表格和其它冗余的代码还是能够完美实现这一要求的。为了说明这个问题,请允许我再次帮朋友的网站做下广告,呵呵,别看广告,看疗效!
案例1:
这个网站是朋友2个月前开办的,内容是为吉他爱好者提供曲谱,网站本身并未作特别的优化,但是在页面制作上完全采用了符合web标准的XHTML 1.0+ CSS2技术构建,大家可以看一下它上面每个页面的源代码,是不是非常清晰,没有通常所见的凌乱的表格嵌套?就是这么一个个人站点,Google中“吉他谱”搜索排名第一,“吉他”搜索也是前2页;就因为这样,每天都有大量寻找吉他谱的人通过Google找到这里,根本不用他费力去做什么宣传,羡慕+嫉妒!
案例2:
一个专门销售宠物龙猫的店铺主页,建立时间近半个月,流量少得可怜,但因为同样采用了web标准开发,同时进行了适当优化,目前在Google中以“龙猫”为关键字搜索就进入了前3页;以“龙猫价格”搜索,排名第一页第二位,而这两个关键字的使用频率还是很高的。
之所以举这两个网站,一来是想帮朋友宣传一下,二来是两个网站从建设开始我都是一直关注的,他们在搜索结果中的排名变化也是我亲眼目睹的,因为我和朋友都对SEO都不是很了解,但就是因为采用了web标准制作页面,让网站页面有了一个非常清晰的结构,也许真的就碰巧迎合了Google的搜索习惯了吧。当然,XHTML对于一些朋友还是有难度的,不过大家同样可以采用正确的HTML 4.01标准制作页面,窍门就是一个:多多使用CSS样式,减少代码中的修饰部分,比如文章标题就应该采用<h1>来表示,段落就采用<p>而不是<br/>等等,这部分细说起来很麻烦,需要大家自己学习研究,现在国内的专业SEO们也开始重视XHTML技术,因为他们发现,XHTML可以切实满足建立一个“结构良好、条例清晰”的页面的这个要求。
好了,我本人的心得就是这么多,SEO是一个考经验取胜的领域,学习它不是那么直观,重要的是提高自己的技术、平时注意观察、多留意这方面的新闻。现在国内有人出了一本专门讲授SEO经验的电子书,售价高达2、3千元,大家还是不要相信的好,不是说这个人是骗子,只是这门技术变化太快,如果自己没有这个悟性的话,今天学会了明天就可能用不上了,白白浪费钱财。
参考资料:
怎样把我的网站免费登陆到搜索引擎上
推广网站呢,就得象明星一样,死不要脸,在各大论坛和QQ以及你能想到的地方不断的宣传,至于让搜索引擎搜索到你呢,就用下面的方法(专门用于google的):
普通的Google登陆办法就是通过Google登录页面向Google搜索引擎提交.
地址:
虽然一般而言,只要提交了一个页面,Google会自动搜索到你其他的页面,但是如果你的页面连接是图片或者FLASH按钮等,你最好还是将主要页面都向GOOGLE提交一下。就算你的是文字连接,也可以多次向GOOGLE提交的,反正没有什么坏处。
检验Google是否收录你页面的办法很简单。比如检查www.google888.com是否被Google收录,你只需要在GOOGLE搜索筐输入:site:www.google888.com就可以知道你的网站是否被GOOGLE收录,以及被GOOGLE收录了多少页面等等。
这个方法登陆Google一般没有你想想的那么快,短了三五天,长了就难说了。那么如何最快的让Google收录你的网站呢?
最简单的办法就是在流量非常大,Google天天光顾的网站或者网页上做超连接,文字连接效果最好!这招虽然比普通的登陆办法麻烦些,但是效果是非常明显的。这种连接越多越好,不光可以让你快速的被GOOGLE收录,而且还可以快速的在Google中提升你网站的的PageRank
同时,为了保证GOOGLE能够收录你更多的页面,你最好做一个网站地图,网站地图制作软件,以及相关策略你可以在 www. google888.com中查到!:)
网站登陆Google的关键:网站外部链接
网友经常有这样的反映:我的网站提交Google很长时间了,怎么就是找不到我的网页呢?有些对搜索引擎工作原理不熟悉的人甚至认为,只需将网页做好,上传到网站空间,就会自动登陆搜索引擎。
对后一种情况可以打个比方,就好象一个人自生下来就成了孤儿,而且又一直独处,不跟任何人接触,突然有一天却愤愤不平地说,为什么谁都不认识我!?网站也是同样,你不进行宣传和推广,它就象茫茫网海中的一座孤岛,被人发现的机会几乎没有。
前一种情况稍好些,至少知道要将网站提交到Google,这种做法在几年前也许有效,但现在就不够了。可以这么说,网站链接是搜索引擎存在的基础。从全文搜索引擎工作原理中可以看出,搜索引擎是依*跟踪各网站间的链接来找到网站和抓取网页信息的,如果网站都相互独立,搜索引擎的工作效率、所提供信息的广度和质量都会大打折扣。
对Google而言,链接可是它的“命根子”,也是它成功的关键。所以Google一有机会就向你灌输这样的观念:出去找链接吧,不然你的网站是不会被我们接受的。Google曾在一次搜索引擎学术会议上说明了收录网站的最低标准,即当你向Google提交网址时,至少要保证已有一个外部链接。实际上如果网站的外部导入链接足够多的话,你根本用不着直接将网址提交给Google(而且Google也不建议你这么做),这样反而会更快地被Google收录。
现在我们知道了链接在登陆Google时的作用,下面介绍一下获得外部链接的方法。在介绍之前,有必要先将有关链接的概念澄清一下:
外部链接: External Links。本网站外部的链接,一般是指其他网站连到本网站的链接。
内部链接: Internal Links。本网站内部网页之间的链接。
反向/导入链接: Backward Links或Incoming/Inbound Links。意义与“外部链接”接近,指其他网站连到本网站的链接。
导出链接: Outgoing/Outbound Links。指从本网站连到其他网站的链接。
■获得外部链接的方法
1、将网站提交到门户网站
获得外部链接最简单的方法是将网站提交到各大门户网站,目前搜狐、新浪、网易都提供收费网站登录服务,收费从几百到数千元不等。虽然需要一定的投入,但网站推广的角度说,这是必须付出的代价,而且大型门户上的链接会让你更快地登陆Google引擎,同时还可改善网站在Google上的排名。
2、与其他网站交换链接
前面说过网站的外部反向链接越多,被Google找到的可能性就越大,因此你可以向其他网站申请交换链接。
3、将网址提交到其他的类型网站
这方面与通常意义上的网站推广策略是相吻合的,为了提升网站的访问量,我们可以将网址加到行业门户站点、网上论坛,留言簿等等各种允许添加网址链接的地方,这样也会增加Google找到我们的机会。
■在寻找外部链接时应注意的问题
一般情况下,更多的网站外部导入链接会让你更快地登陆Google搜索引擎,但这并不意味着你可以不求策略地与任何网站建立连接,其中要遵循几个基本原则:
1、链接对象是否已被Google收录
在寻找连接网站时有一个基本原则,就是首先确认目标网站是否已被Google收录,主要是看该网站是否有PageRank得分,而且分值越高越好。
2、链接对象是否被Google惩罚
如果某个网站被Google惩罚,而你却与它建立链接的话,不仅无助于登陆Google,相反会被殃及池鱼,你的网站也可能被Google惩罚。
链接就是一切
在互联网的海洋中,最重要的就是互联互通,不被其他网站引用的网站就是“信息孤岛”。“酒好也怕巷子深”,也许这话说起来有点像垃圾邮件广告,但事实就是这样。所以如果做网站的目的不是孤芳自赏,就需要积极的推广自己的网站。
通过搜索引擎推广自己需要注意以下几个方面:
1、以量取胜:不一定加入大型网站的分类目录才是网站推广,来自其他网站的任何反相链接都是有用的
网站推广比较经典的方式就是加入比较大型门户网站的分类目录,比如:Yahoo!,dmoz.org等。其实这里有一个误区:不一定非要加入大型网站的分类目录才是网站推广,因为现在搜索引擎已经不再只是网站目录的索引,而是更全面的网页索引,所以无论来自其他网站任何地方的反相链接都是非常有价值的,哪怕是出现在新闻报道,论坛,邮件列表归档中。Blogger(Weblog的简称)们也许最深刻地理解了“链接就是一切”这句话的含义,由于Blog的内容之间有大量的相互链接,因此最经常被引用的 Blog页面在搜索引擎中的排名往往比一些大型商业网站的页面还要高。而wiki这样的文档管理系统更加突出了良好引用的特征。
2、以质取胜:被PageRank高的网站引用能更快地提高PageRank
数量只是关键因素之一,来自PageRank高的页面的链接还能更快的提高被链接目标的PageRank,我只是将一些文章投稿在了ZDNet中国上,由于页面上有文章出处链接,相应网页和网站整体的PageRank过了一段时间后就有了很大的提升。有时候被什么样的网站引用有时候比引用次数多更重要。这里我要特别感谢的是,当时ZDNet中国是唯一遵循了我的版权声明的要求表明了文章出处,并且有反相链接的网站。
按照这个原则:能够名列Yahoo!和DMOZ这样的大型权威目录的头2层是非常有价值的。
3、了解搜索引擎的"价值观":
Lucene简介这篇文章被Jakarta.apache.org的lucene项目引用以后,这篇文章就成为了所有页面中PageRank最高的页面,而Google支持的一些项目,比如:Folding@Home,让我一直怀疑他们对政府,教育和非盈利组织的站点有特别加分,毕竟.org.edu才代表了互联网的实质:分权和共享。
但更合理的解释是:.org很多都是开放技术平台的开发者,他们会在首页这样的地方加入Powered By Apache, Power by FreeBSD之类的链接表示对其他开源平台的尊重,所以象Apache, PHP, FreeBSD这样的开源站点在GOOGLE中都有非常高的PageRank。而在.edu这些站点中,很多都是学术性比较强的文档,以超链接形式标明参考文献的出处已经成为一种习惯,而这也无疑正是PageRank最好的依据。
注意:不要通过Link Farm提高自身的站点排名:Google会惩罚那些主动链接到Link Farm站点以提高自身排名站点,相应站点的页面将不会被收入到索引中。但如果你的页面被别的Link Farm链接了也不必担心,因为这种被动的链接是不会被惩罚的。
4、不要吝啬给其他网站的链接:如果一个网页只有大量的进入链接,而缺乏导出链接,也会被搜索引擎认为是没有价值的站点。保证你的网站能够帮助搜索引擎更准确地判断哪些是对用户最有价值的信息,也就是说如果你的网站只有外部反向链接而没有导出链接的话,也会对你的网站在搜索结果中的表现带来负面影响。当然网站中连一个导出链接都没有的情况非常罕见,除非你是刻意这么做。正常情况下大家都会自然地在网页中加上一些其他网站的链接,带领访问者去到我们认为重要或能够提供更多有价值信息的地方,
另外在推广自己网站之前也许首先需要了解自己网站目前在一些搜索引擎中的知名度,原理非常简单,可以参考如何评价网站的人气一文。
网站推广只是手段,如何突出内容、让需要相关信息的用户能够尽快的找到你的网站才是目的,PageRank高并不代表像Yahoo!这样的门户站点就能在所有搜索结果中排名**前,因为搜索引擎的结果是搜索关键词在页面中的匹配度和页面的PageRank相结合的排名结果。因此第二个要点:如何突出关键词。
有谁知道搜索引擎的数据库是如何建立的
Google有两种网络爬虫,主爬虫和新爬虫。主爬虫主要负责发现新的网页。一个网页在新索引建立之后,马上会被主爬虫发现。如果一个网页建立索引需要经过一个月的时间,这个网页就会失效。
新索引的建立还需要考虑其他非询问式的决定因素。这些决定因素关系着网页排名的高低。为了充分利用这些网页,而不是浪费时间等着下一次索引算法的更新,Google必须采取一些简单的措施来猜测排名,猜测访客难以利用的新内容是什么。
尽管Google在作猜测,下列内容都是真实可信的:
1)幽灵登陆页上的排名不能等同于索引页的排名。
2)在每月新数据库建立之前,必须将幽灵登陆页从数据库中移走。但是,这只是暂时的移走。
如果您的索引中有这样登陆页,您的主要目标应该是让该页在Google新页上拥有排名。若您想做到这点,您需要定期、有规律、最好是每天,有一定间隔地更新网站内容。
为什么您想要在Google的新页上获取排名?因为在新页上有排名的网站更容易被抓取,索引更容易更新。但是在新页上的排名不是真正的排名,新页排名有很强的不稳定性。新页排名转化为真正排名需要经过一段时间。
案例分析:同样的遭遇
(1)五天之前,我向互联网上传一个新的小网站,这一次我没有像以往那样把这个网站与我的其他网站建立链接,而是通过添加 l.html将该网址添加到Google中去。我静静等待这个网站被发现。三天以后,用该网站的主要关键词进行搜索,这个网站能排到搜索结果的前十名,并且记录显示130个访问者访问过该网站。但是,一天之后,这个网站消失了。这一次,他不仅是掉出前十名,而且是掉出整个 Google目录。网站本身一点问题没有,没有作弊,没有隐藏链接,没有内容复制,没有关键词堆砌,就这样默默地网站消失了。
我仔细考虑该网站的欠缺之处,排名消失的原因也许在于这个网站缺少导入链接,也许因为这个网站有一个弹出窗口。也许,也许,有无数个也许在等着我。
(2)经常有人向我们咨询这类问题,为了满足不同询问者的需要,我们写了一篇文章,希望有所帮助。
当 Google搜索蜘蛛抓取一个新网页后,这个新网页会有什么反映?
一个新网页没有被Google主目录收取,直到:
1.该网页被Google主目录搜索蜘蛛抓取。
2.该网页在被Google主目录搜索蜘蛛抓取之后,须经过一段更新时间。
只有以上两条全都满足,新网页被Google主目录确确实实抓取到,新网页上的排名才有可能转化成真正排名。
Google有两种抓取形式
1.主抓取
2.新抓取
一个新的网页首先被“新抓取”蜘蛛抓取。但也有特例的时候。在Google月更新刚刚完成那一段时间之后,一个网页通常被“主抓取”蜘蛛抓取。每月更新一般在每个月的20号到28号之间,能够持续几天。
为了区分两种蜘蛛的差异,我们可以先来看一下一组IP地址。
1.“主抓取”蜘蛛= 216.239.46.*
2.“新抓取”蜘蛛= 64.68.82.*
为了进一步解释明白新网页发生的Google幽灵现象,我们假设该网页首先被“新抓取”蜘蛛抓取。在Google两个月更新之间,“新抓取”蜘蛛来抓取新网页。在主抓取期间,通过链接新网页能够被抓取。新抓取期间,情况也是一样。
尽管这个网页没有经过此次更新,也没有收录在Google主目录里,但是抓取之后,搜索蜘蛛开始衡量该网页内容和质量,并把该网页收录在搜索结果里。这次衡量是十分不稳定的,易受外界影响,经常发生变化。
当每月定期更新来临时,这些网页会产生波动。每月定期更新就是Google波动。但是,您需要记住,“主抓取”蜘蛛没有阅读该网页,所以这个网页没有加入主索引中。所以,当每月更新结束后,这个新网页仍被看作是新网页但是不久以后,“主抓取”蜘蛛将会阅读这个新网页,在下个月更新之后,该页面才能被收录进主索引。这需要经历一段时间。在此之前,Google不显示任何导入链接,这个网页的排名也因此多变、不稳定。
让我们总结一下:
如果一个新网页首先被一个“新抓取”蜘蛛抓取,然后被“主抓取”蜘蛛抓取,这个网页需要经过两次月更新。换句话说,这个新网页需要经过两个月才能被主索引收录,在被主索引收录之后,才可能获取稳定的排名。
这期间新网页可能在Google搜索结果页中出现,也可能消失,这种不稳定的情况完全是正常的。
还有一种情况。如果一个新网页首先被“主抓取”蜘蛛抓取(这通常发生在一月的下旬),那么这个网页只等一个月的时间就可以进入“主索引”。
网站设计者和拥有者如果不了解Google抓取新网页的过程,他们的工作将难以开展。网页排名可能一路飙升,名列前十名,让人欣喜若狂,也可能陡然狂降,甩出二百名开外,令人垂头丧气。抓住 Google抓取新网页的过程规律,网络英雄们将不再迷茫,有的放矢将不会是单纯的梦想。











