网站收录与搜索引擎收录知识合集

来源：日期：2015-11-17 23:12:17 人气：标签：

网站收录与搜索引擎收录知识合集

网站收录与搜索引擎收录知识合集

网站收录(即常说的搜索引擎收录)就是与互联网用户共享网址，网站收录前提是网站首页提交给搜索引擎，蜘蛛才会光顾，每次抓取网页时都会向索引中添加并更新新的网站，站长只需提供顶层网页即可，不必提交各个单独的网页。抓取工具能够找到其他网页。符合相关标准提交的网址，会在1个月内按搜索引擎收录标准被处理。

网站收录也指网站被网站目录或网址导航网站收录。

网站收录基础知识

网站收录的由来：是一种网站链接的一种模式，具有非常重要的意义！
网站收录的含义：顾名思义就是你的网站已经被收录。网站收录是互联网发展到一定阶段既而出现的行业产物！
网站收录和店铺收录的结合：hao淘宝123-集合网站导航、网站收录、店铺导航、店铺收录的新型导航类网站！
网站收录多并非是优势，有时候也会变成劣势
那些大的网站有优势，他们的优势在于如何最大化的将这些内容区分到一块一快，然后整体性的再组装起来，成为了一个又一个可以传递出来的权重点，这也是行业网站那些大而全的网站所拥有的各种长尾优势，从整体上而言，这些行业网站的大而全是非常具有优势，毕竟如此多的类目整合在一起，成为了相互关联的一部分，这一点之中，一些小的网站的确是望尘莫及的，但是呢，并非所有的网站都是具有行业网站所具有的得天独厚的的前景的，很多朋友还在努力坚持着自己的小网站，想要把收录做的更多，但是也可能会遇到以下的问题。

网站收录方法

站点发布优质的原创内容易被收录。网站内部结构混乱对网站是致命的伤害，这一点笔者有深刻的体会。代码优化，对站内图片加上注释，定义图片大小，首页加上关键词锚文本链接等等。这些操作都是细节问题，但往往一个细节就会影响的站点收录情况。
内容原创性。原创是最受青睐的，一个网站的内容如果都是原创的，那么搜索引擎将会赋予此站很高的权重，当然收录和快照就不会有很大问题了。之前我的文章很多的是伪原创的，而且伪原创程度也不是很高，所以发了很多文章都没有被收录。
友情链接。还好有一个好心的网友说，我的网站主题和内容不一致，这样会让搜索引擎分不清你的网站是做什么的。随后，我就不在自己的网站里发布这些文章了，可以发到其它相关平台。对于新站，可以找一些相关的友情链接交换平台，每天做三四个友链，坚持一周左右，你的网站会有很大变化。友情跟外链一样，也要多样性，比如可以跟相关论坛友链，还可以找一些相关博客进行友链，再者可以找相关行业进行友链。

增加外链并被更快收录的方法

通过优化网站程序推广，也就是所谓的SEO
竞价排名
多发原创性的文章
提升PR值。
在高质量的网站发布带有链接的软文，引导搜索引擎前来光顾，进而实现收录。
网站要有规律的更新，每次更新文章要不少于2篇。
网站打开速度和空间的稳定性也是影响网站收录的因素。
增加网站自身的权重，是更快收录的根本原因。

增加网站收录的方法

采用扁平型的站点架构，也就是俗称的树状结构。可以这样说就是只有三层栏目结构，分别是首页，栏目列表，内容页，这样形成树干型的分支形状，一层一层提升每个细分栏目的权重，从而来增加收录的面积。对于网站的架构有很多站长提过这样的一个构想就是用CMS+论坛的架构形式提升站点收录，也不要小看了这种架构，很多站长试用过的效果都是很不错的，如果你细心会发现现在大多数收录过百万的站点都是在采用这种形式。还有的站长采用百科等其他方式也产生了不错的效应。这其中免不了人力财力的大力支持，但对于其产生的效果还是很值得投入的。
制作站点地图。站点地图的效用不必多说，重要的是网站内容的每日更新，相信能如此做得站长很少，虽然说起来容易但每天去执行很难有人能坚持，在我所观察中，那些多用户博客站点，它们每日更新所带来的丰硕成果我想大家很难想的到。其实每日更新用不了多长时间的，做一个list页面相信很快大家就会完成的。在完成更新后要养成习惯，时间久了，就会自然地去做了，这对于搜索引擎的收录有很好的正面效果，那些内容展示较少的站点就更要这么去做了。
增加高质量原创内容，避免内容的高度重复。都知道搜索引擎跟人一样，喜欢新鲜的东西，所以一定要用高质量的原创内容来喂养它，把它喂养好了，收录和权重，自然而然就上来了。
整理本站结构，去除无效链接
不论站长们做的是哪种类型的网站，其站内结构一定要简洁明了，这是做站的站长们必备知识之一。一般的网站在设计时页面层次不要超过三层，现在很多的仓储货架的网站层次都超过了三层。页面文件名可以用字母或者数字，但千万不要用很长的中文转英文插件，那样做对收录没任何好处。并且做站过程中添加内容时建议大家都采用生成静态或者伪静态技术处理，这样有利网站在搜索引擎中的友好度。
控制外链来源，保证链接质量
当经过我们的苦心经营之后，我们的网站基本成型了，这个时候外链就成为关键之一了。很多站长们在做外链时利用工具，有时几天不发布，有时一天发布几天的量，这些都是要不得的。外链接是需要持续，稳定的发布才有效果的。贵在坚持，我们站长任何时候都不要忘记这点。
长期积累，丰富自身资源
毫无疑问，对于推广来说“人脉”是毫无疑问的重点，而网站收录就相当于向搜索引擎推广。有些人为什么做网站推广很轻松?因为他们手上有资源，有人脉!你没有怎么办?简单，慢慢积累!路不是一步就到目的地，饭也不可能一口吃成个胖子，只有长期丰富自身资源，积累久了之后，你也和那些“高人”同一个段位了。
用好meta标签，强化收录保障
不管是老站长还是新站长一般都很容易忽视HTML标签META的强大功效，那就是一个好的META标签设计可以大大提高你站长被搜索到的可能性。利用好Keywords和Description的设定。编辑好语句可以让搜索引擎能准确的发现你，从而吸引更多的人访问你的站点!
确保服务器质量，维护站内空间稳定
网站使用的空间好坏直接关系到搜索引擎的拜访速度和效率从而影响到网站内容收录，这是大家应该都知道的问题之一。当你每天例行检查自己的网站快照，发现很长时间没更新或是更新进度太过缓慢时，你就有必要去查看同IP地址下别的网站的收录情况，如果收录都不好的话，你就应该果断的去换个空间了，网站的空间就好比网站最根本的基础，如果它也不好的话收录是一定不会上去的。

网站收录减少的原因

1、Refresh跳转刷新问题
如果你在某页面头部使用META Refresh跳转到另一个页面的话，也属于****行为，很容易导致收录剧减，甚至被K!
还有一个要补充的问题就是GOOGLE搜索引擎要比搜索引擎先进得多，相比就等于一辆奔驰与一辆解放牌的车。对于网站的整站更新，GOOGLE几天就能改过来，而搜索引擎那个蠢家伙几个月都缓不过来，要说数据量大GOOGLE包含了全球大多数网站的主要数据，不会比搜索引擎少吧?这也说明搜索引擎收录容量有限的原因，要说重复不能收录，那人家GOOGLE怎么又会对重复的数据照收不误呢?
2、cn域名
由于cn域名较便宜，形成很多人群利用cn域名做垃圾网站，从而影响到很多cn网页在搜索引擎收录变少或没收录!
3、空间问题
自己服务器的IP下站点的收录情况不良及空间隐定性差仅会影响到搜索引擎收录变少或没收录!
4、网站改版
不要随意更改程序，随意修改首页分类和标题，搜索引擎就不知所措，如果你一定要换程序，建议你把网站完全关闭1个月再重新上传你的程序，这样搜索引擎就以为你是新站，收录起来就容易得多。
5、模板、内容严重的重复
任何一款模板拿到手，记得先修改。
大家都用同一类型的模板，内容都是来自于采集，由于现在做电影站的特别多，采来采去的都是那十来个采集件，试问有几万个内容相同的站，叫搜索引擎那个机器怎么收录?
6、关键词过多
关键词不要做得太热，有些人把自己的网站题目就是“土豆电影”或“优酷视频”，你到搜索引擎看看有多少能真正收录?就算收录了也很快就会被K掉，因为搜索引擎认为要是真的收录了你，你的流量就会变得很大，这岂不是天上掉馅饼?堆积标题和关键词过多会造成搜索引擎收录变少或没收录!
7、网站链接这点很重要
经常检查你的外部连接，看看有没有打不开的网站、垃圾网站、没被搜索引擎收录的网站，被搜索引擎被降权的网站，被搜索引擎K的网站仅会影响搜索引擎收录变少或没收录!
8、SEO优化
搜索引擎对SEO过分的网站惩罚制度越来越严厉，SEO优化过度会造成搜索引擎收录变少或没收录!

网站收录入口

百度收录
Google收录
Yahoo收录
Bing收录
Sogou收录
Alexa收录
中国搜索收录
有道搜索收录
搜搜收录
天网网站收录
Dmoz收录
Coodir收录
影响收录的外部链接因素

定义

增加外部链接，能让搜索引擎有效地抓取和收录网页
增加外部链接的方法

1，自己主动性地增加链接；
2，发表优质文章、内容，吸引别人主动链接。
3，交换友情链接，比较容易简单的办法；
4，提交分类目录、网络书签，简单未必十分有效；
5，购买文本链接，需要有一定成本投入，且链接不持久；
6，组建链接网络，建立网站群、博客群，投入成本高，耗时较长，后期效果明显；
7，群发链接，留言板垃圾留言、论坛签名链接……

搜索引擎收录原理

收集待索引网页

Internet上存在的网页数量绝对是个天文数字，每天新增的网页也不计其数，搜索引擎需要首先找到要索引收录的对象。
具体到Google而言，虽然对GoogleBot是否存在DeepBot与FreshBot的区别存在争议——至于是否叫这么两个名字更是众说纷耘，当然，名字本身并不重要——至少到目前为止。
主流的看法是，在Google的robots中，的确存在着相当部分专门为真正的索引收录页页准备“素材”的robots——在这里我们姑且仍称之为FreshBot吧
——它们的任务便是每天不停地扫描Internet，以发现并维护一个庞大的url列表供DeepBot使用，换言之，当其访问、读取其一个网页时，目的并不在于索引这个网页，而是找出这个网页中的所有链接。
——当然，这样似乎在效率上存在矛盾，有点不太可信。不过，我们可以简单地通过以下方式判断：FreshBot在扫描网页时不具备“排它性”。
也即是说，位于Google不同的数据中心的多个robots可能在某个很短的时间周期，比如说一天甚至一小时，访问同一个页面，而DeepBot在索引、缓存页面时则不会出现类似的情况。
即Google会限制由某个数据中心的robots来完成这项工作的，而不会出现两个数据中心同时索引网页同一个版本的情况，如果这种说法没有破绽的话，则似乎可以从服务器访问日志中时常可以看到源自不同IP的GoogleBot在很短的时间内多次访问同一个网页证明FreshBot的存在。
因此，有时候发现GoogleBot频繁访问网站也不要高兴得太早，也许其根本不是在索引网页而只是在扫描url。
FreshBot记录的信息包括网页的url、TimeStamp(网页创建或更新的时间戳)，以及网页的Head信息(注：这一点存在争议，也有不少人相信FreshBot不会去读取目标网页信息的，而是将这部分工作交由DeepBot完成。
不过，笔者倾向于前一种说法，因为在FreshBot向DeepBot提交的url列表中，会将网站设置禁止索引、收录的页面排除在外，以提高效率，而网站进行此类设置时除使用robots.txt外还有相当部分是通过mata标签中的“noindex”实现的，不读取目标网页的head似乎是无法实现这一点的)，如果网页不可访问，比如说网络中断或服务器故障，FreshBot则会记下该url并择机重试，但在该url可访问之前，不会将其加入向DeepBot提交的url列表。
总的来说，FreshBot对服务器带宽、资源的占用还是比较小的。最后，FreshBot对记录信息按不同的优先级进行分类，向DeepBot提交，根据优先级不同，主要有以下几种：
A：新建网页;B：旧网页/新的TimeStamp，即存在更新的网页;C：使用301/302重定向的网页;D：复杂的动态url：如使用多个参数的动态url，Google可能需要附加的工作才能正确分析其内容。
——随着Google对动态网页支持能力的提高，这一分类可能已经取消;E：其他类型的文件，如指向PDF、DOC文件的链接，对这些文件的索引，也可能需要附加的工作;
F：旧网页/旧的TimeStamp，即未更新的网页，注意，这里的时间戳不是以Google搜索结果中显示的日期为准，而是与Google索引数据库中的日期比对;G：错误的url，即访问时返回404回应的页面;
优先级按由A至G的顺序排列，依次降低。需要强调的是，这里所言之优先级是相对的，比如说同样是新建网页，根据指向其的链接质量、数量的不同，优先级也有着很大的区别，具有源自相关的权威网站链接的网页具有较高的优先级。
此外，这里所指的优先级仅针对同一网站内部的页面，事实上，不同网站也有有着不同的优先级，换言之，对权威网站中的网页而言，即使其最低优先级的404url，也可能比许多其他网站优先级最高的新建网页更具优势。

网页的索引与收录

接下来才进入真正的索引与收录网页过程。从上面的介绍可以看出，FreshBot提交的url列表是相当庞大的，根据语言、网站位置等不同，对特定网站的索引工作将分配至不同的数据中心完成。
整个索引过程，由于庞大的数据量，可能需要几周甚至更长时间才能完成。
正如上文所言，DeepBot会首先索引优先级较高的网站/网页，优先级越高，出现在Google索引数据库及至最终出现在Google搜索结果页面中的速度便越快。
对新建网页而言，只要进入到这个阶段，即使整个索引过程没有完成，相应的网页便已具备出现在Google索引库中的可能，相信许多朋友在Google中使用“site”搜索时常常看到标注为补充结果只显示网页url或只显示网页标题与url但没有描述的页面，此即是处于这一阶段网页的正常结果。
当Google真正读取、分析、缓存了这个页面后，其便会从补充结果中逃出而显示正常的信息。
——当然，前提是该网页具有足够的链接，特别是来自权威网站的链接，并且，索引库中没有与该网页内容相同或近似的记录(DuplicateContent过滤)。
对动态url而言，虽然如今Google宣称在对其处理方面已不存在障碍，不过，可以观察到的事实仍然显示动态url出现在补充结果中的几率远大于使用静态url的网页，往往需要更多、更有价值的链接才能从补充结果中逸出。
而对于上文中之“F”类，即未更新的网页，DeepBot会将其时间戳与Google索引数据库中的日期比对，确认尽管可能搜索结果中相应页面信息未来得及更新但只要索引了最新版本即可——考虑网页多次更新、修改的情况——;至于“G”类即404url，则会查找索引库中是否存在相应的记录，如果有，将其删除。

【百度收录：网站收录与搜索引擎收录知识合集】