搜索引擎

 
 

如何处理网站内容重复

2007,04,13 / 16:00 • 搜索引擎 • #0

最近,搜索引擎战略会议在寒冷的芝加哥举行。许多谷歌参加者总是被问及关于重复内容的问题。对于这个话题,我们发现有许多破碎的并且有些混乱的理解。我们想在此予以澄清。

什么是内容重复?

重复的内容一般是指在不同域名间存在大量的相同或相似的内容。很多时候,它并非故意或至少本无恶意。譬如说,有些论坛会生成一些专为手机屏幕的页面;商店物品被显示在(有时甚至是链接到)多种不同的URL上,等等。但有些时候,一些网站为了操纵搜索引擎排名,获得更多流行或长尾查询的访问量,大量地从其他网站复制内容。

什么不是重复内容?

虽然谷歌网站有方便易用的翻译功能,我们的算法不会把有着相同内容的英文版和西班牙文版看作内容复制。同样,你不用担心我们把你文章中对其他文章小片段的引用认定为重复内容。

为什么谷歌关心重复内容?

谷歌用户使用Google时通常希望看到多样化的原创内容。如果他们找到的都是内容相同的一堆搜索结果,可以想见那是多么烦人。另外,网站管理员不愿意看到Google给出象example.com/contentredir?value=shorty-george〈=en一样复杂的URL。他们往往更喜欢类似example.com/en/shorty-george.htm的URL。

谷歌做了些什么?

Google在抓取网页和获得搜索结果时,总是力图索引并显示内容不同的页面。这种过滤意味着,譬如说,如果你的网站有文章的正常版和打印版,并且你没有在robots.txt里设定noindex标记,谷歌就只会选择一个版本显示给谷歌用户。对于企图利用复制内容来操控排名,欺骗谷歌用户的少数情况,我们会在对相关页面的索引和排名作出适当调整。当然,我们更愿意把重点放在过滤而不是排名调整上… 因此,在绝大多数情况下,最坏的结果就是原创者看到了不愿看到的版本出现在我们的索引里。

网站管理员如何主动处理内容复制问题?

适当阻止搜索引擎访问:与其让我们的算法来确定一个文件的”最佳”版本,你也许希望指引谷歌选取你的首选版本。譬如说,如果你不想我们索引你网站文章的打印版,你可以在你的robots.txt文件中写上目录名或正则表达式来禁止谷歌对那些打印版的抓取。
使用301重定向:如果你已经重构你的网站,请在你的原网站的.htaccess中使用301重定向(永久性重定向)来重定向你的用户、Google爬虫、以及其他搜索引擎蜘蛛等。
链接要一致:努力使你的内部链接保持一致; 不要既有/page/,又有/page和/page/index.htm 的内部链接.
使用顶级域名:为了让我们总是使用最合适的文件版本, 请尽可能使用国家特定的顶级域名。与诸如example.com/de或de.example.com的URL相比,谷歌肯定更清楚地知道example.de是以德文为核心的内容。
小心辛迪加式的联合供文:如果你为其他网站上也提供你的内容,请在每一个其他网站的文章中包括连回原文章的链接。注意:即使是这样,对一个查询,谷歌总是显示我们认为是最适合的(没被网站禁止的)版本, 它可能是,也有可能不是你所想要的版本。
使用谷歌网站管理员工具的首选域功能: 如果其他网站链接你的URL时既使用www版本又使用无www的版本,你可以用谷歌网站管理员工具让我们知道你想要哪种索引方式。
减少模板网页上的重复内容:拿版权声明来说,你有两种选择,一种是在你的每一个页面底部都有一个冗长的版权声明。另一种是设立一个专门的版权详细声明页,然后在每页底部写一个非常简短的总结,并链接到版权声明页。
避免发布无内容页:用户不喜欢看到无实际内容的页面。要尽量避免空架页。以房地产网页为例,不要发布(或至少要阻止)没有点评的点评网页,或者没有房地产列表的房地产罗列网站等。只有这样,网站用户(以及Google爬虫)才不会看到无穷多的写着“以下是在【某城市名】中不可错失的待租房列表…”但其实根本没有什么列表的网页。
了解你的内容管理系统:确保你熟悉你的网站是怎样显示内容的,尤其是当它包括了博客,论坛,或相关的系统。往往在这些系统中同一内容会以多种形式出现。
不要担心,保持快乐:不要过分受搜刮(挪用和转载)你内容站点的干扰。虽然很恼人, 它们几乎不可能对你在谷歌中的存在产生负面影响。如果你实在忍无可忍, 欢迎你提出千禧年著作权法案申请 来声明对你的内容的所有权。我们会处理那些无赖网站。
总之, 如果你对内容复制问题有一个大体的认识,又能花上几分钟有见地地预防性维护一下你的网站,这将既帮助你们,也帮助我们为用户提供独特而相关的内容。


如何使百度有效收录

2007,03,30 / 04:05 • 搜索引擎 • #0

百度喜欢结构简单的网页,具有复杂结构的网页可能无法顺利登录百度。您在进行网页设计时应尽量:

1. 给每个网页加上标题

网站首页的标题,建议您使用您的网站名称或公司名称,其它网页的标题建议与每个网页内容相关,内容不同的网页不用相同的标题。

2. 不要把整个网页做成一个Flash或是一张图片

百度是通过识别网页源代码中的汉字来认识每一个网页的。如果您的整个网页是一个Flash或一张图片,百度在网页中找不到汉字,就有可能不收录您的网页。

3. 不对网页做重定向

重定向的网页可能不容易登录百度。

4.不在网页中使用Frame(框架结构)

5.不在网页中使用过分复杂的Java s cript

某些Java s cript的内容对于搜索引擎是不可见的,所以不能被识别和登录。

5.静态网页能更顺利登录百度,动态生成的网页不容易登录百度

·如果您的网页url中含有如asp、?等动态特征,网页就可能被认为是动态网页。
·如果您的网站中有很多网页必须做成Frame结构或动态网页,那么建议您至少把网站首页做成简单的网页,并且对网站内的一些重要网页,在首页加上链接。

6. 不要对搜索引擎进行作弊

作弊的网站不能登录百度,即使登录后也随时可能被删除。

作弊网站定义

对搜索引擎作弊,是指为了提高在搜索引擎中展现机会和排名的目的,欺骗搜索引擎的行为。
以下行为都可能被认为是作弊:
· 在网页源代码中任何位置,故意加入与网页内容不相关的关键词;
· 在网页源代码中任何位置,故意大量重复某些关键词。即使与网页内容相关的关键词,故意重复也被视为作弊行为;
· 在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号文字、文字隐藏层、还是滥用图片ALT等方法,都属于作弊行为;
· 故意制造大量链接指向某一网址的行为;
· 对同一个网址,让搜索引擎与用户访问到不同内容的网页(包括利用重定向等行为);
· 作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊,该网站也被认为是有作弊行为;
· 有链接指向作弊网站的网站,负连带责任,也会被认为是作弊(但是,作弊网站上链接指向的网站,不算作弊)。

作弊网站害处

根据网页的作弊情况,会受到不同程度的惩罚:
· 较轻微的惩罚,是系统在给网页排名时略为降低该网页的排名;
· 较常见的惩罚,是作弊网站的某些关键词(或所有关键词)的排名降到其它任何网站之后;
· 较严厉的惩罚,对于作弊行为和后果特别恶劣的网站,将从百度中消失;
· 特别补充,含恶意代码或恶意插件等用户极端反感内容的网页,虽然不是作弊,但只要用户投诉,一经确认也会被百度拒绝收录;

SEO入门基础之理论扫盲

2007,03,13 / 16:08 • 搜索引擎 • #1

首先,要知道什么是SEO
SEO 是英文search engine optimization的缩写,翻译成中文就是“搜索引擎优化”,搜索引擎是除电子邮件以外被用得最多的网络行为方式.而从事这方面工作的就是search engine optimizer,搜索引擎优化师.他们利用工具或者其他的各种手法使自己的合搜索引擎的搜索规则从而获得较好的排名(也就是常说的网站优化).无止境地追求较前排名是SEO们一世的目标.

第二,我们为什么要SEO
在网络营销中,搜索引擎优化排名是一种非常重要的手段,SEO主要就是通过对网站的结构,标签,排版等各方面的优化,使Google等搜索引擎更容易搜索网站的内容,并且让网站的各个网页在GOOGLE等搜索引擎中获得较高的评分,从而获得较好的排名.
(当然,如果你不想SEO,也想从搜索引擎上带来大量的流量,那么你可以给搜索引擎掏钱的,这个就是所谓竞价排名.)

第三,就是最重要的,怎么SEO才能让你网站排在前面.
网站最重要的就是关键词,你的网站的什么关键词重要就可以去SEO它.
比如,我们在百度或者Google里找本站,就会搜索”小哀的阁楼”,就会看到我的网站.
但是,我这个网站的名字属于生僻的词,用的人比较少,所以就会找到我,
但是你如果搜索:”域名”,虽然我的网站也介绍了”域名”相关的文章,但是并不能在前10页或者几十页找到,
(我们暂时不提”域名”这个词第一页全部是竞价排名的问题.)
查看一个站点的源文件.你会找到这样的:

< meta name=”description” content=”****” / >
< meta name=”keywords” content=”****” />

这样的代码一般都会存在与 < head > < /head > 之间
就是这么多之间的代码决定了你网站排名的关键.keywords这个就是关键词.description是你对于网站的介绍.
等等好多存在与头部标识之间的代码都对与SEO存在重大的作用.

不是什么样的网站都可以开展SEO的。开展SEO是需要有前提条件的,只有一个首页的网站开展SEO是没有意义的。
SEO不应该是仅仅限于热门关键词取得比较好的排名位置,它更应该是在与产品相关的搜索中都能具有突出表现的能力。
SEO不只是简单的标签优化、关键词密度、外部链接等,而是一种整体策略。这种策略体现在:用户搜索指数分析、主要关键词的选取、网站结构分析、网站导航链接结构、网站信息编辑、网站地图等环节。
我们要实现的是使所有网页都能被搜索引擎收录页,并在每一个相关搜索中都能让网站有所体现。对于企业网站,这一点由为重要。

我也是刚刚了解和学习SEO知识.在这里不是为了宣传还是什么,只是做点SEO学习的笔记,如果说的有什么不对的地方,请您海涵,希望您可有及时的指导,谢谢.

我一般学习seo的地方是:点石.