Google有一个专门介绍搜索技术的网站Inside Search,其中的Under The Hood页面是告诉大家Google为了让搜索更快且更有效率,默默在背后做了多少事情,比如说Google的页面索引(Index)可是有1亿多GB的内容,加入Google Instant动完成技术也都是为了加快搜索速度。
Under the hood的表面意思是打开引擎盖,语意则是接近知其然、知其所以然的意思。
实验室所做的努力
Google会与使用者一同测试最先进的搜索技术,当使用者每次进行搜索,也是在一同参与实验。
实验室进行的工作:
1、自动完成实验(Auto complete experiments):Google持续尝试不同的方法以加快Google Instant呈现结果速度,Google的实验还包含在打出完整字句前就开始进行搜索。
2、搜索排名实验(Search Ranking experiments):Google会测试即将推出的最新版运算法改进,帮助使用者找到更高品质的搜索结果。
3、使用者介面实验(User Interface Experiments):当Google推出新功能给全世界的使用者前,会先把主要功能开放给1/100的使用者,你现在可能就已经见到Google即将推出的新功能。
4、2010年的实验(Experiments in 2010):Google始终不断在进行实验,在2010年已经实现超过6000项特定的搜索实验。
搜索已经是生活中的一部分
身为全球最大的搜索引擎,你可以想像Google首页干净简洁的白色页面背后,究竟有多少夸张的数字呢?Google的索引(index)可是有超过1亿GB的内容,光是庞大的资料量就得付出许多功夫来整理。
搜索背后的小故事:
1、100万小时运算:Google花了100万小时建立索引资料(index)。
2、每天10亿次搜索次数:Google每天要处理超过10亿次搜索。
3、4500亿个独特查询:自从2003年以来,Google回答了4500亿个新的独特查询(也就是Google以往从没见过的关键字搜索)。
4、1000人工年:Google花上超过1000人工年(1000 man-years,意旨1000个人工作1年、或1人工作1000年)进行Google搜索演算法的开发。
5、闪电般的预览速度:Instant Preview的平均载入时间只需要1/10秒。
6、独特查询:每天都会出现20%的独特查询(unique queries,以往没见过的关键字搜索)。
7、跨越1500英里的回答:每个搜索平均要跨越1500英里的距离取得答案,回到使用者的电脑中。
8、索引规模:过去数年间Google索引内容增加超过数10亿个,Caffeine索引的内容也超过1亿GB。
快!还要更快!
Google每天处理超过10亿则来自世界各地的查询,平均回复搜索结果为0.25秒,如何更快、更有效率的搜索就是一大挑战。
Google的快速搜索理念:
Google知道等待是多么令人泄气:这就是Google为何希望能瞬间显示搜索结果的原因,更好的是,Google希望能帮助使用者在输入关键字每个字母(或讲话)的瞬间就进行搜索,并立即显示搜索结果。
Google持续加快搜索引擎的速度:除了漂亮的程序代码之外,Google在全球建立的分布式计算系统(distributed computing systems),确保使用者可到更快的回应时间。随着自动完成(autocomplete)和Google Instant等技术,Google能在使用者打好关键字之前就找出搜索结果。此外Google也不断抓取网络上的内容,确保使用者在几分鐘内即可找到最新的新闻、博客、以及状态更新。在Realtime search加入后,也能在事件发生后随即提供即时话题内容。
即时搜索(Realtime search)案例,以2011年埃及革命为例:2011年1月28日,埃及的示威抗议过了3天之后,网路上包含埃及「Egypt」这个字的Tweet推特讯息超过24万5千则。Google也在48小时内增加索引加入1000万个相关的部落格文章、以及22,350个相关的新闻结果。
随时、随地都能搜索
过去2年间,Google在手机等移动装置的搜索量,比起桌上型电脑的Google搜索增加5倍,使用者已经不局限在桌上型电脑前进行搜索,而是随时随地都会进行搜索。Google针对iOS、Android平台推出多款应用程序,让使用者在外也能立即进行搜索。(文/T客邦)