http://www.antimonopolylaw.org

【刷百度分享】搜索引擎的运作原理

  【刷百度分享】搜索引擎的运作原理
  
  Goge的官方博客在2008年5月刊登了乌迪・曼博( Udi Manber)的这篇文章“ Introduction to Google Search Quality"并且透露( Google将定期公告关于搜索引擎的信息。根据乌迪・曼博的文章, Google有超过百人以上的工程师与科学家直接在研究与改善搜索引擎技术,另外有团队负责品质评估、使用者界面开发和垃圾技术侦测等,他表示在2007年 Google就有450次的改善修正,平均每周就改善9次之多。
  
  鸟迪・曼博在2006年前是负责 Amazon的A9搜索引擎时,因此虽然只加入 Google两年,但是已经算是搜索引擎的老鸟了,他目前是Google搜索品质的副总裁,该团队就是负责数据评估等的工作,也就是决定数据搜索的排序结果。乌迪是精于演算法及数据比对的资深工程师,在亚马逊网络书店可以找到许多他的著作。
  
  另外一位创立 Blekko的里奇,斯克伦塔( Rich Skrenta)谈论到搜索引时说:“搜索引擎就是把全球的页面复制一份到您的集群里,然后进行7项苦工(分散式系统、HTML分析、文字与语意分析反垃圾、人工智能与机器学习、使用界面、弹性的系统规模),然后每天都会惊讶地发现许多色情与垃圾网站”。他的最后一句透露了两个重点:取巧的网页会被抓出来,以及人类在整个过程中会介入数据的判断。
  
  其实从2007年 Google的PR调整来处罚 Paid link(付费式链接大概就能清楚人为干扰搜索引擎演算法是怎么回事,但由里奇·斯克伦塔的说法就更加明白,非自然的网页行为是被严密监控的,也许您会认为上亿页的数据中不会被发现,那您就低估了人工智能与机器学习的可能性。
  
  虽然搜索引擎的操作相当繁复,但是我们可以把它简单划分成几个
  
  步骤(1)由网络上抓取各网站的数据( Data Crawling);
  
  (2)处理抓回来的数据并建立索引( Data Indexing)
  
  (3)以算法建立各网页评比分数( Data Scoring);
  
  (4)搜集使用者浏览网络的习惯数据( User Browsing Statistics
  
  (5)由使用者搜索数据搜集关键字及点击率( User SearchStatistics)
  
  因此如果想要让搜索引擎能够把您的网页显示在搜索结果的前面几页,就必须深入了解上面5个步骤的过程,这些就牵涉到太多深奥的信息工程学、社会学、心理学和广告营销学等知识,但是如果能够好好阅读本书,您也可以不费吹灰之力地掌握所有搜索引擎的核心知识。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。