搭个Google搜索服务器玩?

据Google黑板报消息,Google搜索服务器虚拟版(Google Search Appliance virtual edition,简称GSAve)发布,可以在自己的计算机上运行自己的搜索引擎。倒是可以尝试一下,建个自己的搜索服务器,抓取自己定义的网站和内容。

开个玩笑:这很适合一部分同学,一上手就要把某个词排在第一,现在自己建个搜索引擎,想排第几排第几,还可以自己人工干预一下,哈哈。

GSAve是Google搜索服务器(Google Search Appliance)的虚拟版,能通吃包括网页、文档、数据库等信息在内的220多种格式,除搜索功能还有编程接口,看介绍让人蠢蠢欲动啊。

有兴趣的话,可以点这里下载(做好心理准备,1.09GB,7Zip格式)。

在自己的计算机上运行搜索引擎——谷歌搜索服务器虚拟版发布

发表者:谷歌中国工程师 童文超 陈雍升

谷歌公司的使命是整合全球信息,使人人皆可访问并从中受益。对于那些防火墙背后,谷歌的搜索爬虫接触不到的信息,我们提供了谷歌搜索服务器(Google Search Appliance,以下简称GSA)软硬件整体解决方案。GSA 能够对企业、高校等拥有的网页、文档、数据库等相关信息进行高效安全的通用搜索,支持的文件格式达 220 余种。随着 GSA 最新的 5.2 版的发布,我们在全球同时发布了一个运行在虚拟机中的纯软件版的 GSA ——谷歌搜索服务器虚拟版(Google Search Appliance virtual edition,以下简称 GSAve)。

今天,全世界的技术爱好者可以免费从这里下载 GSAve,在自己的计算机上运行自己的搜索引擎,使用它来抓取和索引自己的网站、博客、数据库和网络文件夹。

GSAve 秉承了 GSA 强大的搜索功能和编程接口。谷歌鼓励广大程序员使用 GSAve 提供的接口来开发一些有趣的适合特殊内网环境的搜索体验。

– 使用连接器管理工具,可以让 GSAve 抓取和索引到非 Web 形式的网络资源,例如存放在Sharepoint 中的文档。 – 使用 Feed API 和元数据搜索功能,您可以为自己的网络论坛(BBS)建立搜索功能。 – 您可以使用 Onebox 编程接口在搜索结果页面中提供实时数据。 – GSA 强大的安全搜索功能支持多种身份认证方式,使用户在搜索结果中只见到自己有权限访问的文档。– 我们专门为小规模文档集设计了专门的网页排序算法。– 用户可以定制 GSA 的搜索结果界面,甚至以 XML […]

浪潮之巅 第十二章 信息产业的规律性 (三)

发表者:Google(谷歌)研究员 吴军

第一节 70-20-10律

第二节 诺威格定理

第三节 基因决定定理

对上一节最后一个问题,最好的答案就是四个字“基因使然”。当我在前面的章节提到基因对一个公司发展的决定作用时,一些读者觉得我是在宣扬宿命论。遗憾的是,现实是很残酷的。一个公司可以不相信基因的决定性,但是最终无法摆脱它的影响。

我和李开复以及许多优秀的管理者探讨过为什么一个公司进入成熟期以后,很难在新的领域获得成功。最后的结论是,一个在某个领域特别成功的大公司一定已经被优化得非常适应这个市场,它的文化、做事方式、商业模式、市场定位等等已经非常适应,甚至过分适应自己传统的市场。这使得该公司获得成功的内在因素会渐渐地、深深地植入该公司,可以讲是这个公司的基因。当这个公司在海外发展分公司时,它首先会将这基因带到新的地方,克隆出一个新的公司。微软在中国的分公司一定还是微软的风格,中国的谷歌一定继承了 Google 的文化。同时,它们又都像美国公司,而不是日本公司。类似地,当这个公司开拓新领域时,它也会按照自己的基因克隆出一个新的部门。遗憾的是,适应现有市场的基因未必适合一个新的市场。

当一个公司还没有占到市场的 50%,并且在高速发展时,它不会涉及到转型的问题。一个非常成功的跨国企业需要转型时,都是在它的发展非常成熟以后,就好比人到了中年。这时,一个公司和一个人一样,改变起来是非常困难的。尤其当它涉足一个过去它不熟悉的领域,就好比一个已经养尊处优的四十岁的人重新走入课堂去和一群二十岁的年轻人一起从头开始读书,学习起来比没有负担的年轻公司要难得多。更何况,年轻的公司没有退路只有向前进,而成熟的公司总有它传统的业务可以依赖,一旦遇到问题就可能退缩。

我们在“蓝色巨人 IBM ”一章中提出,以大型机、系统和服务为核心的 IBM 公司很难在 PC 机市场成功。当 IBM 继苹果之后推出 PC,当年就卖出十万台,实现销售额一亿多美元左右,并实现盈利,这在商业史上是空前的成功。但是,这一亿多美元还抵不上 IBM 接几个花旗银行计算机系统的合同。IBM 的商业模式是将长期的服务捆绑到系统销售中,至今依然如此。应该讲,IBM 的商业模式是一个很好的模式。但是,习惯于这种一劳永逸商业模式和市场的 IBM,很难像推销家电那样辛辛苦苦地推销个人计算机。在 IBM 公司内部,负责大型计算机业务和银行软件业务的部门的销售额和盈利几乎在所有年头都占 IBM 的主要部分,这些部门在公司内部的发言权要比 PC 部门高得多。不要以为成功的跨国公司内部是铁板一块,大家都是为了公司的利益,实际上大公司内部为了部门的利益也时常争得你死我活。如果 IBM 公司将重点转移到 PC 上,首先在公司内部就通不过。在对外竞争上,IBM 早期主要的竞争对手康柏无退路可言,只好全力以赴去拼搏。而 IBM 在 PC 机市场上每遇到一点挫折就退回来一点,发展顺利时就往前多前进一点,如此反反复复。好在 IBM 的 PC 业务和它的核心业务并不冲突,因此,它的 PC 部门才得以一直存在了二十多年,直到前几年卖给联想。

一旦新的业务和公司传统业务冲突时,一些公司甚至会牺牲掉新的业务。我的一位邻居原来是贝尔实验室一位资深的科学家,他给我讲过一个发生在贝尔实验室里面很荒唐的故事。几十年前,贝尔实验室的一个小组研制出一种传真技术,比当时世界上最快的传真机传真速度还快十倍,但是这个项目居然被停掉了。原因是 AT&T 认为它会使得自己的话费业务收入下降。显然这个小部门的主管在 AT&T […]

浪潮之巅 第十二章 信息产业的规律性 (二)

发表者:Google(谷歌)研究员 吴军

第一节 70-20-10律

第二节 诺威格定理

Google 研究院主任、美国计算机协会(ACM)资深会员(Fellow,中文有些地方翻译成会士)、人工智能专家彼得·诺威格博士(Peter Norvig)讲,当一个公司的市场占有率超过 50% 后,就无法再使市场占有率翻番了。这几乎是任何人都懂的大白话,但是却道出了许多跨国公司兴衰的根源。

和人一样,一个公司也有成长的青少年期、稳定的中年期和衰退的老年期。当一个公司刚刚兴起时,它很有朝气,又有领先的技术,市场占有率却很小。整个世界对它来讲几乎是无限大,它只要干好自己的事,就能不断占领市场,以几何级数成长,根本不用担心成长的空间的问题。用辛弃疾的话讲,就是少年不识愁滋味。但是,当它占领了大部分市场时,它的成长就受制于整个行业的发展了。而华尔街依然期望着这个新兴公司不断创造奇迹。这时候,该公司就必须寻找新的成长点,才能不断超越华尔街的预期,公司就不得不天天为营收忙碌(如果达不到预期会怎么样,我们以后会谈到它的严重后果)。和传统的工业不一样,一个科技公司非常容易早熟,可能用不了几年就成长到饱和状态。

让我们通过 Google 的例子来看一看科技公司达到饱和状态是多么的快。在山景城 Google 总部四十二号大楼二楼的墙上有一张一米高、几米宽的大图,它是参观 Google 必看的一景。图上画的是从 1999 年以来到 2004 年 Google 上市时为止 Google 搜索流量的增长。那是一张非常漂亮的以几何级数增长的曲线。图上横向是时间,纵向是搜索量。从 1999 年到 2000 年,搜索量增加了十倍,曲线的顶部就要突破了纸的高度,因此不得不将曲线的比例缩小十倍。但是,很快,几个月翻一番的增长速度又使得曲线不得不此按比例再缩小十倍,如此几次,直到 2004 年 Google 上市后不能再公开自己的流量为止。

Google 刚成立时每天只有几万次的搜索量,这个数量即使涨一万倍也不会对市场有很大影响。拉里·佩奇亲口对我们讲,他最初的梦想不过是把 Google 办成一个盈利上亿美元的公司。但是,Google 的发展比佩奇自己的梦想还要快得多。Google 成立后没有多长时间,搜索量就涨了上百倍,达到百万级。当时Google主管工程的副总裁乌尔斯·霍尔茨(Urs Hoelzle)还专门发了封庆贺的Email。当时 Google 只有个位数的服务器,霍尔茨需要自己监管这些服务器。没过两年,Google 的搜索量又长了百倍,Google 自己也长成了一个婴儿巨人(Baby Giant)。到 2002 年,它不仅成为世界上最流行的搜索引擎,而且同时为世界上最大的两个门户网站雅虎和美国在线提供搜索服务,估计占到了全球流量的一半。在 1998 年到 2002 年这四年间,Google 的增长主要靠抢占市场份额而获得。但当 […]

浪潮之巅 第十二章 信息产业的规律性 (一)

发表者:Google(谷歌)研究员 吴军

我们在前面介绍了信息科技产业的生态链。这一章是它的姊妹篇,我们将介绍信息产业的其它规律。其实很多观点我在前面的章节中已经提到过了,这里再系统地介绍它们,帮助我们更好地了解整个信息科技产业的变迁的内在原因。

第一节 70-20-10律

我们在介绍风险投资的那一章中,介绍了一个科技公司如何从无到有的诞生过程。我们在这一章介绍一个科技公司成熟后的变迁过程。

原苹果公司 CEO 斯库利(就是那位把乔布斯从苹果赶走的 CEO )在失败地离开苹果后,写了一本书《奥德赛:从百事可乐到苹果》,总结了他在苹果的经验教训。在书中,他不经意地发表了许多关于商业竞争的观点。虽然公司的竞争和自然界的竞争大不相同,斯库利却用自然界的竞争来比喻商业的竞争,使得不熟悉商业的人更容易理解它。虽然我不太同意他将社会现象和自然现象等同起来,但是非常赞同他的一个观点,我就把它进一步扩展成 70-20-10 律。

让我们顺着斯库利的思路,看看信息科技领域和自然界的一些共性:当某个领域发展成熟后(而不是群雄争霸时期),一般在全球容不下三个以上的主要竞争者。这个行业一定有一个老大,斯库利把它比喻成一个猴王,它是这个行业的主导者。毫无疑问,它虽然想顺顺当当地统领好整个行业,就像猴王想让猴子们永远臣服一样,但是,它一定会遇到一两个主要的挑战者,也就是老二(也许还有一个老三)。剩下来的是一大群小商家,就像一大群猴子。老大是这个领域的主导者,不仅占据着超过一半,通常是百分之六七十的市场,并且制定了这个领域的游戏规则。老二有自己稳定的百分之二三十的市场份额,有时也会挑战老大并给老大一些颜色看看,但是总的来讲是受老大欺负的时间多。剩下的一群小猴子数量虽然多,但是却只能占到百分之十甚至更少的市场,它们基本上唯老大马首是瞻。老大总是密切注视着老二,并时不时地打压它,防止它做大。老大和老二通常都不会太在意剩下的小企业,这样就让这一群小的企业能有挣一些小钱的地方。这里面的百分比数字 70、20 和 10 是我加的,因为信息产业大公司之间的市场份额大抵如此。

在我们熟知的微机领域,微软无疑是老大,苹果是老二(当然,现在的苹果和斯库利时代不同了,它已经不完全是计算机公司了)。微软控制着微机的操作系统,于是几乎所有的软件硬件开发商都必须跟在微软的后面开发应用产品,因此微软的地位就相当于猴王。苹果有时能够挑战一下微软,把自己的市场占有率提高一两个百分点,但是,总的来讲它在微机领域一直受微软的打压。剩下来的公司,不仅很难挑战微软的霸主地位,和苹果也差得很远,因此要么替微软赚吆喝,比如各种小的兼容机公司;要么就避开微软闷头挣自己的小钱,比如应用软件开发商 Adobe、Intuit 和赛门铁克等,日子也过得下去。

在微机处理器领域英特尔是老大,以前的老二摩托罗拉已经被英特尔逐出了微机处理器行业,现在由 AMD 坐第二把交椅。虽然 AMD 偶尔能从英特尔手里抢一些市场份额,但是基本上是在英特尔的阴影下发展,它的产品必须和英特尔兼容。这是华尔街对 AMD 总体并不看好的主要原因。由于在这个领域一个公司必须有足够的销量才能立住脚,因此现在连第三家做处理器的公司都没有了,一群小的半导体公司都在围着英特尔转,做微机里各种各样的其它芯片。在这个领域,英特尔是游戏规则的制定者,任何一个公司都无法抛开英特尔自己另搞一套,否则便是自寻灭亡。

在其它领域,情况相似。在网络路由器领域思科是老大、Juniper 是老二;在互联网领域 Google 是老大、雅虎是老二。在 IT 服务领域,IBM 是老大,惠普和太阳是老二、老三。虽然每个领域的领头羊占得市场份额不尽相同,但是通常都是比其他所有公司的总和还多。

当一个市场还处在群雄争霸的时期,一个商业模式适合这个市场,并且在技术上、管理上和市场上综合占优势的公司,无疑最有可能成为竞争的最终胜利者,并成为行业的领头羊。当市场上一旦诞生了一个新的猴王,它就成为了这个市场规则的制定者和解释者,这时,市场就不可逆转地向着有利于这个主导者的方向发展。其它公司即使在技术上、管理上或者其它方面有一点优势,都不足以抵消主导者在规则制定和解释方面的优势。靠着制定和解释规则,在很短的时间里这个王者就占了这个领域在全世界的大部分市场。

让我们通过微软和苹果的例子,来了解一下制定规则的作用。当微软占领了 95% 的微机操作系统市场份额后,软件开发商专门开发苹果软件意味着什么?意味着设计和生产一种只能在 5% 的公路上跑的汽车。几天前我和圣地亚哥加州大学一位研究计算机安全的教授讨论信息安全的问题。我们在谈到以往的基于 Unix 内核的操作系统,比如苹果的OS,通常比微软的安全时,他向我介绍说,新的微软操作系统 Vista 现在已经比苹果的操作系统和 Linux 安全得多(我多少有点惊讶)。但是,微软的 Vista 仍然比苹果的操作系统容易受到攻击,因为后者的数量(或者说市场占有率)太小,以至于制造计算机病毒和间谍软件( Spyware )的人“懒得”去攻击苹果的计算机。这对苹果公司和苹果的用户是一条悲哀的好消息,它说明微软在操作系统上的统治地位多么强,就连造毒者都必须造微软的毒。事实上,苹果在早期一直标榜自己的产品在技术上和性能上比微软的强,现在连它自己都不觉得这是卖点了, 另辟蹊径地追求酷了。

当整个行业都开始遵守微软制定的规则时,全社会就出现了各种各样靠微软吃饭的人。有编写、翻译、出版和销售 […]

Category

Archives