公 法 评 论

 惟愿公平如大水滚滚,使公义如江河滔滔!
et revelabitur quasi aqua iudicium et iustitia quasi torrens fortis

 

科学家发现“是上帝织出了互联网”


IOS120 2004-6-15

出处:博客中国(Blogchina.com) 原始出处: 新月

  在互联网持续繁荣的时代,人们很自然会从生物的角度来考虑它:互联网是作为一个由计算机构成的逐渐繁荣的生态系统,还是奔腾芯片驱动下正在蔓生的大脑?但无论你怎样运用比喻来描绘它,都很难回避一个奇怪的想法:一个天外来客降临到地球上,从此科学家们又面临着新的东西要探索和理解。

  结果相关文章如泉涌一般,都是关于细察了这个人造的网络,并得出了令人惊讶的结论:互联网可能是根据自然造物一样的规则来设计的。细胞中的分子网络,生态系统中的物种网络,以及社会组织中人的网络可能是如互联网一样的织布机编织成的。

  印第安那州圣母大学的一位医生,Albertlaszlo Barabasi 说,“我们正在逐渐理解复杂性的建构原理”, 他所在的研究小组近来发表了关于《比较像互联网和细胞内维持生命的化学反应组成的新陈代谢网络》的论文。这些网络和其他复杂系统之间的相似性是这样显著,他说“好象是同一个人设计了它们”。

  巴塞罗那卡塔林那理工大学的Ricard V. Sol和Jose M. Montoya博士近来通过研究淡水湖、河口以及丛林这三种生态系统的计算机模型,发现它们属于相同的类型。这两位学者都是复杂系统研究小组的理论生物学家。同时在新墨西哥的圣达菲学院兼职的Sol博士说,这些结果说明自然界确实有某些普遍适用的组织原则,这些原则可能是最终允许我们构建出复杂系统的一个通用原理。

  过去,科学家们将网络视为随机排在一起的,这种排列因此产生了一个节点几乎有同样数量连接的同质网络。Barabasi博士说,我们的工作说明,真正的网络实际上远远不是随机的,网络呈现出出乎意料的秩序和普遍性。

  当许多网络聚在一起,它们好象是自行组织的,这样大多数节点几乎没有连接,同时较少数量的被叫做集线器的节点有许多连接。这种形式被许多科学家描述为一个幂法则。要计算一个节点有某一数量连接的概率,你可以在那个数字上加幂,如2或者3,然后再反过来。

  例如,假设你有包含100000个节点的网络,网络遵守2次幂法则。为了找到有多少节点有3个连接,你可以将3平方,得到9,然后再反过来。因此这些节点的1/9,或者大约11111,将有三个连接。多少节点有100个连接?将100平方,然后反过来:这些节点的1/10000,就是10个节点有这种连接。随着连接的增多,概率迅速地下降。

  这种结构可能有助于解释为什么从新陈代谢到生态系统,再到互联网的网络,它们通常非常稳定而且很有弹性,但却对偶然的崩溃反应灵敏。由于大多数节点(分子、种类、计算机服务器)被稀疏的连接起来,所以依靠他们的几乎没有:一部分被除去后,这个网络还会存在。但是,如果仅仅除去密集连接的节点中的几个,整个系统就会崩溃。

  并不是每一个人都相信普遍法则就在身边。波士顿大学的物理学家最近发表的一篇论文发现,许多不同的网络是偏离幂法则的,这就意味着更复杂的内容。但即使这样,研究仍然发现了隐藏的规则,它们比科学家长期用于网络分析的随机类型更加有趣。

  重要的一点是,网络不同于我们所熟悉的模型系统,一名圣达菲学院的数学家Mark Newman 说到,这意味着所有我们以前的理论不得不被推翻。

  也就是在最近几年,计算机的力量足够收集和分析这样复杂系统的数据。1998年在一篇广泛发表的论文中,哥伦比亚大学的一名社会学家Duncan Watts 博士,与Steven Strogatz博士,康奈尔大学的应用数学家,共同发现了许多网络呈现出所谓的小社会现象,这在John Guare 的戏剧《六度分离》中为大家所熟知。

  就像任何两个人都能够被至多六个熟人的链条联系起来,在一个小社会的网络中,任何节点经过几个跳跃也可到达任何其他的节点。这两个科学家发现在以下几乎相同的三个网络中隐藏的规律,组成昆虫简单神经系统的神经元网,美国西部电力供应的电站网络,以及电影中一起出现的演员阵容。

  这个现象已经被一个网站普及,这个网站在弗吉尼亚大学计算机科学系,名字是贝肯神喻, 它计算出一个演员与影星KEVIN BACON 有多近。PATRICK STEWART 与BACON 隔了两层,他在《埃及王子》中与STEVE MARTIN 共戏,而STEVE MARTIN 与BACON 在《NOVOCAINE》中共戏。

  最近BARABASI博士与研究生REKA ALBERT、博士后HAWOONG JEONG,共同发现互联网是一个小社会,这个现象也同样被加利福尼亚XEROX PALO ALTO研究中心的两名研究者,BERNARDO A HUBERMAN 与他的学生LADA A ADAMIC注意到了。在网上,任何两个地址或文档只隔着几个鼠标点击。

  这两个团队还发现,网络也是根据幂法则建构的,由几个紧密连接的集线器以及数量稳定增加的松散联系的节点组成,这个事实也被其他研究小组注意到。

  在去年秋季的一篇科学论文中,BARABASI博士和ALBERT 女士的步伐更近快,他们认为许多网络可能都是以这种方式组织的。在科学出版物关于计算机芯片和网络连接的引用以及关于小社会的论点中,WATTS 博士和STROGATZ博士也得出类似的结论。

  问题是这种秩序是怎样产生的。在同样的论文中,BARABASI小组提出一个“由丰富到更丰富"的效应:当新节点被加诸一个网络,他们往往与已经存在的节点组成连接。新生演员更可能与知名演员共戏。新科学论文更可能引用著名论文。根据他们的模型,结果是一个幂法则的分布。

  再近来目睹这个类型就是在《自然》杂志的10月5号一期上,BARABASI博士与他的团队和西北大学医学院病理学系的两个成员,研究了新陈代谢以及活细胞中的化学反应网络的形成。小分子被连接以形成大分子,反过来大分子再分解成小分子。但是尽管这些网络是复杂的,他们好象也是遵守一个幂法则。在目前提交给《理论生物学》杂志的一篇文章中,SOL博士与MONTOYA博士在他们研究的生态系统中发现了相似的形式。

  所有这些网络是极有活力的,丢掉了多数的混乱,但是对有预谋的攻击却是脆弱的。BARABASI博士说,对多数节点随便的一个打击是不会毁坏网络的,但是蓄谋的攻击就能够毁坏。

  同这个新理论一样有建议性的是,其他科学家逐渐发现画面不可能是这样简单。在《国家科学学术先驱》10月号的一篇文章中,LUIS A NUNES AMARAL博士与他在波士顿大学的同事分析了许多网络,包括为BARABASI 小组研究的一些网络。网络列表包括国际机场系统的集线器和扶梯棍,两个由摩门教徒和三年级学生组成的小友谊网络。他们推论尽管一些网络遵守幂法则,但在许多其他网络的这种形式是歪曲的或不存在的。

  研究提出,分歧出现是因为增加新节点并不总是很容易:有更多成绩的演员会吸引越来越多的合作者,直到他们老得不能再演戏。机场一天只能承载这么多的新航班。由于这样的复杂性,网络可能会处在极端无序和极端有序之间的某处。

  研究者是乐观的,他们对仍在初期的规律的细节进行分类。WATTS说,比任何特殊研究更重要的是,科学家们最终有计算机这个依靠来研究实际网络,而不是预测理想的网络。

  实际上,不是要证明一切都是幂法则,他说,而是要通过数据开始为复杂网络建模。

----------------------------------------------------------------------

韩宪平 于 2004-6-16 11:57:58写道:
这个问题我有兴趣作过一些研究,不是不是落后了的。我看叫“网络动力学”NETWORK DYNAMICS。

一个新方向:面向全局拓扑的网络算法
作者:韩宪平 2004-2-10 11:00:19
出处:博客中国(Blogchina.com) b22969c

去年八月以来我注意到关于搜索业务和市场激动人心的场面,可为“大泽龙方蛰,中原鹿正肥”,微软公司斥资数亿美元角逐搜索市场,微软的头儿认为搜索、门户、协同和工作流是当今IT最看好的;YAHOO宣布不再使用GOOGLE的搜索服务转而自行开发,不久前投资16亿美元收购搜索公司OVERTURE,这使得搜索业务占了公司总营业收入的20%;而GOOGLE感到了迫在眉睫的压力,一方面提高自己的搜索技术,并收购了以搜索见长的KALTIX公司(他们的技术能评估网络广告的效果)以此增强自身的市场竞争力;IBM的WEBFOUNTAIN是基于文本内容分析的,每周分析数百万网页,为客户评估广告效果发现新的商业机会;欧洲知识管理集团ARK-GROUP指出在IT衰退时期,只有搜索业务一支独秀仍以衰退前甚至更高的速度增长着;最近关于TOOLBAR的竞争开局和GOOGLE公司的一些搜索技术(列表)被诉侵权也颇有看点。

以往的网络算法可以说是“微观”特征的,即面向编码的,有一个包含内容记录列表的库,用编码在库内遍历实现匹配;PageRank好象是介于微观和宏观之间的,除了商业的目的外,它是基于统计学的,基于一定范围内网站网页的链接和统计分布;而所谓“全局拓扑(GLOBAL TOPOLOGY)”是借用微分几何学的概念即研究流型的大范围的拓扑性质的如连续和连通性、拐点存在性等。

2002年NEC有一篇研究报告,指出根据图论“最大流-最小割定理MAX-FLOW MIN-CUT THEOREM”导出的算法,能够在网络上识别出一个区域或社区(COMMUNITY)来,这种算法是面向全局拓扑的即一个范围内的网流结构和性质的,一个区域有一个“源SOURCE”和一个“陷SINK”,还有一个“割CUT”即所谓瓶颈。作为源的网络节点的网流量流入的大于流出的,而作为陷的节点的网流量流入的大于流出的;我们以往总是在消极的意义上理解瓶颈,现在瓶颈对网络分析有重要的作用,对于确定一个网络区域或社区至关重要,割是介于一个网络区域的源和陷之间的几个数量相对较少的链接集合,它决定这个网络区域的最大网流量。

NEC给出的算法叫“网络区域识别算法WEB COMMUNITY IDENTIFICATION ALGORITHM”,认为网络具有自组织、自适应和自相似-分形等性质和拓扑特性:网络的无组织状态是由所谓的“种子SEED”网站实现自组织的;网络自动实行经济原则如是网流达到最大、路径最短等;网络在任何尺度上都是分形结构自相似的,大区域套着小区域,每个区域都有源有陷有割。

一旦识别出网络区域,那么区域内的信息流就是相对稳定的,信息的内容和信息流量都是稳定的,这可以帮助政府和网络服务公司检测监管网络异常如网络攻击,比较容易过滤垃圾邮件;可增强搜索引擎的功能,提高智能水平;可用于知识发现,由于网络自组织的特性可以比较容易发现学科之间互相交叉混合生长的动态趋势,把握住科学技术发展新的方向;评价网络广告效果,进行客户调查,发现新出现的商业机会。NEC根据这样的理论设计了网络实验,他们选择了三位著名科学家(分子生物学佛郎西斯 克拉克,理论物理学斯迪芬 霍金和计算机科学罗那德 莱卫斯特)的个人网站作为种子网站,确定出三个网络社区即三个兴趣中心,得到了许多重要结果,证明符合理论分析结论,发现了所谓“特征词和特征词组”,提示新的科学概念之间的未被发现的联系。

全局拓扑算法的要点:

(1)确定种子网站;

(2)根据种子网站确定一个区域内的源、陷和割的全局结构(区域内普通节点的流入流出量是相等的,源的流出大于流入,陷的流入大于流出);

(3)确定区域的割即瓶颈。

开发工具:SERVLET/JAVA是服务器端的应用程序,工作模式是“查询-回答”与远程机器上运行的进程进行交互,它可以作为容器来集成像RMI/JAVA和RPC/JAVA这样的各种对远程机器上运行的进程的调用工具,他们可以探测远程机器之间的超链接、网流容量和网流密度分布。


----------------------------------------------------------------------

blueband 于 2004-6-15 19:15:26写道:
这方面的研究现在有一个比较统一的名称叫做“互联网行为学”,比较著名的结论如这里提到的small-world、去年在科学杂志上发表的scale-free network以及更为经典的Power-law分布等。

这个领域的结果常常是令人感到新奇的,可以说这些结论往往都蕴含了深刻的规律,可惜的是现在对于我们的互联网应用和研究来说它们所能真正发挥的作用还是很有限的,至少有很多的工作都还是停留在实验室或者研究机构的分析报告中,如何基于这些分析和结论完善Internet和其他的应用网络还有很多未知的领域。

---------------------------------------------------------------------

陈体滇 于 2004-6-15 14:11:21写道:
幂法则不是网络的唯一法则。
即使您将所有的核心的节点毁掉,网络被击碎为许多碎片,它还会自行重新联结起来,新的核心节点将从次核心节点中生长出来。
网络的生命力大于它脆弱性。
因为网络的背后是人,是有生命的个体的人,是从无到有创造网络的人,大不了从头将破坏的网络建起来。