Archive四月 2016

《网络 群体与市场》关于网页链接关系的一篇笔记

heroone的笔记本 网络 群体与市场 信息网络与万维网

第四部分 信息网络与万维网

万维网的结构

  • 超大强连通分量
  • 领结结构
    • 链入
    • 链出
    • 卷须
    • 游离

新型的连接模式更注重人们彼此之间的在线连接关系,而不仅仅是文档之间的连接
造成web x.0出现的原因可以大致的分为以下几个方面:

  1. 人的大量参与
  2. 云服务的涌现
  3. 社交能量的爆发

web x.0的网站都有一些共同的特征:

  1. 信誉系统
  2. 信任系统
  3. 推荐系统
    搜索引擎实现的基础是将万维网看成一个网络,而其赢利模式则是建立在匹配市场的搜索模型

为什么会兴起了想twitter之类的实时信息网站呢?
是因为当时的搜索引擎并没有将新闻搜索系统集成到其核心部分。

利用中枢和权威进行链接分析

对于查询词,首先要根据传统的基于文本的信息检索方法,筹集大量的与该查询词相关的网页样本,然后对于每个网页的链接行为进行统计,投票选取链入数量最多的网页。

列表网页比其他的网页更清楚哪些是较好的搜索结果,因此赋予其更高的分数,一个网页的列表值等于他指向的所有网页所获得的链入数总和。

列表值加权
再次加权
——————
如此反复的过程被视为反复改进规则

中枢网页和权威网页

认可度较高的网页及或的投票(链接)较高的网页即是该查询的权威网页
列表值(列表值等于他指向的所有网页所获得的链入数总和)较高的网页即使该次查询的中枢网页

权威更新规则
中枢更新规则

经过权威更新规则和中枢更新规则的处理后,所得到的权威值和中枢值会非常的大,此时我们只关心起相对值的大小,将数据进行归一化的处理。

将每一个权威值除以所有权威值的总和,即是归一化处理的权威值
将每一个中枢值除以所有权威值的总和,即是归一化处理的中枢值

中枢和权威的极限值只与网页特征结构相关和初始值无关,最后这些值维持在一个均衡状态,这些均衡实际上反映了中枢和权威概念的固有本性:网页的权威值和该网页指向的所有网页的中枢值之和成正比,而中枢值又与该网页指向的所有网页权威值之和成正比。

在网站内部的连接结构处理之上我们也可以说,合理的内链结构是相当重要的:

  • 每一个网站可以说是一个强连通量,而大量的网站也就是一个超大强连通量,那么他们之间的竞争也就是说超大强连通量内各个强连通量的竞争
  • 网页是每个强连通量的一个基本单位
  • 连接关系是其内部数据的结构组件
  • 所以想要网页获得均衡的值,则需要大量的链接
  • 这也就需要大量的网页,大量的内容进行网页的丰富
  • 在网页的连接关系中会有一种慢泄漏的情况发生,通俗的理解就是在一个集体中产生了小集体,而所有的值在传递到小集体中间之后再也出不去了,一个网站中的排名值就终止在了这个小集体中,而其他的网页趋近于0.—(所以在网站之中各个网页和各个栏目之间要进行严密的内链管理哦)

本文重点关键词:图论 强连通量 认可度 列表值 权威值 中枢值 归一化 极限 网页链接结构 慢泄漏 内链管理