海量信息(海量信息是什么意思)

柏林图书馆门前有一句话:“这是知识的宝库。如果你掌握了它的钥匙,这里所有的知识都属于你。”这里的“关键”指的是信息检索的方法。信息检索就是通过某种方式快速准确地获取我们想要的信息。现代社会,随着各种网络平台的出现,信息呈爆炸式增长。面对如此庞大的信息量,我们常常感到不知所措。如何找到符合自己要求的信息?答案是使用先进的信息检索工具。先进的信息检索工具离不开信息检索理论和技术支持,建模是其中的关键理论之一。许剑民教授的著作《基于术语关系的贝叶斯网络检索模型扩展》从多个方面积极探索信息检索建模,具有重要的学术价值。

该书的研究成果为我国基于贝叶斯网络的信息检索模型研究积累了宝贵的数据。贝叶斯网络于20世纪80年代末首次应用于信息检索领域,至今已经产生了三种有影响的模型。国内在信息检索领域对贝叶斯网络的研究很少。许剑民教授从2004年开始对贝叶斯网络信息检索模型进行扩展研究,至今已历时15年。根据本书中的参考资料,许剑民教授的团队已经形成了数十篇研究论文,而本书正是相关研究成果的结晶。

许剑民教授对基于贝叶斯网络的检索模型的扩展研究填补了国内相关研究的空白。基本的贝叶斯网络检索模型是基于术语节点或文档节点进行查询匹配的。在文档推理和检索过程中,没有充分考虑术语之间的关系,因此在语义检索方面有很大的局限性。为了解决这一问题,本书作者在国内首次提出了利用术语之间的关系扩展信念网络模型、简单贝叶斯网络模型和结构化文档检索模型的新方法,对语义检索技术的发展起到了重要作用。同时,作者还充分利用信念网络模型可以组合不同检索证据的特点,探索了基本模型中同义词证据组合、科技文献检索中文献引用证据组合的实现方法,并通过实验验证了上述方法的有效性。一般来说,合理利用给定文档中的术语关系,或者利用与查询术语相关的词来扩展查询,可以实现某种意义上的语义检索,可以有效提高信息检索的性能。以此为出发点,作者所做的上述尝试拓宽了信息检索领域的研究视野,对该领域的研究者有很好的启发作用。

本书探索了术语关系和贝叶斯网络应用的新视角和新领域,实现了研究工作的新突破。除了扩展了带术语关系的贝叶斯网络检索模型的研究,作者还将术语关系应用于特征词提取、文档相似度计算和局部伪相关反馈方法的改进,取得了一定的进展。特别是作者将信念网络应用到话题识别与跟踪中,为话题识别与跟踪建模的研究提供了一种新的思路,也开辟了贝叶斯网络应用的新领域。