fb体育医疗资讯分类及检索系统
栏目:FB体育 发布时间:2023-02-16
 互联网时代,各类资讯业务日渐丰富,数据过载问题日益突出。医疗资讯与人类身体健康密切相关,互联网上涌现了大量的医疗资讯信息。普通搜索引擎检索医疗资讯得到的结果鱼龙混杂,医疗咨询的检索及智能推荐迫切需要统一精准分类技术的支撑。目前医疗资讯的主要载体是文本,因此将基于文本的分类和检索技术应用于医疗资讯的自动分类与检索,对于医疗资讯的快速获取和有效利用具有重要的实用价值。本文研究了医疗资讯分类和检索的

  互联网时代,各类资讯业务日渐丰富,数据过载问题日益突出。医疗资讯与人类身体健康密切相关,互联网上涌现了大量的医疗资讯信息。普通搜索引擎检索医疗资讯得到的结果鱼龙混杂,医疗咨询的检索及智能推荐迫切需要统一精准分类技术的支撑。目前医疗资讯的主要载体是文本,因此将基于文本的分类和检索技术应用于医疗资讯的自动分类与检索,对于医疗资讯的快速获取和有效利用具有重要的实用价值。本文研究了医疗资讯分类和检索的特殊性,基于文本分类算法和开源搜索引擎框架实现了医疗资讯的采集、自动分类与检索系统。主要工作如下:(1)针对当前主流的医疗资讯页面架构,利用网络爬虫技术,实现了医疗资讯的定时采集,构建了本文的医疗资讯数据集。(2)针对医疗资讯的多标签分类特殊性,研究医疗资讯文本分类的关键技术,分析、对比并试验选取MMSeg4j中文分词器,卡方统计量和SVM分类算法,采用多次二分类的策略实现分类。(3)基于文本检索算法,研究适用于医疗资讯数据集的快速检索技术 (本文共74页)

  随着Internet的发展,大量的信息不断地涌现在各种传播媒介上,用户对热点信息的关注程度也越来越高,用户在进行信息检索时希望以最快的速度检索到当前的热点事件。传统的检索系统中设计的索引结构不能支持频繁的数据更新,用户不能快速的获取到更新的数据。而且评分函数没有考虑查询内容与查询关键词之间的相似性,用户将不能获取较准确的查询结果。针对传统的检索系统中设计的索引结构不能支持频繁的数据更新的问题,论文设计了一种自适应的索引结构。自适应的索引结构采取读索引和写索引结合的索引机制,并能随着数据的插入自适应的增长。这种结构不仅提升了查询的效率,而且支持边更新边查询,在更新的同时也不影响查询效率。针对传统检索系统中评分函数没有考虑查询内容与查询关键词之间相似性的问题,论文中设计了一个新的评分函数。评分的时候不仅考虑到查询内容与查询关键词之间的相似性,还考虑了所查询内容的受欢迎程度,使得查询结果的准确度得到了提升。对面向的实时检索系统... (本文共58页)

  随着移动互联网、云计算技术的快速发展,各行各业产生、获取、处理和存储的数据量正以指数级别呈爆炸式的增长。大数据作为新时代发展的标志,以多元fb体育、多态、互联的形式影响着社会生产生活。在学术领域,文献累积数量已达亿级,海量文献数据对传统检索方法造成了巨大的挑战。传统的文献检索方法主要通过单一的文献信息,例如检索词与检索内容之间相关度或者文献的引用量进行排序,并没有考虑学术网络中节点之间的关联关系以及节点自身的属性,因此检索结果会存在关联度较差、偏离主题、检索质量不高等缺陷。此外,传统学术检索系统主要提供文献检索服务,而实际上领域权威专家推荐可以更好地指导科研工作者的研究以及发展方向。针对海量学术数据,如何挖掘更深层的链接结构语义信息,建立专家检索系统,也是重要的研究课题。数据挖掘技术和分布式计算的发展,为解决以上问题提供了有效的手段。本文针对文献检索以及专家检索两种场景,通过构建学术信息网络,实现了对检索方法的优化以及检索系统的应用设计... (本文共77页)

  fb体育

  处理器的发展趋势由高频转向多核,普通的桌面PC有望在2017年末2018年初达到24核心(或者16核32线程),主流服务器的CPU核心数也都达到12核以上。基于锁同步机制的大容量数据检索系统在各方面无法发挥多核CPU的优势,开发过程中经常容易引入非常严重的缺陷,增加了引起死锁和数据竞争等严重问题的风险。同时随着核数的增加性能出现严重下降,不具备可扩展性fb体育。近年来软件开发者开始对无锁(Lock Free)数据结构进行不断研究,使用CAS的细粒度同步原语的无锁数据结构能够摆脱死锁和数据竞争问题,更重要的是它对于多核是可扩展的。业界也有诸多基于无锁的数据结构库。将这类结构应用到检索系统中,将会对检索的性能产生显著提升。本文以对现有电商商品检索系统的改进为背景,以无锁数据结构相关技术为切入点,对大容量数据高性能检索系统的实现进行了研究。具体工作可以概括为以下几点:本文首先对高性能检索系统的现状和发展趋势进行了深入分析。研究了当前检索系统在... (本文共68页)

  随着互联网与信息技术的快速发展,微博作为一种新型的网络社交平台,在人们发布信息和消费信息等日常生活中扮演着越来越重要的角色。微博平台上的数据每时每刻都在急剧增长,如何从海量的微博数据中准确、高效地找出能够满足用户需求的信息,是当前微博检索亟待解决的问题医疗资讯。当前的微博检索大多采用基于关键词匹配的传统检索方法,传统检索方法的优势是高效的计算性能和成熟的加权理论。但是,其仅利用关键词的字面匹配来检索微博,只会匹配那些包含查询词的微博文档,而无法理解微博文档中词项的上下文关系,也无法检索出那些不包含查询词项却与查询高相关的微博文档。这使得检索结果与用户的查询需求间有较大的差距,导致用户的检索体验很差。近年来兴起的词向量技术能够从大规模文本语料中获取词项的上下文语义信息。针对微博检索中存在的上述问题,本文提出一个基于词向量的微博检索算法(Microblog Retrieval Algorithm based on Word Embeddin... (本文共67页)

  fb体育

  本文针对目前表达式检索系统准确率低、结果显示层次性不强等问题,对LaTeX格式的表达式提出了SFE特征提取方法。此方法可有效识别表达式结构特征,并按照结构特征相关性分为3个层次进行特征提取,提取结果为序列化数据,并完整保留了表达式原有的结构特征信息。基于SFE的LaTeX表达式检索系统可根据输入的表达式进行结构特征匹配,返回包含相关结构特征表达式的文献列表。用户可以选择获得从精确匹配到基本特征匹配等不同相关程度的匹配结果。系统使用串的模式匹配方式对特征数据进行对比,检索结果准确、执行速度快。 (本文共59页)

网站地图