【#文档大全网# 导语】以下是®文档大全网的小编为您整理的《基于隐形反馈的用户个性化查询服务研究用户行为资料收集研究开题报告》,欢迎阅读!
范文大全 - 让每个人平等地提升自我
厦门大学软件学院《毕业设计(论文)》开题报告
学生姓名 校内指导教师姓名
职称
班级
所在单位
学号
厦门大学软件学院
毕业设计(论文)基于隐形反馈的用户个性化查询服务研究--用户行为资料收题 目 集研究 毕业设计(论文)的目标: 一、整体目标
1.搭建一个简易的个性化搜索平台,实现对文本数据源的索引和搜索 2.采用四层架构,并且使得层与层之间松耦合高内聚 3.实现不同中文分词算法的切换 4. 可更换数据源
5.跨平台(Windows、Linux和Unix) 6.人性化的用户界面
二、基于隐形反馈的用户个性化查询服务研究目标
1. 学习和理解几种常用查询扩展技术
2. 学习怎样通过用户的隐式的反馈信息,包括先前的查询和点击通过的信息,来增加在综合信息检索环境下检索的正确性。
3. 单独实现一个独立于系统外的收集用户行为资料的firefox插件。
实现方法: 一、基本环境
开发工具:eclipse +myeclipse +Tomact + 开发语言:Java 开发平台:Windows XP
开发使用的插件:myeclipse 开发使用的web容器:Tomcat 6 软件建模:StarUml 5.0.2,Visio 二.系统模块划分
搜索引擎一般分为三个阶段:搜集,预处理以及提供查询服务,因为目前系统中的数据源是已经存在的,所以此系统只涉及预处理以及提供查询服务模块。以TF*IDF算法为例,对于页面的排序涉及到预处理阶段中对网页权重的计算,以及查询服务阶段的相关性排序,有必要先对系统的这两个模块做一下描述:
3)预处理模块
1 分词 分词主要的操作对象是数据源以及用户提供的查询语句,系统首先通过分词工具对数据源进行分词,形成索引表以及倒排索引表,然后再将用户的查询条件用同样的分词工具进行分词,最后根据分词后的词条进行查询。TF*IDF算法就是通过分词后的词频(TF)来计算数据源的权值的。 2 建立倒排索引表 所谓倒排索引表就是通过关键字(词条)对数据源进行映射,这样系统中就形成了如下图的映射关系:
1
范文大全 - 让每个人平等地提升自我
TF*IDF算法所需要的倒置文档频率(IDF)可以从这个步骤获得。
(二)查询服务模块
查询服务模块主要提供用户查询的服务,系统首先对用户的查询条件进行分词,然后将分词后的结果作为输入,将其提供给查询模块,查询模块进行进一步的处理,最后系统将符合用户条件的数据源返回给用户。例如使用TF*IDF算法,查询模块将分词后的查询条件同数据源进行向量余弦比较,得到按照相关性排序的结果,返回给用户。
三.模块关系
模块之间的关系可以通过下图来描述:
四.系统流程图
整个系统的流程图如下:
2
本文来源:https://www.wddqxz.cn/443b76e47175a417866fb84ae45c3b3567ecdd86.html