搜索研究论文 - 论文联盟-南大CSSCI北大中文核心期刊职称毕业论文发表网站 zh-CNiwms.net <![CDATA[论文联盟-南大CSSCI北大中文核心期刊职称毕业论文发表网站]]> pic/logo.gif http://www.2868631.com/ <![CDATA[基于网络搜索数据的平遥旅游客流量预测分析]]> Tue, 30 May 2017 10:24:07 GMT 基于网络搜索数据的平遥旅游客流量预测分析

一、引言
  近年来,我国旅游产业规模不断扩大,平遥古城作为中国境内保存最完整的古代县城与票号文化发源地,游客量快速增长,逐年增加的游客对古城承载力及景区建设提出了更高要求。与此同?#20445;?#38543;着互联网技术的发展以及大数据时代的到来,旅游信息传播形式、游客信息搜索方式、旅游消?#30740;?#20026;等均发生了巨大改变。许多旅游经营者、旅游企业及政府机构都通过互联网平台发布旅游信息,随之互联网平台也成为广大游客出游的重要信息来源,相应产生的网络搜索数据则逐渐成为高质量的游客旅游搜索行为数据库。2011年百度推出的百度指数可以直接、客观地反映某特定时间?#25991;?#30340;社会热点、用户兴趣和需求,并且实证表明利用百度指数这一网络搜索指数进行预测克服了传统预测中存在的数据滞后以及数据量不足的?#27605;藎?#32467;果更为准确、更具时效性。因此,本文依托百度指数的时效性,挖掘旅游网络关注度和?#23548;?#26053;游需求的关系,预测景区客流量,对指导旅游管理部门做出科学、合理的决策安排,促进旅游可?#20013;?#21457;展具有重要意义。
  二、指标选取与数据
  (一)指标选取
  根据指标选取理论的分析可知,用户搜索行为反映了用户近期行为,但由于搜索用户的异质性,不同用户对某一事物的关注度?#20852;?#19981;同,从而使得搜索关键词也具有多样性,且关键词应包含与目标事物相关的各个方面。因此,本文在已有文献基础上,根据相关旅游经验及人们外出旅行时的主要考?#19988;?#32032;,即衣、食、住、行、游5个方面,通过百度指数“趋势研究”和“需求图谱”两个模块来进行关键词的提取,这5个方面涵盖了平遥天气、平遥牛肉、平遥古城住宿、平遥古城门票、平遥古城旅游攻略等多方面信息。本文将这5个方面?#21335;?#20851;词作为初始关键词,运用百度关键词挖掘本文由论文联盟http://www.2868631.com收集整理进行关键词搜索,从而得到最终的关键词指标。
  (二)数据说明
  本文的关键词数据是利用网络爬虫技术从百度指数网页源代码中提取得到的。在利用初?#21363;式?#34892;关键词搜索过程中,剔除没有数据对应和数据量很少的关键词,最终得到57个关键词从2011年12月到2014年12月共162周的数据。平遥古城旅游客流量数据来自山西省旅游局,选取的时间区间为2011年12月至2014年12月,共37个数据。由于我们得到的关键词数据为周度数据,而本文研究的是月度数据,所以要对关键词数据进?#20889;?#29702;,将周度数据转化为月度数据,即按照日历中各月周数进行加总,将每月最后几天数据?#27492;?#22312;周的天数作为权重,将该周的数据按权重分配到相邻月中,最终得到37个月的搜索指数数据。
  三、实证分析
  首先对模型拟合和预测有两点说明:一是拟合样本区间为2011年12月到2014年10月,共35个数据,用于预测检验的样本区间为2014年的11月到12月2个月的数据。二是在模型拟合效果的比较上,本文引入MSE和NMSE两个指标,分别代表模型的稳定性和拟合度。
  (一)搜索关键词确定
  首先,利用简单手动筛选,观察所有关键词数据,将趋?#31080;?#21270;不明显或几乎无变化趋势的剔除;然后,利用Pearson相关系数筛选,分别计算各关键词与因变量的Pearson相关系数,将相关系数小于0.6的剔除;最后,利用线性回归筛选,并诊断回归的多重共线性和自相关,利用逐步回归及AIC准则选出最终的4个关键词:平遥古城旅游攻略、平遥古城地图、山西旅游景点大全、平遥住宿。
  (二)模型估计
  在筛选关键词过程中,我们构建了一个线性回归方程,回归估计如下:
  从回归结果看,总体拟合效果较好,变量系数均通过显著性检验,因此该线性模型似乎具有较好预测效果。但为进一步考察模?#22270;?#35774;是否成立,我们进行残差的Shapiro-Wilk正态性检验,并且刻画了因变量直方图及对应?#21335;?#24615;分布图,检验结果均表明因变量不服从正态分布,因此本文利用线性回归进?#24515;?#22411;模拟时并不能满足其对因变量分布的假定,从而会产生较大误差,影响拟合和预测效果。
  ?#26102;?#25991;采用了对数据分布没有任何假定且结果可用交叉验证方法来评判的四种机器学习方法进?#24515;?#22411;拟合及预测,并比较了决策树、bgging、随机森林、支持向量机这四种算法模型的拟合度、稳定性与预测效果。
  (三)模型结果分析
  使用以上四种算法估计模型,计算出各模型的MSE和NMSE,结果见表1。
  从模型的拟合度和稳定性来看,回归树和Bagging都存在明显不足,其MSE和NMSE 值均大于另外两个模型,回归树模型在所?#24515;?#22411;中拟合效果最差。而随机森林和支持向量机(SVM)这两种模型的效果较好,其中随机森林的拟合度和稳定性最佳,SVM模型的拟合度较好,但模型稳定性不?#36873;?#26368;后分别用以上算法模型对样本期外两个月的客流量进行预测,并将其与真实值对比,计算其平均误差率,结果见表2。
  如表2所示,模型拟合效果较差的回归树和bagging的预测效果仍不理想,平均误差率分别达到了11.55%和7.18%,与真实客流量数据相比存在较大偏差。同?#20445;?#25311;合效果最佳的随机森林预测效果并不理想,其平均误差率达8.54%,甚至差于bagging。而SVM模型的平均误差?#24335;?#26377;1.46%,具有较好的预测效果。分析原因,笔者认为可能是由于bagging、回归树、随机森林三种算法模型的分类原理本质上源于归纳算法,这类模型在结构复杂的数据集上学习能力和适应性不够强,?#34892;?#24615;和伸缩性不足,而SVM则采取了与传统模型不同的思想,具有较强的泛化能力,所以预测结果与?#23548;式?#20026;接近。
  四、结论
  本文在分析旅游客流量和百度搜索指数关系的基础上,运用一系列方法筛选出与旅游客流量相关性最高的四个关键词,并运用回归树、bagging、随机森林和SVM四种机器学习算法模型对客流量数据进行了拟合和预测。研究具体结论主要有三点,一是主要或潜在游客主要通过对“平遥古城旅游攻略”、“平遥古城地图”、“山西旅游景点大全”、“平遥住宿”等关键词的搜索来获取平遥古城旅游信息。二是回归树、bagging、随机森林和SVM模型中,拟合效果最好的是随机森林和SVM模型,稳定性最好的为随机森林模型,回归树、bagging的拟合度和稳定性都较差;预测效果最好的为SVM。因此,综合拟合度、稳定性和预测效果可知,SVM模型的整体效果最好,可以作为最终的平遥古城旅游客流量预测模型。三是利用关键词的百度指数来对平遥古城旅游客流量进行预测,可以在每?#30053;?#24213;得到较为准确的数据,这比相关部门公布的数据提前了15天左?#36965;?#20855;有较高的时效性。

]]>
<![CDATA[网络搜索指数与汽车销量关系研究]]> Tue, 30 May 2017 10:22:58 GMT 网络搜索指数与汽车销量关系研究

搜索引擎已经成为消费者决策过程中信息搜索?#25512;?#20215;过程的起点,根据在CNNIC调查社区进行的搜索营销调查显示,有77%的互联网用户在购买产?#20998;?#21069;会上网搜索信息[1]。网民的搜索需求在一定程度上反映了他们的关注点和意图,而网络搜索数据正是对网民搜索需求的客观记录。网络搜索数据的这一特性使其能够?#25104;?#29992;户?#23548;?#29983;活中的行为特点,并影响企业经营和政府管理方式,成为目前研究大数据的主要方向之一。
  本文以我国汽车市场为背景,研究网络搜索数据与汽车销量之间的关系。之所以选择汽车作为研究对象,?#19988;?#20026;汽车产品属性复杂并且要求较大?#24335;鶩度耄?#28040;费者在购买汽车时会对汽车产品各?#36136;?#24615;进行仔细考察?#25512;?#20272;。不仅如此,汽车也是研究消费者外部搜索相关文献中最为常用的产品对象之一[2]。
  1研究意义与思路
  11研究意义
  网络搜索数据的利用价值已经得到?#25628;?#26415;界的广泛关注。国外学者在房地产[3]、就业[4]、股票[5]、汽车和旅游[6]等众多领域都验证了谷歌搜索数据的作用。但是在中国,百度是应用最多的搜索引擎,因而用百度搜索指数研究中国的社会经济行为更符合?#23548;是?#20917;。任乐通过计算相关系数、确定领先阶数并合成百度搜本文由论文联盟http://www.2868631.com收集整理索指数,实证了北京市搜索数据与月旅游客流量之间?#21335;?#20851;关系[7];袁庆玉等从网络关键词搜索数据与汽车销量的角度建立了理论基础框架,采用综合赋权法对关键?#24335;?#34892;提取,预测了汽车销量[8]。

但是对国内现有研究而言,利用网络搜索数据预测用户需求仍属于一个新的研究领域,并没有形成系统的研究体系,还存在以下不足?#28023;?)对于关键词的选取还存在争议。多数研究是直接指定关键词,或者是结合百度自动生成的关键词来提取指数,并没有考虑关键词能否代表用户?#23548;?#30340;网络搜索行为。(2)预测模型多采用时间序列的静态回归或者是对短面板数据的建模,不利于控制不同个体间的差异,也不利于准确地反映和刻画在时间推移的过程中网络搜索数据对销售影响的动态变化。
  为弥补现有研究存在的不足,本文在关键词选择和模型设定上都作出了改进,目的是验证网络搜索数据如何反映当前的汽车销量并预测未来?#21335;?#37327;变化趋势。本文的主要工作是:提出了一套结构化的流程来提取网络搜索数据关键词,并应用于我国汽车市场的研究。该流程为网络搜索数据在其他领域的研究提供了参考。
  12研究思路
  本文的研究思路如下:①对汽车销量预测和网络搜索数据应用?#21335;?#20851;研究进行梳理,总结出现有研究存在的不足?#34382;?#20197;2007-2015年国内市场的汽车销量为研究对象,基于文本挖掘技术,提出一套结构化的流程,获得网络搜索数据的关键词,用于提取出百度搜索指数?#34382;?#20026;避免百度搜索指数?#25512;?#36710;销量之间存在伪回归的可能性,对变量做了单位根检验和格兰杰因果检验?#34382;?#22522;于108个月的长面板数据,建立百度搜索指数与汽车销量的固定效应模型,据?#25628;?#35777;网络搜索数据如何反映当前?#21335;?#37327;?#34382;?#37319;用滚动窗口的方式预测最近12个月的汽车销量,来检验网络搜索数据的预测效力。
  2文献综述
  21有关汽车销量预测?#21335;?#20851;研究
  关于国内汽车销量的预测,从以往?#21335;?#20851;研究来看,学者从定性和定量两个方面进行了相关研究。在定性方面,如:门峰等针对我国汽车产业的发展方向进行研究,认为我国汽车产业已经成为国民经济的重要支柱产业,并预测未来5~10年是我国由汽车工业大国向汽车工业强国转变的重要时期[9];王莉分析了国?#24335;?#34701;危机给中国汽车行业带来的总体影响[10]。定量方面的研究则可以分为两个层面:一是单方法预测法(包括多元回归分析法、时间序列预测法、神经网络分析法),如:陈欢通过定性灰色预测模型的方法对汽车销量进行了预测[11],该方法能够反映复杂数据的非线性?#25512;?#36710;销量数据自身的规律性,但对历史数据过于依赖,历史数据越多,预测结果越可靠?#36824;?#39034;生等基于时间序列ARMA模型对中国汽车的月销量数据进行预测[12];汪玉秀等综合汽车颜色、排量及版本类型3个因素,建立了马尔科夫过程的4S店汽车销量预测模型(预测绝对误差均小于5%)[13]。二是组合预测方法,如:李响等基于ARMA模型与RBF神经网络相结合的混合模型预测了天津市日汽车销量,认为组合模型相对于单一的预测模型有较高的预测精度[14];蔡宾等采用改进差分进化算法和灰色模型对几个主要汽车品牌?#21335;?#37327;进行了预测,并对汽车销量的发展趋势作出了判断[15];李莉通过建立灰色模型和马尔科夫模型相结合的组合预测模型预测了我国小排量汽车?#21335;?#37327;,该模型整合了GM(1,1)模型处理光滑序列的?#34892;?#24615;和灰色马尔科夫链处理随机序列的?#34892;?#24615;,反映出了数据序列的发展趋势[16]。
  无论是传统的定性预测方法,还是定量预测都只能依赖于历史数据,但历史数据具有很强的?#26144;?#24615;,而且其预测的粒度较大,一般为汽车销量的年度数据。另外,与传统的预测方法相比,人工智能建模方法虽然预测精度较高,但也存在算法复杂性高,应用广泛性和对原始数据的变化趋势依赖性较强等?#27605;?#21644;不足。
  22基于网络搜索数据的经济类、社会类行为相关性研究目前基于网络搜索数据的经济社会类行为预测已成为各领域学者们研究的一个新的热点,并在国内外都取得了一定的研究成果。在宏观经济领域,Vosen等利用网络搜索趋势也对家庭支出做出了预测[17];Choi等研究如何利用网络搜索数据预测短期经济价值,文中的例子包括房地产、失业索赔、旅?#25991;?#30340;地规划和消费者信心[18]。在社会领域,Ripberger等使用网络Query搜索数据对公众的注意力进行衡量,取得了良好效果[19]。国内学者张崇等揭示了网络搜索数据与?#29992;?#28040;费价格指数(CPI)之间存在一定?#21335;?#20851;关系和先行滞后关系,并取得了良好的预测效果[20]。董倩等发现网络搜索数据不但能够较好地预测?#32771;?#25351;数,而且能够分析经济主体行为的趋势与规律,有一定的时效性[21]。孙毅等对相关研究进行了综述,提出基于网络搜索数据?#21335;?#20851;性研究是典型的交叉研究,而对于网络搜索数据与经济行为之间?#21335;?#20851;性的机理分析、关键词的选择和数据处理模型选择是需要解决的关键问题[22]。
  网络搜索数据也开?#21152;?#26469;预测汽车销量。Du等发现从谷歌搜索数据中对38个主要汽车品牌提取出来的7大趋势可?#28304;?#21697;牌层面解释美国市场74%的汽车销量[23]。国内学者王炼等以百度搜索指数为数据基础,探讨网络搜索在我国汽车市场的预测作用,结果显示网络搜索数据对汽车销量具有显著的正向影响,研究还发现,在其他传统指标的数据无法获得?#20445;?#32593;络搜索数据依然能够发挥重要预测作用[24]。但王炼等是对短面板数据进行建模回归,数据量较少,不利于刻画百度搜索指数与社会经?#27809;?#21160;的动态变化,也不能确定变量之间是否存在着长期的均衡关系。
  综上所述,虽然网络搜索数据可以作为传统数据的良好补充来实现对市场需求的预测,但仍有以下方面可以改进?#28023;?)该领域的很多研究都是以谷歌趋势为数据源。虽然谷歌是全球最大的搜索引擎,但依然存在很多像中国这样的国家偏向于使用本地的搜索引擎,因而应用百度搜索指数研究我国市场需求更符合?#23548;是?#20917;。(2)在确定获取百度搜索指数的关键词上,并没有一个系统化、统一的的方法。之前的研究普遍都是手动指定关键词,或者是利用百度自动生成的?#30465;?#22312;本文中,我们基于文本挖掘技术,提出了一个结构化的流程来确定检索关键词,可以真实地反映出用户网络搜索?#21335;?#24815;。(3)以往的研究大都采用时间序列数据,或是短面板数据,不利于检验更复杂的行为模型。本文收集了国内市场最近9年的汽车月度销量数据,采用长面板数据建模,可以准确地反映和刻画在时间长期推移的过程中网络搜索数据对销售影响的动态变化。


后页]]>
<![CDATA[大数据呼唤大搜索 大搜索向网络索取智慧]]> Tue, 30 May 2017 10:21:52 GMT 大数据呼唤大搜索 大搜索向网络索取智慧

目前,互联网正结合物联网、移动互联网向着泛在网的方向发展。泛在网是指基于个人和社会的需求,利用现有的网络技术和新的网络技术,实现人与人、人与物、物与物之间按需进行的信息获取、传递、存储、认知、决策、使用等服务,网络超强的环境感知、内容感知及其智能性,可能为个人和社会提供泛在的、无所不含的信息服务和应用。泛在网不仅承载信息,还把人和物连接在一起,新型应用层出不穷,数据及数据形态利益丰富多样,并?#20197;?#34255;极大的价值,大搜索技术由此应运而生。
  大数据时代数据的特点是:数据量大,数据产生的速度快、类型多样,数据不可信,最重要的是具有潜在价值。我们需要应对、需要解决的问题就是在大数据中发掘价值。?#28909;紓?#21738;个企业的产值最高?这就涉及到统计的问题。近期会出?#36136;?#20040;热点?这涉及到聚类的问题。事件的起因,这就涉及关联计算。
  现在有很多大数据价值发掘的案例。?#28909;紓?#20122;马逊通过营销推荐系统,可以精?#32423;?#25509;客户需求,把很多产品提前预销售。中国移动的客户投诉识别系统,每年可以节约成本540万元。谷歌使用大数据技术实?#25351;?#21152;精准的广告投?#29275;?#33719;得80亿美元的收入。
  我们团队开发的应?#27605;?#32479;可以通过公开的语境信息、公开的微博信息去挖掘并为用户提供一些公开的能力,大家可以利用这个能力去发现他所?#34892;?#36259;的领域中的一些重要事件。?#28909;紓号?#26029;某个自己?#34892;?#36259;的事件的传播情况,大家对该事件所持的态度以及事件在什么地域传播等等。
  一、网络搜索引擎的种类
  从搜索引擎角度来思考,本文由论文联盟http://www.2868631.com收集整理目前网络空间中我们都能搜到的信息多种多样,最简单的就是文字搜索和儿童搜索。儿童搜索的特点是:你要是输入脏话,它会告诉你,没有这个?#30465;?#25991;字搜索种类很多,?#28909;紓?#35270;频搜索,在视频库里搜索你所关心的视频;新闻搜索,它的背后是大量的新闻网站;微博搜索,了解其他人所关注的内容;文档搜索,搜索自己关心的领域及相关研究内容;学术搜索,可以搜索到很多资料,包括研究成果;人物搜索,输入“奥巴马”,就可以搜索到他的一些公开信息;企业信息搜索,?#28909;?#36755;入“天眼查”,它可以告诉你这个公司的法人代表是谁、?#24515;?#20123;下设机构;房地产搜索,输入“房天下”,它会告诉你附近的?#32771;郟?#36141;物搜索,使用“一淘”搜索引擎,可以随时查询自己关注的产品价格;商品信息检索,拿起手机?#21335;律?#21697;的二维码,就可以知道这个商品在哪个超市多少钱,哪里最便宜;物流搜索,可以随时查询自己购买的物品现在在哪、何时能到;生活搜索,输入“北京小吃”,会告诉你北京哪里有有特色的著名的小吃;旅游搜索,在去哪儿搜索引擎输入“我要在北京旅游三天”,它会告诉你?#24515;?#20123;最适合你的旅游套餐;职位搜索,它会告诉你哪个企业需要什么样的人?#29275;?#28385;足你个性化的需求;农业搜索,会告诉你不同的作物不同的季节应该打什么样的农药,怎么使用,等等。
  此外,还有其他种类的搜索。?#28909;紓?#25105;们团队开发的联网设备搜索,目前已经搜到了3亿多个联网设备,还发现了170多万个设备有漏洞,可以?#25105;?#38383;进去;移动设备检索,如360智能手环,可以定位佩戴手环的儿童的具体位置。这些应用本质上我们叫做存在性搜索。它是把存在的符合用户需求的东西提供给用户,重点是如何给出最符合用户需求的信息。?#28909;?#25628;索“第四次工业革命”,它可能有几万个结果,哪个结果放在最前面这是它所要关心的。所有这些我们都?#20889;?#22312;性搜索。
  本质上来说,这些都是能感知到你所需要的服务,并有针对性地提供服务。我上面举的例子叫服务搜索,以“尽力而为”为原则,通过汇集大量“服务”的方式,在用户提出搜索需求?#20445;?#39318;先判断这个需求是否和系统服务库之中的某个服务对应,如果能对应,就为用户启动相应的服务。简单说,就是根据你的关键词判断你可能需要这个服务,如果没有这个服务,就提供与这个服务相关的信息。再?#28909;紓?#23398;术搜索,输入“北京?#23454;?#22823;学”,会告诉你北京?#23454;?#22823;学?#21335;?#20851;知识点、具体机构、相关人员还有?#38469;?#30340;曲线、发表刊物的曲线等等,具有强大的智能性,会帮你分析这个学校的整个学术情况。企业信用搜索,输入相关企业名称,会得到它的打分情况、信用等级,还会介绍其高管和核心企业对外进行了哪些投资等等。论文查重搜索,输入一个文?#24471;?#20102;解这个文档在网上是不是?#25512;?#20182;文章有重?#30784;?#37325;复率多少,是否有抄袭情况等。
  二、大搜索的要素及其特性
  网络空间、大数据等新技术的发展,促进搜索引擎技术不断进步,也促进用户形成了新的搜索需求,用户将不再满足于仅在互联网空间搜索存在性信息,而是希望搜集到涉及信息、时间、位置三维空间的包含有人、物体、信息在内的解决方案。从互联网到物联网到移动互联网,再到泛在网,我们要搜索答案,而不是搜索信息,而且这个答案要涉及到时间和空间。
  (一)大搜索的要素
  下一代搜索就是从大数据到价值发掘,再到知识发现服务,称之为大搜索。?#28909;?#22320;图搜索导航信息,这本身就是知识搜索,它要给你做路径规划。但是现在导航要结合物联网信息,这样它就知道每条路的交通流量,通过交通流量给出最快的一条路径,而这个“到达最快”不仅仅取决于距离,还包含交通拥?#34385;?#20917;等。这就相当于搜索引擎基于知识处理之外,还有更多的信息融合。
  大搜索,是指面向泛在网络空间的人、物体和内容,在正确理解用户意图的基础上,基于从网络空间大数据获取的知识,从信息、时间、位置的角度给出满足用户需求的智慧解答。我们有各?#25351;?#26679;的信息源,最后要得出的是一个智能发掘,而这个智能发掘就是从大数据的源头通过大搜索获得网络的智慧。


后页]]>
<![CDATA[大数据时代环境下的网络搜索与信息保护]]> Tue, 30 May 2017 10:21:17 GMT 大数据时代环境下的网络搜索与信息保护

随着科学技术水平的不断提升及互联网的逐渐兴起,我国迎来大数据时代。在大数据时代的背景下,社交网络及电?#30001;?#21153;如雨后?#26680;?#33324;发展,人们的日常生活也充斥着大量的数据,虽然互联网为人们生活和工作带来极大的便利,但也使个人信息更容?#33258;?#21040;泄露,此时人们应该正确认识面临的机会和风险,仔细分析造成危机的原因,采取针对性建议,从而更好地保护个人信息安全。
  1 大数据时代背景下网络搜索与个人信息保护面临的机会与风险
  由于信息技术的不断更新与发展,人们可以通过互联网了解最新数据信息,因此信息技术受到广大人民群众?#21335;?#29233;和依赖,同时也为电?#30001;?#21153;的壮大提供良好的机会,然而,网络搜索可以?#19988;?#20010;人信息和抓取零星信息,造成个人信息安全问题。一般而言,网络搜索仅仅作为一种技术手段为人们提供便利,也正是由于网络搜索的不断壮大才带动其他行业的创新和兴起,但是当有人滥用这种技术手段?#21271;?#25991;由论文联盟http://www.2868631.com收集整理,不但会对个人造成信息泄露的影响,还会对整个社会的稳定造成影响。
  2 造成网络搜索与个人信息保护危机的原因
  2.1 信息主体安全意识不强
  一般而言,信息主体通常是指获取信息的个体以及提供信息?#21335;?#20851;行业,正是信息主体才推动网络技术?#20013;?#21521;前发展。其中提供信息?#21335;?#20851;行业主要是为了满足大众需求,对已掌握的信息经过编辑后进行发布,广大群众通过互联网技术寻找所需信息以及数据,这就表明公众拥有掌控信息的权利,而信息及数据的控制者主要依据大众需求为人们提供服务。大众更加关注在海量的信息中寻找所需信息,而对个人信息的安全意识非常薄弱,所以?#23548;?#29983;活中很容?#20180;?#38706;自身信息,而且往往不明所以,例如人们非常?#19981;对?#31038;交软件中进行交流,而社交软件中往往?#34892;?#22810;陌生人,由于自我信息保护意识不强,人们在与陌生人交流时会不经意透露个人信息,从而造成个人信息面临威胁。提供信息?#21335;?#20851;行业也不重视对个人信息的保护,由于工作疏忽或者利益驱使轻易将个人信息泄露,例如当人们办理某种业务?#20445;?#24517;须按照行业要求填写真实的个人信息,?#27605;?#24212;的个人信息保护安全机制不健全?#20445;?#23601;很容?#33258;?#25104;信息泄露。
  2.2 网络监管力度不够
  就目前情况而言,我国网络监管部门的监督和管理力度不够,造成网络环境混杂和网络秩序紊乱。从监督机构的权责角度来看,大多数公安部门设置的监察部门形同虚设,每个部门的职责和权利划分不清晰,部门与部门之间相互推?#35328;?#20219;。且大数据时代背景下信息泛?#27169;?#32473;各监察部门的工作加大难度,对个人信息保护不利。
  2.3 法律制度不完善
  目前,我国对个人信息安全保护的法律制度不完善,尽管我国已出台?#27573;?#25104;年人保护法》、?#24230;?#22269;人们代表代表大会常务委员会关于加强网络信息保护的决定》等制度,但是对个人信息的保护?#27573;?#27809;有设置明确的界限,很多不法分子会投机取巧,对个人信息起不到完全保护作用。
  3 实现大数据时代下网络搜索和个人信息保护的建议
  3.1 加强各人员的自我保护信息意识
  无论是人民大众还是相关部门工作人?#20445;加?#26377;强?#19994;?#20010;人信息保护意识,只有这样,当人们在社交软件中与陌生人交流时才不会轻?#20180;?#38706;自身信息,从而减小个人信息泄露的概率,当个人信息发生泄露?#20445;?#20154;们有强?#19994;?#33258;我保护意识就会及时求助公安部门,将损害?#26723;?#21040;最小,且工作人员会遵守职业?#36182;?#23558;个人信息保密,所以个人信息安全保护意识非常重要。
  3.2 遵守行业规范,加大监管力度
  许多不良相关部门都通过互联网将个人信息发布出去,因此,互联网相关行业应遵守行业规范,在发布各?#20013;?#24687;和数据前应仔细处理,且应针对个人信息采取必要的保护措施。与此同?#20445;?#30456;关部门应广泛学习和借鉴国内外先进经验,值得注意的是相关部门的工作人?#21271;?#39035;认清自身工作性质,并摆正自身工作态度。而监督部门应?#23454;?#21152;大监管力度,建立完善的工作规范,设置合理的?#32972;?#21046;度,从而保证个人信息得到保护,同时促进整个行业的良好发展。
  3.3 完善法律制度
  目前我国关于网络安全的法律法规明显不够完善,为了促进网络行业的健康发展,必须在已有的基础上做出改进,使相关法律更加完善,明确各个部门之间的权责,为监督部门提供依据,从而帮助监管部门的工作顺利展开,更加全面地保护个人信息。
  3.4 提高网络信息安全技术水平
  只有更高水平的网络信息安全技术,才能更好地实?#25351;?#20154;信息保护。因此,我国应注重培养核心技术人?#20445;?#19981;断深入研究信息安全技术,同时大?#23458;度胱式穡?#20419;进网络信息安全技术向前发展。
  4 结束语
  随着大数据时代的到来,人们利用网络进行搜索更加快捷和方便,但也增加个人信息泄露的概率,如何在数据信息泛滥的背景下?#34892;?#22320;保护个人信息是一大难题,解决这一问题不但要增强个人的自我保护意识,还要建立更加完善的法律制度,同时也应有更先进的技术水平提供保?#24076;?#38656;要相关技术人员不断探索。

]]>
<![CDATA[人肉搜索与网络反腐“联姻”的原因分析]]> Tue, 30 May 2017 10:20:29 GMT 人肉搜索与网络反腐“联姻”的原因分析

有学者认为,“‘人肉搜索’是通过网络与?#36136;?#20013;的人的结合, 集成出关于某个人或事件的信息的行为, 最大限度地发挥网络引擎与?#36136;?#31038;会的联络功能以至于在短时间内完成以往费尽周折也难以办到的寻找目标任务。”浙江大学的李岩教授认为:“‘人肉搜索’就是运用人际关系,借助于网络的匿名平台,一人发动搜索,众网民从不同途径进行挖掘,从而获得某人的具体信息,并将其公布于网络的搜索方式。”人肉搜索在将一个个贪官拉下马的同?#20445;?#20063;无形中鼓舞了广大网民。更有网民喊出“把反贪交给人肉搜索本文由论文联盟http://www.2868631.com收集整理来干吧”的豪言壮语。人肉搜索之所以深受网民喜爱,并被证明是一种屡试不爽的草根反腐武器,有着深刻的原因。
  一、现有官方反腐机制难以满足反腐败的需要
  虽然党风廉政建设一直是?#19994;?#30340;重要工作,?#19994;?#22312;反腐败领域也取得了重大成就,但遗憾的是,反腐败的形势依然异常严峻。从近几年的“打老虎拍?#26434;?rdquo;所展示的反腐成果可以发现,不仅个体腐败的程度令人惊讶,“塌方式腐败”更令人担忧。上至党政军要?#20445;?#19979;至村委会成员均有被绳之以法的;“秘书帮”、“石油帮”的犯罪事实令人咋舌。与严峻的腐?#36136;?#30456;比,现有的反腐败机制却显得单一且?#34892;?#24615;不够。现有的反腐体制呈现三个特点:一?#19988;?#36182;上级监?#20581;?#25105;国的党委和行政组织具有明显的科层制特征。科层制的一个显要特征就是组织结构的等级序列清晰,上级负有管理和监督下级的权利和义务。诸如上级甚至中央领导人签字批示、督促查办案件的事例?#32570;?#30342;是。依赖上级监督来查处腐败分子的方式在权威主义被信仰的年代被普遍使用。但我国?#27605;?#30340;宏观政治经济生态?#35789;牽?#32463;济改革在给全民带来福利的同?#20445;?#20063;在逐渐冲淡、消弭着权威主义。加之利益纽带的作用,上下其?#20013;?#25104;利益集团并互为攻守的情形较为普遍。因此依赖上级监督下级的反腐方式在新的政治经济语境中难以发挥作用。另外,即便上级是公正廉洁的,其对下级的监督能在一定程度遏制腐败,但从宏观上讲,这种监督也摆脱不了少数人监督多数人的窘境。少数人监督多数人与相反的情形相比,显然前者的功效是非常有限的。二?#19988;览导?#22996;、反贪等专门的反腐机构。纪委和反贪部门是我国反腐的主要前沿阵地,对?#19994;?#30340;反腐大业可谓居功至伟,但依?#23548;?#22996;、反贪部门反腐又面临一?#37995;?#39064;,即精英监督精英。精英监督精英的模式在很大程度上排除了普通民众的参与。缺少民众的普遍参与,既与?#19994;?#38271;期以来主张的群众路线相背离,也无法完成党的反腐大业。应当说,对于当前腐败的严峻程度,国人心中都非常清楚。可以说,腐败在权力所及的?#27573;?#20869;均可能出现。因此,依靠精英来监督精英对反腐大业而言并非最理想的方式。三是反腐败工作在体?#30340;?#23553;闭运行。不管是纪委调查核实后将犯罪线索移送司法机关,还是司法机关(主要是检察机关)主动发现犯罪线索,虽然犯罪线索的来源渠道是多样的,但是一旦追诉犯罪的活动开始,整个程序?#32479;?#29616;出封闭性的特征。传统的媒体?#25512;?#20182;监督都难以介入,这就导致了信息?#29615;?#38381;,为潜规则的产生提供了条件。潜规则?#28909;?#33104;败分子逃避?#22836;?#25104;为可能,也为新的腐败创造了条件。
  严峻的腐败?#36136;?#19982;已有的官方反腐体制之间的矛盾严重影响了反腐败工作的推进。制度需求必然催生新的反腐败方式,人肉搜索便是在此背景下产生的重要方式。民间反腐或称为民众参与反腐,应?#30431;?#21476;已有之。借助民众的告发、?#34915;?#32780;打击腐败犯罪是民众参与反腐的重要表现,但人肉搜索这一根植于网络时代的反腐武器是近年来才逐渐产生和被大量使用的。人肉搜索丰富了反腐败的方式,将民众凝聚于反腐大旗?#21335;隆?#19981;可否认,因为制度不完善的原因,人肉搜索存在的问题不少,因此引发的争议也不绝于耳,但人肉搜索在客观上推动了反腐?#35789;?#19968;件不争的事实。人肉搜索的出现和广泛使用在一定程度上改变了官方绝对主导的反腐模式,民众特别是网民利用人肉搜索获得的成果对官方反腐形成了倒逼,这在若干的网络反腐案件中?#26376;段?#30097;。可以说,人肉搜索是生逢其?#20445;?#23384;在于现有官方反腐制度之外,?#20174;?#21453;哺现有反腐制度。
  二、网民的政治参与热情在网络时代得以释放
  公民的政治参与是民主制度的要义之一。民主制度鼓励和支持民众通过特定的渠道表达自己的诉求,并直接或间接影响政治决策。与传?#25104;?#20250;不同的是,现代民主更强调官民之间的互动,而且这种互动的方式和渠道更丰富。从革命时期的群众路线到人民代表大会制度的确立,中国共产党对民众的政治参与向来是重视的。但由于传统文化的影响以及特定历史形成的原因,新中国成立的一度时期,民主之风是?#28784;?#21046;的。一言堂、个人专断?#21335;?#35937;较为普遍。在总结历?#26041;萄担此?#21046;度?#27605;?#30340;同?#20445;?#27665;主制度的建设被再?#20266;?#25552;升到国家行动的层面。经由几代领导集体的努力,民主制度建设取得较大的进步,民主之风也大为改观。这为民众参与政治营造了宽松的环境。
  民众参与反腐通常基于两个方面的原因:一是政治动员。任何统治阶级或掌权者都明白,腐败具有天生的体制腐蚀性,将腐败清除或控制在不影响政权运行的?#27573;?#20869;是政治制度建设的重要任务。因此,腐败与反腐败注定成为人类政治生活中的一对矛盾体。依靠单纯的官方反腐是难以解决腐败问题的,动员民间力量参与反腐是重要而?#34892;?#30340;策略。以腐败线索的发现和供给而言,民间参与能在很大程度弥?#26500;?#26041;反腐线索受制的?#27605;蕁?#22240;此,鼓励民间参与反腐几乎是任何政治制度不可或缺的。二是民众参与热情。腐败行为在腐败体制的同?#20445;?#20063;直接触及民众的利益。这种利益的触及既可能是对民众利益的直接剥夺,也可能是间接的机会参与排斥。因此,民众对腐败具有天然的仇视,对反腐败则?#24515;?#22312;的欲望和热情。这种参与热情借助特定的载体和途径得以释?#29275;?#22312;科学技术不发达的社会中,民众参与反腐的途径和载体都是较为有限的。通过直接见官或书信等是最主要的方式。在科学技术迅速发展特别是网络技术迅速发展的背景下,网络成为民众参与反腐的新场域。在这一无限宽广的虚拟空间中,网民的反腐败热情可谓如鱼?#30431;?#35206;水难收。


后页]]>
<![CDATA[网络教学资源搜索增强研究]]> Tue, 30 May 2017 10:19:53 GMT 网络教学资源搜索增强研究

伴随着网络技术的不断发展,教育对教学资源建设的重视,为网络教学资源库的建设提供了契机。网络教学资源服务的对象包括?#33322;?#24072;、学生、社会培训者等,其对应多种学科、类别,资源数量较大。用户对资源的需求不一样,需要通过搜索获取所需的特定资源,因此如何提高资源搜索的性能、实用性是网络教学资源库开发所需要解决的一个重要问题。本文主要针对网络教学资源搜索的性能、实用性进行增强研究。
  1搜索性能增强策略研究
  1.1使用索引提高搜索性能
  索引是对列?#21040;信判?#30340;一种结构,正确地利用索引能够加快对数据表相应信息的访?#30465;?#32034;引虽然能够提高数据的检索性能,但是也提高了数据维护的成本。因此,要合理使用索引,在创建索引前,需要确定使用哪些列和要创建的索引类型。
  索引包括聚集索引和非聚集索引。聚集索引适用于含有大量的不重复值的?#23567;?#21487;用于?#27573;е导?#31639;的?#23567;?#32467;果集较大的查询及经常使用连接或分组的列,非聚集索引中键值逻辑?#25215;?#21644;物理?#25215;?#27809;有关系。将主键设置为聚集索引并非最佳方案,在教学资源库中资源编号是标记列且设为主键,会把资源编号设置成聚集索引。在?#23548;?#24212;用中,并不会针对资源编号进行搜索,这就导致让资源编号作为聚集索引是不正确的选择。其?#21361;?#36164;源编号都不相同,也不符合“很多数据不同值的列不应该设置聚合索引”的规则。下面以在1000万条数据量的资源信息表中查询近180天的资源信息速度为例(180天内的资源信息数据为30万条,数据通过程序生成,供测试使用),其分析如表1所示。
  通过上述的数据分析,正确地建立聚集索引是十分有必要的。必须根据?#23548;?#20013;的应用?#27573;?#21644;数据本身的构成来确定聚集索引,而非固定使用默认的主键作为聚集索引。
  1.2优化SQL语句提高搜索性能
  数据库管理系统本身具备了一定的查询分析优化能力。在MSSQL中的“查询分析优化器”,会检测查询的各个组成部分,并判断要求扫描的组成部分是不是有用,如果某个组成部分能够作为一个扫描参数,则称该组成部分为可优化,并使用索引对所需数据进行快速获取。如果某个表达式不能满足扫描参数的条件,就不能控制扫描?#27573;В?ldquo;索引”对不符合扫描参数条件的表达式是起到作用的。因此,在SQL查询语句的编写过程,要注意where子句的优化,让“索引”的作用得以充分发挥,最大限度地提高搜索本文由论文联盟http://www.2868631.com收集整理性能。
  在搜索过程对信息字段的获取要遵循“需要多少,提取多少”的准则,不要采用“select*”。字段提取的多少对速度的影响如表2所示。
  1.3自定义分页提高搜索性能
  在数据的查询过程中,若一次性将查询结果读出,当数据量较大?#20445;票?#38656;要消耗较多的读取时间,影响搜索结果的最终呈现速度。因此,在项目的?#23548;?#24320;发中,可以应用自定义分页的形式提高搜索的性能,若将实现自定义分页的过程使用存储过程的方式来实现,充分利用存储过程的优点,搜索性能将会得到更进一步的提高。
  自定义分页每次查询只从查询结果中读出当前页所需的数据,以资源搜索结果为2000条数据,系统每页呈现20条数据为例,普通分页与自定义分页相比,如图1-2所示。
  通过图1-2可以看出,采用自定义分页,仅从数据表中读出当前页的20条,数据控件也不需要进行控件内分页,其性能在数据读取和数据呈现上?#21152;?#33391;好的提升。
  2搜索实用性增强策略研究
  2.1?#30475;?#27169;糊查询实现搜索的不足分析
  ?#30475;?#27169;糊查询实现搜索指在搜索的过程中,仅将用户输入的关键字在数据的查询过程中,用数据库本身提供的模糊查询功能,与数据库表中?#21335;?#20851;字段?#21040;?#34892;匹配,并将匹配正确的值提取至搜索结果。其操作简单,但存在以下2点不足:
  (1)相关词无法匹配。相关词无法匹配造成搜索结果的部?#20013;裕?#26159;?#30475;?#27169;糊查询的最大不足之处。
  (2)容错性低。由于未对输入的搜索关键?#24335;?#34892;分析,一旦关键词中包含无用词或错别词?#20445;?#23558;导致搜索结果零数据返回。
  通过上述分析,要解决相关词无法匹配和容错性低的两大不足,需要对搜索实用性增强进行研究。
  2.2增强相关词匹配
  相关词的界定很难由程序自动判断,因为相关词有客观构成,也有主观构成。如:电脑与计算机、computer为客观相关词,而电脑与微软、冯·诺依曼则为主观相关?#30465;?#23458;观相关词为事实存在,为大多人所共知,而主观相关词需要在特定的条件下成立,人们通过“电脑”可以联系到软件巨头“微软公司”或计算机科学家“冯·诺依曼”,需要一定的知识延展性,甚至“电脑”可以?#30001;?#21040;“计算器”,不同的用户有不同的认识。因此,主观相关词具备一定的不确定性与抽象的特点。增强相关词匹配可通过增加相关词字段或建立相关词库的方法来实现。相关词的匹配涉及匹配的深度和广度,越全面、精准则其?#24230;?#25104;本越高。
  增加相关词字段。指通过在数据表中增加“相关词”字段,当用户在添加信息?#20445;?#36755;入与此信息?#21335;?#20851;?#30465;?#30456;关词的界定及输入由信息编辑者进行操作,采用增加相关词字段的方式来提高相关词匹配,其实现方式简单,操作过程也容易,但相关词的界定由编辑者确定,相关词的个人主观性较强。
  建立相关词库。指通过建立相关词库表,当用户输入搜索关键词?#20445;?#31995;统自动在相关词库表中搜索其相关词,一并归入关键词中进?#20889;?#29702;,对搜索的实用性有很大的提高。当用户输入搜索关键词?#20445;?#31995;统将自动遍历搜关键?#23454;南?#20851;词,达到相关词匹配的目的。建立相关词库的方式,其相关词并非由编辑者个人界定,而且相关词可以灵活调整,不断补充。因此,建立相关词库的方式更加全面、客观,但构建一个完?#39057;南?#20851;词库需要较大的?#24230;搿?
  增加相关词字段与建立相关词库两者各有优缺点,但两者并非对立。在一个系统中,可以同时采用这2种方式或者其中之一以增强搜索相关词匹配,提高搜索实用性。具体实施方案还需要考虑到?#23548;?#38656;求和?#24230;?#25104;本预算。
  2.3增强搜索容错性
  在搜索的过程中,用户对搜索关键词的输入具备不确定和冗长等特点。不确定主要指关键词的选词不确定和关键词的是否正确不确定,而冗长指用户输入的搜索关键词包含多余的信息。如果系统的搜索过程未对用户输入的搜索关键?#24335;?#34892;分析和处理,那么,其搜索结果将有可能得不到用户所需要的数据。从搜索易用性与实用性的角度出发,搜索功能必须具备一定的容错性。
  要增强搜索的容错性,就需要解决搜索关键词的不确定与冗长的特点。将搜索关键词按一定的规则进行拆分,简称分?#30465;?#23558;长词转化为短词,并舍去重复的部分,可以提高搜索相关词的匹配,?#26723;?#38271;词中错?#30465;?#21035;词的构成,从而提高搜索的容错性。
  分词搜索可以在一定程度上解决搜索的容错要求,提升搜索的功能与精确度。分词技术主要分为3种:
  (1)字符串匹配的分词方法。字符串匹配的分词又分为4种,分别是:正向最大匹配法、反向最大匹配法、最短路径匹配法、双向最大匹配法。
  (2)词义分词法。词义分词法根据机器语音进行分词判断,通过对句法、语义的分析,使用句法信息、语义信息进行分?#30465;?#20294;词义分词法目前还不成熟,?#20889;?#20110;测试阶段。
  (3)统计分词法。统计分词法依据词组的统计,针对相邻的字出现的次数多少,认定词的重要程度,作为关键词的分词?#25351;?#31526;。
  盘古分词作为一种分词组件,大大?#26723;?#20102;系统进行分词搜索的?#24230;?#25104;本,避免重复造车?#21335;?#35937;,非常方便应用在基于NET技术进行开发?#21335;?#32479;中。
  3结语
  通过对索引的合理利用、SQL语句的优化和自定义分页的使用,对搜索性能有良好的提升,融入盘古分词的强大功能,结合相关词匹配技术,能够提高搜索的实用性。本文从搜索性能与实用性两方面研究了搜索增强技术,并将其应用于学院的教学资源库建设中,虽然取得了一定的成效,但还需要继续努力。

]]>
<![CDATA[引入互联网搜索量的P2P网络借贷成交额预测研究]]> Tue, 30 May 2017 10:18:58 GMT 引入互联网搜索量的P2P网络借贷成交额预测研究

一、引言
  国外网络借贷平台模式引入中国以来,让很多敢于尝试互联网投资的投资者认识了P2P网络借贷模式。P2P网络借贷作为互联网金融的重要组成部分,发展迅速。但由于我国P2P发展的年限较短,监管和制度法规还在逐步完善,仍存在很多风险和隐患,使得部分用户因为看不到其未来的发展,所以面对操作简单,收益可观的P2P网络借贷望而却步。许多学者研究发现互联网搜索量与?#23548;?#30340;市场需求之间具有显著?#21335;?#20851;关系,并?#20197;?#39044;测模型中引入互联网搜索量有助于提高预测模型的精度。为帮助用户合理预估借贷风险与P2P网络借贷市场的发展趋势,本文引入百度指数,通过预测P2P网络交易规模给用户提供决策参考。
  二、研究理论与模型建立
  随着谷歌公司谷歌趋势和百度公?#26223;?#24230;指数的推出,对于某一关键字的互联网搜索量数据不再难于获取,两类产品的推?#37995;?#20114;联网环境下预测模型研究的发展奠定了基础。
  Yan Carrière-Swallow ,Felipe Labbé(2010)[1]在智利运用谷歌指数构建一个谷歌汽车趋势指数,以普通自回归移动平均模型为基准,建立了加入谷歌汽车指数的对比模型,通过对模型的研究得出ARMA3b(2,2)模型最?#29275;?#24102;有Google参数的拟合度更好。
  在宏观经济预测方面,Simeon Vosen ,Torsten Schmidt(2011)[2]在预测私人消费时引入了互联网搜索变量谷歌指数。学者以自回归模型为基准模型,以加入了谷歌指数的模型作为对比模型,比较两类模型的拟合优度。通过对比两类模型,发现在0.01置信水平下,加入谷歌指数的模型较基本模型拟合优度(R2)提高了0.03。
  (一)不含互联网搜索量的预测模型建立
  本文选取的数据是以月为跨度的P2P网络借贷成交额数据,也称P2P网络借贷成交额的时间序列数据。所谓时间序本文由论文联盟http://www.2868631.com收集整理列就是按照时间的?#25215;?#35760;录的一系列?#34892;?#25968;据,通过对时间序列进行观察、研究,寻找其变化发展的规律,预测未来走势[3]。在时间序列的预测中,对于存在波动的时间序列的预测方法有自回归模型,移动平均模型和自回归移动平均模型等。以自回归模型为例,本文构建的基本模型如下:
  其中:
  y为产品或服务的市场需求量;
  t为时间;
  表示随机变量;
  (二)引入互联网搜索量的预测模型建立
  时间序列除了在模型上扩展外,在模型的变量上也?#20852;?#25299;展。在一些研究中,学者们在基本模型中引入外生变量,通过探讨变量之间?#21335;?#20851;性,提高预测的准确度。谢蒙萌(2013)[4]在研究多元线性回归模型在ETC客户发展的预测中,引入了本地区ETC网点数量、本地区高速公路入口流量、本地区GDP和本地区机动车新增车辆数等解释变量,研究结果发现结合引入变量能够更好的实现预测效果。随着互联网的不断发展,互联网中蕴含的信息越来越得到学者们的重视。在2006年,谷歌公司推出谷歌趋势后,一些学者的注意力开始转向了互联网搜索量,分析互联网中某个关键词的搜索量与?#36136;?#31038;会行为之间的关系。研究发现互联网中用户?#21335;?#20851;关键词搜索量数据与客流量、股票价格等存在显著?#21335;?#20851;关系[5]。
  基于以上学者的研究成果,本文将探索互联网搜索量与P2P网贷成交额之间的关系,并在预测模型(1)式中引入互联网搜索量,比较其与基本模型的预测效果,建立对比模型如下:
  其中:
  y为产品或服务的市场需求量;
  t为时间;
  s为该产品或服务的搜索量数据;
  表示随机变量;
  三、实证研究
  (一)样本数据
  1.P2P网贷成交额
  (二)P2P网贷成交额数据分析
  根据图1的散点图,可以发现P2P的百度搜索量越高,其?#23548;?#32593;贷成交额越大,说明二者之间相关性较强,所以本文我们选用百度指数来预测P2P网贷成交规模。
  1.平稳性分析
  根据图1的散点图可以看出,P2P网贷成交额没?#24418;?#23450;的均值和方差,大体呈现上升趋势,说明该时间序列不具有平稳性,需要对其进行差分变换。
  2.自相关与偏自相关分析
  运用SPSS对P2P网络借贷成交额进行一阶差分自相关?#25512;?#33258;相关分析后可发现,自相关系数?#25512;?#33258;相关系数的值都比较小,没有超过±0.5的置信上限和置信下限,说明一节差分后的数据具有平稳性,可以在此基础上建立预测模型。
  (三)时间序列预测模型分析
  1.不含互联网搜索量的预测模型拟合
  根据拟合结果表2可以看出,R方的值为0.722,说明ARIMA(1,1,0)模型用于预测P2P网贷成交额的拟合结果较好,可以解释?#23548;?#25968;据的72.2%。预测模型的均方根误差RMSE为128.570,说明该模型的观测值和真值之间有一定偏差,模型拟合的准确度?#20889;?#25552;升。
  根据表3中的参数可以得出不含互联网搜索量的预测模型如下:
  根据P2P网贷成交额数据预测得出的拟合曲线如下:
  2.引入互联网搜索量的预测模型拟合
  从拟合结果表4可以看出,加入互联网搜索量的P2P网贷预测模型R方值为0.794,高出不含互联网搜索量的R方值0.722,说明加入互联网搜索量的预测模型比不加互联网搜索量的预测模型的拟合效果更好,解释度更优。MAPE为5.333,说明原始数据中的误差占比低,?#28216;?#24046;角度说明P2P预测模型拟合效果较好。


后页]]>
<![CDATA[复杂网络搜索算法比较研究]]> Tue, 30 May 2017 10:18:34 GMT 复杂网络搜索算法比较研究

许多复杂网络中,单个节点无法充分掌握整个网络的全?#20013;?#24687;与目标节点的具体位置。因为复杂网络具有不断变化的动态性,准确地确定网络的全?#20013;?#20026;是非常困难的。一般在搜索算法中,我们从一个给定的源节点开始查询所需要的目标节点上的文件,按照某一种规则向源节点的某一个或是多个邻居节点发送查询消息,寻找符合目标状态节点的过程。搜索算法的?#34892;?#24615;将直接影响到复杂网络的卓越性能。鉴于搜索问题的重要地位本文由论文联盟http://www.2868631.com收集整理和?#23548;始?#20540;,人们会从不同的角度对搜索问题进行分析研究。我们在这里提出了一?#20013;?#30340;基于幂律度分布的搜索算法DBM,它引用BFS与MD的各种优点进行搜索。DBM算法小?#27573;?#24341;用BFS搜索算法,大?#27573;?#24341;用MD搜索算法,更进一步基于知识进行搜索,提高搜索的效?#30465;?#20026;了更可靠地分析并解释,我们选择无标度(BA)网络模型来验证DBM搜索算法的?#34892;?#24615;与可行性。
  1 逻辑分析
  以下我们将对复杂网络中基本搜索方式广度优先搜索算法(BFS)与最大度搜索算法(MD)进行比较与分析。首先,BFS是一種经典的复杂网络基本搜索算法,它在Internet中获得了比较广泛的应用。事实上,复杂网络中的单个节点往往难以全面反映整个网络的信息,甚至无法明确复杂网络中目标节点的所在位置。在这种情况下我们可以应用的最简单地搜索策略就是广度优先搜索算法(BFS)。BFS搜索算法的工作原理如下:当源节点开始在复杂网络中寻找目标文件?#20445;琒先查询所有邻居节点,并向邻居阶段询问是否拥?#24515;?#26631;文件,假设S的某个邻居节点上发现目标文件,目标节点即将目标文件反馈给源节点;假设S的邻居节点都不拥?#24515;?#26631;文件,S的邻居节点则将查询信息向各自的邻居节点传递查询信息,直到发现目标节点和产讯到目标文件。广度优先搜索算法BFS示例如图1所示:
  在图中没有搜索过的路径用虚线表示,已经搜索过的路径用实线表示。在这里我们根据最大度算法的搜索思路分析,在最大度搜索(MD)方式中,搜索过程如下:最大搜索策略的应用前提为每个节点都了解其邻居节点度。详细搜索流程为:源节点先查询其度最大的邻居节点,假设此邻居节点为目标节点,则将目标文件反馈回源节点,假设非目标节点,则继续挑选度最大的邻居节点查询,截止到发现目标节点[9]。在这种最大度搜索MD搜索方式中,虽然搜索效率一般,但其产生的搜索消息流量非常小。最大度搜索MD搜索算法过程示例如图2所示:
  通过比较以上两种搜索方式,我们得到以下结论:选用广度优先搜索算法,可以得到比较小的搜索步数,即可以最快捷地搜索到目标节点,但是查询消息流量特别多。最大度搜索算法获得的查询消息流量比较小的,其搜索步数介于随机游走搜索(MD)和广度优先搜索(BFS)之间。随机游走搜索算法的查找速度最慢,而产生的查询信息流量在其他两种搜索策略之间。具体关?#31561;?#34920;1所示:
  表1 搜索算法比较
  [搜索算法方式\&搜索步数\&查询消息流量\&广度最先搜索(BFS)\&最小\&最高\&最大度搜索(MD)\&中\&最小\&]
  2 性能分析
  2.1 无标度网络
  我们把Newman的工作可总结为随机图。用[G0(x)]表示节点度[k]的分布?#36127;?#25968;,[G0(x)]可以表达为:
  在这里[pk]表示一个图里面随机选定度恰好为[k]的节点的概率,[m]是度的最大值。根据?#36127;?#25968;,这里随机选择的节点的平均度可表达为:
  为了解决准确测量与采样中的困难,我们在这里采用无标度网络模型。本文中,我们应用幂律图来评估搜索性能,如果幂律分布的随机图的度指数是[τ],[pk]跟[k-τ]是成正比,那么:
  依照(4),可以得出以下近似幂律分布:
  2.2 成功率[SR]
  成功率[SR]是查询成功完成的概率,在这里至少有一个查询工作成功地完成。假设查询源用复制比[R]统一分配到整个网络,[SR]在这里[R]是复制比,[C]是覆盖率,这公式说明[SR]?#19988;?#38752;搜索算法的覆盖?#30465;?#25105;们使用(8)获得的一个非常重要的性能指标是搜索时间[ST]。
  2.3 搜索?#34892;?#24615;[SE]
  搜索?#34892;?#24615;[SE]是搜索算法中提出的一个统一的性能指标,[SE]可以定义为:在这里[QH(h)]是在第[h]跳的查询命中率,[QM]是查询过程中产生的查询消息总数量,[SR]是成功查询的概率,?#28909;?#22312;这里至少有一个查询命中,[R]是查询对象的复制?#21462;5比?#22914;果考虑成功率[SR]?#20445;?#20551;设查询对象统一地分布在整个网络。这时第[h]跳的查询命中率等于第[h]跳的覆盖率与复制比[R]的乘积。那么公式(9)可以改写为如下:
  在这里是[Ch]是第[h]跳的覆盖率,[ek]是第[h]跳时所产生的查询消息。[R]是复制?#21462;?
  在这里我们考虑[SE5],[SE1]两种类型,不考虑远程过来的搜索结果。?#28909;紓?
  3 结语
  我们从一个给定的源节点开始查询所需要的目标节点上的文件,按照某一种规则向源节点的某一个或是多个邻居节点发送查询消息,寻找符合目标状态节点的过程。搜索算法的?#34892;?#24615;将直接影响到复杂网络的卓越性能,本文中主要阐述了本文研究目的;主要解说了本文研究?#21335;?#20851;工作;对复杂网络中典型的几种搜索算法进行了逻辑分析并比较。

]]>
<![CDATA[网络“人肉搜索”?#21335;质?#24433;响及法律分析]]> Tue, 30 May 2017 10:17:41 GMT 网络“人肉搜索”?#21335;质?#24433;响及法律分析

随着互联网技术的普及,作为新兴的网络行为模式,“人肉搜索”受到了广大网民的?#25918;酢?#23427;使人们的言论表达达到了空前的自由,呈现出网络力量的强大。但是,我们在享受互联网飞速普及发?#36141;?#32593;络技术日益进步所提供的便利的同?#20445;?#19981;得不注意网络“人肉搜索”所滋生的新问题,因为超过法律底线的网络“人肉搜索”对公民的权益造成了损害,它正在向法律发出挑?#20581;?
  一、网络“人肉搜索”引发言论自由的滥用
  言论自由又称表达自由,是我国宪法规定的公民基本权利之一。网民利用“人肉搜索”,探求社会真相,行使网络上的监督权,并就事件及当事人发表评论,充?#20013;?#20351;宪法赋予的言论自由。这些网络平台允许网民间交流与争论,允许不同意见存在,为言论自由提供崭新的平台,促进了公共利益和社会正义的实现。但正如辩证唯物主义所言,任何事物都是辩证统一的,对“人肉搜索”的滥用会使言论自由的行使滑向另一个极端。“人肉搜索”的滥用往往表现在参与者通过各?#28382;?#24452;搜索他人信息,并将所知道的信息公布于网络供其他网友识别;其他网友利用这些信息进行二次传播,再将有关信息转载于他出或者直接通过信息锁定对象,并对锁定的对象进行谩骂、?#36138;?#23041;胁,甚?#37327;?#22823;事实。这些行为都给当事人造成了很严重的后果。因此,“人肉搜索”一旦被滥用就会成为网络暴力的侩子手。
  正如不存在绝对的权利和自由,言论自由作为宪法所保障的自由权也是相对的。任何自由?#21152;?#38480;定在一定?#27573;?#20869;,现今涉及“人肉搜索”的案件中,对当事人的辱骂、?#36138;?#23041;胁、诋毁其他公民人格尊严的言论以及虚假信息?#21335;?#35937;,都是违反法律相关规定的。因此,对“人肉搜索”的滥用就是对网络自由的滥用,我们一定要?#28304;?#19981;当行为进行规制,让其在规定的?#27573;?#20869;正确?#34892;?#30340;运行。
  二、网络“人肉搜索”引发的侵权行为
  1.“人肉搜索” 侵犯隐私权
  隐私权是指自然人享有的私人生活安宁与私人生活信息依法受到保护,不受他人?#31209;擰?#30693;悉、使用、披露和公开的权利。这种权利包括个人生活安宁权、个人生活信息保密权以及个人通讯秘密权,其他任何人都不得侵害他人的隐私权。而网络隐私权是传统隐私权在网络环境下的?#30001;歟?#26159;指公民在网络中享?#20852;?#20154;生活安宁与私人信息依法受到保护,不被他人非法侵犯、知悉、搜集、复制、公开和利用的一种人格权,也禁止在网上泄露?#25215;?#19982;个人有关的敏感信息,包括事实、图像以及?#36138;?#30340;意见等“人肉搜索”实施者公布他人信息、私密活动等所导致的私人生活遭受骚?#29275;?#37117;是侵害隐私权的行为。
  在这里需要说明的是有关隐私权的独立问题。在《中华人民共和国侵权责任法》未颁布之?#20445;?#25105;国立法中并未承认隐私权,对公民的隐私权利益的保护一般采用间接保護的方法。直到2009年《侵权责任法》第二条正式确立了隐私权的?#25293;睢?
  在“人肉搜索”中,网民处于某种目的,以至于被搜索者的地址、电话、家庭成员信息等隐私信息被披露和传播,危及到被搜索人的正常工作与生活,构成对他人隐私权的侵害。
  2.“人肉搜索”侵?#35813;?#35465;权
  法律意义上的名誉权是指民事主体依法所享有的以其在社会生活中所获得的社会评价为客体的人格权。这些被维护的名誉是指具有人格尊严的本文由论文联盟http://www.2868631.com收集整理名声,是人格的重要内容,受法律的保护。《民法通则》第101 条及最高人民法院《关于确定民事侵权精神损害赔偿责?#31283;?#24178;问题的解释》第1 条第1 款第3 项目?#32423;?#21517;誉权做出了具体规定。民法通则的规定和最高法院的私法解释是名誉权保护的主要依据。
  在?#34892;?ldquo;人肉搜索”中,网民发布的内容与事实真相相符合,对他人的名誉评价是?#23454;?#30340;,未歪曲的,应担不够成对名誉权的侵犯。但是在一些恶意和过失的情况下,把负面信息加以整合供人评论,对他人进行人格侮辱,或者散?#21152;兴?#20182;人名誉的言论,造成相对人社会评价?#26723;停?#21017;构成侵犯他人名誉权的侵权行为。
  3.“人肉搜索”侵?#24863;?#20687;权
  肖像权就是自然人所享有的对自己的肖像所体现的人格利益为内容的一种人格权。法律规定,肖像权是肖像权人对自己的肖像享有专有权,肖像权人既可以对自己的肖像进行自由处分,又有权禁止他人在未经同意的情况下,擅自使用其专有的肖像。擅自使?#30431;?#20154;肖像的行为,并非仅指商业上的利用,而是包括一切对肖像的公布、陈?#23567;?#22797;制等使用行为。
  根据《民法通则》第100条规定,构成肖像权的擅自使用行为应当以营利为目的。但多数学者认为,侵害肖像权的构成并不需要以营利为目的,侵权人是否以营利为目的只是判定行为人是否承担损害赔偿责任的一个标准。所以,“人肉搜索”行为实施者公开当事人的肖像虽然并不是以营利为目的,不符合《民法通则》对侵犯公民肖像权的认定。但是从立法目的上理解,法律保护公民的肖像权最主要的是保护精神利益层面上的。所以,在“人肉搜索”中,未经本人同意,擅自在网络上公开公布他人肖像,构成对他人肖像权的侵害。
  4.“人肉搜索”侵?#24863;?#21517;权
  姓名权是公民依法享有的决定、使用、变更自己的姓名并要求他人尊重自己姓名的一种人格权利。在“人肉搜索”中,侵?#24863;?#21517;权的行为主要表现在非法使?#30431;?#20154;姓名的行为,包括盗用和假冒他人姓名。这在“人肉搜索“中是最常见的侵?#24863;?#21517;权的情况。
  三、加强对网络“人肉搜索”的法律规定
  1.加强关于个人信息的立法工作。我国可以通过制定个人信息保护法,对人肉搜索中涉及的信息收集、处理和利用加以全面规范,?#28304;?#21040;避免个人信息被非法搜集、非法公布、非法使用的效果。2009年1月1日制定《徐州市计算机信息系统安全保护条例?#32602;?#23601;明文规定未经允许不得提供或公布他人信息资料,并规定了违反后的处罚方式,是立法规范“人肉搜索”的一次大胆的尝试,为以后《个人信息保护法》的出台积累了经验。
  2.完善《侵权责任法》。要在《侵权责任法》的基础上加紧制定有关法律规定,明确人肉搜索的侵权行为主体、规制包括网络管理机关职权与职责、网站经营主体的义务、网络用户的权利、网站经营主体的法律责任及免责事由等诸多问题。应考虑在条件成熟时对网络隐私权的保护进行专门立法,强化对网络隐私的法律保护,从而?#34892;?#30340;规?#24230;?#32905;搜索,为网络暴力的受害者提供更为全面的法律救济。
  3.应完善我国刑法。通过刑法修正案,规定对造成严重社会后果的人肉搜索行为追究刑事责任。尽管目前已通过的刑法修正案(七)明确规定,单位泄露或非法获取公民个人信息的行为应追究其刑事责任, 但在犯罪主体方面规定过于狭窄,对情节严重又缺乏具体的认定依据,很?#35328;謔导?#20013;对公民的个人信息安全提供充分的保护。因此应适时将人肉搜索纳入到刑法规制的?#27573;В?#20351;网络暴力得到?#34892;?#25233;制。
  网络“人肉搜索”跨越虚拟与?#36136;?#30340;界限,利用人工参与来提取搜索引擎提供的信息,是我国社会转型的产物。作为一个网络新生事物,有其存在的合理性,所以我们必须进行合理的引导和管理,加强对“人肉搜索”的法律规制,使它在遵守相关法律法规,不违?#25104;?#20250;的公序良俗和?#36182;?#35268;范的前提下,发挥其正面作用。

]]>
<![CDATA[“人肉搜索?#31508;?#35282;下的网络隐私权法律规制的思考]]> Tue, 30 May 2017 10:16:06 GMT “人肉搜索”视角下的网络隐私权法律规制的思考

2001年微软陈自瑶事件网友通过悬赏“社区币”公开求助,在这之后,一个新的被称为“人肉搜索”的互联网搜索行动正式诞生。六年后的死亡博客事件更是被称为“人肉搜索”第一案,纳入了司法程序。现代社会人们每天接触网络,网络已经成为生活必需品,但网络空间里有人们的大量个人信息,网络隐私权也顺理成章的成为了人的重要权利,关系到网民的基本生存状态。但网络具有特殊性,在网络空间中隐私权受到侵犯更加难以救济,危害影响?#27573;?#20063;比传统隐私权更大。因此,从立法上完善我国网络隐私权保护体系,以科学方法引导和规制“人肉搜索”,提升网民自我保护意识已经成为亟需解决的与每个人息息相关?#21335;质?#38382;题。
  一、建立符合我国国情的隐私权法律保护体系
  我国对于公民个人隐私权保护问题的研究,无论从理论方面还是?#23548;?#30340;操作方面,都?#20889;?#20110;起步阶段,随着网络时代的飞速发展,我们必须加强对网络隐私权的法律保护,在全国建立起网络隐私权的法律保护体系。
  (一)完善宪法对隐私权的法律保护
  宪法是一个国?#19994;?#27861;律体系中最根本的部分,它是一个国家法律体系的支柱,隐私权作为公民个人最为基本的人格权利,它的地位是衡量一个国家法治文明程度成熟与否的标准。只有将个人的隐私权纳入到宪法的规制当中,才可以提高个人隐私权的法律地位。纵观世界各国的立法制度,个人权利的保护要想得到确实的维护就必须要将其纳入宪法的规制当中,只有得到了宪法的保护,才能确保各个部门法律在研究制定的过程当中尊重宪法的精神,依据宪法精神。我国?#26029;?#27861;》第35条明确规定:中国合法公民有言论、出版、集会、结社、游行、示威的自由。宪法的此项规定十分明确地将公民的“言论自由”划归为宪法保护的个人权利,隐私权要想提高法律地位便要实现宪法化,这样才能更好地维护公民的隐私权。
  (二)明确民法中对于隐私权的保护
  隐私权属于人格权的其中一项基本权利,每一个独立的自然人都享有各自独立的隐私权,因此,正在讨论编纂的民法典中,针对隐私权的内容也应当作出原则性规定,以期为网络隐私权的保护确立基本的法律原则以及奠定立法基础。
  我国《侵权责任法》关于隐私权的保护已经作出了原则性的规定,但在保护内容、具体方式、保护的?#27573;?#20197;及侵权责任的承担方式等方面规定的不够详细,还不能在具体的司法?#23548;?#20013;起到良好的规范作用。
  笔者认为应当在《侵权责任法》中明确“人肉搜索”的界限,将隐私权与言论自由真正区分开来。
  二、完善网络隐私权保护管理机制
  (一)完善网络隐私权保护管理机制的意义
  完善网络隐私权保护管理机制的个体价值,网络隐私权具有人身和财产的属性,当网络隐私权受到侵犯?#20445;?#20250;造成人们个人信息的外漏,使得个人各?#32456;?#21495;被盗或受到各种骚?#29275;?#36825;样,会给当事人造成很大的困?#29275;?ldquo;人肉搜索”就是最佳实例。
  完善网络隐私权保护管理机制的社会价值,完善网络隐私权保护管理机制有利于维护网络社会公共秩序,有利于推进网络安全发展。
  (二)网络隐私权保护管理机制不够完善的主要原因
  1.隐私权保护的立法不够完善系统,与隐私权保护?#21335;?#37197;套的法规设施没有切实操作,没有使网络隐私权的保护切实可行。
  2.政府权威性不够,没?#34892;?#25919;人员对公民隐私权的保护,同?#20445;?#20063;没有将立法模式和行业?#26376;?#27169;式结合,采取综合模式,使得网络隐私权保护管理机制存在漏?#30784;?
  3.网民隐私权保护意识不强,同?#21271;?#25991;由论文联盟http://www.2868631.com收集整理,网民法律知识欠?#20445;?#24847;识中不注重保护个人隐私权,没有形成普遍的?#38469;?#21147;,使得网民不去侵犯他人隐私权。
  (三)完善网络隐私权保护管理机制的具体建议
  加强网络隐私权保护立法的强度,完善有关隐私权的法律法规及其相配套法律法规,扩大网络隐私权法的覆盖面,为网络隐私权保护管理机制提供完善的法律支持,使其做到有法可依。
  1.增加政府权威,强有力的推行具体的网络隐私权保护管理机制,同?#20445;?#25552;高行政人员的法律水平和职业素养,做到个人信息的不外漏和有意无意的保护他人隐私,尊重他人隐私权。
  2.加强法律的宣讲力度,大力普及网络隐私权保护的法律和隐私权的知识,提高广大网民的法律知识素养,自觉维护网络隐私权保护管理机制,做一个懂法,知法,守法的好公民。
  3.成立网络隐私权保护的?#26376;?#26426;关,并?#36965;?#24314;立有关网络隐私权保护的监督举报制度,群众的力量是无穷的,我们应该用无穷的力量推动网络隐私权保护管理机制的完善。
  三、加强行业?#26376;桑?#20805;分发挥网络管理者的能动作用
  目前,我国在隐私权保护的方面,无论是法律基础还是法律环境都还比较薄弱,因此,保护网络隐私权尤其需要网站经营者的?#26376;桑?#24182;且需要他们承担更多的责任。“对于网上个人隐私的保护问题来说,自下而上的自觉行为与自上而下的强制行为同样是必要的”。
  立法模式可以較好地保护公民的网络隐私权,但单纯的立法模式又可能束缚网络经济的发展。我国现在的网络经?#27809;?#22788;于起步阶段,尚不成熟。同时考虑到我国的法治体制和一贯的法律传统,应采用综合模式兼采两种模式之长处,可以先由行业?#26376;?#32452;织制定一些行业标准。


后页]]>
<![CDATA[变形测量中的数字散斑相关搜索方法]]> Tue, 30 May 2017 10:15:15 GMT 变形测量中的数字散斑相关搜索方法

一、前言
  变形测量作为一个十分重要的测量方法,对其的开发和运用可谓相当的广泛,尤其体现在力学研究中。而数字散斑相关的方法是对光学进行变形测量的一种方法,也就是在物体变形及应变的测量中引入数字散斑?#21335;?#20851;方法,并经过不断的发展,逐渐被人们应用到各个重要的领域中,展现出他的优越性。
  二、数字散斑在变形测量中运用的发展过程
  随着人类的不断探索,人们对力学的研究不断的深入,数?#28382;?#20687;技术在力学实验中的运用也越来越广泛。六十年代,Dyson和Dew首次运用电子辅助仪器进行了条纹分析,随后的科学家们也?#36861;字?#21147;于将图像处理技术引入到力学研究的领域。这主要是由于光测法突出的优点形成的,主要体现在全场与非接触(如全息、散斑法)上,其得到的图像往往也是呈现出条?#35889;矗?#25152;以分析重点也转移到对条形图谱的分析上来了。基于这些,科学家们就开始利用图像处理技术对其进?#20889;?#29702;,大大减轻了人工分析的工作量。经过不断的发展,到目前为止相关学者已经提出了许多的、成体系的方法供人们使用,实现了一系列的自动、半自动的对条?#24179;?#34892;了跟踪、定级、细分等相关的分析。
  三、实验
  本文运用到?#21335;?#20851;搜索方法,具体的对缸体的转动和移位以及均匀变形都进行了具体的分析验算。对这些做?#21335;?#20851;分析计算都是在Magiscan-2A这?#28382;?#20687;分析仪上进行的,其采用的扫描阵列是512*512型的,并使用的是6比特(64辉阶)的辉度水平。除此之外,试验中另一个重要的仪器是显微?#25285;?#20855;体目的在于:在需要的时候将散斑颗粒进行调整,调整到与摄像机分辨率相匹配的程度上,使得得出的散斑场的离散误差达本文由论文联盟http://www.2868631.com收集整理到最小,相关的搜索实施是通过实?#30452;?#21046;好的程序来实现的。
  1、刚体移位
  在进行刚体移位试验中,选用的是如【1?#20811;?#31034;的两个试件。(A)是一副散斑图,其具体是由一块全息玻璃干板对特定的一个散斑场进行曝光处理而得到的;而(B)则是一块仅仅只印有一些字母而组成的玻璃片,玻璃片上随机分布的字母就可以形成一个相对意义上的散斑场(白光散斑)。在整个实验过程中,借助微调平台和显微?#21040;信?#21512;,就可对试件施加一定的作用,使其产生一定的位移量。然后,使用摄影机将原始位置的试件进行记录,移位之后再进行一次记录,对这两次采集的信息进行数字化的处理输入Magiscan-2A这?#28382;?#20687;分析仪,进行相关的搜索分析。得到的具体实验结果被绘制成下图,对其进行分析可以发现:对位移量的测量最小的、可测定的是0.1像素的位移量,小于这个值之后仪器就不能进行测量了;而最大的可测的位移从原则上来说是没上限的,但对其不能进行测量主要?#19988;?#20026;受到摄像机?#26144;〉南?#21046;。但是对两个刚体进行对比分析发现,两个试件的结果是相当的接近的,这也就表明在对刚体进?#24418;?#31227;的测量?#20445;?#29289;体表面只需要拥有一些散斑的特性就可进行。本次实验计算所取的散斑子区域的大小介于7*7与17*17像素之间,具体来说,子区域大小对于结果的影响几乎是没有的,只要选取的散斑子区域至少有一个散斑就可?#28304;?#21040;相应的目的。
  2、刚体转动
  同样,也可以采用以上两个试件进行刚体转动试验,转动试验的转角可以通过测量两点的位移差来获取。具体的试验结果表明,对转角的测量最大在15°内,如果刚体的转角超过15°之后,结果就会出现很大的误差,更严重的情况就是无法测出。这?#19988;?#20026;刚体在转动的时候一些参数不为零,转角一旦变大,就不得不考虑这些参数的影响。如果忽略了这个重要的条件,就会带来巨大的误差,甚至使原来相关的散斑子区出现不相关?#21335;?#35937;,导致对散斑子区的分辨出现问题。
  3、面内应变
  在进行这个实验中,如果我们采用如【1】的试验仪器来记录来直接测量物面应变,会因为其产生的激光束直?#30701;?#23567;,导致即使应变场比较复杂,我们在激光束照射的区域得到应变场仍然是均匀的。这样,采用下图的记录方式以及相关的搜索测量的方法对每个物面产生的应变场产生均可以进行测量。我们用两张全息的干板对物体变形前后的散斑场进行测量,并记录在XOY平面上,经过光学处理得到两张散斑图【1】。在被测量的两个刚体的法线对称位置的两点进行测量,并运用相关的搜索方法计算出相应的散斑位移,再由相关的计算式进行计算,从而得出被测点的应变。在试验中,运用光学显微镜可以使法线对称两点的距离?#23545;?#22823;于摄像机的?#26144;》段А?#37319;用这种方式,其结果相当于扩大了图像处理机可以扫描到的?#27573;А?#22312;显微镜操作的条件下,法线对称的两个点之间的距离就相当于摄像机?#26144;?#30340;十倍,理论上来讲相应的最小可测应变应该?#26723;?#20102;十倍,同时考虑到地位等相关因素的累积误差,应变的灵敏度提高了4-5倍。试验的结果同时还表明,测量应变的灵敏度和精度主要受到相关分析仪器的图像分辨率的影响,除此之外,还需要合理的选择散斑子区的大小,如果对散斑子区的选择?#27573;?#36807;大,费时费力;对散斑子区的选择过小,则容易出现错误的判断,所以,选择?#23454;?#30340;散斑区域的大小,可以保证搜索过程快速而准确的进行。
  四、结束语
  数字散斑技术经过几十年的不断发?#36141;?#36827;步,被越来越广泛的进行着运用。这种技术是适合于不能直接对物体 进行接触的测量,同时有希望通过不断的发展实现变形测量的自动化。相信在相关人员的不断努力下,数字散斑技术一定可以得到更高层次的发展。

]]>
<![CDATA[云平台数据库搜索引擎的实现方法]]> Tue, 30 May 2017 10:14:24 GMT 云平台数据库搜索引擎的实现方法

引言
  如今网络发展迅速,电?#30001;?#21153;信息呈现几何倍数增加,同时随着互联网应用环境的变换,如何从大量信息之中?#19994;?#33258;?#26680;?#38656;信息已经成为亟需解决的关键问题。搜索引擎在大量网络信息里建立起相关的链接,进而可以自动获得相关信息,之后把这些信息存入到数据库,并建立相关搜索词,供用户使用。
  但是伴随着商务信息的不断增加,数据量呈?#30452;?#28856;式增长趋势,随之也出现很多搜索引擎效?#23454;?#19979;、准确度下降等问题。同?#20445;?#25628;索获得的信息非常巨大,获得展示的信息之间?#21335;?#20851;程度变得十分低下,这导致用户很?#35328;?#36739;短时间内获得自?#26680;?#38656;?#21335;?#20851;内容。鉴于此,本文利用云平台数据库建立相关搜索引擎,使用云平台数据库的体?#21040;?#26500;,充分分析了关系型数据库以及HBase分布式数据库之间的交换模式,来提升搜索质量与速度。
  1系统的需求分析与总体设计
  1.1系统的需求分析
  现在电?#30001;?#21153;网站每天?#21152;?#24456;多新的用户注册到其内部数据库里,随着注册人数的增多,这些数据也呈现了几何倍数的增加,因本文由论文联盟http://www.2868631.com收集整理此在用户将自己的注册信息输入到数据库之后,需要对这些信息进行审核,判断输入数据是否重复或者是否合法,如果存在重复内容,则需要返回到修改界面,重?#29575;?#20837;数据,如果没有,直接将这些数据存入到数据库中。
  对于这部分工作来說,需要准确以及快速的搜索引擎作为指导。系统基本要求就是,每天出?#20013;?#30340;注册信息可以及?#21271;?#23384;到数据库里,完成快速储存任务。其?#21361;?#26681;据系统要求,对这些注册信息与以往信息进行对比,发?#36136;?#21542;具有重复或者非法的情况。再?#21361;?#27599;天更新已经通过注册的用户信息情况,对这些信息进?#20449;判?#20197;及储存。最后,对那些更新的用户信息,需要及时的存入到已有的注册信息记录中。
  1.2系统的总体结构设计
  本文设计的基于云平台数据库搜索模式,主要方案基于Hadoop分布式文件系统和MapReduce编程模型,通过HBase分布式数据库结构以及Lucene全文检索系统,应用到数据库搜索系统之中。本文设计的数据搜索引擎的模型分为三个基本功能,即数据的预处理部分、索引模块以及搜索部分等,基于HBase分布式框架来,将设计内容部分含有的具体实现方法封装在程序内部,通过API应用接口使得子系统之间建立良好通讯机制。数据预处理模式通过关系型数据库与H]3ase分布式数据之间建立的良好信息交互能力,将关系型数据库内部历史用户注册的数据传递到HBase数据库的数据处理中心,同时将关系类型模块具有的已经获?#38376;?#20934;的新数据提交到搜索器,再将不能使用的部分返回到关系型数据库内部。本文设计的索引器主要提供的功能为对预处理数据库里存在的信息进行?#21476;?#32034;引,同时对每天新增的数据信息建立其自身具有的增量索引模式,最后建立自己的?#21476;?#32034;引都储存到HBase分布式数据库索引库内部。
  索引器模块含有的功能可以为每天新用户注册信息进行更新,同时获得新用户注册的信息,分析以往历史用户信息,使其可以存入到HBase数据库的内部进行?#21476;?#25628;索,同时可以将获得的结果传输到关系类型的数据库制定列表里,同时将每天更新的用户注册信息中不重复的数据更新到数据库里,并更新索引模块。HBase分布式数据库,使用HDFS分布式结构完成系统内部模块设计,利用历史数据访?#24335;?#26500;来获得大量文件信息。如果含有信息预处理的数据库,索引库可以提供相关访?#24335;?#21475;,从而使得系统内部含有的功能得到全部使用,可以非常方便的增加系?#25215;?#21151;能。本文设计?#21335;?#32479;,在数据预处理部分、索引器部分与搜索器部分,执行程序的基本流程介绍如下:
  首先是数据预处理部分,一是使用分布式数据交互工具Sqoop,对于存在关系型数据库内的历史用户注册数据向预处理数据库中导入,使得该数据库中含有HBase分布式数据库。二是对于?#21476;?#32034;引要通过索引器向HBase分布式数据库索引库内进行引入,同时将搜索信息提供给搜索器。三是在预处理完成之后,索引模块含有的数据库处理部分使用?#21476;?#32034;引模块,使用分?#24335;?#26500;,利用数据文本数据进行分词,主要有中文分词与英文分?#30465;?#22235;是借助于复合框架,数据预处理器能够对关系型数据库存在的每天用户注册数据更新进行实时读取,同?#27605;?#25628;索器进行提交来给予处理。五是对复合框架提供?#21335;?#20851;数据通过搜索器进行解析,并提取关键字,?#28304;?#20026;依据对索引器的?#21476;?#32034;引进行查询。六是以关键字中存在?#21335;?#20284;度为依据,搜索器对用户更新数据进行?#34892;?#25490;序。七是对用户注册数据的更新结果查重,会由搜索器向数据预处理器进行返回。八是对所有用户注册数据的更新中存在的不重复数据更新要通过搜索器向处理数据库中进行返回,接着便进行增量索引的建立。九是对搜索器返回的查重结果要通过预处理器来向关系型数据库进行写入,上述步骤便是系统整体结构具体的执行过程,其对子系统问的关系给予了充分体现。


后页]]>
<![CDATA[基于启发式搜索和分类树的网络协议模糊测试用例生成方法研究]]> Tue, 30 May 2017 10:12:56 GMT 基于启发式搜索和分类树的网络协议模糊测试用例生成方法研究

 引 言   随着现代软件产业的发展,软件规模不断扩大,其内部逻辑也变得更加复杂[1]。为了保证软件的质量,软件测试?#26041;?#22312;软件生命周期中占据非常重要的地位,但仍然不可能彻底消灭软件中所有的逻辑?#27605;蕁?#27169;糊测试通过向目标系统提供非预期的输入并异常监视结果发现软件漏洞,是安全检测和漏洞挖掘的?#34892;?#26041;法,也是近年来信息安全领域的研究热点之一。网络协议模糊测试发现的漏洞通常具有非常高的危险程度,所以被认为是多数安全研究者最?#34892;?#36259;的模糊测试类型[2]。在模糊测试的过程中,模糊测试数据生成和异常监视这两个关键?#26041;?#38656;要研究者给予特别关注。本文对网络协议模糊测试用例生成方法[3]进行研究。   1 启发式网络协议模糊测试用例生成方法   1.1 网络协议分类树的构建过程   一棵网络协议分类树可以用五元组[PT=(P,F,A,V,R)]表示。其中根节点[P]代本文由论文联盟http://www.2868631.com收集整理表测试目标网络协议;[F]代表目标网络协议的协议域,[F=field1,field2,field3,…,fieldn;][A]代表协议域互不相交的属性,[A=A1?A2?…?][An=attribute11, attribute12, …, attribute1m1, …, attributen1,][attributen2,…,attributenmn;][V]代表协议域的属性值,[V=][V11∪V12∪…V1m1∪V21∪V22∪…∪Vn1∪Vn2∪…∪][Vnmn=][valuevalue∈Vij且i=1,2,…,n,j=1,2,…,mi;][R]代表协议分类树中父节点和子节点之间的关系,包括目标协议[P]与协议域[F]之间的关系、协议域[F]与属性[A]之间的关系、属性[A]与属性值[V]之间的关系等,[R=][relation1,relation2,relation3,]其中[relation1=<p,fieldi>] [1≤i≤n,][relation2=<fieldi,attributeij>1≤i≤n,1≤j≤mi,][relation3=<attributeij,valuek>1≤i≤n,1≤j≤mi,k∈N*。]       

1.2 网络协议模糊测试数据生成过程
  基于分类树的网络协议模糊测试数据生成过程可以?#29228;?#20026;四个步骤:
  (1) 选定测试目标网络协议[P,]并根据其规范划分得到协议域集合[F=field1,field2,field3,…,fieldn,]该目标协议可以用[n]元序组[<field1,field2,field3,…,fieldn>]表示。
  (2) 针对步骤(1)中得到的每个协议域的属性进行分类,得到描述协议域[fieldi]的属性集合[Ai=attributei1,][attributei2,…,attributeimi,]其中每个属性[attributeij]分别在离散的属性?#23548;?#21512;[Vij]中取值[(1≤i≤n,1≤j≤mi)。]
  (3) 对每个协议域[fieldi]不同属性的属性?#21040;?#34892;相互组合,得到面向该协议域的测试数据集合[Si=Vi1×][Vi2×…×Vimi(1≤i≤n) 。]
  (4) ?#26469;未用?#21521;协议域[fieldi]的测试数据集合[Si]中取值,对描述目标协议的[n]元序组<field1,field2,field3,…,fieldn>进行展开,得到面向目标网络协议的测试用例。
  1.3 启发算子在网络协议分类树中的引入
  启发式网络协议模糊测试用例生成方法基于分类树的网络协议模糊测试数据生成过程中加入了启发算子的定义,利用启发算子演变得到启发式规则,用于指导每个协议域的测试数据生成过程[4]。
  结合文中给出的基于分类树的网络协议模糊测试数据生成的具体过程,需要在步骤(2)中增加获取启发算子的操作,用于对协议域属性?#23548;?#21512;[Vij]的精简。由于应用启发算子后并未对步骤(1)产生影响,而且该步骤的实现难度比较小,通常只需要对协议规范进行解读便可以获取用于描述目标协议的[n]元序组<field1,field2,field3,…,fieldn>。
  启发算子(Heuristic Operator)的定义可以用?#25104;?#20851;系[fh:Vij→V*ij]描述。启发算子的定义可以源于协议分类树中父节点与子节点之间的关?#23548;?#21512;[R,]也可以源于对目标网络协议的协议规范分析,或者可以借助第三方工具进行提取[5]。
  1.4 启发式网络协议模糊测试用例生成过程
  启发式网络协议模糊测试用例生成过程需要利用启发算子[h]实?#20013;?#35758;域属性?#23548;?#21512;的精简,为了方便具体的实现过程,可以把启发算子写入相应的配置文件[6]。
  在配置文件启发算子定义的基础上可以演变得到形如“if…,then…”的启发规则,用于剔除属性?#23548;?#21512;[Vij]中的无效值,从而得到精简的属性?#23548;?#21512;[V*ij。]
  面向协议域[fieldi]的测试数据集合[Si]的生成过程可以视作协议域的属性?#23548;?#21512;,进行笛卡尔乘积运算的过程,即[Si=Vi1×Vi2×…×Vimi(1≤i≤n)]。属性?#23548;?#21512;在应用启发算子进行精简之后元素个数减少,即[V*ij<][Vij][(1≤i≤n,1≤j≤mi)]。那么不难得出,精简后面向协议域[fieldi]的测试数据集?#19979;?#36275;[S*i<si]。 <br="">  任取[mi]元序组<mutatedvalue1,mutatedvalue2,…, [mutatedvaluem1="">∈S*i,]对[n]元序组<field1,field2,field3,…,fieldn>中的协议域[fieldi]进行替换,得到面向目标协议的一个测试用例,直至遍历完每个协议域的测试数据集合。至此,得到面向测试目标网络协议的测试用例的总数为[PT=1nS*i=S*1+S*2+S*3???+S*n]。
  2 模糊测试用例生成方法的实现
  2.1 验证平台网络协议模糊器的选取
  根据各网络协议模糊器与验证平台选取标准的匹配结果可知,模糊器Peach和Sulley相对于SPIKE而言,更加符合本文对验证平台的选取标准。考虑到模糊器Peach相对于Sulley而言对测试执行前的准备工作要求更为简单,而其维护更?#34385;?#20917;更加频?#20445;?#26368;终选取模糊器Peach作为启发式网络协议模糊测试用例生成方法的验证平台。
  2.2 启发式网络协议模糊测试用例生成
  2.2.1 目标协议与实施方案的选取
  根据每个请求与之前的请求是否相关,可以把网络协议分为无状态协议(Stateless Protocol)和有状态协议(Stateful Protocol)[7]。无状态协议是指网络协议?#21335;?#37051;数据包之间没有上下文的关联性;有状态协议是指相邻的数据包之间具有上下文的关联性。
  在?#23548;?#36816;用中,有状态协议比无状态协议的应用更加普遍。本文选取有状态协议的典型代表FTP协议作为目标协议,对启发式模糊测试用例生成方法进行实例验证。FTP协议采用客户端/服务器的工作模式,在?#36136;?#19990;界具有极为广泛的应用,选取FTP作为模糊测试目标协议不仅具有普遍?#21335;质?#24847;义,同时还能与本文对启发式模糊测试用例生成方法的描述结合起来,避免出?#32456;?#23545;相同步骤的多次重复分析[8]。
  从客户端连接远程FTP服务程序的过程可以分为建立连接、传送数据、释放连接三个阶段,具体的通信过程可以描?#37995;?
  (1) 首先建立TCP连接,客户端向FTP服务器发送USER命令表明身份;
  (2) 然后服务器要求客户端输入密码,客户端发送PASS命令将密码发送给服务器,服务器对客户端进行身份认证;
  (3) 身份认证通过后客户端可?#28304;?#36755;其他FTP命令进行文件操作,需要结束此次连接时用QUIT命令退出。
  FTP客户端与FTP服务器进行通信的过程中,首先生成一个TCP虚拟连接用于验证控制信息,然后再生成一个单独的TCP连接用于数据传输。具体如图1所示。                                                                         


后页]]>
<![CDATA[基于RSS源的搜索引擎概述与实现方法]]> Tue, 30 May 2017 10:09:30 GMT 基于RSS源的搜索引擎概述与实现方法

一、技术背景
  搜索引擎为网络信息检索提供了巨大的方便,使我們可以直接利用检索语法来获取自?#21512;?#35201;的信息。但是随着互联网的发展与信息爆炸式增长,传统的搜索引擎逐渐暴露出更新速度慢、收录不完整等缺点,不能满足用户多样化、纯净化的需求,RSS搜索引擎应运而生。
  顾名思义,RSS搜索引擎是对RSS信息的再次整合,用户可以通过关键字搜索检索自己需要信息。相比于传统搜索引擎,RSS源搜索本文由论文联盟http://www.2868631.com收集整理引擎能够满足用户的时效性需求、信息定位更加精准、信息搜索更加全面以及更小的信息冗余和更高的搜索效?#30465;?
  二、实现思路
  (一)数据获取
  RSS采用XML(可扩展标记语言)格式,使用特定标签将信息写入RSS。虽然不同的RSS数据源有自己的特点,但标签取名和标签数量基本一致。RSS信息中一般含有标题、摘要、链接和时间,部分RSS还有图片和正文等信息。
  为减少工作量和开发难度,获取数据一般采用专用的RSS解析器,主流的解析器有RSSLibJ、Flock 、Informa 、ROME等,其功能大同小异。笔者以ROME为例,通过向解析器提供RSS地?#32602;?#24378;大的解析器提取出

]]>
<![CDATA[搜索引擎营销在B2C电?#30001;?#21153;中的应用研究]]> Sat, 23 Jul 2016 14:58:13 GMT 搜索引擎营销在B2C电?#30001;?#21153;中的应用研究

一、我国搜索引擎营销的发展现状
  伴随着中国B2C电?#30001;?#21153;的蓬勃发展,可以看到在不久的将来,我们生活的方方面面都离不开电?#30001;?#21153;。到那?#20445;?#24222;大的互联网信息流将存在于我们生活的每一个地方。
  根据CNNIC最新数据显示,截至2015年12月,我国网民规模达6.9亿,全年?#24067;?#26032;增网民3951万人,增长率为6.1%,较2014年提升1.1个百分点。
  据艾瑞咨询,2015年搜索引擎广告市场规模达到706.2亿元,同比增长达到31.6%。2015年移动搜索是搜索引擎广告的主要发展方向。根据CNNIC数据显示,截至2015年12月,我国搜索引擎用户规模达5.66亿,使用率为82.3%,用户规模较2014年底增长4400万,增长率为8.4%。
  由数据可以看出,1.我国的互联网用户依然在不断的增加当中,而且增速很高。2.我国搜索引擎广告的市场规模继续增大,增速明显。3.我国B2C市场的市场规模呈现非常?#27604;?#30340;状态,而且同样增速明显,这说明搜索引擎营销在B2C电?#30001;?#21153;中的应用还有十分广阔的空间。
  二、我国搜索引擎营销存在的问题
  搜索引擎营销(以下称为SEM)追求以最高的性价比和最小的?#24230;耄?#33719;取最大的从搜索引擎而来的访客数量,最终产生商业价值。SEM可以在搜索引擎中进行品牌的推广,将该品牌的负面信息尽可能少的呈现在搜索用户面前,可以预防竟争对手在网上的恶意诬陷。同时可以在进行正面和商业信息的推广,进而达到品牌推广的目标。
  与目前国内市场普遍应用的SEM营销模式不同,国外北美市场目前已经实现了搜索引擎营销(SEM)的智能化和自动化。智能SEM解决了人?#36234;?#20915;不了的问题,增加投放量而不需要增加人手,基?#26223;?#33073;SEM行业对人力的依赖,达到精细管理搜索引擎营销、?#34892;Ы档?#25104;本,大幅提升营销的效果。与国内传统SEM比较,智能、自动化SEM更象一个金融行业,基本实现大比例投?#29275;?#22823;比例效果扩大。
  目前我过的搜索引擎营销行业(以下称为SEM)还存在这许多问题。由于我国的SEM行业没有专业的大学在授?#21361;琒EM行业的从业人员基本为其它行业转行而来的。在这种情况下,就很容易出现从业人员水平参差不齐的情况,从而导致账户从建立到优化都没有一个标准的流程。本论文第三章将以?#23548;?#30340;例子来?#27493;釹EM搭建的思路和方法,以及网站追踪的方法。
  三、SEM账户搭建实例
  1.撰写账户搭建的思路
  搭建整形账户,确定基?#31350;?#26550;。账户的基?#31350;?#26550;包括关键?#30465;?#21019;意、投放地域、投放时段、账户预算等以及其他账户设置。
  搭建医?#26222;?#25143;结构,计划同样可以按照不同词性,如品牌词,产?#21453;剩?#36890;用词,竞?#21453;?#30340;方式划分。
  整形机构的产?#21453;?#19968;般都为整形?#21335;?#30446;,例如,隆鼻,祛斑,紧肤除皱,美白等。
  2.账户的搭建
  搭建账户计划。推广计划是管理不同关键词/创意最大的单位。在推广计划中,可以根据不同的需求设置不同推广地域、该计划的每日预算、设置推广时段,添加否定/精确否定关键词和IP排除等。
  建立推广计划账户实施的第一步。在执行之前,要根据目?#21335;?#20998;出不同的推广目标,为实现不同的推广目标建立不同的推广计划。
  3.关键词拓词
  品牌词计划。品牌词与?#30342;?#29305;有的名称、电话、地址、网站名称、域名、专?#19994;仁且?#30103;行业网民的常搜词相结合。在关键词中添加前缀地域,后缀如怎么,好,价格,地?#32602;?#30005;话,机构,?#30342;海?#20013;心,集?#29275;?#25972;形,美容,整容,网等。
  搭建产?#21453;始?#21010;。产?#21453;?#21487;以有很多方向?#28909;紓閡皆?#31867;、治?#35780;唷?#26102;效类、费用累、检查类、症状类、病因类、预防类,同样也可以按照整形项目进行设置。如?#22909;?#30333;,减肥,双眼皮,隆鼻等。另外在账户添加产品类的长尾词也是个不错的选择。
  搭建通用词计划。通用词计划可以添加网民经常搜索的词语,例如:APP,网站,拍照APP,常用APP工具等关键词,这类关键词的特点是搜索量大,点击价格?#31995;汀?#20294;是相关性?#31995;停?#25237;放的目的是为网站引流。
  注意经常巡查关键词的状态,可能会因政策的影响而出现关键词审核不通过的情况,要及时处理。
  4.撰写创意
  每个单元撰写不少于2条的创意,?#23454;?#21152;入通配。通配符中一般为对应单元中的核心关键?#30465;?#21019;意的内容要与单元中关键词的内容密切相关,突出特色,在吸引网民点击的同时也要保证真实性和网站?#21335;?#20851;性,否则可能造成很多网民点击之后发现网站并不是自?#21512;?#35201;的结果,从而造成浪费。例如以关键词“美白针”为核心的单元的创意标题可以写做“{美白针}美容?#39038;ダ希?#32654;白一步到位!”切记注意使用规范,不要违反广告法。
  5.其它设置
  否定关键词:在推广计划和推广单元位置设置,可以将一些完全不想干的关键词否定掉,减少多余的浪费。时段:默认情况下投放时段为全天。预算:假设本账户1个月的预算为10万,所以1天的预算为3000.在账户级别设置日预算为3000,后期可根据投放数据进行细化操作。地域:假设本公司所在地域为北京,在账户级别设置地域。出价:在刚搭建账户?#20445;?#21487;先根据品牌?#23454;?#19968;,产?#21453;实?#20108;,其他?#23454;?#19977;的原则暂做设置,投放一段时间后,将根据转化数据分析再做调整。IP排除:可在账户级别及推广计划级别设置,在账户建立之初可先将竞争对手的IP排除,投放之后,时刻观察在线客服报告中来访者的IP,如有恶点?#21491;桑?#23558;其加入。附加创意:附加创意是?#28304;?#32479;搜索推广样式的补充。通过使用附加创意,可以在原推广位/推广链接的创意描述下方,添加多?#20013;?#24335;的推广信息,如蹊径子?#30784;PP等。
  6.网站添加追踪的几种方法
  网站追踪代码可以对目标网站进行访问数据统计和分析,并提供各种参数供相关人员进行网站的数据分析和统计。在SEM行业中,一般企业都会选择GoogleAnalytics对网站进行追踪和分析。
  GoogleAnalytics共推出过三种不同类型的网站追踪代码,分别为Urchin,传统追踪代码和异步追踪代码。Urchin是Google开发的第一代追踪代码,目前官方已经不推荐使用。而目前使用较多的是传统追踪代码和异步追踪代码。
  四、结语
  从1999年开始,中国电?#30001;?#21153;B2C已经经历了11年的发展历程。作为一个互联网的产业,B2C企业有太多的时间都?#24230;?#21040;了供应链管理方面,而对于前端的服务,B2C企业具有丰富的经验。从整个产业的发展周期来看,整个B2C市场将步入成熟期。2015年,随着天猫“双11”成交额破天荒的突破了900亿元人民币。宣告着中国已经进入了B2C电?#30001;?#21153;的时代。
  可以预见的是,搜索引擎将成为厂商流量主要来源。搜索引擎为以电?#30001;?#21153;为代表的互联网厂商提供流量,进而帮助本文由论文联盟http://www.2868631.com收集整理电?#30001;?#21153;厂商拓展用户来源,扩大厂商盈利。同?#20445;?#31454;价排名公正性、个性化搜索领域创新、搜索智能和移动搜索方面将对搜索引擎厂商相关能力提出挑?#20581;?/p>]]> <![CDATA[搜索引擎反作弊方法研究]]> Sat, 23 Jul 2016 14:57:39 GMT 搜索引擎反作弊方法研究

搜索引擎通过提取网页中主要信息进行索引构建,用户的检索请求提交给搜索引擎后,搜索引擎通过索引系?#25104;?#36873;出符合条件的待选集,然后根据内部的排序算法?#28304;?#36873;集进?#20449;判?#36755;出。网站的盈利模式主要通过流量,网站流量越大意味着网?#31350;?#20197;拉到更到广告投放从而实现大面积盈利。因此存在一些网站站长为了提高自身网站的流量进行作弊,通过非正常的手段来提升自身网站搜索引擎内部的排名,搜索引擎出于公平性的考虑保证排名的合理性需要对网站站长这些作弊行为进行检测并极大程度上?#26723;?#22240;作弊行为而导致的排名不正确性。
  搜索引擎的排名的依据很大程度上依赖于用户的输入字符串和网站内容的匹配程度,网站站长在自身网站上堆砌大量的关键词从而期望提高网站的排名,?#23548;手?#22914;此类的关键词堆砌没有?#23548;?#30340;含义,甚至和网站内容无任何关联,这极大的拉低了网站本身的质量,搜索引擎在内容识别时需要识别当前是否存在无关关键词的大量无关使用,?#28304;?#31867;作弊行为需要打?#20849;?#35810;字符串和网站本身内容之间?#21335;?#20284;度。另外还有如链接作弊等,本文主要就网站作弊中常用手段进行分析,阐释搜索引擎反作弊中常用手段。
  1 搜索引擎排序策略
  搜索引擎排序中常用的做法是LTR(learning to rank) 算法,LTR算法是一种机器学习算法,它在传统相似度算法的基础上融合多种排序时?#21335;?#20851;特征进?#20449;判?#23398;习,LTR算法如图1所示。LTR是一种基于有规则性的学习监督(supervised learning)排序方法。LTR已经在诸多领域有着大量的应用,以文本挖掘领域为例,搜索引擎的返回结果排序、IR中召回文档的排序、推荐系统中对候选商品的选择以及机器翻译中文字的?#25215;?#31561;。
  早期的信息检索系统在排序时方法比?#31995;?#19968;,通常按照用户检索字符串和网页内容的匹配度来排序,这样在很大程度上只能采用单一?#21335;?#20284;度计算方式,?#23548;?#19978;有多种因素会影响排序的效果,如经典的 TF-IDF, DL等,VSM和?#32423;?#27169;型都可以完成这些功能,这些传统的排序方式是无法融入多种排序因素,假设用向量空间模型来表征对象,向量空间模型中各?#37995;?#24230;以TF-IDF来计算权值,相应的无法再利用其他额外的信息了,如果模型参数过多对模型本身的参数调节也是一个很大的挑战,参数过多?#19981;?#23548;致过拟合和现象。则自然地联想到采用机器学习的手段来解决上述的问题,于是就产生了LTR(learning to rank)。机器学习很容易拟合多种特征来进?#24515;?#22411;训?#32602;?#32780;且具有非常丰厚的理论基础,有着成熟的理论和技术来解决稀疏和过拟合的问题。
  模型训练的过程?#23548;?#19978;一个参数学习的过程,选定合理的真实数据作为训练数据集合,对于特定的模型,选择合适的损失函数,通过对损失函数进行优化可以得到当前模型下最优的参数,这?#35789;?#27169;型训练的过程,预测的过程即将需要预测的数据作为输入数据传入到模型得到模型预测分,利用该结果分即可进行相关的排序分析。
  LTR一般说来有三类方法:单文档方法(Pointwise),文档对方法(Pairwise),文档列表方法(Listwise)。
  2 网站作弊行为
  网站站长通过排序作弊的方式来提高自身网站的排名,作弊的方式主要有以下几类:
  · 增加目标作弊词词频来影响排名;
  · 增加主题无关内容或者热门查询吸引流量;
  · 关键位置插入目标作弊词影响排名;
  详细来说,可以分为如下几种方式:
  2.1关键词重复
  关键词重?#35789;?#20316;弊中常用的手段,通过设置大量的关键词在网站中。关键词的词频信息是排序时重要的排序因子,关键词重复的本质就是通过关键词的词频来影响网站在展现时的排?#20852;承頡?
  2.2无关查询词作弊
  为了提高网站在搜索时的展本文由论文联盟http://www.2868631.com收集整理现次数,尽可能多的通过增加关键词来提高和用户搜索时的匹配度,作弊时增加很多和当前网站页面主题无关的关键词也是一种词频作弊,即将原来词频为0的单词词频增?#28216;?#35789;频大于等于1,通过提高来搜索时的匹配度来吸引流量。


后页]]>
<![CDATA[基于回溯搜索算法的导联选择脑机接口研究]]> Sat, 23 Jul 2016 14:56:54 GMT 基于回溯搜索算法的导联选择脑机接口研究

脑机接口(Brain Computer Interface,BCI)是一种直接利用脑信号连接和控制外界设备,不依靠人体神经和肌肉的通信系统[1]。通过BCI系统,将人脑?#21335;?#27861;、思维转化为控制外部设备的指令,可以帮助那些?#21152;?#32908;肉萎缩性侧索?#19981;?#33041;干中风等疾病的人实现与外界交流[2]。
  当人想象某个精神任务或者执?#24515;?#20010;肢体运动?#20445;?#22823;脑皮层的某个区域中脑电信号会发生变化,这类现象伴随着脑电信号能量的减小或增加。Pfurtscheller将脑电信号能量的减小称为事件相关去同步(Event?related Desynchronization,ERD),而能量的增加称为事件相关同步(Event?related Synchronization,ERS)[3?4]。在EEG节律信号中mu节律和beta节律信号是ERD/ERS现象有关的两种固有频率信号,mu节律信号的频率?#27573;?#19968;般为8~12 Hz,beta节律信号[5]为18~26 Hz。
  传统的?#37096;?#22495;模式(Common Spatial Pattern,CSP),在ERD/ERS相关的特征提取上是很?#34892;?#30340;算法。由于ERD/ERS信号发生在特定的脑区域,而采集信号的导联分布于整个大脑区域,所以导联通道中存在许多无关的通道。因此,CSP的性能会受到限制[6]。
  本文采用回溯搜索优本文由论文联盟http://www.2868631.com收集整理化算法(Backtracking Search Optimization Algorithm,BSA)与CSP算法相结合的方法。在使用CSP算法之前尽可能地挑出有用的脑电信号的导联子集。实验中采用第三届国际脑机接口竞赛数据集(BCI Competition III Dataset Iva)[7]和第四届国际脑机接口竞赛数据集(BCI Competition IV Dataset IIa)[8]进行分类实验。实验结果表明该方法比单纯使用CSP算法的分类识别率更高。


后页]]>
<![CDATA[基于百度搜索量数据?#21335;?#36153;者信心指数相关性研究]]> Sat, 23 Jul 2016 14:56:10 GMT 基于百度搜索量数据?#21335;?#36153;者信心指数相关性研究

一、引言
  在当前经济与技术高速发展的时代,大数据作为社会发展的必然产物越来越重要,统计数据挖掘与分析无论是在理论研究领域还是在?#23548;?#24212;用中都已经得到高度重视。“大数据”需要经过新模式的处理后才能具有更强的应用性和更高的决定力。消费者信心指数现今被广泛应用于经?#27809;?#21160;的预测决策中,而百度指数的海量网民行为数据是进行进行统计分析平台的重要平台,对于整个数据时代来说具有巨大?#21335;质?#24847;义。因此,选用百度搜索量数据构造网络消费者信心指数(CCI_NET),继而与传统消费者信心指数(CCI_STAT)进行对比分析经济变量的影响。
  二、数据选择与指数构造
  1.数据选择
  随着电商行业的大肆兴起,越来越多的商品可以实现线上的查询与购买,消费者存在普遍的网络搜索行为,利用百度指数平台获取2011.1.1-2015.12.31的行业关键词搜索量,并利用时差相关分析得到有关先行关键?#30465;?
  为了便于进行后续的实证模型分析和比较,将百度搜索量数据转化成季度数据,得到2011Q1-2015Q4共20期的有关数据。并同时对国民生产总值(GDP),?#29992;?#28040;费价格指数(CPI)、企业信心指数(ECI)、社会零售品消费总额(CRP)进行相应?#21335;?#38500;通货膨胀与季度化预处理。
  2.网络消费者信心指数的构造
  利用百度搜索量数据构造基于因子分析的网络消费者信心指数,得到因子F1与F2的因子得分时序图。
  因子F2总体呈?#21046;?#31283;且有一定幅度?#21335;?#38477;趋势,可将其理解为消费者维持日常所需的基本消费变化趋势。而因子F1则呈现一定的波动上升趋势,比较符合我国国民经济快速发展、人民消费逐步提升?#21335;质?#24773;况。因此把F1的序列值作为消费者信心的体现。由于国家统计局公布?#21335;?#36153;者信心指数的取值?#27573;?#20026;[0,200],为了便于两者的比较,我们构造新变量CCI_NET=F1+100,即为基于百度搜索量的网络消费者信心指数。
  三、实证分析
  1.格兰杰因果检验
  利用格兰杰因果关?#23548;?#39564;分析CCI_NET、CCI_STAT与相关经济变量之间的关系因果关系。并利用AIC准则确定消费者信心与经济变量之间模型的最优滞后期为1期。
  由表1可知,在5%?#21335;?#33879;性水平下,p值均小于0.05,所以拒绝原假设,即认为CCI_NET、CCI_STAT、CRP、ECI均为CPI和GDP的Granger原因。
  2.线性回归模型
  通过判定CCI_NET、CCI_STAT的引人能否增加线性宏观经济模型的估计精度。并且选用多变量线性回归模型来减弱宏观经济变量的交叉影响。
  表2给出了各线性回归模型的估?#24179;?#26524;,?#25351;?#26041;程的P值都为0,即各方程都是高度显著的且模型拟合效果较好,且各模型DW均在2上下,即不存在自相关关系。
  通过模型1(a)、1(b)、l(c)的对比可以发现,消费者信心指数能够影响经济增长,且网络消费者信心指数效果更优异。引入CCI后的模型R2增加0.02,且CCI_NET引入后增加0.05,也恰?#30431;?#26126;网络消费者信心指数的优异性。通过模型2(a)、模型2(b)和模型2(c)的对比可以发现,消费者信心指数能够影响CPI且CCI_NET对CPI的反应程度更敏?#23567;?
  四、结论
  1.大数据背景下,网络搜索量数据具有易获取、客观性、时效性的特点
  在当今大数据背景下,互联网的快速发展使得网络数据覆盖面更广、代表性更强。网络搜索数据量大量、可瞬时产生、获取成本低、准确和真实等优点,可以实现即时获取,更新较快,反映现象较为客观。
  2.信心管理对于推动与加强经济发展具有至关重要的作用
  信心管理不管是对于经济发展的预测还是整体人民生活水平的提高都至关重要,而当前我国商业界、消费群体和政府对消费者信心管理的关注程度还?#20889;?#21152;强。
  3.百度搜索本文由论文联盟http://www.2868631.com收集整理量大数据和消费者信心指数之间具有较强?#21335;?#20851;性
  经过相关的研究与分析,我们发?#20540;?#20170;时代庞大的网络搜索量数据与消费者信心指数之间确实存在较强?#21335;?#20851;性。消费者信心是一?#20013;?#29702;感受,难以直接度量,但消费者信心会通过消费者访问网络所留下的痕迹加以反映。

]]>
<![CDATA[企业在电商模式下搜索营销的研究]]> Sat, 23 Jul 2016 14:55:33 GMT 企业在电商模式下搜索营销的研究

一、搜索引擎营销?#21335;?#29366;分析
  (一) 搜索引擎工作原理及其发展
  搜索引擎是一种全文搜索模式,通过建立索引数据库来对网页中的关键?#24335;?#34892;搜索。当用户想筛选信息?#20445;?#25628;索结果中会显?#22659;?#25152;有与关键词有关的页面,然后再反馈给用户。经过一系列后台计算再将检索出来的页面按照与关键?#23454;南?#20851;程度进?#20449;帕小?
  搜索引擎基本原理包括三个方面内容,一是通过互联网获取相关网页,二是索引数据库的建立,三是在数据库中进行搜索后排序。
  (二)国内外搜索引擎营销?#21335;?#29366;分析
  1. 国外搜索引擎营销?#21335;?#29366;
  国外搜索引擎主要分为以下四个发展阶段。第一阶段,免费将网站提交到主要搜索引擎上。这个阶段的典型代表是免费的目录登录,通过搜索引擎优化将网站登录到搜索引擎,使企业在搜索结果中陈列靠前,这是此阶段搜索引擎的主要内容。第二阶段,出现技术型搜索引擎,由此引起优化搜索引擎策略。以谷歌为代表的搜索引擎公司凭借其高端技术在这个阶段大面积使用。?#21152;?#27492;引起优化搜索引擎方式由原来的标签优化转变为优化网站内容的策略。第三阶段,搜索引擎由免费转变为付费模式。在此阶段,付费模式的搜索引擎取代了免费搜索引擎并?#38469;?#22330;主导地位。因为能够免费地登录搜索引擎,所以企业网站推广最主要的地方在于搜索引擎注册和优化关键?#30465;?#31532;四阶段,搜索引擎模式从定位关键词转变为定位网页内容。此阶段,企业主要通过优化内部网站、网页的框架结?#36141;?#20869;容来吸引大量的访问量,从而提高企业排名。
  2. 国内搜索引擎营销?#21335;?#29366;
  搜索引擎作为新兴事物,在中国也如雨后?#26680;?#33324;蓬勃生长。网络市场发展形势、改革等促使搜索引擎步入调整阶段。之后,各?#25351;?#26679;的搜索引擎蓬勃发展,广告作为搜索引擎营销模式中的最主要方式,逐渐成为企业们所认可的产品和服务最?#34892;А?#35206;盖?#27573;?#26368;广泛的推广方式。国内网络市场变成各大企业争夺的焦点。搜索引擎营销已变成国内各企业宣传产品和服务不可或缺的方式之一。网民?#25512;?#19994;要利用搜索引擎来达到自己的目的,搜索引擎已经成为人民生活中重要的一部分大中小?#25512;?#19994;都是搜索引擎营销最主要的使用者,并?#20197;?#26469;越重视如何优化搜索引擎。
  二、企业搜索引擎营销模式分析
  (一)搜索引擎营销的基本原理
  搜索引擎营销的基本原理与工作原理没有太大区别,只是基于后者调整完善,但是具有更精确的定位。企业要先把自己的网站建立起来,把本企业?#21335;?#20851;产品投放到网站上去,再将其链接到搜索程序,进而索引数据库将其收录,用户在输入关键?#24335;?#34892;搜索?#20445;?#34584;蛛程序?#26500;?#38190;词链接到索引库,根据信息匹配的原理,根据分析、归纳、整理出与关键词相匹配的信息,提供给用户。用户从企业提供的数据中搜索筛选出自己需要的内容,这就是搜索引擎营销的工作内容和基本原理。
  (二)搜索引擎营销的特点
  1. 企业网站关联密?#26657;?#20225;业在网站上发布产品,用户输入关键词检索出想要的内容,因此网站是企业搜索引擎营销基础,网站的建立是企业搜索引擎营销的提前,网站建立的?#27809;?#30452;接影响到搜索引擎营销结果的?#27809;怠?#20225;业网站建设的目标是通过结合实用性和美观性等特点来优化完善网页,从而吸引广大目标客户,增加企业网站浏览量。
  2. 索引作用,索引在搜索引擎营销过程中至关重要,用户通过关键词的输入搜索出与企业相关信息,但是这样搜索出的信息只是用户所需信息的一部分摘要或索引部分,不能搜索出与企业相关的全部信息,用户只有通过点击链接才能进入到企业的网站,浏览企业网站和产品的全部内容。
  3. 用户选择是前提,搜索引擎营销与其他营销方式最大的区别就是,在检索的结果中用户可以自主选择要点击的页面。搜索引擎营销让用户主动选择搜索引擎,自主选择查询所需信息,如此使用搜索引擎的营销方式大大减少用户被动和干扰的过程,使用户具有更多的自主选择空间,这最符合用户消费购物个性化需求的心理特征,最能符合体现营销的主?#32908;?
  4. 精?#32423;?#20301;,用户结合自己的需求主动选择搜索引擎营销的关键词广告,能更精?#32423;?#20301;自?#26680;?#38656;信息内容,选择点击符合自身需求的页面,进而能够达到营销目的。
  5. 间接性的效果,企业使用搜索引擎营销可以提高收益,但却不是百?#32844;?#30340;提高,因为搜素引擎的效果表现在于直接增加企业网站的访问量,而不是直接增加企业产品销量和提高企业收益。搜素引擎营销只是为用户提供一种消费渠道和为企业提供一种营销手段,企业最终收益的提高主要在于企业自身和用户。也就是说,企业为用户提供了消费平台和渠道,但用户是否选择该企业,主要在于企业是否能符合与满足用户的需求。
  (三)企业的搜索引擎营销模式
  1. 免费登录分类目录
  在免费登录分类目录中,用户根据搜索引擎显示的页面设置需求,把有关数据添加到分类目录中,从而实现用户浏览目的。网站名、介绍、地址链接、关键词以及联?#31561;?#30340;信息等是搜索引擎页面设置的主要内容。由于免费登录分类目录具有智能性低、周期慢特征,所以主要用在初期进行网站推广,到中期和后期,免?#30740;?#34987;取代,搜索引擎逐渐由免费模式转变为收费模式。
  2. 付费登录目录
  在搜索引擎营销的后期出现了付费登录分类目录,且被广泛运用。付?#30740;?#25628;索引擎营销模式的工作过程和免?#30740;偷南?#31867;本文由论文联盟http://www.2868631.com收集整理似,但却比免费的更加高效,此类型搜索引擎营销模式不需要很强的技术性,只需要根据页面的设置要求支付一定数额的费用,再提交信息即可。程序会根据企业所支付的金额来排名供用户选择和点击。


后页]]>
<![CDATA[面向中等职业教育的垂直搜索引擎的分析与研究]]> Sat, 23 Jul 2016 14:54:14 GMT 面向中等职业教育的垂直搜索引擎的分析与研究

1 绪论
  1.1 概述
  目前我们的社会已经进入高度信息化时代,人们对获取信息的方式发生了根本性的变化,我们学习的途径不再局限于课堂和书籍,而是越来越多地通过互联网来?#19994;?#25105;们所需要的信息。那么为了能够更快更好地获取互联网上的资源,那么搜索引擎技术就应运而生了,搜索引擎(雅虎、百度、Google)能够使人们快速地搜索网络上我们需要?#21335;?#20851;信息。但是,获得的信息也是非常庞大和分散的,而且其中包含了许多与我们查询主题无关的内容,需要浪费用户大量的时间和精力来加以区别。垂直搜索引擎技术的产生就是为了解决通用搜索引擎专业性不够、集中度不高的问题,大大地提高了搜索的速度和精确度。而随着我国执行大力发展中等职业教育的政策,教育资源不足严重地制约着中等职业教育质量的提高[1]。目前面向普通教育资源的垂直搜索引擎发展的也很迅速,但是对于专门面向中等职业教育的垂直搜索引擎仍然严重不足。目前我们国家对于中等职业教育非常重视,?#24230;?#30340;力度也很大,对于计算机和网络的?#24067;?#26465;件已经完全具备在中等职业学校建立辅助教学的信息检索平台。
  1.2 国内外研究现状分析
  通用搜索引擎从诞生到现在已经经历了十余年的发展,目前已经广泛应用于互联网,成为人们搜索互联网资源必不可少的工具,?#23548;?#19978;,搜索引擎的出?#36136;?#20010;必然,因为随着网络资源的几何级别的增长,同时网络传播的速度大大超出了人们?#21335;?#35937;,互联网行业的应用已经渗透到人类生活的方方面面。搜索引擎就像茫茫大海中灯塔一样指引着人们在互联网中遨游。
  搜索引擎的发展经历了几个重要的历史时期:最开始出现的搜索引擎只是检索FTP上边的文件;随后的搜索引擎开?#38469;?#24405;网络地?#32602;?#25628;索引擎开?#38469;?#24405;标题;目前的搜索引擎,已经开始抓取网页全文了。
  1.3 面向教育的搜索引擎的发展现状
  目前流行的通用搜索引擎其工作原理及核心代码是不对外公开的,其产生查询结果的排序方法也被?#28216;?#21830;业机密。甚至有人质疑由于商业利益的关系对查询结果的排序造成了扭曲。面向教育的垂直搜索引擎的研究有很多的文章,但未对教育搜索引擎框架和核心给出详细的描述。这使得开发教育搜索引擎成为教育技术领域一项困难的任务。为此该文结合教育领域特征和搜索需求的多样化研究对面向教育的垂直搜索引擎框架及其关键技术进行了深入地探讨和研究。
  1.4 面向中等职业教育的垂直搜索引擎发展现状
  面向中等职业学校的垂直搜索引擎的研究目前严重不足。对于垂直搜索引擎来说专业性?#35282;科?#25628;索的效果越好,由于我国的经济形势的发展,各种产业不断升级,社会需要大量具有合格工作技能的专业人?#29275;?#22269;家对于中等职业教育越来越重视,?#24230;?#20063;越来越大,甚至达到了职业教育与义务教育同等重要的地位。
  2 垂直搜索引擎技术分析
  垂直搜索引擎系统由4部分组成:信息采集(Crawler)、分析、索引(Indexer)和查询(Query)。信息采集模块负责在互联网上查找网?#25215;?#24687;,并对所采集的网页内容进行解析、过滤、分词处理;索引模块对采集到的信息分析之后进行?#21476;判?#30340;方式存放到索引数据库中;查询模块根据用户输入的关键词,从索引数据库中?#19994;?#30456;关的网页,并根据相关度排序将网址和网页摘要反馈给用户。
  2.1 信息采集模块
  搜索引擎采集网页通常采用网络爬虫(Spider)[2]方式。通过它可以生成以用户输入的关键词为依据排序的URL及摘要的索引数据库,它的工作原理是?#26144;?#22987;URL开始不断抓取URL。这些URL信息集成一个URL队列,一直到不满足查询条件为止。通过分析过?#35828;?#19981;相关的网页链接,将有用的网页链接放到URL队列中,并在URL队列中?#19994;?#21518;面要抓取的网页。最后将抓取的URL和摘要按相关度的?#25215;?#20445;存到索引数据库中,用于后面的索引和查询。
  2.2 信息的分析模块
  目前互联网上的网页数量?#22987;?#20309;级别的增长,如何从浩如烟海的网络中抓取用户需要的信息,过?#35828;?#26080;关的网?#25215;?#35201;建立一个判定的规则。通用搜索引擎是不进行主题相关性判定的,造成抓取的网页数量庞大且分散。由于垂直搜索具地专业特性、精确度高、深度大的特点,要对信息采集模块采集到的网页进行主题相关度的判定。使其能够尽量地抓取高度相关的网页,这样提高了搜索的精确度和搜索的速度。同时还要制定一定的策略来解决网页重复和网页内容变化的问题。
  2.3 信息索引模块
  信息采集模块抓取的网页,保存在一个结构化的数据库中,按照类型进?#20449;?#21015;建立索引数据库以便进行快速检索。通用搜索引擎抓取的本文由论文联盟http://www.2868631.com收集整理网页庞杂、分散,因此不能进行全文检索,垂直搜索引擎因为是针对某一特定领域或某一特定人群,因此支持进行全文检索。使其具有相比于通用搜索引擎搜索深度大的优点。
  2.4 用户界面
  用户输入和输出的接口,现在通常使用Ajax技术来设计用户使用的界面。利用Lucene全文检索工具根据用户输入的关键?#24335;?#32034;引?#21335;?#20851;网页以列表的形式反馈给用户。


后页]]>
使命召唤ol停运公告
360重庆老时时开奖 河北时时快三 快三开奖北京一定牛 极速时时怎么玩 南国彩票-七星彩论坛 广东十一选五任选八推荐号 最快的时时彩开奖软件 wnba女子篮球联赛直播 pk公告 广东时时彩快乐十分