怎么写引擎( 二 )


现有的搜索引擎基本上分为三类: 1.1 single search engine(独立搜索引擎) 它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo 。1.2 Meta search engine(元搜索引擎) 它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等 。
元搜索引擎本身可以有也可以没有自己的数据库 。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、0R、N0T等简单的语法操作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性 。
1.3 Net search engine(网络搜索软件) 就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器 。相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源 。
2 网络搜索引擎的工作原理及其基本构成 用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户 。为了保证用户查找信息的精度和新鲜度 。
对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库 。独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务 。
所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成. 网络蜘蛛 。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问 。
网络蜘蛛访问页面的过程是对互连网上信息遍历的过程 。为了保证网络蜘蛛遍历信息的广度,一般事先设定_ 些重要的链接,然后进行遍历 。
在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接 。索引软件 。
网络蜘蛛将遍历搜索集得到的网页存放在数据库中 。为了提高检索的效率,需要建立索引 。
索引一般为倒排档索引 。搜索软件 。
该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序 。然后将分级排序后的结果显示给用户 。
3 搜索引擎的主要性能评价指标 3.1 搜索引擎建立索引的方法 数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项 。有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义 。
如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息 。Google、infoseek还在建立索引的过程中收集页面中的超链接 。
这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判别时的准确度 。由于索引不同,在检索信息时产生的结果会不同 。
3.2 搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能 。另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息 。