线点科技-全文检索介绍

时间:2019-10-10 02:07来源:未知 作者:admin 点击:
678455.com , 马经挂牌系列e新图 ,线点科技-全文检索介绍_计算机软件及应用_IT/计算机_专业资料。线点科技-全文检索介绍 全文检索产品介绍 1 综述 1.1 产 品 概 述 线点全文搜索产品(XDCloudSearch)是由北京线点科技公司采用国际领 先的云计算架构和NoSQ

  678455.com马经挂牌系列e新图,线点科技-全文检索介绍_计算机软件及应用_IT/计算机_专业资料。线点科技-全文检索介绍

  全文检索产品介绍 1 综述 1.1 产 品 概 述 线点全文搜索产品(XDCloudSearch)是由北京线点科技公司采用国际领 先的云计算架构和NoSQL检索技术, 结合自己近十年的信息检索和中文信息处理 研究成果而开发的。它是新一代用户搜索技术与资讯革命的中心,我们将改变 组织营运的方法与策略,将用户搜索转变成IT架构里的重要组件,并让搜索成 为每个重要应用的核心引擎。帮助客户以搜索科技领先竞争对手。 以线点全文搜索产品为核心的用户搜索引擎解决方案, 将不同来源的所有 信息内容整合在一起并以易用的形式再现给用户,为用户解决大数据下的全文 检索及数据分析和数据挖掘应用,并向用户提供高效的、准确的、安全的搜索 体验。 线点全文搜索以“聚合”为设计理念,不仅关注于大数据的整合与检索, 同时在高效的并行计算架构基础上,通过业务驱动,实现内容的聚合与挖掘。 “聚合”搜索,更关注在用户业务领域内的垂直化需求,以及基于对用户的特 性标签和用户行为分析的个性化搜索展示和数据智能推送。从而使搜索引擎系 统真正地具备行业特性和用户特性。 1.2 产 品 特 点 (1)提供全方位检索手段,包括外部特征与正文内容的各种逻辑组合检 索、位置检索、二次检索、渐进检索、模糊检索、历史检索、词根检索、大小 写敏感检索、概念检索、对检索结果按与检索表达式的相关性程度排序等。实 现精确计算,报告准确的检索记录数。 (2)支持对检索结果的各种排序:基于文章内容与检索表达式的相关度 计算的相关性排序;基于一个或多个特征属性的字段排序。 (3)支持检索结果的统计和浏览 (4)提供动态索引,能够实时提供检索服务,原子更新,可添加、删除、 修改和增加已存在文档的字段值,无需再次传送整个文档。分布式索引设计, 提供近乎实时的操作和 NoSQL 特性,如 realtime-get, 乐观锁和持续更新。 (5)支持按词索引、按字索引和字词混合索引。即适应不同应用环境的 需求。 (6)完善的非结构化数据管理。 (7)支持多种数据源数据的全文索引。可自动将关系型数据库中的数据 导入全文数据库,如 DB2 、Oracle、 SQLServer 、 MySQL 、 sybase、 Informix 、 Postgresql、Access、达梦数据库、人大金仓数据库,并自动保持同步更新。 (8) 支持多种格式文档信息全文检索, 文档格式二百余种, 支持ftp采集。 (9)集成先进的中文自然语言处理技术,实现自然语言及智能扩展检索, 如同义词、 概念检索、 拼音检索检索。 支持拼写检查 (DirectSpellChecker) 可 直接从自动字典检索校正;可基于关联度来选择一组文档; (10)提供按栏目、网站、网站群的全文检索功能。 (11)支持中英文的混合检索,支持日、韩、法、藏、维多语系。 ( 12 )允许使用文中的任意字、词、短语、句和片段进行检索,支持 RegexpQuery 正则表达式查询 (13)支持结构化数据和非结构化数据的混合检索 (14)支持对domino、notes、documentum、Quickr等多个系统的集成 (15)支持个人电脑,手机,Pad等多终端 2 技术 优势 2.1 强 大 的 处 理 能 力 线点科技全文搜索产品不仅提供了快速检索功能(在千万级数据下,全文 检索能在0.5秒钟之内完成),同时也有着高效的海量数据处理能力。每小时能 处理百万的数据库数据, 或是几万篇的文档。 包括中文的分词和建立数据索引。 我们的产品在多个大型项目中经过了实际的检验, 成功实施过多个超过5千万数 据规模的项目。 2.2 准 确 的 分 词 处 理 能准确分析信息内容,进行分词处理,有效保证中文检索的准确性;系统 应具有开放接口,可快速集成第三方分词产品;同时应支持用户自定义专业词 汇,支持中文、英文等多种语言; 2.3 丰 富 的 数 据 格 式 支 持 除了基于数据库的搜索以外,线点科技全文搜索产品还支持文件检索方 式,可以通过指定文件所在目录进行高效检索,并内置文件解析器,可对Text、 HTML、XML、RTF、MS OFFICE文档 (Word/Execl/Powerpoint)和PDF文件自动解 析。同时根据用户需要产品也支持从其它各类数据源获取要检索的数据内容, 例如:XML文件、exchange邮件服务器等等其它数据池。 2.4 跨 数 据 源 检 索 可以从文件系统、网站、关系型数据库系统等系统中采集数据,并提供二 次开发包, 以实现组织对特有数据源的处理; 支持多种数据源数据的全文索引。 可自动将关系型数据库中的数据导入全文数据库,如DB2、Oracle、SQLServer、 MySQL、sybase、Informix、Postgresql、Access、达梦数据库、人大金仓数据 库,并自动保持同步更新。 2.5 跨 平 台 支 持 支持各种主流操作系统和主流开发平台,如Windows、Linux;并支持主流 开发平台,如Java、 PHP、asp、flex;,系统支持SAN、NAS、LAN-free 和DAS等多种存储设备; 线点科技全文搜索产品既可以搭建在传统的网络和服务器环境下, 同时也 提供了对私有云(Private Clouds)的支持。 可以与vSphere、 Hyper-V和Xen集成, 从而充分利用现有硬件资源和软件资源,降低用户的成本。 2.6 良 好 的 扩 展 功 能 线点科技XDCloudSearch产品支持分布式,并且在各个功能模块均可以实 现分布。通过管理控制台强大的索引管理功能,管理人员可以针对数据域制定 优化方案,在存储空间和响应速度以及内存占用之间调整平衡,以达到最优性 能。 XDCloudSearch使用多级缓存检索结果的策略实现海量数据的快速响应, 如 搭配高性能服务器,则效果更加明显。 XDCloudSearch 支持与Hdoop、Hbase、lustre等分布式系统集成部署。 同时,系统采用了插件式的开发方式,可以通过开发多种插件进行功能扩 展,满足客户的个性化需求。 2.7 完 善 的 安 全 机 制 提供完善灵活的安全访问控制机制, 包括权限控制、 用户认证和用户授权, 以保证系统内信息内容安全,提供系统级、索引库级、记录集和字段级的安全 控制,只有用户有权访问的内容才显示在搜索结果列表和分类视图中。 XDCloudSearch 支持 LDAP(Lightweight Directory Access Protocol) 协议,LDAP提供了一种国际通用的目录访问标准,可以在任何计算机平台上, 用很容易获得的而且数目不断增加的LDAP的客户端程序访问LDAP目录。而且也 很容易定制应用程序为它加上LDAP的支持。 意味着XDCloudSearch可以与任何支 持LDAP协议的软件或系统进行数据通信。 支持“索引时安全性”,即搜索引擎的爬行器在相应数据源的爬取过程中 提取数据源端的安全控制信息 (ACL) , 并构建于索引中。 用户提交搜索请求时, 搜索引擎利用索引中的安全控制信息对用户搜索结果进行安全过滤,从而达到 用户只能看到有权限访问的信息的目的。 2.8 搜 索 结 果 多 样 化 展 现 方 式 无论是数据来源于数据库中,或者是各类文件,对于搜索的展示结果,用 户可以通过接口或委托线点科技开发进行个性化、多样化的展现,也可以类似 数据库那样,对于数据字段进行自由调用查询和展现。 2.9 易 用 性 与 用 户 体 验 系统主要功能均提供可视化界面维护,采用B/S架构,界面操作友好,功 能清晰,便于用户使用和维护。 3 功能 概述 3.1 数 据 采 集 XDCloudSearch支持对SqlServer、Oracle、Mysql、DB2、PostgreSQL、 Informix、人大金仓、达梦等常见的十余种数据库进行数据采集,采集对象 可以为单表、多表或视图,并且可以进行增量采集和数据自动更新。支持 blob、clob等大字段内容;支持一个字段指向外部文件联合采集建索引;除 了关系数据库,还支持Native-XML数据库。 线点全文搜索产品支持对本地文件、网络文件目录、FTP目录、NFS文件 目录进行遍历、采集和更新。支持的文件类型近300余种,包括常见的Txt、 HTML、Xml、Office文档、Pdf、Rar文件,包括JPEG、BMP、GIF、TIFF、PCX、 AVI、WAV等二十多种图像声音动画格式。此外也可以自定义文件扩展名和解 析器。用户也可以通过开发插件方式来解析其他的文件格式内容。 线点全文搜索产品可支持多国语系(英文、繁简体中文、日文、西欧语 系等)混合的文件;可支持藏文、维文等少数民族语言,文件编码支持Big5、 GBK、Unicode、UTF-8等。 全文搜索产品还以插件方式提供对多种第三方数据的采集连接,这些数 据源包括MS Exchange 、Lotus Notes、Domino、SAP、MS SharePoint、EMC Documentum等。线点科技在多年的项目实践中,与第三方的数据连接超过一 百种,例如万方、知网、维普、聚合等等。 3.2 数 据 处 理 ( ETL ) ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。 它是构建数据仓库的重要环节。 数据处理模块, 主要是对数据的清洗、 过滤、 转换和处理。 XDCloudSearch可以条目(记录)为单位,也可以字段为最小颗粒度进行 数据处理。全文搜索产品以流水线模式进行多阶段的数据处理,并支持插件 方式,自定义流水线,或是在流水线中插入、去除、修改处理流程。 通过数据处理(ETL),可以实现实体提取、自动关键词提取、自动摘要、 引擎分类等等功能。也可以通过编写扩展插件,满足用户的个性化需求。 3.3 数 据 索 引 XDCloudSearch支持对多Unicode、GB2312等多种编码,多国语言以及藏 维文等少数民族语言的内容索引。 支持按词索引、 按字索引和字词混合索引。 即适应不同应用环境的需求。索引结构支持多种数据类型(如日期、字符串、 短语、文档和二进制多媒体类型)等等; 支持动态增量索引,能够实时提供检索服务。即数据增删改时快速同步 更新索引,而不需重建整个索引。同时高效的数据和索引压缩,实现了低空 间膨胀率。 线点全文搜索产品能负载的索引大小, 理论上仅受磁盘空间存储的限制, 通过分布式功能,索引可以存储在不同的磁盘上或是不同服务器上,同时联 机的服务器可以达到上千台。 整个索引系统会被当作一个统一的资源来考虑,系统将会根据不同节点 或是不同服务器的负载情况,来对新增的索引自动进行分发,从而更有效更 合理地利用服务器资源。 3.4 全 文 检 索 功 能 线点全文搜索产品的全文检索功能采用了优化的查询算法,包括分布式 索引技术技术、多线程并行运算技术、 Bigram技术等等,并且使用了多级 缓存机制,支持大并发的数据访问,也能够在上百 G数据下,达到亚秒级的 检索速度。以下对全文检索产品支持的检索方法进行介绍: 3.4.1 关 键 字 检 索 关键字检索是最普通的检索方式,可以划分为两种,一种是单词检索方 式,另一种是短语检索方式。如果按字段因素考虑还可以划分为加入字段限 制的关键字检索与不加入字段限制的关键字检索。如果用户只输入关键词而 不设定检索字段进行检索,则系统按照设置的默认检索字段进行检索。 支持大小写无关检索、全半角无关检索、中文简繁体扩展检索,对数值、 日期等特征字段可以进行比较和范围检索; 3.4.2 逻 辑 运 算 检 索 狭义的逻辑运算符号包括AND、OR、NOT,广义的逻辑预算符号除了包括 上述三个运算符外还包括括号(),括号必须成对出现,而且括号允许嵌套。 逻辑运算符的优先级别为NOT最大,其次AND,最后是OR,括号可以改变逻辑 运算的顺序。此外产品还支持*?%通配符,帮助用户更准确命中结果。 3.4.3 同 义 词 搜 索 同义词搜索是指搜索中对于义同字不同的语言处理,例如中国石油,使 用了多种不同的名称:“中国石油”、“中石油”、“中国石油天然气股份 有限公司”等。如果我们仅用其中的某一个或某几个名称检索,而不知道或 忽略了一些其他的叫法,就会产生漏检。 采用同义词搜索,系统会将搜索词语进行同义延伸,在搜索时同时对该 词语的同义词进行搜索,从而提高搜索的查全率。 3.4.4 拼 音 和 概 念 搜 索 拼音检索指的是在系统中输入拼音即可找到对应的中文词语内容,这其 中包含了拼音纠错、多音字处理的功能。 概念检索体系中,词之间的关系将以概念进行来划分,通俗地说是以词 义或语义来进行相关度判断,而不是词语的中文文字。通过概念检索更能够 准确地把握用户检索意图,提高用户的满意度,例如 用户检索“手机”, 那么将提示“移动电话、Mobile”等多个概念。 线万的概念词库, 并且允许用户自定义和扩展 概念词库。 3.4.5 多 语 言 检 索 除了中文简体以外,产品还支持中文的简繁体检索、中英文混合双语检 索、支持德语,法语,日语等多国语言、支持藏文,维吾尔文,蒙文等少数 名族语言检索。 3.4.6 二 次 检 索 二次检索的确切定义为在已有的检索结果中进行检索,即在某次(不局 限于第一次)检索中输入新的检索条件进行检索。二次检索可以提高用户检 索结果的准确率,通过漏斗过滤机制,引导用户检索到目标数据。 3.4.7 智 能 检 索 线点科技独创的智能检索技术,在查全和查准方面比一般检索系统高得 多。智能检索是线点科技多年的检索技术和经验的总结,也是通过对用户搜 索行为和搜索意图分析而得出的检索最优路径。智能检索融合了智能中文分 词、同义词检索、拼音检索、主题词检索、非法 ,停止词处理、英文词根检 索等多种检索技术,符合大多数用户的检索习惯。 此外,结合数据分析和用户行为分析,可以实现智能语义搜索功能,通 过用户搜索词自动判断用户搜索意图,直接推送数据结果。 4 案例 介绍 中央办公厅(内网), 民政部智库项目,教育部内网项目,北京市商务 局,北京市经信委,北京市知识产权局,北京市台办。 5 产品 报价 线点科技全文检索产品软件产品报价预计25-35万元

(责任编辑:admin)
相关内容:
线点全文检索软件 【点线】图片_点线素材下载-包 【线点科技软件大全】免费在线 邢台市科技局“面线点”结合深 】北京线点科技有限公司怎么样
服务评价  | 诚聘英才  | 友情链接  | 联系我们  | 投诉建议
版权所有:95160商旅网
香港挂牌生肖图| 生肖号码在线统计代码| 香港马会马报资料大全| 威尼斯人高手论坛| 最精准的马会内部资料| 财神网一句解一肖| 正版历史挂牌号码记录| 如何购买香港六合| 全讯网| 六和最开奖现场直播开奖记录|