基于tomcat的solr环境搭建(Linux)
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了基于tomcat的solr环境搭建(Linux),小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含3242字,纯文字阅读大概需要5分钟。
内容图文

?? solr是基于lucene的一个全文检索服务器,提供了一些类似webservice的API接口,用户可以通过http请求solr服务器,进行索引的建立和索引的搜索。
索引建立的过程:用户提交的文本会经过分词器进行分词,分词后的关键字会存到索引库里,索引库是关键字和目标文档的映射集。
索引搜索的过程:用户提交的搜索文本也是会经过分析器,得到的关键字会去索引库查询对应的目标文档并返回给客户端,采用的是权重排序算法。
1.solr的安装
2.中文分词器的安装
配置信息:
<!-- 中文分词器 --> < fieldType name ="text_ik" class ="solr.TextField" > < analyzer type ="query" isMaxWordLength ="true" class ="org.wltea.analyzer.lucene.IKAnalyzer" /> < analyzer type ="index" isMaxWordLength ="false" class ="org.wltea.analyzer.lucene.IKAnalyzer" /> </ fieldType >
3.1 DIH全量同步
相关配置信息:
<!-- 数据导入配置 --> < requestHandler name ="/dataimport" class ="org.apache.solr.handler.dataimport.DataImportHandler" > < lst name ="defaults" > < str name ="config" >data-config.xml</str></lst></requestHandler>
3.2
相关配置信息:
3.3 schema.xml同步字段配置
相关配置信息:
<!-- 同步mysql爬虫表的字段 --> < field name ="create_date" type ="date" indexed ="true" stored ="true" /> < field name ="update_date" type ="date" indexed ="true" stored ="true" /> < field name ="news_url" type ="text_general" indexed ="true" stored ="true" /> < field name ="news_origin" type ="text_general" indexed ="true" stored ="true" /> < field name ="key_word" type ="text_general" indexed ="true" stored ="true" /> < field name ="news_html" type ="text_ik" indexed ="true" stored ="true" /> < field name ="is_publish" type ="int" indexed ="true" stored ="true" /> < field name ="is_del" type ="int" indexed ="true" stored ="true" /> < field name ="flag_number" type ="text_general" indexed ="true" stored ="true" /> < field name ="out_line" type ="text_ik" indexed ="true" stored ="true" /> < field name ="state" type ="int" indexed ="true" stored ="true" /> <!-- 同步mysql爬虫表的字段end -->
4.1DIH的增量同步(其实就是修改data-config.xml配置文件)
相关配置信息:
< dataConfig > < dataSource driver ="com.mysql.jdbc.Driver" url ="jdbc:mysql://192.168.40.1:3306/shanghang" user ="root" password ="root" /> < document > < entity name ="consensus_data2" pk ="id" transformer ="DateFormatTransformer" query ="select * from consensus_data2 where id >= ‘${dataimporter.request.id}‘" deltaImportQuery ="select * from consensus_data2 where id = ‘${dih.delta.id}‘" deltaQuery ="select id from consensus_data2 where create_date > ‘${dataimporter.last_index_time}‘" > < field column ="id" name ="id" /> < field column ="create_date" name ="create_date" dateTimeFormat =‘yyyy-MM-dd HH:mm:ss‘ /> < field column ="update_date" name ="update_date" dateTimeFormat =‘yyyy-MM-dd HH:mm:ss‘ /> < field column ="news_url" name ="news_url" /> < field column ="news_origin" name ="news_origin" /> < field column ="keyWord" name ="key_word" /> < field column ="news_html" name ="news_html" /> < field column ="is_publish" name ="is_publish" /> < field column ="is_del" name ="is_del" /> < field column ="flag_number" name ="flag_number" /> < field column ="out_line" name ="out_line" /> < field column ="state" name ="state" /> </ entity > </ document > </ dataConfig >
原文:http://www.cnblogs.com/3chi/p/7262080.html
内容总结
以上是互联网集市为您收集整理的基于tomcat的solr环境搭建(Linux)全部内容,希望文章能够帮你解决基于tomcat的solr环境搭建(Linux)所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。