下载solr
1 | https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/6.5.1/solr-6.5.1.tgz |
配置一个普通的solr core
1 | wget https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/6.5.1/solr-6.5.1.tgz # 已下载请忽略 |
solr6 支持动态字段添加,不需要配置schema.xml文件
到此为止,一个普通的solr core配置完毕了
配置一个支持pdf解析的solr core
- 复制配置文件
1
cp -r configsets/basic_configs ./mypdfconf
复制需要的依赖包
1
2cp -r ../../contrib/extraction/lib ./mypdfconf/
cp ../../dist/solr-dataimporthandler-* ./mypdfconf/lib/编辑solrconfig配置文件
1
vim mypdfconf/conf/solrconfig.xml
添加依赖配置到94行
1
<lib dir="./lib" regex=".*\.jar" />
配置dataimport到860行
1
2
3
4
5<requestHandler name="/dataimport" class="solr.DataImportHandler">
<lst name="defaults">
<str name="config">tika-data-config.xml</str>
</lst>
</requestHandler>配置 tika-data-config.xml
1
vim tika-data-config.xml
添加以下内容
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34<dataConfig>
<script><![CDATA[
id = 1;
function GenerateId(row) {
row.put('id', (id ++).toFixed());
return row;
}
function WipOffHtml(row) {
var file = row.get('file');
row.put('file',file.substr(0,file.indexOf('.')));
return row;
}
]]>
</script>
<dataSource type="BinFileDataSource" />
<document>
<entity name="files" dataSource="binary" rootEntity="false"
processor="FileListEntityProcessor"
baseDir="/tmp/pdfs" fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"
recursive="true">
<field column="fileAbsolutePath" name="filePath" />
<field column="fileSize" name="size" />
<field column="fileLastModified" name="lastModified" />
<entity name="documentImport" processor="TikaEntityProcessor" url="${files.fileAbsolutePath}" format="text" transformer="HTMLStripTransformer,RegexTransformer,script:GenerateId">
<field column="file" name="fileName"/>
<field column="id" name="id" />
<field column="Author" name="author" meta="true"/>
<field column="title" name="title" meta="true"/>
<field column="text" name="text" stripHTML="true" regex="\t|\r|\n|\s"
replaceWith="" />
</entity>
</entity>
</document>
</dataConfig>添加pdf,doc文档(非扫描版)
1
cp ../../../../example/exampledocs/solr-word.pdf /tmp/pdfs/
添加core
导入pdf数据
##配置scame 分别添加 text,title,author,filePath,size,lastModified