搭建自己的搜索引擎：Apache Solr 7.x知识汇总

Alan

6 年前

为什么不是 Elastic？我也发出过同样的疑问，但技术本无高低，且我们的选择出发点永远是最适合自己的，而非最好的。对于项目而言我自然是优先选择团队小伙伴们原本就熟悉的。于是便有了这篇文章，实际上是很多融合了一本已出版英文原版书Mastering Apache Solr 7.x中的精华，其实我的选项并不多，因为大多数 Solr 相关的原书都是出版于2014-2015年，这是我所找到近年针对Solr近期版本的唯一的一本书。

官方文档：https://lucene.apache.org/solr/guide/7_7/

图示Solr 如何集成应用

安装

首先需确保安装了 java，通过如下命令进行验证

java -version

# Ubuntu 16安装
apt-get update
sudo apt-get install openjdk-8-jdk

# vi /etc/environment
JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
source /etc/environment

java -version

# Ubuntu 16安装

apt-get update

sudo apt-get install openjdk-8-jdk

# vi /etc/environment

JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

source /etc/environment

下载 Solr: http://lucene.apache.org/solr/downloads.html，如7.7.2：

wget http://apache.01link.hk/lucene/solr/7.7.2/solr-7.7.2.tgz
tar -zxvf solr-7.7.2.tgz
cd solr-7.7.2/
bin/solr -e cloud
# 访问http://your.ip.addr:8983/solr/#/~cloud查看状态

bin/solr start -p 8984 # 指定端口启动
bin/solr stop -all
bin/solr status
bin/solr create -c xxx  # 创建一个 core 或 collection
http://your.ip.addr:8983/solr/admin/collections?action=DELETE&name=xxx  # 删除一个 collection

bin/post -c collection_name <path_to_documents>/*.pdf  # 索引 pdf

wget http://apache.01link.hk/lucene/solr/7.7.2/solr-7.7.2.tgz

tar -zxvf solr-7.7.2.tgz

cd solr-7.7.2/

bin/solr -e cloud

# 访问http://your.ip.addr:8983/solr/#/~cloud查看状态

bin/solr start -p 8984 # 指定端口启动

bin/solr stop -all

bin/solr status

bin/solr create -c xxx # 创建一个 core 或 collection

http://your.ip.addr:8983/solr/admin/collections?action=DELETE&name=xxx # 删除一个 collection

bin/post -c collection_name <path_to_documents>/*.pdf # 索引 pdf

默认配置两个节点，端口号分别为8983和7574

以上使用的是 cloud 模式，$SOLR_HOME/example下还包含其它配置集，有cloud, example-DIH, films和techproducts，均可通过 bin/solr -e xxx 来实现。

生产环境安装

sudo bin/install_solr_service.sh  ../solr-7.7.2.tgz
sudo service solr start|stop


bin/solr create -c films -shards 10 -n schemaless
http://your.ip.addr:8983/solr/films/schema
bin/post -c films example/films/films.json
http://your.ip.addr:8983/solr/films/select?q=*:*

sudo bin/install_solr_service.sh ../solr-7.7.2.tgz

sudo service solr start|stop

bin/solr create -c films -shards 10 -n schemaless

http://your.ip.addr:8983/solr/films/schema

bin/post -c films example/films/films.json

http://your.ip.addr:8983/solr/films/select?q=*:*

从 MySQL导入数据

# MySQL 
wget http://central.maven.org/maven2/mysql/mysql-connector-java/8.0.8-dmr/mysql-connector-java-8.0.8-dmr.jar 
mv mysql-connector-java-8.0.8-dmr.jar /opt/solr/dist 

# vi example/example-DIH/solr/db/conf/solrconfig.xml 
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" /> 
<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist" regex="mysql-connector-java-\d.*\.jar" />

# vi example/example-DIH/solr/db/conf/data-config.xml
<requestHandler name="/dataimport" class="solr.DataImportHandler">
    <lst name="defaults">
      <str name="config">db-data-config.xml</str>
    </lst>
</requestHandler>


# vi example/example-DIH/solr/db/conf/db-data-config.xml
<dataConfig>
  <dataSource driver="com.mysql.jdbc.Driver"
          url="jdbc:mysql://localhost:3306/chintan" user="root" password="root" />
  <document>
    <entity name="archives" query="select * from archives"
      deltaImportQuery="SELECT * from archives WHERE category_id='${dih.delta.id}'">
      <field column="category_id" name="category_id" />
      <field column="category_name" name="category_name" />
      <field column="remarks" name="remarks" />
    </entity>
  </document>
</dataConfig>

# vi example/example-DIH/solr/db/conf/managed-schema
<field name="category_id" type="string" indexed="true" stored="true" required="true" multiValued="false" />
 …
 <uniqueKey>category_id</uniqueKey>


bin/solr stop -all && bin/solr start -e dih

# MySQL

wget http://central.maven.org/maven2/mysql/mysql-connector-java/8.0.8-dmr/mysql-connector-java-8.0.8-dmr.jar

mv mysql-connector-java-8.0.8-dmr.jar /opt/solr/dist

# vi example/example-DIH/solr/db/conf/solrconfig.xml

# vi example/example-DIH/solr/db/conf/data-config.xml

<str name="config">db-data-config.xml</str>

</lst>

</requestHandler>

# vi example/example-DIH/solr/db/conf/db-data-config.xml

<dataSource driver="com.mysql.jdbc.Driver"

url="jdbc:mysql://localhost:3306/chintan" user="root" password="root" />

<entity name="archives" query="select * from archives"

deltaImportQuery="SELECT * from archives WHERE category_id='${dih.delta.id}'">

</entity>

</document>

</dataConfig>

# vi example/example-DIH/solr/db/conf/managed-schema

…

<uniqueKey>category_id</uniqueKey>

bin/solr stop -all && bin/solr start -e dih

日志级别设置

SOLR_LOG_LEVEL   # bin/solr.in.sh
# solr_home/server/resources/log4j.properties
# Set the root logger to level WARN curl -s http://localhost:8983/solr/admin/info/logging --data-binary "set=root:WARN"

SOLR_LOG_LEVEL # bin/solr.in.sh

# solr_home/server/resources/log4j.properties

# Set the root logger to level WARN curl -s http://localhost:8983/solr/admin/info/logging --data-binary "set=root:WARN"

后台Thread Dump中图标的状态：new, runnable, blocked, waiting, timed_waiting or terminated

schema 文件位置

schema.xml # ClassicIndexSchemaFactory
managed-schema  # 运行时修改，Schema API或schemaless模式

1 2	schema.xml # ClassicIndexSchemaFactory managed-schema # 运行时修改，Schema API或schemaless模式

主要目录

contrib: 包含高级的扩展如集群、语言监测、数据导入处理器等
dist：包含针对contrib模块的 jar文件、soleJ客户端文件和要部署到其它地方的 solr war 文件
docs：docs包含所有针对contrib模块的 HTML 文档，也包含一个简短的 Solr 教程
example：包含默认可用的配置集，不管我们选择哪种配置集，solr home 相应的变化
films：示例配置集，简单启动该配置集使用 solr -e start films
licenses：所有 Solr 依赖的证书文件

字段类型

通用属性

属性	描述
name	fieldType的名称
class	用于索引和存储这一类型数据的class名称 that is used to index and store the data for this type.
positionIncrementGap	针对多值字段。它用于指定多个值之间的距离。有助于避免本质上错误的词组匹配。
autoGeneratePhraseQueries	用于TextField。如果值为true，Solr生成针对相邻词语的词组自动查询。如果值 false，那么词语应放在双引号中以避免被当作词组。
enableGraphQueries	仅用于文本字段。仅在查询sow=false时可用。
DocValuesFormat	用于定义自定义的DocValuesFormat
PostingsFormat	帮助用于这个类型字段的自定义的PostingsFormat

字段默认属性

属性	说明	可用值	默认值
indexed	告知是否索引该字段。	true/false	true
stored	若值为true该字段的实际值可通过查询获取。	true/false	true
sortMissingFirst和sortMissingLast	如果不存在sort字段，它决定文档的位置。	true/false	false
docValues	如设为true这个字段的值放在面向列级的docValues结构。	true/false	false
multiValued	表示对于这个字段单个文档是否可以有多个值。	true/false	false
omitNorms	用于禁用字段长度归一化并节约内存。对所有主要的字段类型，默认值都是true。归一化仅对全文本字段才需要。	true/false	*
omitTermFreqAndPositions	在为true时省略词语频次、位置和该字段提交的payload。对非文本字段默认值为true。	true/false	*
omitPositions	类似于omitTermFreqAndPositions，但这时它保留有关词语频次的信息。	true/false	*
termVectors, termPositions, termOffsets, and termPayloads	如果这些属性为true时Solr会为每个文档维护词语向量。这些向量可能包含针对每次词语出现的位置、偏移和payload信息。	true/false	false
required	告诉Solr不要接受尝试添加没有该字段的文档。	true/false	false
useDocValuesAsStored	这依赖于docValues的启用。如果将其设为 true 会进行启动并且会允许该字段在fl参数中匹配 * 时像存储字段一样返回	true/false	true
large	仅在stored="true"和multiValued="false"时才生效。为不在内存中产生缓存，它针对有大量值的字段。	true/false	false

Solr 使用相似度来打分，使用的是BM25Similarity（Best Matching (BM）），可使用<similarity/>进行覆盖。

Solr 中的字段类型

BinaryField: 用于二进行数据。
BoolField: 用于布尔数据。可以为true或false。如果第一个字母是1，t或T，会被解析为true。所有其它值解释为false。
CollationField：用于校对排序的键，可用于地点相关的排序和范围查询。
CurrencyFieldType：用于货币和汇率。（CurrencyField已被淘汰）
DateRangeField：如名称的意思，它用于日期范围。
ExternalFileField:：在需要从外部文件中拉取值时使用。
EnumFieldType：用于值的枚举集合。（EnumField已淘汰）
ICUCollationField：类似于CollationField，推荐用它替代CollationField。
LatLonPointSpatialField：用于纬度和经度坐标对多点的多个值。它能用按纬度, 经度的顺序指定，中间用逗号分隔。
PointType：在我们有单个值的多维点时使用，及我们需要对非纬度、非经度或处理稀有用例时排序空间数据时使用。
PreAnalyzedField：在我们需要向Solr发送序列令牌流时使用时，来无需经过额外文本处理存储和索引。
RandomSortField：它不包含值，用于以随机顺序返回值。
SpatialRecursivePrefixTreeFieldType：它接受well-known text (WKT)格式的纬度、经度字符串。
StrField：这用小字段且不进行令牌化或分析。
TextField：用于多词或令牌。
DatePointField/DoublePointField/FloatPointField/IntPointField/LongPointField：这些类似相近的基于Trie的字段。唯一的不同在于它们使用基于维度点的数据结构且不要求任何精度配置。（TrieField, TrieDateField, TrieDoubleField, TrieFloatField, TrieIntField和TrieLongField等已淘汰）

UUIDField在传递NEW作为值时会生成一个新的UUID。在使用SolrCloud时推荐使用UUIDUpdateProcessorFactory来代替UUIDField生成UUID值，因为这样会让每个复制的每个文档都有唯一的UUID值。

Solr 使用DateTimeFormatter.ISO_INSTANT来进行格式化和解析：YYYY-MM-DDThh:mm:ssZ，其中 Z表示UTC。0000年之前的需添加 – 号，9999年之后的需添加+。-0002表示公元前3年。

可用的算式有NOW+4DAYS，NOW-6MONTHS，NOW/HOUR（当前时段的初始小时），可用的谓语：Intersects (默认)、 Contains、Within，如：fq={!field f=dateRange op=Contains}[1985 TO 1989]。

# 表示将以_c 为后缀的字段看作货币类型字段
<dynamicField name="*_c" type="currency" indexed="true" stored="true"/>

1 2	# 表示将以_c 为后缀的字段看作货币类型字段 <dynamicField name="*_c" type="currency" indexed="true" stored="true"/>

常用查询参数

参数	行为	默认值
defType	选取查询解析器：defType=dismax	Lucene(标准查询解析器)
sort	对搜索结果以升序或降序排序。值可指定为asc或ASC 及 desc或DESC。排序支持数字或字母内容。Solr 支持克隆字段的排序. 例：salary asc: 根据salary排序 (由高到低) name desc: 根据name排序 (z → a) salary asc name desc: 首先对salary由高到低排序，然后再次对结果集按照name排序 (z → a).	desc
start	指定结果开始展示的起点	0
rows	指定一次从完整结果集返回到客户端的最大文档数	10
fq	限制结果集通过对过滤查询的匹配的文档 (fq) 且不影响打分（score）
fl	指定对每个匹配文档响应内返回的字段列表。这些字段可能过空格和逗号来指定。例如： fl=id name salary: 仅返回id, name和salary fl=id,name,salary: 仅返回id, name和salary 表示fl=将返回所有字段。我们还可以通过和字段一起传递 score字段来返回每个文档字段的打分，例如： fl=id score: 返回id字段和打分 fl= score: 返回每个文档中的所有字段及每个字段的打分	*
debug	返回具体值的调试信息。例如： debug=query 将返回有关查询的信息 debug=timing将返回有关查询处理时间的调试信息 debug=results将返回有关打分结果的调试信息（explain） debug=all或debug=true将返回请求的所有调试信息	Not including debugging information
explainOther	指定一个Lucene查询，将返回带有每个匹配该Lucene查询的每个文档的explain信息的调试信息，与原始查询相关(由q 参数所指定)。例如： q=soccer&debug=true&explainOther=id:cricket 以上查询计算顶级匹配文档的打分 explain信息，并对比匹配id:cricket的文档的explain信息	blank
wt	指定响应writer的格式。支持的格式有 json, xml, xslt, javabin, geojson, python, php, phps, ruby, csv, velocity, smile和 xlsx。	json
omitHeader	告诉Solr从返回的结果中包含或排队头信息； omitHeader=true将从返回的结果中排除头信息。	false
cache	告诉Solr缓存所有查询和过滤器查询的结果。如果设为 false，它会禁用结果缓存。	true

标准查询解析器

参数	行为	默认值
q	指定使用标准查询语法的查询。这是一个针对任意请求的强制参数。
q.op	指定针对查询表达式的默认运算符，它覆盖默认在 schema 中配置的运算符。可用值有AND或 OR。
df	指定一个默认字段，它重载 schema 中的默认字段定义。
sow	如果设置为true, 会在空格处进行分割。	false

通配符搜索

通配符搜索类型	特殊字符	搜索示例
单个字符(匹配单个字符)	?	搜索字串 te?t 会匹配test 和 text。
多个字符 (匹配0或多个序列字符)	*	搜索字串 tes会匹配 test, testing和 tester。这个通配符可用于词语的开头、中间或结尾。例如，字串tet会匹配test 和 text，而*est会匹配pest 和 test。

模糊搜索： roam~会匹配roam, roams和 foam等词语。

邻近搜索： “soccer volleyball”~20对文档中soccer和volleyball间隔20个词以内会被匹配

范围搜索： price:[1000 TO 50000]，包含使用[和]，不包含使用{和}，如price:[5 TO 20}

布尔运算符

运算符	符号	描述
AND	&&	要求两个词语都匹配。例如我们搜索包含soccer和volleyball的文档： "soccer" AND "volleyball" "soccer" && "volleyball"
NOT	!	要求不出现紧接着的词语。例如，我们搜索包含soccer但不包含volleyball的文档： "soccer" NOT "volleyball" "soccer" ! "volleyball"
OR	\|\|	要求匹配其中一个词语。这是默认的连接运行符，例如，搜索包含soccer 或 volleyball的文档： "soccer" OR "volleyball" "soccer" \|\| "volleyball"
	+	要求出现紧接着的词语，例如搜索必须包含soccer而可能包含也可能不包含volleyball的文档： +soccer volleyball
	-	禁止紧接着的词语，例如，搜索包含soccer但不包含volleyball的文档： +soccer -volleyball

转义特殊运算符

特殊运算符有

+  -  &&  ||  !  ( )  { }  [ ]  ^  "  ~  *  ?  :  /
# \(1\+1\)\:2

1 2	+ - && \|\| ! ( ) { } [ ] ^ " ~ * ? : / # $1\+1$\:2

DisMax查询解析参数

参数	行为
q	指定不带有特殊字符并将布尔运算符+ 和 - 作为词语修饰符的查询字符串。这个参数不支持*等通配符： q=apache q="Apache Lucene"
a.alt	在主查询参数q没有指定或为空时定义一个替代查询。这个参数主要用于匹配获取 facet计数的所有文档。
qf	qf参数为指定字段分配一个boost因子来提升或降低其在查询中的重要性。例如， qf="firstField^3.4 secondField thirdField^0.2" 分配firstField的boost为3.4,，保持secondField为默认boost，并分配thirdField的boost为0.2。这些boost因子让对 firstField的匹配比secondField更重要，它又变得比 thirdField的匹配更为重要。
mm	最小参数定义了必须匹配的可选从句的最小数量。在q 参数中指定的词语或词组被看作可选从句，除非前置了布尔值 AND 或 OR。 mm的可用值为整型（正值或负值）、百分比（正值或负值）、简单或多条件表达式。 mm的默认值是100%，它表示所有的从句必须都匹配。
pf	词组字段 (pf)参数在所有q参数中的词语在文档中紧密相邻时会提升打分。
ps	词组间隔(ps)参数指定词语匹配pf参数中所指定词组所偏移的位置数量
qs	类似于针对pf的ps参数。查询词组间隔 (qs)定义用户通过qf参数显式包含在用户查询字符串中词组查询的间隔量。
tie	平分器（tie breaker）参数指定在查询词语在文档中匹配一个以上字段时用作平分器的浮点值（应当是小于1的值）。
bq	Boost Query (bq)参数指定用于添加到用户主查询中影响打分的额外及可选的查询从句。例如，如果你想要为近期文档增加关联度： q=apachebq=date:[NOW/DAY-1YEAR TO NOW/DAY] 也可使用多个bq参数来用于在需要将查询解析为单独从句时通过单独的提升
bf	Boost Functions (bf) 参数指定将添加到用户主查询中影响打分的函数（带有可选 boost）。任意由 Solr 原生支持的函数都与 boost 值一起使用。例如，如果你想要先显示近期的文档，语法如下： bf=recip(rord(createddate),1,100,100)

注：boost 拟译为加权、激励

eDisMax查询解析参数

参数	行为	默认值
sow	在空格处分隔。可选的值有true和false。一旦我们将其设为 true，文本分析会针对每个独立的空格分隔词进行。	false
mm.autoRelax	在一些从句像停止词那样删除或从句的删除不影响搜索时释放从句。在使用mm.autoRelax参数时我们需要当心，因为有时会得到意想外的结果。可用值有 true和false。	false
boost	一个多值字段列表解析为查询，将打分乘上针对所有匹配文档主查询的打分。
lowercaseOperators	将小写的and和 or视频与 AND 和 OR一样的运算符	false
pf2	一个带有可选权重的多值字段列表。它类似于pf，但基于词语shingle对。
pf3	一个带有可选权重的多值字段列表，基于word的三值shingle。它类似于 pf，不同点是它不为输入中所有说事情呢的每个字段构建词组，而是对词语shingle的每三个的每个字段构建一组词组。
ps	ps参数指定查询中的多少个词汇位置可通过视作匹配词组字段关闭。
ps2	类似于 ps但重载用于 pf2的间隔因子。如未指定，则使用ps。
ps3	类似于ps但重载用于 pf3的间隔因子。如未指定，则使用ps。
stopwords	告诉Solr禁用查询分析器中配置的StopFilterFactory。可用的值有 true 和 false。False会禁用 StopFilterFactory.	true
uf	指定终端用户允许显示查询哪个schema字段。	允许所有字段或 uf=*

通过 API 添加、修改、删除字段

# 添加
curl -X POST -H 'Content-type:application/json' --data-binary '{
    "add-field":{
    "name":"song-name",
    "type":"text_general",
    "stored":true }
}' http://localhost:8983/solr/gettingstarted/schema

# 替换
curl -X POST -H 'Content-type:application/json' --data-binary '{
    "replace-field":{
    "name":"song-name",
    "type":"string",
    "stored":false }
}' http://localhost:8983/solr/gettingstarted/schema

# 删除
curl -X POST -H 'Content-type:application/json' --data-binary '{
    "delete-field" : { "name":"song-name" }
}' http://localhost:8983/solr/gettingstarted/schema

# 添加

curl -X POST -H 'Content-type:application/json' --data-binary '{

"add-field":{

"name":"song-name",

"type":"text_general",

"stored":true }

}' http://localhost:8983/solr/gettingstarted/schema

# 替换

curl -X POST -H 'Content-type:application/json' --data-binary '{

"replace-field":{

"name":"song-name",

"type":"string",

"stored":false }

}' http://localhost:8983/solr/gettingstarted/schema

# 删除

curl -X POST -H 'Content-type:application/json' --data-binary '{

"delete-field" : { "name":"song-name" }

}' http://localhost:8983/solr/gettingstarted/schema

同理，还可使用add-dynamic-field， delete-dynamic-field， replace-dynamic-field及add-field-type， delete-field-type， replace-field-type，还有add-copy-field， delete-copy-field

列出字段：

http://localhost:8983/solr/gettingstarted/schema/fields
http://localhost:8983/solr/gettingstarted/schema/fieldtypes
http://localhost:8983/solr/gettingstarted/schema/dynamicfields
http://localhost:8983/solr/gettingstarted/schema/copyfields

http://localhost:8983/solr/gettingstarted/schema/fields

http://localhost:8983/solr/gettingstarted/schema/fieldtypes

http://localhost:8983/solr/gettingstarted/schema/dynamicfields

http://localhost:8983/solr/gettingstarted/schema/copyfields

其它还有/name, /version/, /uniquekey, /similarity

Schemaless

bin/solr start -e schemaless

# http://localhost:8983/solr/gettingstarted/schema/fields

bin/solr start -e schemaless

# http://localhost:8983/solr/gettingstarted/schema/fields

基础文本分析流程：

删除停止词
添加近义词
使用单词词根
设置所有为小写

Solr的工具

Analyzer：决定文本并生成对应的令牌流
Tokenizer：通过分隔符（如空格）分隔输入字符串生成信息流
Filter
- 添加：添加令牌到流中，如添加近义词
- 删除：从流中删除令牌，如停止词
- 转化：将令牌从一种形式转化为另一种形式，如大写转为小写

如：

<fieldType name="text_en" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_en.txt"/>
    <filter class="solr.LowerCaseFilterFactory"/> 
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_en.txt"/>
    <filter class="solr.SynonymGraphFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
    <filter class="solr.LowerCaseFilterFactory"/> 
  </analyzer>
</fieldType>

</analyzer>

</analyzer>

</fieldType>

Tokenizers

tokenizer是Solr所提供用于分词(tokenization)处理的工具，通过分隔符将文本流打断为分词，生成分词流。

StandardTokenizerFactory：空格和标点符号（逗号、点号、破折号、分号、冒号、井号和@）作为分隔符
WhitespaceTokenizerFactory：以空格作为分隔符
ClassicTokenizerFactory：空格和标点符号作为分隔符：非空格后点号不作为令牌的一部分；破折号不接数字则进行分隔；保留域名和邮箱作为单个令牌
KeywordTokenizerFactory：完整的输入字符串作为单个令牌
LowerCaseTokenizerFactory：将空格和非字母作为分隔符，最后将字母转为小写
LetterTokenizerFactory：丢弃所有非字母，使用相邻字母生成令牌
NGramTokenizerFactory：minGramSize=”2″ maxGramSize=”3″
EdgeNGramTokenizerFactory

Filters

过滤器主要处理添加（如近义词）、删除（如停止词）和转换（如大小写转换）。

StopFilterFactory：去除停止词words=”lang/stopwords_en.txt”
LowerCaseFilterFactory
ClassicFilterFactory：配合ClassicTokenizerFactory使用，删除点号和所有格中的 ‘s
SynonymFilterFactory：已淘汰，推荐使用SynonymGraphFilterFactory
SynonymGraphFilterFactory：synonyms=”synonyms.txt”（逗号分隔，如dumb,stupid,dull，匹配左侧、替换右侧：smart,clever,bright => intelligent,genius），索引阶段还必须定义FlattenGraphFilterFactory（对所有 Graph Filter 都必须要有）
ASCIIFoldingFilterFactory
KeepWordFilterFactory：words=”keepwords.txt”，仅保留列表中的令牌
KStemFilterFactory：removing removed都会转换为 remove
KeywordMarkerFilterFactory：protected=”protwords.txt”，保留列表中的非词根形式，如transforming
WordDelimiterGraphFilterFactory：KnowMore-> Know, More
CharFilter
- solr.MappingCharFilterFactory
- solr.HTMLStripCharFilterFactory
- solr.ICUNormalizer2CharFilterFactory
- solr.PatternReplaceCharFilterFactor
  
  <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="(\w+)(ing)" replacement="$1"/>
  
  1
  
  <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="(\w+)(ing)" replacement="$1"/>

多语言

方法一：managed-schema

<!-- English -->
<fieldType name="text_en" class="solr.TextField" positionIncrementGap="100">
 <analyzer>
 <tokenizer class="solr.StandardTokenizerFactory"/>
 <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_en.txt" />
 <filter class="solr.LowerCaseFilterFactory"/> 
 </analyzer>
</fieldType>
<!-- Spanish -->
<fieldType name="text_es" class="solr.TextField" positionIncrementGap="100">
 <analyzer> 
 <tokenizer class="solr.StandardTokenizerFactory"/>
 <filter class="solr.LowerCaseFilterFactory"/>
 <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_es.txt" format="snowball" />
 <filter class="solr.SpanishLightStemFilterFactory"/>
 <!-- more aggressive: <filter class="solr.SnowballPorterFilterFactory" language="Spanish"/> -->
 </analyzer>
</fieldType>
...
<field name="content_en" type="text_en" indexed="true" stored="true" />
<field name="content_es" type="text_es" indexed="true" stored="true" />

</analyzer>

</fieldType>

</analyzer>

</fieldType>

...

方法二：solr.xml

<cores>
 <core name="english" instanceDir="shared" dataDir="../cores/core-perlanguage/data/english/" schema="en_managed-schema.xml" />
 <core name="greek" instanceDir="shared" dataDir="../cores/core-perlanguage/data/greek/" schema="el_managed-schema.xml" />
 <core name="spanish" instanceDir="shared" dataDir="../cores/core-perlanguage/data/spanish" schema="es_managed-schema.xml" />
 <core name="aggregator" instanceDir="shared" dataDir="data/aggregator" />
</cores>

<cores>

</cores>

音标匹配

Beider-Morse Phonetic Matching (BMPM)

BeiderMorseFilterFactory：如Taylor, Tailer, and Tailor

常见问题

1、*** [WARN] *** Your open file limit is currently 1024.
It should be set to 65000 to avoid operational disruption.

# vi solr.in.sh
SOLR_ULIMIT_CHECKS=false

1 2	# vi solr.in.sh SOLR_ULIMIT_CHECKS=false

2、关于 log4j 漏洞问题

这次漏洞网上评论为“核弹级”，影响项目非常之多，Solr对应的 log4j 包位于：solr/server/lib/ext/目录下，将相应文件替换为log4j-2.15.0-rc2或之后的版本，重新启动 solr。

其它临时解决方案：

（1）修改 jvm 参数 -Dlog4j2.formatMsgNoLookups=true
（2）修改配置 log4j2.formatMsgNoLookups=True
（3）将系统环境变量 FORMAT_MESSAGES_PATTERN_DISABLE_LOOKUPS 设置为 true

（1）修改 jvm 参数 -Dlog4j2.formatMsgNoLookups=true

（2）修改配置 log4j2.formatMsgNoLookups=True

（3）将系统环境变量 FORMAT_MESSAGES_PATTERN_DISABLE_LOOKUPS 设置为 true