Lucene和Lucene.Net中的俄语分析器
时间:2020-03-05 18:53:43 来源:igfitidea点击:
Lucene对俄语的支持很差。
RussianAnalyzer(lucene-contrib的一部分)的质量非常低。
Snowball的RussianStemmer模块甚至更糟。它不能识别Unicode字符串中的俄语文本,显然是假定必须使用Unicode和KOI8-R的某种奇怪组合。
我们知道更好的解决方案吗?
解决方案
回答
如果所有其他方法均失败,请使用Sphinx
回答
这就是开源的美。我们拥有源代码,因此,如果当前的实现对我们不起作用,则可以始终创建自己的甚至更好的扩展现有的实现。
一个好的开始将是《 Lucene in Action》一书。
回答
我的回答可能为时已晚,但根据记录,我发现AOT项目的分析仪要比Lucene随附的分析仪好得多。