java - tf*idf 实现？

Question

提问by Aravind Chinta

I am basically creating a search engine and I want to implement tf*idf to rank my xml documents based on a search query. How do I implement it? How do I start it? Any help appreciated.

我基本上是在创建一个搜索引擎，我想实现 tf*idf 来根据搜索查询对我的 xml 文档进行排名。我该如何实施？我该如何开始？任何帮助表示赞赏。

Answer 1

回答by daveb

I did this in the past, and I used Luceneto get the TD*IDF data.

过去我是这样做的，我使用Lucene来获取TD*IDF数据。

It took fair amount of fiddling aound though, so if there are other solutions people know are easier, then use them.

尽管如此，这需要大量的摆弄，所以如果有其他人们知道更容易的解决方案，那么就使用它们。

Start by looking at TermFreqVectorand other classes in org.apache.lucene.index.

首先查看org.apache.lucene.index中的TermFreqVector和其他类。

Answer 2

回答by W.P. McNeill

tfidfis a standalone Java package that calculates Tf-Idf.

tfidf是一个独立的 Java 包，用于计算 Tf-Idf。

Answer 3

回答by shark8me

Surprising that the Weka library hasn't been mentioned here. Weka's StringToWordVector classimplements TF-IDF.

令人惊讶的是这里没有提到 Weka 库。Weka 的StringToWordVector 类实现了 TF-IDF。

Answer 4

回答by Sridhar Sarnobat

Apache Mahout:

Apache Mahout：

https://github.com/apache/mahout/blob/master/mr/src/main/java/org/apache/mahout/vectorizer/TFIDF.java

I believe it requires a Hadoop File System, which is a bit of extra work. But it works great.

我相信它需要一个 Hadoop 文件系统，这是一些额外的工作。但效果很好。

java - tf*idf 实现？

提问by Aravind Chinta

回答by daveb

回答by W.P. McNeill

回答by shark8me

回答by Sridhar Sarnobat

相关推荐

最近更新

标签

java - tf*idf 实现？

提问by Aravind Chinta

回答by daveb

回答by W.P. McNeill

回答by shark8me

回答by Sridhar Sarnobat

相关推荐

Java - 实现接口

java 从 HashMap 中提取值

java 如何避免 Hibernate 中的 LazyInitializationException？

Android：从 C++ Native Activity 调用 Java 类

相关推荐

最近更新

标签