2010-05-27 7 views
1

Я должен создать набор данных из некоторых текстовых файлов, называя их как векторы функций.Создать набор данных: извлечь функции из текстовых документов (TF-IDF)

Что-то вроде этого:

doc1: 1,0.45 6,0.001 94,0.1 ... 

doc2: 3,0.5 98,0.2 ... 

... 

каждое положение вектора представляет собой слово, и оценка дается что-то вроде TF-IDF.

Знаете ли вы, какую библиотеку/инструмент/что-нибудь для этого? (java лучше)

ответ

0

Конечно, есть много например http://en.wikipedia.org/wiki/Lucene

Однако

Я рекомендую вам написать основную ИК-систему с нуля. Взгляд под капот всегда отличный опыт обучения.

+0

я знаю, но мое время конечно и TFIDF выглядит довольно легко реализовать – BigG

+0

я не имею в виду только алгоритм TFIDF, я имел в виду конец к концу, из файла синтаксического анализа, индексации для поиска/рейтинг и т.д. – Darknight