Я должен создать набор данных из некоторых текстовых файлов, называя их как векторы функций.Создать набор данных: извлечь функции из текстовых документов (TF-IDF)
Что-то вроде этого:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
каждое положение вектора представляет собой слово, и оценка дается что-то вроде TF-IDF.
Знаете ли вы, какую библиотеку/инструмент/что-нибудь для этого? (java лучше)
я знаю, но мое время конечно и TFIDF выглядит довольно легко реализовать – BigG
я не имею в виду только алгоритм TFIDF, я имел в виду конец к концу, из файла синтаксического анализа, индексации для поиска/рейтинг и т.д. – Darknight