2017-01-19 25 views
2

Как я читал о tf–idf на Wiki, я был смущен тем, что это означает под словом «документ». Означает ли это пункт?Что означает «документ» в контексте НЛП?

«Частота обратного документа является мерой того, сколько информации предоставляет слово, то есть, является ли этот термин распространенным или редким во всех документах. Это логарифмически масштабированная обратная доля документов, содержащих слово, полученное путем деления общего количества документов на количество документов, содержащих этот термин, а затем с помощью логарифма этого частного ».

ответ

2

Document в контексте tf-idf обычно можно рассматривать как bag of words. В vector space model каждое слово представляет собой измерение в очень высокоразмерном пространстве, где величина слова-вектора - это количество вхождений слова (термина) в документе. A Document-Term матрица представляет собой матрицу, в которой строки представляют собой документы, а столбцы представляют термины, причем каждая ячейка в матрице представляет собой # вхождения слова в документе. Надеюсь, это понятно.

0

«Документ» - это отдельный текст. Обычно это означает, что каждая статья, книга или так далее является ее собственным документом.

Если вы хотите, вы можете рассматривать отдельный абзац или даже предложение как «документ». Все это вопрос перспективы.

 Смежные вопросы

  • Нет связанных вопросов^_^