Я хочу использовать молоток для учебных тем. Мои данные находятся в одном файле, поэтому я изучаю документацию по mallet, чтобы построить этот один одиночный файл.null-sources на файле композиции молотка
В Mallet website под один файл, один экземпляр на одну линию секции, было сказано:
[URL] [язык] [текст страницы ...]
В этот случай, первый токен каждой строки (пробел с разделителем, с дополнительной запятой) становится именем экземпляра , второй токен становится меткой, а весь дополнительный текст на строке интерпретируется как последовательность токенов.
Итак, в соответствии с приведенной выше цитате, я создал свой единственный файл следующим образом:
127 en some text here...
982 en some text here...
1003 en some text here...
...
, а затем импортировать этот единственный файл:
bin\mallet import-file --input data.txt --output data.mallet --keep-sequence
после этого, я тренируюсь 3 темы :
bin\mallet train-topics --input data.mallet --num-topics 3 --output-doc-topics data_composition.txt --word-topic-counts-file data_wcounts.txt
Однако, когда я открываю data_composition.txt
, она имеет следующую структуру:
#doc source topic proportion ...
0 null-source 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317
Так что теперь вопрос: Почему Молоток печати null-source
на этой композиции файл? Я хочу, чтобы он печатал URL-адрес (например, идентификаторы в моем случае) под заголовком источника.
EDIT:
Я хочу что-то вроде этого:
#doc source topic proportion ...
0 127 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317
1 982 ... (topic probabilities) ...
2 1003 ... (topic probabilities) ...
спасибо заранее!
Спасибо за ответ ур, Что касается вашего ответа, цифры (1,2,3 и т. Д.) Являются URL-адресами, ожидаемыми от молотка. Другими словами, как я могу сказать, что эти номера являются URL-адресами? Вы знаете? @jknappen –
Цифры в первом столбце файла «состав» - это просто номера строк, считанные с 0. Они не имеют никакого отношения к URL-адресу документа, чтобы отображаться во втором столбце. – jknappen
Я дал эти цифры случайным образом (они не номера строк) Я сам дал эти числа. Для получения дополнительной информации обратите внимание на отредактированный пост. @jknappen –