1

Я хочу использовать молоток для учебных тем. Мои данные находятся в одном файле, поэтому я изучаю документацию по mallet, чтобы построить этот один одиночный файл.null-sources на файле композиции молотка

В Mallet website под один файл, один экземпляр на одну линию секции, было сказано:

[URL] [язык] [текст страницы ...]

В этот случай, первый токен каждой строки (пробел с разделителем, с дополнительной запятой) становится именем экземпляра , второй токен становится меткой, а весь дополнительный текст на строке интерпретируется как последовательность токенов.

Итак, в соответствии с приведенной выше цитате, я создал свой единственный файл следующим образом:

127 en some text here... 
982 en some text here... 
1003 en some text here... 
... 

, а затем импортировать этот единственный файл:

bin\mallet import-file --input data.txt --output data.mallet --keep-sequence 

после этого, я тренируюсь 3 темы :

bin\mallet train-topics --input data.mallet --num-topics 3 --output-doc-topics data_composition.txt --word-topic-counts-file data_wcounts.txt 

Однако, когда я открываю data_composition.txt, она имеет следующую структуру:

#doc source topic proportion ...  
0 null-source 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317 

Так что теперь вопрос: Почему Молоток печати null-source на этой композиции файл? Я хочу, чтобы он печатал URL-адрес (например, идентификаторы в моем случае) под заголовком источника.

EDIT:

Я хочу что-то вроде этого:

#doc source topic proportion ...  
0  127 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317 
1  982 ... (topic probabilities) ... 
2  1003 ... (topic probabilities) ... 

спасибо заранее!

ответ

0

В первой колонке вашего входного файла не указаны URL-адреса. Попробуйте

file://0 

вместо 0.

+0

Спасибо за ответ ур, Что касается вашего ответа, цифры (1,2,3 и т. Д.) Являются URL-адресами, ожидаемыми от молотка. Другими словами, как я могу сказать, что эти номера являются URL-адресами? Вы знаете? @jknappen –

+0

Цифры в первом столбце файла «состав» - это просто номера строк, считанные с 0. Они не имеют никакого отношения к URL-адресу документа, чтобы отображаться во втором столбце. – jknappen

+0

Я дал эти цифры случайным образом (они не номера строк) Я сам дал эти числа. Для получения дополнительной информации обратите внимание на отредактированный пост. @jknappen –

0

Попробуйте обновить до последней версии Маллет здесь: http://mallet.cs.umass.edu/download.php

Маллет экземпляры имеют «имя» и поле «источник». В предыдущих версиях --output-doc-topics напечатал источник. Текущая стабильная версия 2.0.8 печатает имя, которое является полем, которое вы хотите отобразить.

Обратите внимание, что эта версия также по умолчанию имеет «плотное» представление пропорций тем, по одному столбцу для каждой темы.