Я пытаюсь следовать учебник по теме моделирования/Скрытое распределения Дирихле (LDA) в книге Building Learning Systems Machine»с PythonBleiCorpus и Associated Press набор данных в Gensim:. IO Error
Я не пошел слишком в этой книге, и в первой части темы моделирования возвращает ошибки для меня:
from gensim import corpora, models, similarities
corpus = corpora.BleiCorpus('./data/ap/ap.dat', './data/ap/vocab.txt')
Ошибка:
63
64 self.fname = fname
---> 65 with utils.smart_open(fname_vocab) as fin:
66 words = [utils.to_unicode(word).rstrip() for word in fin]
67 self.id2word = dict(enumerate(words))
/Users/user/Library/Enthought/Canopy_64bit/User/lib/python2.7/site-packages/gensim/utils.pyc in smart_open(fname, mode)
659 from gzip import GzipFile
660 return make_closing(GzipFile)(fname, mode)
--> 661 return open(fname, mode)
662
663
IOError: [Errno 2] No such file or directory: './data/ap/vocab.txt'
файл vocab.txt не существует, но переход в каталог, где он должен быть, я нахожу следующее:
$ ls download_ap.sh download_wp.sh preprocess-wikidata.sh
Похоже, необходимо скачать отдельно (не упоминается в книге) данные ап, так что, делая это:
sh download_ap.sh
я получаю это:
download_ap.sh: line 2: wget: command not found
tar: Error opening archive: Failed to open 'ap.tgz'
ли кто-нибудь знает, как решить эту проблему?
Спасибо