2014-10-01 6 views
1

Я пытаюсь следовать учебник по теме моделирования/Скрытое распределения Дирихле (LDA) в книге Building Learning Systems Machine»с PythonBleiCorpus и Associated Press набор данных в Gensim:. IO Error

Я не пошел слишком в этой книге, и в первой части темы моделирования возвращает ошибки для меня:

from gensim import corpora, models, similarities 
corpus = corpora.BleiCorpus('./data/ap/ap.dat', './data/ap/vocab.txt') 

Ошибка:

 63 
    64   self.fname = fname 
---> 65   with utils.smart_open(fname_vocab) as fin: 
    66    words = [utils.to_unicode(word).rstrip() for word in fin] 
    67   self.id2word = dict(enumerate(words)) 

/Users/user/Library/Enthought/Canopy_64bit/User/lib/python2.7/site-packages/gensim/utils.pyc in smart_open(fname, mode) 
    659   from gzip import GzipFile 
    660   return make_closing(GzipFile)(fname, mode) 
--> 661  return open(fname, mode) 
    662 
    663 

IOError: [Errno 2] No such file or directory: './data/ap/vocab.txt' 

файл vocab.txt не существует, но переход в каталог, где он должен быть, я нахожу следующее:

$ ls download_ap.sh download_wp.sh preprocess-wikidata.sh

Похоже, необходимо скачать отдельно (не упоминается в книге) данные ап, так что, делая это:

sh download_ap.sh 

я получаю это:

download_ap.sh: line 2: wget: command not found 
tar: Error opening archive: Failed to open 'ap.tgz' 

ли кто-нибудь знает, как решить эту проблему?

Спасибо

ответ

2

В коде или в среде вашего сообщества нет ничего плохого. Наиболее вероятная проблема заключается в том, что у вас нет wget. Та же функциональность может быть достигнута с помощью CURL, если вы хотите попробовать. Вы также можете загрузить состав Associated Press прямо из какого-либо другого источника (выполните поиск Google) и поместите его в каталог, который Gensim использует для учебника.

Если вы хотите следовать учебникам точно так же, как в книге, вам, вероятно, потребуется установить wget, который для OS X (я предполагаю, что это ваша система) требует немного конфигурации. Чтобы добавить и установить wget в OS X, вам необходимо загрузить исходные файлы, скомпилировать код и выполнить установку. Для компиляции кода вам нужен компилятор, к сожалению, он не поставляется с OS X по умолчанию. Сначала вам нужно установить пакет xcode от Apple, который включает компилятор GCC.

Этот post объясняет, как это сделать шаг за шагом.

Надеюсь, что это сработает.

4

Вы не были Wget, установленных на вашем компьютере, вы используете Windows, с Cygwin? скачать файл с http://www.cs.princeton.edu/~blei/lda-c/ap.tgz, распаковать его и поместить в нужную папку.

 Смежные вопросы

  • Нет связанных вопросов^_^