В настоящее время я работаю над проектом, использующим hadoop (2.7.0). У меня есть два узла кластера, настроенные и работающие (по большей части). Я могу запускать задания Mapper/редуктора вручную при
Я хочу прочитать файл PDF с помощью hadoop, как это возможно? Я знаю только, что hasoop может обрабатывать только txt-файлы, так что все равно нужно разбирать файлы PDF в txt. Дайте мне предложение.
Я выполняю команду hadoopy.launch_frozen. Когда я бегу мой сценарий, появляется эта ошибка: File "Task.py", line 22, in <module>
hadoopy.launch_frozen(data_path, output_path, 'Main.py', temp_path
Где я могу найти журнал, который содержит информацию о сбое работы с mapreduce? Если что-то пойдет не так, я просто получаю сообщение об ошибке со статусом 1. Я запускаю Hadoop 2.4.1 и используя Hadoo