У меня есть файл, содержащий XML-элементы в каждой строке, которые необходимо преобразовать в JSON. Я написал сценарий Python, который выполняет преобразование, но работает в последовательном режиме. У меня есть два варианта использования Hadoop или GNU Parallel, я пробовал Hadoop и хочу посмотреть, как GNU может помочь, будет простым.GNU Параллельно запускать скрипт Python на огромный файл
Мой Python код выглядит следующим образом:
import sys import json import xmltodict with open('/path/sample.xml') as fd: for line in fd: o=xmltodict.parse(line) t=json.dumps(o) with open('sample.json', 'a') as out: out.write(t+ "\n")
Так я могу использовать GNU параллельно работать непосредственно на огромный файл или мне нужно разбить его?
Или это право: cat sample.xml | parallel python xmltojson.py >sample.json
Благодаря
Должен доставить вас до 10 000, Оле! –
Ole, который сокращает время с 59 минут до 15 секунд! – user3646519