0

я работаю над данными пререканий проблемы с использованием Python, который обрабатывает грязный Excel файл в чистую Excel файлВыбор лучшего параллельной архитектуры в Python

Я хотел бы обрабатывать несколько входных файлов путем введения параллелизма/параллелизм.

Я следующие варианты 1) Использование Многопоточность 2) Использование модулей multiProceesing 3) ParallelPython модуль,

У меня есть основная идея этих трех методов, я хотел бы знать, какой метод лучше и почему?

В Bref, обработку одного грязного файла Excel сегодня занимает 3 минуты,

Цель: Познакомить параллельности/параллелизм для обработки нескольких файлов одновременно. Ищет, лучший метод параллелизма для достижения цели

ответ

0

Поскольку ваш процесс в основном ЦП многопоточность не будет быстрым из-за GIL ...

Я бы порекомендовал многопроцессорные или concurrent.futures, поскольку они немного проще ParallelPython (только немного :))

пример:

with concurrent.futures.ProcessPoolExecutor() as executor: 
    for file_path, clean_file in zip(files, executor.map(data_wrangler, files)): 
     print('%s is now clean!' % (file_path)) 
     #do something with clean_file if you want 

Только если вам нужно распределить нагрузку между серверами, я бы рекомендовал ParallelPython.