пытаются получить лучшее понимание этого: https://pymotw.com/2/multiprocessing/basics.htmlпитон многопроцессорных разных файлов
У меня есть 20+ «большие» журналы (каждое бревно примерно 6-9gigs но сжатый т.е. log1 ... 20.gz)
Мой скрипт python будет проходить через каждый журнал в назначенном каталоге и выработать итоговое значение для определенного столбца, а затем записать в файл и перейти к следующему файлу журнала. Я заметил, что когда я это сделал, я не использовал все ядра в системе. Таким образом, чтобы использовать больше ядер я сделал это
script1.py < folder 1 (contains logs 1-5 , write to report1-5.txt)
script2.py < folder 2 (contains logs 6-10, write to report6-10.txt)
script3.py < folder 3 (contains logs 11-15, write to report11-15.txt)
script4.py < folder 4 (contains logs 16-20, write to report16-20.txt
В идеале я бы просто script1.py < папки 1 (содержит все 20 журналов и пишет Report.txt)
Если включить «импорт мультипроцессирование «смогу ли я добиться того, чтобы 1 сценарий и многие работники проходили через разные файлы или много рабочих пытались работать с файлом log.gz для продажи? или я пропускаю информацию
Это было отличное описание. Итак ... 1 и 2 в основном делают то же самое, что и распространение нагрузки? – chowpay
@chowpay в основном они делают то же самое, да. С python у вас больше контроля, так как вы можете равномерно распределять нагрузку на ядра. Кроме того, вы можете воспользоваться всеми ядрами, даже если количество папок меньше количества ядер. Тем не менее, решение bash намного проще реализовать и может быть достаточно для вашего варианта использования. – hansaplast