Мне нужно настроить потоковое окружение для моего проекта. Набор данных следующий: http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdfИмпорт 12000 файлов в один стол
Я планирую использовать PostgreSQL и Apache Кафку в качестве источника, а затем подключиться к Кафке с Apache Спарк или Флинка, однако проблема в том, что набор данных составляет около 10 000 текстовых файлов.
Итак, вопрос в том, что является наиболее эффективным/изящным способом импорта ~ 10000 файлов (каждый около 500 строк) в одну таблицу.
Пока я пытался питон скрипт с psycopg2 и executemany метод (супер медленный) и Apache FLiNK Работа с JDBC разъем (хорошая скорость, но не знаю, как перебрать 10000 файлов один Job.
Это работало довольно гладко с paralellism 4, однако я использовал Flink. –