2017-01-15 12 views
-2

Я работаю над проектом, который предполагает работу с большим количеством данных. По существу, существует большой репозиторий на каком-то сайте excel-файлов, который можно загрузить. На сайте есть несколько разных списков фильтров, и у меня есть несколько разных параметров, которые я фильтрую, а затем собираю данные. В целом, этот процесс требует, чтобы я загружал свыше 1000+ файлов excel и копировал их и вставлял их вместе.Является ли Python подходящим инструментом для автоматизации очистки данных?

Есть ли у Python функции для автоматизации этого процесса? По существу, я устанавливаю Filter 1 = A, Filter 2 = B, Filter 3 = C, загружаю файл, а затем повторяю с разными параметрами, копируя и вставляя файлы вместе. Если Python подходит для этого, может ли кто-нибудь указать мне в сторону хорошего учебника или отправной точки? Если нет, то какой язык будет более подходящим для этого для кого-то с небольшим фоном?

Спасибо!

+1

Это звучит довольно взвешенно. Вероятно, справедливо сказать, что Python подходит практически для всех, как и для большинства языков общего назначения. – Carcigenicate

+0

Является ли это сообщество подходящим местом для таких вопросов? Я боюсь: нет. – GhostCat

ответ

1

Лично я предпочел бы использовать python для этого. Я бы посмотрел, в частности, на библиотеку Pandas, которая является мощной библиотекой анализа данных, которая имеет объект dataframe, который можно использовать как безглавую таблицу. Я использую его для небольшого количества электронных таблиц, и это было очень быстро. Возможно, взгляните на сайт этого человека, чтобы получить больше рекомендаций. https://pythonprogramming.net/data-analysis-python-pandas-tutorial-introduction/

Я не 100%, если ваш вопрос касался только электронных таблиц, и мой первый параграф действительно касался работы с файлами после их загрузки, но если вы заинтересованы в фактическом извлечении файлов или «очищении», данные, которые вы можете посмотреть в библиотеке Requests для http-стороны вещей - это может быть то, что вы могли бы использовать, если есть способ Restful делать вещи. Или, посмотрите на scrapy https://scrapy.org для веб-соскабливания. Извините, если я неправильно понял по частям.