Есть ли способ прочитать CSV-файл, который сжимается через gz в dask dataframe?Как читать сжатый (gz) CSV-файл inro a dask Dataframe?
Я пробовал его непосредственно
import dask.dataframe as dd
df = dd.read_csv("Data.gz")
, но получаю сообщение об ошибке Юникода (вероятно, потому, что он интерпретирует сжатые байты) Существует параметр "compression"
но compression = "gz"
не будет работать, и я не могу найти любая документация до сих пор.
С помощью pandas я могу прочитать файл напрямую без проблем, кроме результата, взорвавшего мою память ;-), но если я ограничу количество строк, он отлично работает.
import pandas.Dataframe as pd
df = pd.read_csv("Data.gz", ncols=100)
Ну, обычные панды (не DASK) читает нормально без какого-либо набора кодирования, так что мое предположение было бы, что Даск пытается прочитать сжатый файл GZ непосредственно в виде текстового файла и получает не-смысл. – Magellan88