Не могли бы вы мне помочь, я столкнулся с проблемой чтения случайных строк из большого файла csv с использованием 0.18.1 pandas и 2.7.10 Python в Windows (оперативная память 8 ГБ) ,Чтение случайных строк большого файла csv, python, pandas
В Read a small random sample from a big CSV file into a Python data frame я увидел подход, однако, это произошло на моем компьютере, чтобы быть очень требовательно к памяти, а именно часть кода:
n = 100
s = 10
skip = sorted(rnd.sample(xrange(1, n), n-s))# skip n-s random rows from *.csv
data = pd.read_csv(path, usecols = ['Col1', 'Col2'],
dtype = {'Col1': 'int32', 'Col2':'int32'}, skiprows = skip)
так, если я хочу взять несколько случайных строк из файл с учетом не только 100 строк, но 100 000, становится трудно, однако с не случайные строки из файла почти в порядке:
skiprows = xrange(100000)
data = pd.read_csv(path, usecols = ['Col1', 'Col2'],
dtype = {'Col1': 'int32', 'Col2':'int32'}, skiprows = skip, nrows = 10000)
Таким образом, вопрос, как я могу иметь дело с чтением большого числа случайных строк из большой файл csv wi то есть, поскольку я не могу прочитать весь файл csv, даже с его разбиением, меня интересуют именно случайные строки. Благодаря
Я думаю, что большая часть обсуждения этого вопроса будет актуальной. Короче говоря, не было большого решения, которое не было бы интенсивным с точки зрения памяти. http://stackoverflow.com/questions/38039723/splitting-a-large-pandas-dataframe-with-minimal-memory-footprint/38086123#38086123 – Jeff
skiprows использует много памяти, попробуйте использовать с кусками: http: // stackoverflow.com/questions/36874993/pandas-memory-error-after-a-certain-skiprows-parameter – ayhan
Если вы перейдете к одной из этих ссылок и найдете их полезными, пожалуйста, повысьте их, если сможете. Вам нужно 15 репутации для повышения. У вас теперь есть 6. – piRSquared