Я пытаюсь использовать DASK мешок для WordCount 30GB из JSon файлов, я строг по tutoral от OFFICAL сети: http://dask.pydata.org/en/latest/examples/bag-word-count-hdfs.htmlобработка dask.bag данных из-за нехватки памяти
Но до сих пор не работает, мой сингл машина - 32 ГБ памяти и 8 ядер.
Мой код ниже, я использовал для обработки 10 ГБ файла, даже не работал, ошибка работает пару часов без какого-либо уведомления, jupyter был свернут, я попытался на Ubuntu и Windows, обе системы - та же проблема. Так что я подозреваю, что если сумка-память может обрабатывать данные из памяти? или что мой код неправильный?
Тестовые данные http://files.pushshift.io/reddit/comments/
import dask.bag as db
import json
b = db.read_text('D:\RC_2015-01\RC_2012-04')
records = b.map(json.loads)
result = b.str.split().concat().frequencies().topk(10, lambda x: x[1])
%time f = result.compute()
f
Я пытаюсь использовать именно тот код, который вы указали, кажется, все еще OverflowError: Python int слишком большой, чтобы конвертировать в C long – SharpLu
Вы разархивировали файл bz2? – MRocklin
Да, 100% уверен, что я декомпрессирован, но все равно испытываю ту же ошибку. Я не уверен, что проблема для системы Windows? Я также пробовал на виртуальной машине Ubuntu, все та же проблема. можете ли вы рассказать мне свою экспериментальную среду? – SharpLu