Pandas df to ndjson дает неверный подсчет строк

У меня есть dataframe с 320 строками. Я превратил его в ndjson с пандами:Pandas df to ndjson дает неверный подсчет строк

df.to_json('file.json', orient='records', lines=True)

Однако при загрузке данных, я только получить 200 строк.

with open('file.json') as f: 
    print(len(f.readlines()))

дает 200

spark.read.json('file.json').count

также дает 200

только перегрузочные его панды дают рассчитывать правильный ряд:

pd.read_json('file.json', orient='records', lines=True)

Мой набор данных содержит \n символы в полях. Я ожидаю, что у меня будет столько или больше строк, когда я загружу записи с помощью python или искры.

В чем проблема с методом pandas.to_json?

источник

2017-02-16 user113531

Я вручную проверил файл json по строкам, и я обнаружил, что pandas.to_json, кажется, неправильно пишет. (или я неправильно понял спецификации)

with open('file.json') as f: 
    j = f.read().replace('},{', '}\n{') 
with open('file.jsonl', 'w') as f: 
    f.write(j)

Замена ошибок в файле устраняет проблемы.

источник

2017-02-16 23:11:03 user113531

Pandas df to ndjson дает неверный подсчет строк

ответ

Смежные вопросы