Я получил файл CSV, где ,
является разделителем, используемым для разделения полей, но, к сожалению, дополнительным в качестве символа, обозначающего десятичную точку (немецкую нотацию).pandas read malformed CSV
В результате некоторые строки будут иметь различное количество столбцов. Странно преуспеть будет разбирать/читать файл довольно хорошо. Можно ли читать такие файлы и в пандах? До сих пор я только получил что-то похожее на
Error tokenizing data. C error: Expected 97 fields in line 3, saw 98
редактировать
Вот минимальный пример:
pd.read_csv(os.path.expanduser('~/Downloads/foo.csv'), sep=',', decimal=',')
с ~/Downloads/foo.csv
файл с содержанием
first, number, third
some, 1, other
foo, 1.5, bar
baz, 1,5, some
Когда я загружаю данные в R
See spec(...) for full column specifications.
Warnung: 1538 parsing failures.
row col expected actual
1 -- 93 columns 97 columns
2 -- 93 columns 98 columns
3 -- 93 columns 97 columns
4 -- 93 columns 102 columns
5 -- 93 columns 99 columns
Есть ли такой разрешающий режим в пандах?
Можете ли вы разместить воспроизводимый образец данных? – MaxU
сделано. см. редактирование. –
Является ли это точным представлением данных в том, что есть только один потенциально затронутый столбец за строку? – DSM