2017-02-14 27 views
0

Я пытаюсь суммировать столбец среднего размера файла данных (15M строк), но я получаю следующее сообщение об ошибке:д текст как данные: Как исправить ошибки поле больше, чем предел поля

$> q -Ht 'select sum(value) from datafile.txt' 

Error('field larger than field limit (131072)' 

Мой поиск привел к ссылкам, предлагающим изменение размера поля по умолчанию в python-анализе csv.fieldsize(), однако после проверки с awk я проверил, что в моем файле нет больших полей.

+1

Merlin: Просьба предоставить нам образец Input_file и ожидаемого вывода, чтобы мы могли помочь вам в этом. – RavinderSingh13

ответ

0

никогда не забывайте: очистить ваши данные перед обработкой

я обнаружил, что мой файл данные полона названий продуктов с одинарными и двойными кавычками (одинарными кавычками для притяжательных имен, и в два раз, чтобы представить «дюймы» . Это приводит к тому, питону парсеру для чтения разделителя в виде буквенных символов в поле

ли это:.

sed s:\"::g data.txt > tmp ; sed s:\'::g tmp > data.txt 

Ужасные, ужасные одиночные/двойные кавычки в данных.