2015-05-22 6 views
0

Для начала игры я просто попытался импортировать некоторые данные в оранжевый цвет и столкнулся с проблемой, что, если мой CSV содержит такие данные, как: «0,5 м веревка» или что-то еще с., Orange не может обрабатывать импорт. Orange Python data load error: "example of invalid length" Проблема в том, что значения запятой важны в моих данных, и я не могу их изменить ни на что другое.Значения запятой в файлах с разделителями и разделителями для Orange

Могу ли я как-то обойти эту проблему, не меняя свои данные?

+0

Если __all__ ваши данные в этом формате '(номер), (число) M' (например,' '0,5m' или 1,2m') вы могли бы сначала разобрать файл (используя 'regex') для изменения __comma__ для __dot__, создавая его, например,' 0.5m' и '1.2m'. Затем просто прочитайте CSV, как правило, – RafaelC

+0

вы можете открыть файл csv в excel и изменить свойство «разделителей» на что-либо еще, кроме «,», например «;» –

+0

Я не могу сделать это, к сожалению. Некоторые значения данных содержат «слово, слово», другие содержат «число, число», а слово «слово» важно для логики (я все еще мог преобразовать число, число, но не слово, слово) I попробовал разный разделитель, такой как вкладка, точка с запятой и запятая, но ни одна из этих версий не работала. Я даже пробовал это с помощью другого разделителя текста типа «и», но только если я избавлюсь от всех, в моих данных оранжевый может правильно импортировать данные. – Chris

ответ

1

Я на самом деле написал этот парсер, но это было более 10 лет назад, поэтому я просто проверил его снова. Я не вижу никакого способа избежать запятых в файлах csv. Извини за это. Мы всегда предпочитали форматы с разделителями табуляции. Оранжевый 3 будет умнее.

Переименуйте файл в .txt и используйте табулятор в качестве разделителя.

name gender height comment 
John male 1,83 None 
Jane female 1.54 Likes commas, uses .txt format 

@Rafael: Кстати, Orange фактически принимает оба, и. в цифрах, как в приведенном выше примере.

Редактировать: Извините, я знал, что у нас это было где-то. Есть еще один парсер. Если вы используете холст, перейдите в «Настройки/Категории» и включите Prototypes. Появится новая категория виджетов с множеством (заброшенных) экспериментальных материалов. Там выберите CSV File import и настройте его соответствующим образом. Запятые "убежали", как здесь:

name,gender,comment 
John,m,None 
Jane,f,"Likes commas, but no problems with that" 
+0

Прохладный .. Казалось, сначала хорошо, но проблема в том, что он не может обрабатывать UTF-8 - хотя запятые обрабатываются правильно. – Chris