OpenRefine - кластеры с перекрестными колонками

Как кажется, кластеры с несколькими столбцами еще не поддерживаются OpenEfine.OpenRefine - кластеры с перекрестными колонками

Есть ли какие-либо предложения о том, как кластерные модели, основанные на «производителях», так же как и «город», будут основаны на «состоянии» (многие «Спрингфилд» могут существовать в США, но только кластер «город»: «Спрингфилд», если относительная колонка «состояние» - то же самое)? Относительный столбец уже нормализован.

источник

2014-02-26 c-griffin

Одним из простых способов сделать это было бы создать столбец, который был бы конкатенацией модели + производителя, кластера на объединенных полях, а затем (при необходимости) разделить две части снова на части.

источник

2014-02-26 03:44:08

Ваше предложение отлично работает. Благодаря! –

У меня было аналогичное требование для удаления дублирующих строк адреса. Таким образом, я создал новый столбец (скажем, COMPLETE_ADDRESS) и сцепляются улицы, города, области, страны и ZipCode поля с помощью нижеприведенного выражения Grel

cells["STREET"].value + " " + cells["CITY"].value + " " + cells["PROVINCE"].value + " " + cells["COUNTRY"].value + " " + cells["ZIPCODE"].value

Тогда я сделал следующее:

кластерных новый COMPLETE_ADDRESS с алгоритмом по умолчанию
Слияние значений в каждом кластере (теперь значения являются идеальными дубликатами)
Сортировка столбца постоянно.
Выполняйте операцию «пустого вниз».
Наконец выбрать только ненулевые значения в COMPLETE_ADDRESS

Сказав, что, как это письмо, не существует функция для объединения независимых столбцов. Единственный способ сделать это - разделить COMPLETE_ADDRESS на отдельные столбцы подходящим образом. В этом случае вам нужно будет использовать лучший разделитель, такой как труба «|» символ, который не будет конфликтовать с существующими значениями.

источник

2017-02-11 03:13:01 Thyag

OpenRefine - кластеры с перекрестными колонками

ответ

Смежные вопросы