2014-02-26 1 views
0

Как кажется, кластеры с несколькими столбцами еще не поддерживаются OpenEfine.OpenRefine - кластеры с перекрестными колонками

Есть ли какие-либо предложения о том, как кластерные модели, основанные на «производителях», так же как и «город», будут основаны на «состоянии» (многие «Спрингфилд» могут существовать в США, но только кластер «город»: «Спрингфилд», если относительная колонка «состояние» - то же самое)? Относительный столбец уже нормализован.

ответ

0

Одним из простых способов сделать это было бы создать столбец, который был бы конкатенацией модели + производителя, кластера на объединенных полях, а затем (при необходимости) разделить две части снова на части.

+0

Ваше предложение отлично работает. Благодаря! –

0

У меня было аналогичное требование для удаления дублирующих строк адреса. Таким образом, я создал новый столбец (скажем, COMPLETE_ADDRESS) и сцепляются улицы, города, области, страны и ZipCode поля с помощью нижеприведенного выражения Grel

cells["STREET"].value + " " + cells["CITY"].value + " " + cells["PROVINCE"].value + " " + cells["COUNTRY"].value + " " + cells["ZIPCODE"].value 

Тогда я сделал следующее:

  1. кластерных новый COMPLETE_ADDRESS с алгоритмом по умолчанию
  2. Слияние значений в каждом кластере (теперь значения являются идеальными дубликатами)
  3. Сортировка столбца постоянно.
  4. Выполняйте операцию «пустого вниз».
  5. Наконец выбрать только ненулевые значения в COMPLETE_ADDRESS

Сказав, что, как это письмо, не существует функция для объединения независимых столбцов. Единственный способ сделать это - разделить COMPLETE_ADDRESS на отдельные столбцы подходящим образом. В этом случае вам нужно будет использовать лучший разделитель, такой как труба «|» символ, который не будет конфликтовать с существующими значениями.

 Смежные вопросы

  • Нет связанных вопросов^_^