Вектор идентичности говорит метод getPairs который из входных записей принадлежат к одной и той же сущности. Он фактически содержит информацию, которую вы обычно хотите получить от записи связи, т. Е. У вас есть пара записей и не заранее знать, какие из них принадлежат друг другу. Однако, когда вы используете набор тренировок для калибровки метода или хотите оценить точность методов привязки записей (пакет был в основном написан для этой цели), вы начинаете с уже дедуплицированного или связанного набора данных.
В вашем примере первые две строки (идентификаторы 233, 435), очевидно, означают, что один и тот же человек и третий ряд другой. Поэтому смысл вектор идентичности будет:
c(1,1,2)
Но это также может быть:
c(42,42,128)
Просто убедитесь, что вектор идентичности имеет одинаковые значения именно в тех местах, где соответствующие строки таблиц занимают соответствующую запись (векторный индекс = индекс строки).
О ваш вопрос о том, как отобразить идентификаторы в результате: Вы можете получить полные пары записей, в том числе всех полей данных, с (смотрите документацию для получения более подробной информации):
getPairs(pairs)
Там может быть лучшие способы получить исходные идентификаторы, в зависимости от того, как вы будете обрабатывать пар записи (например, запустить алгоритм классификации). Расширьте свой пример, если вам нужно больше советов по этому вопросу.
p.s .: Я являюсь одним из авторов пакета. Я только совсем недавно узнал, что люди задают вопросы о пакете в Stack Overflow, поэтому, пожалуйста, извините, что несколько вопросов были без ответа в течение долгого времени. Я буду искать способ получить уведомление по новым вопросам, размещенным здесь, но я также хотел бы упомянуть, что люди могут напрямую связаться с нами через один из адресов электронной почты, перечисленных в информации о пакете.