2016-08-17 4 views
0

У меня есть следующие файлы CSV:Dse Graph погрузчик дублирующие края

один с человеком, а другой один с адресами и один с человеком адреса подключения (один ряд для каждого файла плюс заголовок). Для целей тестирования на первый запуск у меня есть:

конфигурации create_schema: правда, load_new: истинный, load_threads: 3

импорта является успешным с вершинами и ребрами. (Две вершины и одно ребра между ними)

Теперь, когда я запускаю тот же сценарий (то же данные, тот же вход сценарий), но с разной конфигурацией

конфигурации create_schema: ложная, load_new: ложный, load_threads: 3

Кажется, что узлы не изменились, но у меня есть дубликат ребра для узлов. (Две вершины и два ребра между теми же узлами)

это код, который я бегу:

inputfiledir = 'data/' 
personInput = File.csv(inputfiledir + 'sna_person_test.csv').delimiter(',') 
addressInput = File.csv(inputfiledir + 'sna_address_test.csv').delimiter(',') 
personAddressInput = File.csv(inputfiledir + 'san_person_address_test.csv').delimiter(',') 

load(personInput).asVertices { 
    label "person" 
    key "id" 
} 

load(addressInput).asVertices { 
    label "address" 
    key "id" 
} 

load(personAddressInput).asEdges { 
    label "has_address" 
    outV "person_id", { 
     label "person" 
     key "id" 
    } 
    inV "address_id", { 
     label "address" 
     key "id" 
    } 
} 

Есть ли способ избежать этого?

Благодаря

ответ

1

Это связано с кромками, не имеющих удостоверения личности, что приводит к Graph Loader, не имея возможности определить, если ребро фактически дубликат. Это заставит последующие нагрузки дублировать ребра, но не вершины.