Я выполняю алгоритм Pregel с помощью Spark GraphX в Scala.Ошибки памяти в фазе перетасовки (потерянная задача ...) при обработке очень большого графа с алгоритмом Pregel
Мой график содержит 1 миллион узлов и 5 миллинов краев между ними. Мое кластер очень мощный, с несколькими серверами для BigData с 256 ГБ памяти.
У меня есть «Java Heap ошибки Space» в фазе в случайном порядке во время выполнения, после более чем 20 минут обработки: задачи потеряла ... Я буду анализировать эти параметры:
- Анализ пути я нагрузки графа и его настойчивость (StorageLevel)
- Анализ память используется: узлов, ребер и отправленных сообщений
- Анализ параметров, установленных в Спарк при использовании искру подать команду: количество исполнителей, памяти/vcores на исполнителя, сериализации. ..
Кроме того, я использовал стратегию StorageLevel.MEMORY_AND_DISK при загрузке графика. –
Сколько элементов ваш «Список» содержит в среднем? –
Каждый список содержит 10-20 элементов после 4 итераций в Pregel –