Интеграция структурированных и неструктурированных данных с крупномасштабным процессором обработки данных

Как механизм обработки данных, такой как Spark, apache flink, объединяет структурированные, полуструктурированные и неструктурированные данные и влияет на вычисления?Интеграция структурированных и неструктурированных данных с крупномасштабным процессором обработки данных

источник

2015-04-12 Anis Nouri

«слишком широкий»: существует слишком много возможных ответов, или хорошие ответы будут слишком длинными для этого формата. Пожалуйста, добавьте детали, чтобы сузить набор ответов или изолировать проблему, на которую можно ответить в нескольких абзацах. – maasg

Двигатели обработки данных общего назначения, такие как Flink или Spark, позволяют определять собственные типы и функции данных.

Если у вас есть неструктурированные или полуструктурированные данные, ваши типы данных могут отражать эти свойства, например, путем предоставления некоторой информации или моделирования ее с помощью гибких структур данных (вложенных типов, списков, карт и т. Д.). Ваши пользовательские функции должны знать, что некоторая информация может не всегда присутствовать и знать, как обращаться с такими случаями.

Так что обработка полуструктурированных или неструктурированных данных не предоставляется бесплатно. Он должен быть явно указан. Фактически, обе системы сосредоточили внимание на пользовательских данных и функциях, но недавно добавили API для облегчения обработки структурированных данных (Flink: Table API, Spark: DataFrames).

источник

2015-04-12 22:57:39

Могу ли я обрабатывать структурированные и неструктурированные данные отдельно, а затем присоединяться к ним (вывод) в конце! –

Если бы это был вопрос, да, вы можете. –

Интеграция структурированных и неструктурированных данных с крупномасштабным процессором обработки данных

ответ

Смежные вопросы