Итак, у меня есть десять разных файлов, где каждый файл выглядит так.Hadoop MapReduce с файлами RDF/XML
<DocID1> <RDF Document>
<DocID2> <RDF Document>
.
.
.
.
<DocID50000> <RDF Document>
На самом деле существует ~ 56 000 строк в файле. В каждой строке есть идентификатор документа и документ RDF.
Моя цель состоит в том, чтобы передать в каждый картограф как пару значений входного ключа и испустить несколько для пар значений выходных ключей. На этапе уменьшения я буду хранить их в таблице Hive.
У меня есть несколько вопросов, которые нужно начать, и я совершенно новичок в файлах RDF/XML.
Как я должен анализировать каждую строку документа, чтобы получить отдельное представление для каждого картографа?
Существует ли эффективный способ управления размером ввода для устройства отображения?