У меня размер файла 100 МБ, а размер блока по умолчанию - 64 МБ. Если я не задаю размер разделенного входа, размер разделения по умолчанию будет размером блока. Теперь размер разделения также составляет 64 МБ.Входной бит и блок в hadoop
Когда я загружаю этот файл размером 100 МБ в HDFS, файл размером 100 МБ будет разделен на 2 блока. то есть 64 МБ и 36 МБ. Например, ниже приведен текст стихотворения размером 100 МБ. Если я загружу эти данные в HDFS, скажем, от линии 1 до половины строки 16, как ровно 64 МБ, как один сплит/блок (до «Он сделал«), а оставшуюся половину строки 16 (дети смеялись и сыграйте) до конца файла как второй блок (36 МБ). Будет два задания для сопоставления.
Мой вопрос в том, как первый картограф рассмотрит 16-ю строку (это строка 16 блока 1), так как блок имеет только половину строки или как второй картограф рассмотрит 1-ю строку блока 2, так как он также имеет половину линии.
Mary had a little lamb
Little lamb, little lamb
Mary had a little lamb
Its fleece was white as snow
And everywhere that Mary went
Mary went, Mary went
Everywhere that Mary went
The lamb was sure to go
He followed her to school one day
School one day, school one day
He followed her to school one day
Which was against the rule
It made the children laugh and play
Laugh and play, laugh and play
It made the children laugh and play
To see a lamb at school
And so the teacher turned him out
Turned him out, turned him out
And so the teacher turned him out
But still he lingered near
And waited patiently
Patiently, patiently
And wai-aited patiently
Til Mary did appear
Или, если расщепление 64 МБ, а не разделение одной линии, может ли хаоп рассмотреть всю линию 16?