Проблема:MapReduce с C#: весь процесс ввода файлов
Я создаю приложение MapReduce в C# для HDInsight. Мне нужно обработать целые входные файлы.
Я понимаю, есть два варианта в Hadoop для достижения этой цели:
- Выведение из класса InputFormat, и позволяя isSplitable всегда возвращение ложных
- Установка min_splitsize на крупно- достаточно значение
Я не могу понять, как достичь любого из этих вариантов, используя C# на HDInsight.
Детали:
Я либо
Использование Microsoft.Hadoop.MapReduce и начать работу через
hadoop.MapReduceJob.ExecuteJob<MyJob>();
Или просто создать консольное приложение и запуск это от лазурной державы через
$mrJobDef = New-AzureHDInsightStreamingMapReduceJobDefinition -JobName MyJob -StatusFolder $mrStatusOutput -Mapper $mrMapper -Reducer $mrReducer -InputPath $mrInput -OutputPath $mrOutput
$mrJobDef.Files.Add($mrMapperFile)
$mrJob = Start-AzureHDInsightJob -Cluster $clusterName -JobDefinition $mrJobDef
Раствор для в любом случае поможет много.
Андрей, спасибо, это звучит так же, как то, что я искал. Мне просто нужно некоторое время, чтобы проверить это. –