написали стохастическое моделирование в Java, которое загружает данные из нескольких CSV-файлов на диске (всего около 100 МБ) и записывает результаты в другой выходной файл (не так много данных, просто логическое и несколько чисел). Существует также файл параметров, и для разных параметров ожидается, что изменение результатов моделирования будет изменяться. Чтобы определить правильные/наилучшие входные параметры, мне нужно запустить несколько симуляций, через несколько конфигураций входных параметров и посмотреть распределение выходов в каждой группе. Каждое симуляция занимает 0,1-10 мин в зависимости от параметров и случайности.Является ли Hadoop правильным для запуска моих симуляций?
Я читал о Hadoop и задавался вопросом, может ли он помочь мне запустить множество симуляций; В ближайшем будущем у меня может быть доступ к примерно 8 сетевым настольным компьютерам. Если я правильно понял, функция карты могла бы запустить мою симуляцию и выплюнуть результат, а редуктор может быть идентичным.
Вещь, о которой я беспокоюсь, - это HDFS, который, как представляется, предназначен для огромных файлов, а не для небольших файлов CSV (ни один из которых не будет достаточно большим, чтобы даже составить минимальный рекомендуемый размер блока 64 МБ). Кроме того, каждому симуляции будет нужна только идентичная копия каждого из файлов CSV.
Является ли Hadoop неправильным инструментом для меня?
Я думаю, что это больше похоже, вы не должны использовать электронную таблицу для баз данных. Конечно, вы * можете * использовать электронную таблицу в качестве базы данных, и многие люди делают это, но могут (или не могут) вводить проблемы для вас из-за несоответствия между тем, что она предназначена для создания и для чего вы ее используете. Тем не менее, некоторые люди не имеют доступа к базам данных, поэтому для них лучший вариант. –
Это действительно хорошая аналогия Эмиль. Очень хорошая точка. Но что, если использование Hadoop для симуляции действительно напоминает сохранение чисел в базе данных. Можно сказать, «хранение столбцов чисел? Это проблема с электронными таблицами! Таблицы были предназначены для чисел!» Но тогда, когда у вас есть 1000-миллиметровые цифры .. э-э, это проблема с базой данных. Но хранение 1000-миллиметровых чисел НЕ является тем, для чего были созданы базы данных. БД хранят текст, капли и т. Д. Простое хранение номеров - это не то, для чего они должны использоваться! ;) –
Не могли бы вы обновить ссылку на видео, если он все еще доступен? – Stefan