2016-06-22 2 views
0

У нас есть hdfs емкостью 900 ТБ. Поскольку хранящиеся данные постоянно растут, трудно отслеживать, что полезно и что можно удалить. Я хочу проанализировать использование hdfs для следующего шаблона, чтобы можно было оптимально использовать емкость.Как получить отчет об использовании hdfs в деталях

  1. Каковы часто используемые данные.
  2. Данные не касаются/недоступны в течение длительного времени (Возможный кандидат для удаления)
  3. Распространение данных пользователями.
  4. Активные пользователи.

ответ

1

Вы можете получить эти данные из:

  • (1) журнал HDFS аудита (модели доступа на пользователя/IP)
  • (2) fsimage (время доступа на файл, данные не доступны)

(1) У вас есть журнал аудита HDFS? Подробнее here.

(2) Для того, чтобы начать с fsimage чтения this - есть пример, чтобы получить «Данные не трогают/доступ в течение долгого времени»

Вы также можете захотеть рассмотреть HAR архивировать данные (вместо удаления) - таким образом уменьшите использование памяти и драгоценную память на наменоводе.

 Смежные вопросы

  • Нет связанных вопросов^_^