2015-10-02 2 views
1

Мы являемся операционным хранилищем данных. У нас есть таблица контроля за партиями, которая содержит следующую информацию:Механизм предупреждения для хранилища данных

  1. Имя файла, обработанного на складе.
  2. Дата и время начат процесс партии.
  3. Число обработанных строк и затраченное время.

Мы думаем о построении механизма предупреждения, который будет в основном поднять тревогу в любом из следующих аномальных ситуаций (на основе анализа прошлых данных):

  1. Файл не поступали.
  2. Файл занял более среднего времени для обработки.
  3. Файл имеет очень низкий или очень высокий ряд строк строки.

Какой был бы наилучший способ решить эту проблему. Является ли это кандидатом на машинное обучение?

ответ

1

Является ли это кандидатом для машинного обучения?

Не совсем. Вы должны хранить определенную информацию о файлах, обработанных в хранилище данных.

Файл не поступал.

У вас должно быть расписание файлов, когда должен прибыть следующий файл. Если файл опоздал на 5 дней, планировщик вызывает тревогу, отправляет электронное письмо или что-то еще.

Файл занимает больше, чем среднее время обработки.

Храните среднее время обработки в расписании файлов. Когда текущее время обработки превышает 2 стандартных отклонения от среднего времени обработки, поднимите будильник.

Файл имеет очень низкий или очень высокий ряд строк считает

Держите среднее количество строк в вашем расписании файлов. Когда текущий счетчик строк превышает 2 стандартных отклонения от среднего числа строк, поднимите будильник.

Я выбрал 2 стандартных отклонения от среднего как исключительный случай. Не стесняйтесь приспосабливать это, чтобы быть более или менее чувствительными к отклонениям.

+0

Спасибо за ответ. У меня есть один вопрос. Если какая-то конкретная партия имела исключительно высокий ряд строк, включите их в свой средний расчет? Существует ли правило вокруг этого? –

+0

@ Гилберт, если количество строк или время обработки не соответствуют нормальному распределению, SD может быть неверным ... –

+0

@ Ананд Каннан: Я бы сказал, нет, но вы знаете свои данные лучше, чем я. –

0

1) Начинается с обучения человека первых.

Задание временных рядов обработанных файлов (номер строки как функция времени обработки).

Участок распределение (или гистограмма) из номеров строк

Участка распределение (или гистограмма) временного интервала между обработкой

Участком функцией времени обработки в зависимости от подсчета строк.

Вы видите некоторые шаблоны во временных рядах? Есть ли время дня или. периодичность недели? Вы видите тенденцию?

Является ли функция времени обработки непрерывной функцией или простой диаграммой разброса точек?

Очевидно, что вы видите какой-то шаблон и пороговые значения, вы легко сможете выполнить проверки.

2) собирать историю неудач

Расширение метаданных со статусом обработки - OK или причина отказа. Это позволит нарисовать вашу графику в двух цветах (положительные/отрицательные случаи) и поможет вам решить, можете ли вы рисовать пороговые линии (кривые) между ними.

Вы также сможете применить supervised learning algorithms