1

Я обучил данные из 500 устройств, чтобы предсказать их производительность. Затем я применил мою обученную модель к набору тестовых данных для еще 500 устройств и показал неплохие результаты прогноза. Теперь мои руководители хотят, чтобы я доказал, что эта модель будет работать на одном миллионном устройстве не только на 500. Очевидно, что у нас нет данных для одного миллиона устройств. И если модель ненадежна, они хотят, чтобы я обнаружил требуемое количество данных поезда, чтобы сделать надежное предсказание для одного миллиона устройств. Как я должен иметь дело с этими руководителями, которые не имеют опыта статистического анализа и моделирования? Какие-либо предложения? СпасибоКак доказать надежность прогнозирующей модели для руководителей?

+0

Я подозреваю, что будет статистические модели для этого, но я также подозреваю, что они требуют много более конкретных данных. Я не очень разбираюсь в механическом обучении, так что это легко может быть моей ошибкой, но ваше описание кажется очень расплывчатым для меня. – biziclop

+5

Это не проблема руководителей, которые не знают о механическом обучении. Их точка верна. Возможно, что ваш комплект обучения и тестирования не является репрезентативным для всего вашего пространства данных и что ваша модель работает только для этого предвзятого подмножества, но не обобщает для всех данных. Вы должны показать им, что выбранные вами небольшие данные несвязаны. Проблема проста в понимании. Рассмотрим, например, что набор для обучения и тестирования содержит только мужчин-клиентов. Даже если модель работает хорошо, она может плохо работать в реальном наборе данных с мужчинами и женщинами. – cel

+0

@cel Спасибо за ваш ответ. Ваша точка абсолютно верна. Существует ли какая-либо корреляция между размером набора поездов и надежностью модели? Поскольку на следующем шаге мне нужно показать им, что случайный выбранный набор поездов достаточно велик, чтобы построить надежную модель. – Mohammad

ответ

3

Я предложил @cep написать свой комментарий в качестве ответа - включая предоставление расчетови bias. В любом случае это может быть добавлено

«Не спешите считать Execs, по существу, не способны с точки зрения технических или математических понятий»

Хотя могут быть Dilbert менеджеры там .. где-то Я сам их видел. Чаще всего менеджеры становятся на свои позиции через напряженную работу. Вероятно, они будут ржавыми - но способности, вероятно, все еще существуют.

В этом случае, имеют ли они «фон в статистическом анализе и моделировании», они применяют здравый смысл.

Первое, что вы можете сделать, это обеспечить надлежащий контекст и терминологию. @cel упомянул некоторые из них: предоставление конкретных значений:

  • допущениях
    • какие предположения вы делаете о данных.
    • Какие основания есть рассмотреть возможность экстраполяции ограниченных данных
    • почему указанные extrapoated результаты будут доверенными обратиться к 99,5% непроверенных данных
  • распределения данных
    • основные описательные статистики
    • ваш априорный распределение данных.Обоснуйте, почему вы выбрали его
  • моделирование
    • , которые были рассмотрены модели/подходы и почему
    • , какую модель вы действительно выбрали и почему
    • , как вы пришли гиперпараметров
    • как вам подготовленная модель
  • результаты
    • статистические показатели подходят и ошибки скорости