Задача, на которую вы нацелены, - классификация, поскольку целевые значения являются номинальной шкалой.
Получение права словаря имеет решающее значение, так как вся остальная часть работы уже выполняется другими, например, в библиотеке sklearn для Python, которая содержит наиболее подходящие алгоритмы и множество данных для их проверки и изучения алгоритмов.
Кажется, у вас есть четыре переменных в качестве входных данных:
- возраста - метрический переменная
- веса - метрический переменной
- Диагноз один - номинальный переменной
- Диагноз два - номинальный переменная
Вам придется кодировать номинальные переменные, где я бы рекомендовал массив всех возможных диагнозов, таких как как:
лихорадка, головная боль, боли в желудке, х - [0, 0, 0, 0]
Теперь каждый элемент массива будет установлен в 1, если диагноз верен и 0 иначе. Поэтому у вас есть всего 2 + n входных переменных, а n - количество возможных симптомов.
Тогда вы можете просто пойти в библиотеку sklearn и начать использовать самый простой алгоритм классификации: Nearest Neighbour Classification
Если это не даст хорошего результата (вероятно, результаты будут не очень хорошо), вы можете начать использовать более сложные модели (SVM, RandomForest). Но сначала вы должны изучить словарь и использовать простые модели, чтобы познакомиться с методами и цепочкой обработки.