В настоящее время я просто изучаю сети, предоставляемые tflearn (VGG.Net, GoogLeNet, ResNet и т. Д.) И применяя их к моему набору данных (128 * 128 одноканальное изображение, 925 изображений - до увеличения, 5058 изображений - после увеличения, два класса - раковые & не раковые).Работа с переустройством: расширение данных, перекрестная проверка, ротация-увеличение
Проблема: большое несоответствие между точностью тренировки (~ 100%) и точностью проверки (~ 70%).
Мой подход: 1) Уменьшение сложности модели за счет сокращения # сверточного ядра, 2) сокращение количества узлов в полностью подключенном слое, 3) увеличение скорости отсева в FC.
Вопрос:
1) Может ли это более облегающие проблемы произошли -По крайней мере в какой-то градусов- недостаточным (обучение) набора данных? Я думаю, что если у меня будет намного больше (учебный) набор данных, это будет достаточно представлять распределение материнства (включая набор данных валидации), чтобы точность проверки была аналогична точности обучения.
2) Может ли перекрестная проверка помочь уменьшить несоответствие? Однако, если у меня есть набор тестов, который никогда не будет использоваться в качестве учебного набора, я думаю, что мой тест acc по-прежнему будет иметь большое отличие от обучения в соответствии с. Это верно?
3) Насколько я знаю, сдвиг-аугментация не обеспечивала бы новую информацию, поскольку свертка является инвариантной относительно сдвига. Как насчет ротации? (вращение перед нарезкой ROI, чтобы изображение не содержало нулей на границе)
Спасибо! : D