У меня есть приложение, которое должно различать хорошие HTTP-запросы GET и плохое.Хорошая техника машинного обучения, чтобы отсеять хорошие URL-адреса от плохого
For example:
http://somesite.com?passes=dodgy+parameter # BAD
http://anothersite.com?passes=a+good+parameter # GOOD
My system can make a binary decision about whether or not a URL is good or bad - but ideally I would like it to predict whether or not a previously unseen URL is good or bad.
http://some-new-site.com?passes=a+really+dodgy+parameter # BAD
I feel the need for a support vector machine (SVM) ... but I need to learn machine learning. Some questions:
1) Является ли SVM подходящим для этой задачи? 2) Могу ли я обучать его необработанными URL-адресами? - без явного указания «функций» 3) Сколько URL-адресов мне нужно, чтобы они были хорошими прогнозами? 4) Какое ядро SVM следует использовать? 5) После того, как я тренирую его, как мне его обновлять? 6) Как проверить снова невидимые URL-адреса SVM, чтобы решить, хорошо это или плохо? I
1) Что такое «хороший» URL-адрес против «плохого» URL-адреса? 2) Если вы загрузили необработанные URL-адреса, эти строки были бы функциями - вы бы не избежали выбора объектов так же, как выбранные бесполезные функции (бесполезно, если только вы не выбрали явное строковое ядро в соответствии с наблюдением StompChicken). – user359996