3

Я пытаюсь внедрить нейронную сеть для обнаружения спама в электронной почте. У меня есть нейронная сеть для решения проблемы XOR, и я хочу отредактировать эту сеть для своей цели и использовать ba. Его доступно здесь: https://github.com/trentsartain/Neural-NetworkВходы для нейронной сети для обнаружения спама электронной почты

Я загрузил некоторую базу данных спама и ветчины электронной почты в текстовых форматах для обучения сети. Так что у меня есть несколько наборов для обучения. Но мой вопрос:

Что должно быть входом для этой нейронной сети?

Спасибо за каждый комментарий! :)

+3

Существует так много предварительных исследований об этом ... поиск google ученого для обсуждения различных сигналов, полезных при обнаружении спама, затем извлечение этих сигналов из текста и их подача в ваш ANN. –

ответ

2

Короткий ответ: ввод будет вашим спам-письмом.

Более длинный ответ на базовом уровне: Предполагая, что ваши электронные письма не содержат странных символов. Представьте вектор, в котором каждый элемент вектора представляет одно из слов, которое появляется в этих письмах.
И для каждого письма вы создаете один из этих векторов, и для каждого элемента вы вычисляете частоту этого слова в письме.
И все эти векторы, по одному для каждого письма, будут вашими входами.

Это основная идея. Затем вы можете уточнить это, применив stemming, используйте tf-idf вместо обычной частоты, добавьте другие элементы ввода (например, из заголовков электронной почты).

+0

Большое спасибо. :) – user2095405

1

Я воспользовался фильтрами нежелательной почты для сообщений электронной почты и SMS и наиболее эффективным из них на основе техники «Naive Bayes spam filtering». Поэтому я предлагаю сначала изучить эту технику.

Как идея начать с:

Вы можете использовать метод взвешивания слов в нейросетевых как следующее.

Первый шаг: создать «словарь», основанный на нейронной сети, ведьма отвечает вам, с какой вероятностью данное слово является спамом.

Второй шаг: рассчитать вероятность того, что целое сообщение станет спамом. У вас может быть несколько входов, например, первый ввод занимает несколько слов со спамом с вероятностью от 0 до 10%, второе число слов с вероятностью 10-20% и т. Д. До последнего числа слов от вероятности 90-100% , вывод такой нейронной сети вы можете установить вероятность того, что сообщение будет спамом.