2016-10-11 7 views
0

Моя цель - уметь обнаруживать спрятанное компьютером спрятанное содержимое. Вот несколько примеров спряденного текста:Как проверить, является ли предложение понятным?

«Являясь явным искусством, модным для рекламной организации, вы будете работать, чтобы помочь выставить на аукцион и/или вооруженные силы для своих целевых рынков своим оригинальным мастерством и технологиями способность «.

«Фактический магазин приложений для iphone яблока определенно является обильным местом обитания полезных приложений».

В основном, компьютер заменил слова различными синонимами, пытаясь сделать контент уникальным для обхода обнаружения плагиата. Моя цель - создать систему, которая может обнаружить этот текст тарабарщины. Каким образом это может быть достигнуто?

ответ

1

Что вы хотите сделать, это сделать ngram language model. Языковая модель ngram является статистическим представлением вхождения слов пары слов в языке и используется в машинных переводах, анализе чувств и задачах классификации, таких как прогнозирование положительного или отрицательного обзора фильма. Задача классификации будет заключаться в том, будет ли каждое предложение контактировать или нет.

Классическая модель, подобная наивным заливам (implemented in NLTK), может помочь с вашей проблемой. В обучении он создает языковую модель, затем использует модель для прогнозирования. Чтобы обучить модель, вам понадобятся ваши примеры сокрушенного контента и куча обычного текста на английском языке. Чем больше у вас, тем лучше! Все документы (вы можете рассматривать каждое предложение как документ) должны быть помечены, чтобы указать, являются ли они прямыми или нет.

Вот список английских слов corpora для вас, если нет текста.

Более сложные модели могут работать лучше, и вы можете легко сравнить их рядом друг с другом. Мне нравится использовать scikit-learn для такого рода вещей.

 Смежные вопросы

  • Нет связанных вопросов^_^