Я хочу отфильтровать контент для взрослых из твитов (или любого текста в этом отношении).Каков правильный способ анализа текста для идентификации контента для взрослых?
Для обнаружения спама у нас есть наборы данных, которые проверяют, является ли конкретный текст спамом или ветчиной.
Для взрослого содержания, я нашел набор данных я хочу использовать (извлечение ниже):
arrBad = [
'acrotomophilia',
'anal',
'anilingus',
'anus',
.
. etc.
.
'zoophilia']
Вопрос
Как я могу использовать этот набор данных для фильтрации текстовых экземпляров?
Свободный путь? – percusse