Я пишу что-то, что позволяет размещать некоторые длинные формы контента, такие как сообщения в блогах, которые не требуют регистрации. Я хочу определить, является ли сообщение дубликатом. Чтобы быть ясным, он не должен быть совершенным, просто поймайте очевидные обманы, такие как спамеры или ошибки, когда код внешнего интерфейса не работает, и пользователь отправляет два запроса на создание сообщения или что-то в этом роде.Обнаружение дублирующегося сообщения
Моя первоначальная идея - удалить специальные символы, пробелы и некоторые общие слова типа и, но, или т. Д., А затем md5. Затем я могу сохранить «duplicate_hash» или что-то в БД.
Затем, когда вы отправляетесь на почту, он будет делать запрос в БД для этого уникального хэша. Если хэш обнаружен, вы получаете повторяющуюся ошибку.
Будет ли это работать очень хорошо или есть лучшая идея для этого? Мы используем Node и MySQL, если для этого уже есть какие-то специальные инструменты, которые я не нахожу.
Проблема с использованием hasing как md5 для чего-то вроде этого состоит в том, что даже если один и тот же вход всегда будет выдавать один и тот же результат (хешированный), две очень похожие фразы с малейшей разницей приведут к совершенно другому хешу. – Drown
@Charles Если кто-то использует какую-то другую фразу где-то, как я уже упоминал, меня это не волнует. Попытка поймать очевидные дубликаты. т. е. «Кошка быстрая» против «Эта кошка быстрая», это нормально, чтобы пройти. Мой вариант использования - боты, которые публикуют одинаковые сообщения и людей, которые дважды публикуют (случайно) –