tokenize

    17зной

    5ответ

    Есть ли эквивалент str.split в Python, который также возвращает разделители? Мне нужно сохранить пробельный макет для моего вывода после обработки некоторых токенов. Пример: >>> s="\tthis is an exampl

    9зной

    4ответ

    Я ищу, чтобы tokenize поисковый запрос, похожий на то, как Google это делает. Например, если у меня есть следующий поисковый запрос: the quick "brown fox" jumps over the "lazy dog" Я хотел бы иметь

    18зной

    4ответ

    Я ищу класс или метод, который занимает длинную строку из 100 слов и токенизирует, удаляет стоп-слова и стебли для использования в ИК-системе. Например: «большой жира кота, сказал„ваш самый смешной па

    0зной

    3ответ

    Мы отслеживаем строки пользовательских агентов на нашем веб-сайте. Я хочу сделать некоторые статистические данные о них, чтобы узнать, сколько у нас пользователей IE6 (поэтому мы знаем, что нам нужно

    1зной

    1ответ

    Я пытаюсь использовать Lucene для поиска имен в базе данных. Однако некоторые имена содержат слова типа «NOT» и «OR» и даже «-» минус символы. Я все еще хочу, чтобы разные токены внутри имен были разб

    2зной

    6ответ

    Для очистки моего C я пишу полезный библиотечный код. Когда дело доходило до чтения текстовых файлов, всегда полезно иметь удобную функцию токенизации, которая делает большую часть тяжелого подъема (п

    1зной

    4ответ

    Я пытаюсь поставить коэффициенты полиномов из массива полукокса в целочисленный массив У меня есть это: char string[] = "-4x^0 + x^1 + 4x^3 - 3x^4"; и может разметить его место в -4x^0 х^1 4x^3 3x^4 Т