tokenize

17зной

5ответ

Есть ли эквивалент str.split в Python, который также возвращает разделители? Мне нужно сохранить пробельный макет для моего вывода после обработки некоторых токенов. Пример: >>> s="\tthis is an exampl

9зной

4ответ

Google-подобный токенинг поискового запроса и разбиение строк

Я ищу, чтобы tokenize поисковый запрос, похожий на то, как Google это делает. Например, если у меня есть следующий поисковый запрос: the quick "brown fox" jumps over the "lazy dog" Я хотел бы иметь

18зной

4ответ

Tokenizer, Stop Word Removal, Stemming in Java

Я ищу класс или метод, который занимает длинную строку из 100 слов и токенизирует, удаляет стоп-слова и стебли для использования в ИК-системе. Например: «большой жира кота, сказал„ваш самый смешной па

0зной

3ответ

авто-tokenize пользовательские агенты строки для статистики?

Мы отслеживаем строки пользовательских агентов на нашем веб-сайте. Я хочу сделать некоторые статистические данные о них, чтобы узнать, сколько у нас пользователей IE6 (поэтому мы знаем, что нам нужно

1зной

1ответ

Lucene Query WITHOUT Operators

Я пытаюсь использовать Lucene для поиска имен в базе данных. Однако некоторые имена содержат слова типа «NOT» и «OR» и даже «-» минус символы. Я все еще хочу, чтобы разные токены внутри имен были разб

2зной

6ответ

Сложность функции токенизации строк в C

Для очистки моего C я пишу полезный библиотечный код. Когда дело доходило до чтения текстовых файлов, всегда полезно иметь удобную функцию токенизации, которая делает большую часть тяжелого подъема (п

1зной

4ответ

C разметить полиномиальные коэффициенты

Я пытаюсь поставить коэффициенты полиномов из массива полукокса в целочисленный массив У меня есть это: char string[] = "-4x^0 + x^1 + 4x^3 - 3x^4"; и может разметить его место в -4x^0 х^1 4x^3 3x^4 Т