Я использую WordPunct Tokenizer для разметить это предложение:разница между токенизированным и обычным текстом в Python NLTK
Vi_batna все, что нужно, что потерянно ... Edwar на зарядном устройстве внезапно исчезает ..ldrjh я Easyway себя Edwar вещи
Мой код:
import re
import nltk
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence)
print " ".join(wordsArray)
Я заметил, что печатная продукция является такой же, как входной фразы, так почему бы использовать Tokenizer? Кроме того, будет ли какая-либо разница в создании системы машинного перевода (MOSES) с использованием файлов токенов или обычных текстовых файлов?
Это печать входа, потому что вы присоединились к лексеме вместе. Вы будете делать токенизацию, когда хотите работать со словами по отдельности. –
Возможно, вы захотите отредактировать этот вопрос, чтобы подчеркнуть часть MT вашего вопроса, если это самая важная часть, или задать второй вопрос, чтобы спросить об использовании токенизированных vs. безъядерные тексты в МТ в целом. – dmh