2013-07-18 1 views
0

Я использую WordPunct Tokenizer для разметить это предложение:разница между токенизированным и обычным текстом в Python NLTK

Vi_batna все, что нужно, что потерянно ... Edwar на зарядном устройстве внезапно исчезает ..ldrjh я Easyway себя Edwar вещи

Мой код:

import re 
import nltk 
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء" 
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence) 
print " ".join(wordsArray) 

Я заметил, что печатная продукция является такой же, как входной фразы, так почему бы использовать Tokenizer? Кроме того, будет ли какая-либо разница в создании системы машинного перевода (MOSES) с использованием файлов токенов или обычных текстовых файлов?

+1

Это печать входа, потому что вы присоединились к лексеме вместе. Вы будете делать токенизацию, когда хотите работать со словами по отдельности. –

+0

Возможно, вы захотите отредактировать этот вопрос, чтобы подчеркнуть часть MT вашего вопроса, если это самая важная часть, или задать второй вопрос, чтобы спросить об использовании токенизированных vs. безъядерные тексты в МТ в целом. – dmh

ответ

0

Выход tokeniser является список лексем (wordsArray). Что вы делаете, вы присоединитесь снова маркеры в списке в одну строку с помощью команды:

print " ".join(wordsArray) 

надо заменить:

print wordsArray 

Ваш второй вопрос относительно МОИСЕЮ не ясно, пожалуйста, постарайтесь быть более конкретно.