2015-12-09 4 views
0

Я исполняю генерацию Биграм для слов чешского языка. Я могу генерировать Bi-граммы с помощью Python. Проблема связана с неанглийскими символами на чешском языке.n-граммовое поколение для слов неанглийских языков

Вход:

republikán strategii проти znovuzvolení Обамы.

Выполнение Биграммные, выход

[[ 'Republik \ xc3 \ xa1n', 'strategii'], [ 'strategii', 'проти'], [ 'проти', «znovuzvolen \ xc3 \ xad '], [' znovuzvolen \ xc3 \ xad ',' Obamy ']]

Специальные буквы чешского языка преобразуются как \ xc3 \ xad в bigram. Какие изменения необходимо выполнить с кодом для правильного ввода специальных букв на выходе

ответ

0

Данные верны, но при преобразовании списка в строку вывод готов с использованием repr для элементов списка, а не str. Сравнить:

>>> x = [['republikán']] 
>>> print(x) 
[['republik\xc3\xa1n']] 
>>> print(x[0]) 
['republik\xc3\xa1n'] 
>>> print(x[0][0]) 
republikán 
>>> 
+0

Это работает отлично, но я хочу, чтобы он печатал все слова в списке, а не только первое слово. –

+0

Возможность распечатывать список предназначена как инструмент отладки, а не для окончательного вывода. Создайте нужную строку из элементов списка, затем распечатайте ее. – chepner