2016-12-04 3 views
0

В настоящее время я пытаюсь сопоставить сценарий devnagari с английскими алфавитами. Но время от времени я сталкиваюсь с ошибкой Индекс списка за пределами допустимого диапазона. Я не хочу пропустить ни одного списка. Вот почему я не хочу использовать обработку ошибок, если это необходимо. Не могли бы вы заглянуть в мой сценарий и выяснить, почему эта ошибка происходит? В моем слове файл я обнаружил, какое слово вызывает ошибку, но затем Если я использую пару предложений вверх и вниз от этого слова, тогда ошибки там нет. Я думаю, что ошибка происходит с определенной длиной строки.Проблема с индексированием списка при преобразовании букв (devnagari to english)

clean=[] 
dafuq=[] 
clean_list = [] 
replacements = {'अ':'A','आ':'AA', 'इ':'I', 'ई':'II', 'उ':'U','ऊ':'UU', 'ए':'E', 'ऐ':'AI', 
       'ओ':'O','औ':'OU', 'क':'KA', 'ख':'KHA', 'ग':'GA', 'घ':'GHA', 'ङ':'NGA', 
       'च':'CA','छ':'CHHA', 'ज':'JA', 'झ':'JHA','ञ':'NIA', 'ट':'TA', 'ठ':'THA', 
       'ड':'DHA','ढ':'DHHA', 'ण':'NAE', 'त':'TA', 'थ':'THA','द':'DA', 'ध':'DHA', 
       'न':'NA','प':'PA', 'फ':'FA', 'ब':'B', 'भ':'BHA', 'म':'MA','य':'YA', 'र':'RA', 
       'ल':'L','व':'WA', 'स':'SA', 'ष':'SHHA', 'श':'SHA', 'ह':'HA', '्':'A', 
       'ऋ':'RI', 'ॠ':'RI','ऌ':'LI','ॐ':'OMS', 'ः':' ', 'ँ':'U', 
       'ं':'M', 'ृ':'RI', 'ा':'AA', 'ी':'II', 'ि':'I', 'े':'E', 'ै':'AI', 
       'ो':'O','ौ':'OU','ु' :'U','ू':'UU' } 

import unicodedata 
from functools import reduce 

def reducer(r, v): 
    if unicodedata.category(v) in ('Mc', 'Mn'): 
     r[-1] = r[-1] + v 
    else: 
     r.append(v) 
    return r 

with open('words_original.txt', mode='r',encoding="utf-8") as f: 
    with open ('alphabeths.txt', mode='w+', encoding='utf-8') as d: 
    with open('only_words.txt', mode='w+', encoding="utf-8") as e: 



      chunk_size = 4096 
      f_chunk = f.read(chunk_size) 

      while len(f_chunk)>0: 

       for word in f_chunk.split(): 


       for char in ['।', ',', '’', '‘', '?','#','1','2','3','4','0','5','6','7','8','9', 
           '१','२','३','४','५','.''६','७','८','९','०', '5','6','7','8','9','0','\ufeff']: 
        if char in word: 
         word = word.replace(char, '') 

       if word.strip(): 
        clean_list.append(word) 

       f_chunk = f.read(chunk_size) 

       for clean_word in clean_list: 


       test_word= reduce(reducer,clean_word,[]) 

       final_word= (''.join(test_word)) 
       dafuq.append(final_word) 
       print (final_word) 
    f_chunk = f.read(chunk_size) 

Это файл я тестирую его на

words_original.txt

words_original.txt

ошибки StackTrace

Traceback (most recent call last): 
    File "C:\Users\KUSHAL\Desktop\EARTHQUAKE_PYTHON\test.py", line 82, in <module> 
    test_word= reduce(reducer,clean_word,[]) 
    File "C:\Users\KUSHAL\Desktop\EARTHQUAKE_PYTHON\test.py", line 27, in reducer 
    r[-1] = r[-1] + v 
IndexError: list index out of range 
+2

Удалите все ненужные комментарии из кода, запустите код и предоставите нам полную трассировку стека, чтобы мы могли помочь. – thefourtheye

+0

@thefourtheye уверен. сделанный! – choman

ответ

0

Проблема лежала с некоторыми символами Юникода. Он работал после их удаления.