Как нормализовать персидские тексты с Hazm

У меня есть папка, содержащая несколько других папок и каждая содержит много текстовых файлов. Мне нужно извлечь 5 слов до и после определенного слова и следующего кода работает нормально.Как нормализовать персидские тексты с Hazm

Проблема в том, что, поскольку я не нормализует текст, он просто возвращает несколько предложений, в то время как их больше. На персидском языке существует модуль под названием hazm для нормализации текстов. Как я могу использовать это в этом коде?

Для примера нормировки: "ك" должен измениться на "ک" или "ؤ" должен измениться на "و". Потому что первые два на самом деле арабский алфавиты, которые были использованы в персидский. Без нормализации код просто возвращает слова, которые записаны со второй формой, и не распознает слова, которые находятся в первых формах Arabic).

import os 
from hazm import Normalizer 


def getRollingWindow(seq, w): 
    win = [next(seq) for _ in range(11)] 
    yield win 
    for e in seq: 
     win[:-1] = win[1:] 
     win[-1] = e 
     yield win 


def extractSentences(rootDir, searchWord): 
    with open("پاکت", "w", encoding="utf-8") as outfile: 
     for root, _dirs, fnames in os.walk(rootDir): 
      for fname in fnames: 
       print("Looking in", os.path.join(root, fname)) 
       with open(os.path.join(root, fname), encoding = "utf-8") as infile: 
        #normalizer = Normalizer() 
        #fname = normalizer.normalize(fname) 
        for window in getRollingWindow((word for line in infile for word in line(normalizer.normalize(line)).split()), 11): 
         if window[5] != searchWord: continue 
         outfile.write(' '.join(window)+ "\n")

источник

2016-12-15 sara

Я не работаю с Хазмами Но это довольно легко нормировать ваш сам с следующим фрагментом кода. (код просто заменить арабский символ с персидским характером)

def clean_sentence(sentence): 
    sentence = arToPersianChar(sentence) 
    sentence = arToPersianNumb(sentence) 
    return sentence 


def arToPersianNumb(number): 
    dic = { 
     '١': '۱', 
     '٢': '۲', 
     '٣': '۳', 
     '٤': '۴', 
     '٥': '۵', 
     '٦': '۶', 
     '٧': '۷', 
     '٨': '۸', 
     '٩': '۹', 
     '٠': '۰', 
    } 
    return multiple_replace(dic, number) 


def arToPersianChar(userInput): 
dic = { 
    'ك': 'ک', 
    'دِ': 'د', 
    'بِ': 'ب', 
    'زِ': 'ز', 
    'ذِ': 'ذ', 
    'شِ': 'ش', 
    'سِ': 'س', 
    'ى': 'ی', 
    'ي': 'ی' 
} 
return multiple_replace(dic, userInput) 


def multiple_replace(dic, text): 
    pattern = "|".join(map(re.escape, dic.keys())) 
    return re.sub(pattern, lambda m: dic[m.group()], str(text))

Просто вам нужно прочитать каждую строку документа и передать его в clean_sentence():

def clean_all(document): 
    clean = '' 
    for sentence in document: 
     sentence = clean_sentence(sentence) 
     clean += ' \n' + sentence 
    return clean

источник

2017-01-09 10:54:17 Amir

Как нормализовать персидские тексты с Hazm

ответ

Смежные вопросы