2013-08-04 8 views
2

В настоящее время я работаю над проектом, который предполагает поиск «областей знания», с которыми связано определенное ключевое слово. Я планирую сделать это с помощью DMOZ. Например, 'Брэд Питт' даетРазбор DMOZ дампов для запросов категорий в Python

Arts: People: P: Pitt, Brad: Fan Pages (10) 

Arts: People: P: Pitt, Brad: Articles and Interviews (5) 

Arts: People: P: Pitt, Brad (4) 

Arts: People: P: Pitt, Brad: Image Galleries (2) 

Arts: People: P: Pitt, Brad: Movies (2) 

и так далее ...

У меня есть structure.rdf.u8 дамп с сайта DMOZ. Кто-то сказал мне, что, если мне не нужны URL-адреса, этого файла достаточно (мне не нужны сайты, а только категории, относящиеся к ключевым словам). Или мне нужен файл содержимого?

Кроме того, я хотел бы знать, как лучше всего разбирать структуру файл с использованием Python (любая библиотека). Я не владею XML, хотя я хорошо разбираюсь в Python.

ответ

1

Я начал с https://github.com/kremso/dmoz-parser и сделал простой тему фильтр: https://github.com/lawrencecreates/dmoz-parser/blob/master/sample.py#L6

class LawrenceFilter: 
    def __init__(self): 
    self._file = open("seeds.txt", 'w') 

    def page(self, page, content): 
     if page != None and page != "": 
      topic = content['topic'] 
      if topic.find('United_States/Kansas/Localities/L/Lawrence') > 0 : 
       self._file.write(page + "\n") 
       print "found page %s in topic %s" % (page , topic) 

    def finish(self): 
    self._file.close() 

 Смежные вопросы

  • Нет связанных вопросов^_^