В настоящее время я работаю над проектом, который предполагает поиск «областей знания», с которыми связано определенное ключевое слово. Я планирую сделать это с помощью DMOZ. Например, 'Брэд Питт' даетРазбор DMOZ дампов для запросов категорий в Python
Arts: People: P: Pitt, Brad: Fan Pages (10)
Arts: People: P: Pitt, Brad: Articles and Interviews (5)
Arts: People: P: Pitt, Brad (4)
Arts: People: P: Pitt, Brad: Image Galleries (2)
Arts: People: P: Pitt, Brad: Movies (2)
и так далее ...
У меня есть structure.rdf.u8 дамп с сайта DMOZ. Кто-то сказал мне, что, если мне не нужны URL-адреса, этого файла достаточно (мне не нужны сайты, а только категории, относящиеся к ключевым словам). Или мне нужен файл содержимого?
Кроме того, я хотел бы знать, как лучше всего разбирать структуру файл с использованием Python (любая библиотека). Я не владею XML, хотя я хорошо разбираюсь в Python.