Я успешно прочитал .docx
файлы, используя пакет ElementTree, используя zipfile
. Но я понял, что нет архива 'word/document.xml
' для .doc
файлов. Я заглянул в документы, но не нашел. Как его можно прочитать? Для DOCX, я использовал:Чтение файла расширения .doc, ElementTree
import zipfile as zf
import xml.etree.ElementTree as ET
z = zf.ZipFile("test.docx")
doc_xml = z.open('word/document.xml')
tree = ET.parse(doc_xml)
Использование выше .doc дает:
KeyError: "There is no item named 'word/document.xml' in the archive"
Я видел кое-что для чтения в ElementTree документации, но это только для XML-файлов.
doc_xml = open('yesblue.doc','r')
Как это сделать? Может быть, что-то вроде преобразования .doc
в .docx
в самом python.
Редактировать. Формат .doc хранит данные в двоичном формате, а XML не может использоваться для него.