проблемы с поиском внутри файла документ XML Word, является то, что текст может быть разделен на элементы в любом символе. Он будет разделен, если форматирование отличается, например, как в Hello World. Но это может быть разбитым в любой точке, и это действительно в OOXML. Таким образом, вы получите дело с XML, как это, даже если форматирование не меняется в середине фразы!
<w:p w:rsidR="00C07F31" w:rsidRDefault="003F6D7A">
<w:r w:rsidRPr="003F6D7A">
<w:rPr>
<w:b />
</w:rPr>
<w:t>Hello</w:t>
</w:r>
<w:r>
<w:t xml:space="preserve">World.</w:t>
</w:r>
</w:p>
Конечно, Вы можете загрузить его в XML DOM дерева (не уверен, что это будет в Python) и попросить, чтобы получить текст только в виде строки, но вы могли бы в конечном итоге со многими другими «тупиков» просто потому, что спецификация OOXML составляет около 6000 страниц, а MS Word может писать много «вещей», которых вы не ожидаете. Таким образом, вы можете написать свою собственную библиотеку обработки документов.
Или вы можете попробовать использовать Aspose.Words.
Он доступен как .NET и Java-продукты. Оба могут использоваться из Python. Один через COM Interop другой через JPype. См. Руководство по программированию Aspose.Words, Utilize Aspose.Words на других языках программирования (извините, я не могу опубликовать вторую ссылку, stackoverflow еще не позволяет мне).
Ya я получить все XML file.Now я хочу спросить вас, как мы можем получить все значения, такие как (жирный, курсив, цвет, фон, пространство) и все параметры форматирования. Как мы можем получить эти значения из xml. – user1006544 2011-12-17 10:46:56