2015-08-27 6 views
0

I/файл P: DOC, DOCX с ан-тире, длинное тиреС помощью Java, как я могу вычислить количество слов, которые дают мне результат такой же, как MS-Office функциональность количество слов

Я реализовал функциональность слова подсчитайте с помощью Apache Tika (свойство метаданных) & Подготовьте wordtojava (library), но они не дают мне точный результат подсчета слов.

en-dash & em-dash количество слов отличается от MS-Office ex. 2-3 4-5 результат: MS-офис дает количество слов 4 для примера выше APACHE - Тик & Aspose библиотека дает количеству слов 2

Как я могу вычислить правильное количество слов такого же, как дано MS- Офис?

Любая помощь очень заметна.

Нужна быстрая реакция.

Thanks

ответ

2

Извлечь всю строку из документа в одну строку. Разделите их с помощью этого регулярного выражения «[\ n \ t \ r \ f \ p {Pd}]" и подсчитайте длину разбитого массива строк.

String allWords = "2—3 4–5"; 
    String[] split = allWords.split("[\n\t\r\f \\p{Pd}]"); 
    System.out.println(split.length); 

Он печатает 4. Надеюсь, что это помощь.

0

Свойство «BuiltInDocumentProperties.Words» представляет собой оценку количества слов в документе Word. Aspose.Words обновляет это свойство, когда вы вызываете метод Document.updateWordCount. Пожалуйста, см. Следующий пример кода:

Document doc = new Document(getMyDir() + "in.docx"); 

// Update the word, character and paragraph count of the document. 
doc.updateWordCount(); 

// Display the updated document properties. 
System.out.println("Characters: " + doc.getBuiltInDocumentProperties().getCharacters()); 
System.out.println("Words: " + doc.getBuiltInDocumentProperties().getWords()); 
System.out.println("Paragraphs: " + doc.getBuiltInDocumentProperties().getParagraphs()); 

Надеюсь, это поможет.

Кроме того, убедитесь, что вы используете latest version of Aspose.Words for Java, т. Е. 15.7.0.

Я работаю с Aspose как Developer Evangelist.

+0

Привет, Awais, я применил код для aspose, который ниже, и я использую последние слова для java 15.7.0 – JalT

+0

Предлагаю вам сообщить об этом на форуме [Aspose.Words] (http: // www .aspose.com/community/forums/aspose.words-product-family/75/showforum.aspx) с исходным документом Word и кодами сервера, которые вы используете в конце. Мы подробно рассмотрим проблему с нашей стороны и предоставим вам дополнительную информацию через вашу тему. –