Я довольно новичок в MediaWiki, и теперь у меня есть проблема. У меня есть заголовок какой-либо страницы Wiki, и я хочу получить только текст указанной страницы, используя api.php, но все, что я нашел в API, - это способ получить содержимое Wiki на странице (с разметкой wiki). Я использовал этот HTTP-запрос ...Получить текст со страницы mediawiki через API
/api.php?action=query&prop=revisions&rvlimit=1&rvprop=content&format=xml&titles=test
Но мне нужен только текстовый контент без разметки Wiki. Возможно ли это с помощью API MediaWiki?
Я сделал то же самое, у меня есть Java приложение, которое должно Получать текстовое содержимое страницы wiki. Когда я использую api и получаю страницу wikisyntax, она работает очень быстро, но мне нужен чистый текст, я попытался запросить HTML-страницу и вычеркнуть теги HTML, но она работает медленно, поэтому я спросил об этой функции в wiki API , Или, может быть, теперь у вас есть хороший wikisyntax-прозрачный текстовый конвертер для Java, а затем я могу преобразовать его прямо в Java? –
Реальная проблема с языком Википедии заключается в том, что она полностью заполнена. Если вы внимательно посмотрите на код страницы, вы увидите всевозможные пользовательские функции. Определения этих функций также должны быть взяты, а затем интерпретированы, что может расширить до еще большего числа функций. Вот почему я вернулся к анализу html, который содержит полный, визуализированный текст. –
Викитекс MediaWiki не совсем полный Turing, так как разработчики смело отбивались от требований редакторов для создания циклов. Но вы правы, что для получения простого текста из MediaWiki вам нужно получить HTML-код, а затем удалить его. Вы можете использовать этот инструмент 'html2txt.pl', который я сделал в Perl для этой работы, или преобразовать его на ваш любимый язык: https://gist.github.com/751910 – hippietrail