Можно создать дубликат:
Wikipedia : Java library to remove wikipedia text markup removalJava регулярное выражение, чтобы очистить Mediawiki разметке
Я должен очистить некоторое содержание, которое исходит от Confluence. Это содержание почти чистое; Однако, есть некоторые вещи, как:
- [ссылка |]: Ссылка без URL-адрес части
- * [ссылка |] *: Ссылка (без URL-адрес части) жирного
- * текст *: Bolded текст
- _ * текст * _: курсивный текст жирным шрифтом
И так далее. мне нужно написать регулярное выражение, очистить все, что так, я сделал что-то вроде:
String wikiCleanMarkupRegex = "\\\\[(.*?)[\\\\|.*?]?\\\\]|\\\\*(.*?)\\\\*|_(.*?)_";
Но это не чистое все, я имею в виду, если я дам ему ссылку в # 2, я получите:
[ссылка |]
Который не то, что я хочу, я хочу, чтобы получить «ссылку» ... так, мне нужно повторный анализ строки снова и снова, пока нет другого совпадения не найдено.
Это действительно медленно, потому что есть миллионы записей для очистки, так что есть ли способ сделать регулярное выражение, которое делает все сразу?
Большое спасибо.
Также , если у меня есть что-то вроде \ _ \ * \ [link | \] \ * \ _: ссылка (без части url) выделена жирным шрифтом и курсивом, мне нужно будет ее разобрать 3 раза, один - удалите курсив, другой, чтобы удалить полужирный и последний, чтобы удалить скобки ... это слишком медленно для того, что мне нужно – user1739166