2014-01-19 3 views
3

Мне нужно разобрать еврейское предложение, чтобы идентифицировать и изолировать (чтобы я мог обернуть их тегами span) каждое слово в нем. Я первый пытаюсь без знаков препинания, идентифицируя не являющееся пространство символов из пространств символов, но по-прежнему не работает:Идентифицировать и изолировать слово на иврите с помощью regexp

var regex = /(\s)*(\S)+(\s)*/g; 

любая идея? благодаря

редактировать: У меня уже есть регулярное выражение, которое делает работу в английском, я помещаю его в случае, если это может помочь понять, что я хочу добиться:

var regExp = /\b([^\s']+)\b/g, 

edit2: Добавление кода пример

var regex = /(\s)*(\S)+(\s)*/g; 
var sentence = "שלום מה קורה מהיום"; 
sentence.replace(regex, function(match, p1, p2, p3){console.log('"' + match + '"', '"' + p1 + '"', '"' + p2 + '"', '"' + p3 + '"');}); 


// result 
"שלום " "undefined" "ם" " " VM1494:2 
"מה " "undefined" "ה" " " VM1494:2 
"קורה " "undefined" "ה" " " VM1494:2 
"היום" "undefined" "ם" "undefined" VM1494:2 
"undefinedundefinedundefinedundefined" 

edit3: Мне нужно иметь возможность повторно собрать предложение с той же пунктуацией в конце.

+0

Wh Вы имеете в виду, что «не работает». Не соответствует вашей исходной строке? Не захватывает то, что вы хотите? Просьба привести примеры строк, которые должны соответствовать, а также те, которые не соответствуют. –

+0

@ David-SkyMesh: отредактировал мое сообщение с примером –

+0

У вас есть переменное количество совпадений. Попробуйте изменить '(\ s) *' на '(\ s *)' оба раза и измените '(\ S) +' на '(\ S +)'. –

ответ

1

Ну, как вы знаете, иврит в Интернете - сука. Попробуйте использовать это регулярное выражение:

[\s]*(\S)+[\s]* 

пример:

var words = sentence.match(/[\s]*(\S)+[\s]*/g); 

Это оставит в хвостовых пробелов, чтобы очистить их вы могли бы сделать что-то в этом роде:

words = words.join().split(" ") 

Я m попробовать некоторые другие варианты регулярных выражений, чтобы попытаться обойти взломанный разрыв соединения, я обновлю, если найду что-нибудь.

Кроме того, вы могли бы пойти «заменить» путь и сделать:

var words = sentence.replace(/[#`~?!#\$%\.;:,]*/g, "").split(" ") 

Просто убедитесь, чтобы добавить любые знаки препинания, которые могут быть использованы.

Затем, чтобы получить новый HTML строку со словами, завернутые с двускатной тега вы можете сделать это:

Допустим, что:

var sentence = "?שלום, מה קורה מהיום" 
var words = sentence.replace(/[#`~?!#\$%\.;:,]*/g, "").split(" ") 

Тогда:

var newSentence = encodeURI(sentence) 
words.forEach(function(word){ 
    word = encodeURI(word) 
    newSentence = newSentence.replace(word, "<span>" + word + "</span>") 
}) 
newSentence = decodeURI(newSentence); 

newSentence будет введите ваши слова, завернутые тегом span, оставив при пунктуации:

+0

Кажется работать в консоли, тестирование в моем приложении –

+1

Это прекрасно работает, спасибо и спасибо всем! –

+0

Добро пожаловать, рад помочь. Если бы вы могли проголосовать за мой ответ и отметить его как решение, я бы его оценил. – Lior

0

я хотел бы сделать это таким образом:

yourString.split(' ').map(function(e){ return "<span>"+e+"</span>"; }).join(''); 

и убедитесь, чтобы добавить style="direction:rtl; к элементу обертки для обработки знаков препинания.

+0

. А если строка содержит несколько пробелов или пунктуации? Кроме того, только примечание, вопрос был не в реализации оболочки html, а о проблемном регулярном выражении ... – Lior

+0

Lior, вы заметили большую проблему, строки с несколькими пунктуациями.Вот где трудность –

+0

@JonathanBensaid вы можете ответить на мой вопрос, который я задал в комментарии выше, о формате результата, который вы ожидаете? – Lior

0

Просто опустите сопоставимые группы из пробелов.

var regex = /[\s,]*([^\s,]+)[\s,]*/g; 

var sentence = "שלום, מה קורה מהיום"; 

var text = sentence.replace(regex, '<span>$1</span>'); 

console.log(text); 

// <span>שלום</span><span>מה</span><span>קורה</span><span>מהיום</span> 
+0

Спасибо Илану, но мне нужно продолжать собирать предложение с той же пунктуацией после упаковки. Так что раскол здесь не поможет. Я забыл упомянуть об этом в своем вопросе, сейчас редактируя –

+0

Я обновил свой ответ. Надеюсь, я понимаю, что вам нужно. –

+0

Я попытался с вашим кодом, он работает, но также принимает знаки препинания со словом. " שלום, מה קורה היום" –

1

попытка юникод между типом соответствия символов регулярного выражения ивритского диапазона

"בדיקה, להלהלה".match(/[\u0590-\u05F4\uFB00-\uFB4F]+/g) 

пунктуацией (простой):

".בדיק'ה, להלהל\"ה".match(/[^,.]+/g) 

регулярным выражение для всех пунктуации:

"aa bb cc.בדיק'ה, להלהל\"ה .test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g," ") 

на самом деле , есть много аббрегаций viations на иврите, вероятно, включать их слишком

".בדיק'ה, להלהל\"ה".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g) 
(2) ["בדיק'ה", "להלהל"ה"] 

оригинальную фразу

"שלום, מה קורה מהיום".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g) 
(4) ["שלום", "מה", "קורה", "מהיום"] 

с английским

"aa bb cc.בדיק'ה, להלהל\"ה .test'da, te\"xt".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g) 
(2) ["בדיק'ה", "להלהל"ה"] 

возможно добавить английский язык тоже (я решил, что нет на иврите аббревиатуры типа на английском языке)

"aa bb cc.בדיק'ה, להלהל\"ה .test'da, te\"xt".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*|[a-zA-Z']+/g) 
(8) ["aa", "bb", "cc", "בדיק'ה", "להלהל"ה", "test'da", "te", "xt"]