Я хочу, чтобы заменить ASCII/английские символы в файле и сохранить символы Юникода в среде LinuxSED заменяющие символы ASCII в Linux
INSERT INTO text (old_id,old_text,old_flags) VALUES (2815829,'[[चित्र:Youth-soccer-indiana.jpg|thumb|300px|right|बचपन का खेल.एसोसिएशन फुटबॉल, ऊपर दिखाया गया है, एक टीम खेल है जो सामाजिक कार्यों को भी प्रदान करता है।]]\n\n\'\'\'खेल\'\'\', कई [[नियमों]] एवं [[रिवाजों]] द्वारा संचालित होने वाली एक [[प्रतियोगी]] गतिविधि है। \'\'खेल\'\'
Я пытался
~$ sed 's/[^\u0900-\u097F]/ /g' hi.text but the range
, но я получаю
sed: -e выражение # 1, char 23: Недопустимый конец диапазона
Я также попробовал это, и это, кажется, работает, но не в полной мере
sed 's/[a-zA-Z 0-9`[email protected]#$%^&*()_+\[\]\\{}|;'\'':",.\/<>?]//g' enwiki-latest-pages-articles-multistream_3.sql >result.txt
Может кто-нибудь сказать мне, как получить СЭД работает с регулярным выражением диапазон Юникода
, что вы имеете в виду *, кажется, работает но не полностью *? –
, пожалуйста, упростите проблему. Рассмотрите возможность размещения 20 символов смешанного ascii и unicode и требуемой информации из этих символов. Вы хотите удалить ascii, или как ваш заголовок говорит «replace». Одна строка кода показывает пробел, второй - отсутствие символа перезаписи. Удачи. – shellter
Да, я хочу удалить (заменить нулем) все символы ascii и сохранить только слова хинди unicode. Второе регулярное выражение, которое я пробовал, сохраняет некоторые специальные символы (что не обязательно). – gaurus