Jump to content
  • 0

Вопрос по regexp


Zverushka
 Share

Question

Задача: получить слово без решеки из "#test" при условии, что само слово всегда должно начиться с решетки.

 

Для решения есть хороший паттерн:

x(?=y)Находит x, только если за x следует y. Например, /Jack(?=Sprat)/ найдет 'Jack', только если за ним следует 'Sprat'. /Jack(?=Sprat|Frost)/ найдет 'Jack', только если за ним следует 'Sprat' или 'Frost'. Однако, ни 'Sprat' ни 'Frost' не войдут в результат поиска.

Проблема в том, что он чудесно работает, если идет за словом, но если я ставлю вначале слова, то ничего не находит

(?=#)[A-ZА-Яё]+ 

https://regex101.com/r/sO1oS2/1

Ставлю в конце:

[A-ZА-Яё]+(?=#)

Находит в строке xtest# слово xtest

 

Ничего не понимаю, как работает эта конструкция (?=y) - работает ожидаемо только в конце регулярного выражения, в его начале не работает.

Edited by Zverushka
Link to comment
Share on other sites

3 answers to this question

Recommended Posts

  • 0

Насколько я понимаю, данная конструкция не сдвигает указатель в строке, поэтому поиск всего что идет после этой конструкции продолжается начиная с того места, где находился указатель перед тем как выполнялась проверка истинности этой конструкции, т.е. перед ней :) У меня не получается сформулировать эту фразу по проще, чтоб она взрывала мозг поменьше, так что вот пример:
 

Ворнинг! Я не знаю как в точности работает поиск по регулярным выражениям (я имею в виду с точки зрения его реализации на низком уровне), так что все что написано дальше скорее некая абстракция для объяснения логики поведения конструкции.

Если для строки "string" задать шаблон для поиска /str(?=in)g/, то при поиске указатель строки поочередно переместится по буквам s-t-r, затем будет проверка идет ли за этими буквами последовательность "in", но в результате указатель всеравно останется на букве r и поиск буквы g будет начат прямо с этого же места, а т.к. после буквы r в исходной строке идет буква i, то искомый шаблон не будет найдет. Аналогично у вас ( /(?=#)[A-ZА-Яё]+/ ) - указатель строки становится в позицию перед знаком #, а потом выполняется проверка: является ли стоящий после указателя символ буквой [A-ZА-Яё]. А т.к. следующий за указателем символ и есть этот самый знак #, то ваш паттерн не будет найден никогда.

 

Чтобы отделить # от слова используйте в выражении "запоминающие скобки" и соответствующие элементы в массиве-результате поиска . Пример.

  • Like 2
Link to comment
Share on other sites

  • 0

Как верно заметили выше, "(?=#)" означает "позиция перед символом #". Поскольку за этим местом по определению может следовать только символ #, сочетание "(?=#)[^#]" не имеет смысла и не найдется никогда.

 

В других языках бывает аналогичная проверка предшествующего текста (а-ля "(?<=#)" — позиция после символа #), но в JS ее почему-то не реализовали(.

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy