Jump to content
  • 0

Регулярка замены ссылок вне тегов


radist2s
 Share

Question

Никак не могу сообразить универсальную регулярку, чтобы работа велась только с текстовыми ссылками, не затрагивая

<a href="http://example.com">xmp</a>

Конечно, можно использовать что-то вроде

(?<!<a href=\")

Но проблема в том, что нельзя использовать что-то вроде

(?<!<a[\s\S]+?href=")

Нужна помощь.

Link to comment
Share on other sites

2 answers to this question

Recommended Posts

  • 0

Так, ну я тут накидал по-быстрому. Не факт, что 100% правильно работает, но логика, мне кажется должна быть какая-то такая.

preg_replace('~(?(?=<a href=\".*?\">.*?</a>))<a href=\"(.*?)\">(.*?)</a>|(http:\/\/[a-z]+[-\da-z\.]*\.[a-z]{2,6})~i', '<a href="\\1\\3">\\1\\3</a>', $s);

Что следует исправить:

1. Вернуть все параметры, которые есть в исходном теге a.

2. Выключить жадность (не помню модификатор — «U» вроде бы, но лень гуглить) на всю регулярку и заменить «*?» на «*».

Будут вопросы — задавайте.

(?<!<a[\s\S]+?href=")

Вроде бы и не должна работать, поскольку отрицание вперёд (или как это правильно называется) не работает с переменными длинами. Это, конечно, досадно.

Link to comment
Share on other sites

  • 0

В общем, все это я нагородил, чтобы парсить ютубовские ссылки. Я в курсе, что есть oEmbed, но ведь свой велосипед к телу ближе.

Получилось у меня примерно вот что:


$pattern = '~(<a[\s\S]href=[\"\'])?https?://(?:www\.)?(youtube.com)/watch[\S]*?[?&]v=([^\s&=$]+)(?(?=&)[^\s$]+)~im';
$replaced_content = preg_replace_callback($pattern, 'embed_content', $content);

function embed_content($matches)
{
//Если результат из первой группы регулярки пустой,
//а результат из второй группы равен 'youtube.com'
if( empty($matches[1]) AND $matches[2] == 'youtube.com' )
{
return str_replace('%', $matches[3],
$you_tube_html_code);
}
//Если первая группа (<a[\s\S]href=[\"\']) вернула непустой результат,
//значит это ссылка, и в результате что-то вроде <a href="http://youtube.com...
elseif( ! empty($matches[1]) )
{
//Возвращаем результат регулярки нетронутым.
return $matches[0];
}
}

Еще мне кажется, что лучше не использовать конструкцию [.], так как вроде бы она сильно привязана к текущей локали, а это может обернуться кучей проблем, лучше, наверное, использовать [\S].

Edited by radist2s
Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy