Jump to content
  • 0

Регулярные выражения


XAHTEP26
 Share

Question

Помогите пожалуйста разобраться с регулярными выражениями.
Надо написать простой парсер новостей с сайта http://fsrar.ru/news. Нужно вынимать весь html-код который заключен между <p class="text"> и </p> (в том числе ссылку).
Я делаю так:

$file = file_get_contents('http://fsrar.ru/news');$pattern = "/\<p\ class\=\"text\"\>(.*)\<\/p\>/U";preg_match_all($pattern, $file, $matches);print implode('<br />', $matches[1]);

Но при этом ничего не выводится. Подскажите где я ошибся и/или посоветуйте статью про регулярные выражения.

Link to comment
Share on other sites

14 answers to this question

Recommended Posts

  • 0

По-моему на том сайте тег p не закрывается.. соответственно под шаблон не подходит)...

Закрывается. ) Все новости выглядят примерно так:

<p class="text">Информационное сообщение о функционировании информационных систем Росалкогольрегулирования 1-2 января 2014<br>    <a href="/news/view?id=697">читать полностью</a>      </p>
Link to comment
Share on other sites

  • 0

Вот, что вижу я

 <p class="text">Информационное сообщение о функционировании информационных систем Росалкогольрегулирования 1-2 января 2014<br />    <a href="/news/view?id=697">читать полностью</a>       </div><div class="newsBlock  newsBlockLocked "><span class="datex" ></span>    <p class="text">Информационное сообщение для производителей и импортеров алкогольной продукции<br />    <a href="/news/view?id=122">читать полностью</a>       </div>

И вообще на этой странице всего 2 закрытых p тега...

  • Like 1
Link to comment
Share on other sites

  • 0

Хм. Действительно. Я просто через инспектор смотрел а там браузер сам добавлял закрывающие теги. Спасибо.
Но даже если так. Пишу:

$pattern = "/\<p\ class\=\"text\"\>(.*)\<\/div\>/U";

И всеравно ничего не выводит. А если пишу:
 

$pattern = "/\<p\ class\=\"text\"\>(.*)\<br\ \/>/U";

Т. е. хочу считать только текст, без ссылки, то выводит все правильно. Но хотелось бы все-таки с ссылкой. Видимио это из-за того, что ссылка на другой строке. Насколько я понял нужно добавить модификатор /m, но это не помогает. (

Edited by XAHTEP26
Link to comment
Share on other sites

  • 0

На сайте есть лента новостей http://fsrar.ru/rss она совсем не подходит?

) Не совсем, но подходит. Да и с регулярными выражениями я уже немного разобрался. Спасибо. Я что-то ее не заметил...

Link to comment
Share on other sites

  • 0

 

На сайте есть лента новостей http://fsrar.ru/rss она совсем не подходит?

) Не совсем, но подходит. Да и с регулярными выражениями я уже немного разобрался. Спасибо. Я что-то ее не заметил...

 

Для парсинга rss ненужны регулярки есть модули PHP для работы с XML.

 

 

Неправильно парсить html регулярками, используйте работу с DOM.

не совсем верно. Зачастую распарсить регуляркой намного проще и быстрее по ресурсам чем с помощью модуля dom. Тем более вам ненужно всё дерево, а только небольшой кусок.

Link to comment
Share on other sites

  • 0

А зачем ты экранируешь угловые скобки, пробелы и знаки равенства? Ты считаешь их управляющими символами в регулярках?

preg_match_all('#<p class="text">(.+?)</div>#isu', $file, $matches);
http://www.php.net/manual/ru/reference.pcre.pattern.modifiers.php
Link to comment
Share on other sites

  • 0

А зачем ты экранируешь угловые скобки, пробелы и знаки равенства? Ты считаешь их управляющими символами в регулярках?

preg_match_all('#<p class="text">(.+?)</div>#isu', $file, $matches);
http://www.php.net/manual/ru/reference.pcre.pattern.modifiers.php

 

Нагуглил статьи где так делали... )))

Link to comment
Share on other sites

  • 0
не совсем верно. Зачастую распарсить регуляркой намного проще и быстрее по ресурсам чем с помощью модуля dom. Тем более вам ненужно всё дерево, а только небольшой кусок.
 

Быстрее по ресурсам - может быть. Проще - точно нет. Написать регулярку выбирающую хотя бы какой-то один тег (аналог css-селектора tag) ой как не просто - только навскидку нужно учесть: комментарии, скрипты и CDATA. 

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy