Jump to content
  • 0

Про парсеры в целом и в частности


haZe
 Share

Question

Добрый день, господа!

Еще одна тема для обсуждения :huh: Заинтересовался парсингом информации с сайтов. XML парсер у меня уже есть, взял готовый пример и его малеха переделал. Он очень прост, потому что РНР имеет стандартные функции для парсинга XML. А вот парсер HTML необходимо писать руками с нуля.

Лапал гугль-бугль:) по разным запросам, но толковой информации не нашел(

По какой логике работают парсеры?(Сначала ломаем код на теги и содержимое между ними в массив?)

Как выдрать нужные куски информации?(По какой та уникальной строчке? По количеству открывающихся тегов?)

Начал пытатся, но пока даже раломать на теги у меня не получается.

Буду благодарен любой помощи, теории, ссылке, подсказке, элементам кода. :lol:

Link to comment
Share on other sites

13 answers to this question

Recommended Posts

  • 0

Парсер работает примерно так:

1) Получает страницу с помощью curl

2) Разбирает страницу

*С помощью регулярных выражений

*С помощью DOMDocument (не всегда работает)

3) Выводит на экран

Link to comment
Share on other sites

  • 0

2 Victor Ananiev, нет, Ajax тут не причем.

2 -=PSU=-, пункт 2, регулярку не подскажите, как разломать приходящий документ на массив состоящий и тегов и контента.

Пробовал сам, не работает корректно.

ereg("(<.*>.*)*", $html, $all)

Тут у меня получается, что я ловлю тег и все что после него, при этом весь паттерн у мя повторяется любое кол-во раз. Но не работает корректно.

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy