Jump to content
  • 0

Парсинг сайта


rus
 Share

Question

Всем хорошего дня!

дано: урл (допустим): http://site.ru/index.php?id=...?

вопрос: как получить все страницы (те что в дано) со всеми ip которые есть в бд? если точнее, то нужен список всех ip, при этом доступ к сайту отсутствует.

решение: ...?

Link to comment
Share on other sites

2 answers to this question

Recommended Posts

  • 0

Размыто, как-то, в идеале если на http://site.ru/ есть карта сайта со списком всех страниц, тогда можно забить их в массив, прочитать содержимое и отыскать уже ссылки вида http://site.ru/index.php?id=...

Если карты нет, то придётся с главной страницы собирать все внутрение ссылки, преобразовывать их в полные(если потребуется), собирать их в массив, читать страницы по этим ссылкам (помечать страницы уже прочитанные) и проделывать тоже самое (ну в общем рекурсивная ссылка) далее страницы можно кешировать дабы не качать по нескольку раз одно и тоже и в конечном итоге пройтись по ним и найти все ссылки вида http://site.ru/index.php?id=...

Это всё если хочется сделать нечто универсальное, можно также воспользоваться каким-нить сайт-даунлодером(типа HTTrack) потом открыть все html-страницы в NPP и регуляркой отыскать ссылки вида http://site.ru/index.php?id=...

Link to comment
Share on other sites

  • 0

Жень, карты сайта там нет.

С главной страницы ссылки есть, но это ссылки на разделы, где уже динамически формируется товар, а мне как раз нужен список товаров.

На счет HTTrack спасибо, ща попробую им хоть что ли...

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy