Jump to content
  • 0

Посоветуйте способ парсинга


Anechka
 Share

Question

Здравствуйте! В последнее время, меня всё чаще стал разочаровывать мой любимый simple_html_dom.php (: Есть допустим 1.000 страниц одинаковой структуры и всё вроде бы идёт отлично но на некоторых страницах file_get_html просто возвращает false и почему так происходит я даже и не знаю, ведь страницы точно все одинаковые но только с разным содержимым!

Конечно я Гуглила и много у кого такая же проблема и как способы её решения все почему то как сговорились предлагают использовать Курл!

В общем мне нужен именно Ваш, вот именно того кто сейчас читает эту строку - совет! Мне нужен самый стабильный способ парсинга который никогда не подведёт и не будет преподносить сюрпризы (если такой конечно же есть)! Желательно чтобы и порог вхождения был как можно ниже!

Спасибо!

UPD: Самое вот забавное то, что file_get_contents срабатывает отлично там где file_get_html не работает и если сунуть строку после file_get_content в file_get_html или в file_get_str то тоже ничего не работает что странно или я чего-то не понимаю. :(

Edited by Anechka
UPD
Link to comment
Share on other sites

1 answer to this question

Recommended Posts

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

  • Similar Content

    • By adminfilm
      Всем привет, как парсить класс в регулярных выражених, если он не во всех местах?
      Вот пример html

      Вот написанный код
      https://regex101.com/r/ea70gt/1

      Код работает нормально когда удаляю class=\"(.+?)\", однако он не парсит class, а когда добавляю класс не работает из-за того что не во всех местах есть класс.
      Как решить данный вопрос?
    • By aderevnya
      Здравствуйте!
       
      Задача:
      1. Заходить на сайты с нужными мне БД (количество от 1-2 до 1-2 десятков), на страницы с многостраничным списком. Из данного списка (динамическая выдача) уметь открывать по гиперссылкам конечные страницы. В них находить и нажимать нужную кнопку скачать файл, в диалоговом окне веб-интерфейса выбирать нужные параметры файла (нужный формат файла и т.п.) нажимать кнопку скачать данные.
      Периодичность - 1 раз в сутки. Количество конечных страниц и скачиваний файлов от нескольких тысяч до нескольких десятков тысяч.
      2. Полученные данные записывать в БД.
      3. Проводить обработку и аналитику
      4. Следующим этапом Ходить по сайтам с текстовой, в основном новостной информацией, ходить по архивам публикаций, новостей, анонсов, анализировать текстовую и графическую информацию, сохранять в БД только нужную информацию, 9не качать в локальные БД всю выборку, а только результаты свобственной аналитики), увязывать результаты 2й работы с результатами первой работы.
      Периодичность - 1 раз в сутки. Количество конечных страниц, аналитических действий и скачиваний от нескольких десятков до нескольких тысяч.
      5. Выдавать аналитику, строить графики из собранной БД.
      6. В таком режиме (наблюдения и аналитики) комплекс проработает 0,5-1 год, и результаты меня могут устраивать локальные в любых локальных формах.
      7. В перспективе, когда аналитика будет достаточная, выводить комплекс в веб интерфейс, чтобы аналитикой можно было пользоваться публично и непублично через веб.
       
      Подскажите пож-та, для реализации данной задачи, какие под MS Windosw языки программирования, инструменты, библиотеки, фреймворки, которые для реализации подойдут больше всего. Изучать всё придется с нуля.
      Да. Еще желательна поддержка модульности, чтобы в будущем отдельные модули, например, работа с графикой, работа с вебом, модуль парсинга можно было реализовывать силами привлеченных сторонних программистов.
       
       
      Заранее Вас благодарю за советы!
    • By li4e
      Добрый день, помогите пожалуйста сделать следующий скрипт:
      В общем вывожу текст(новость с html тегами) из бд! Понятия не имею как можно выбрать подстроку из строки, по следующему критерию. 
      Допустим есть следующая картинка в нашей строке $string, <img src="dasdasd.jpg alt="mini">, вот как можно вытащить значение параметра src, из тега img с параметром alt="mini" .Помимо этой картинки в этой строке еще есть текст и многое другое! Заранее спасибо, надеюсь понятно расписал!

      Не знаю какую функцию выбрать для этого дела и как правильно составить регулярное выражение!
    • By Dreamod
      Доброе утро! Бился всю ночь, так ничего и не вышло...
      У меня есть строка вида $t = 'searchword10=Выхино&moduleId=168&Itemid=599';
      Айдишники переменные, мне по хорошему нужно только значение searchword10=Выхино, а в данном случае "Выхино".
      Все остальное надо как-то отсечь.
      Вопрос как?
×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy