Search the Community
Showing results for tags 'Парсер'.
-
Здравствуйте! В последнее время, меня всё чаще стал разочаровывать мой любимый simple_html_dom.php (: Есть допустим 1.000 страниц одинаковой структуры и всё вроде бы идёт отлично но на некоторых страницах file_get_html просто возвращает false и почему так происходит я даже и не знаю, ведь страницы точно все одинаковые но только с разным содержимым! Конечно я Гуглила и много у кого такая же проблема и как способы её решения все почему то как сговорились предлагают использовать Курл! В общем мне нужен именно Ваш, вот именно того кто сейчас читает эту строку - совет! Мне нужен самый стабильный способ парсинга который никогда не подведёт и не будет преподносить сюрпризы (если такой конечно же есть)! Желательно чтобы и порог вхождения был как можно ниже! Спасибо! UPD: Самое вот забавное то, что file_get_contents срабатывает отлично там где file_get_html не работает и если сунуть строку после file_get_content в file_get_html или в file_get_str то тоже ничего не работает что странно или я чего-то не понимаю.
-
Здравствуйте! Задача: 1. Заходить на сайты с нужными мне БД (количество от 1-2 до 1-2 десятков), на страницы с многостраничным списком. Из данного списка (динамическая выдача) уметь открывать по гиперссылкам конечные страницы. В них находить и нажимать нужную кнопку скачать файл, в диалоговом окне веб-интерфейса выбирать нужные параметры файла (нужный формат файла и т.п.) нажимать кнопку скачать данные. Периодичность - 1 раз в сутки. Количество конечных страниц и скачиваний файлов от нескольких тысяч до нескольких десятков тысяч. 2. Полученные данные записывать в БД. 3. Проводить обработку и аналитику 4. Следующим этапом Ходить по сайтам с текстовой, в основном новостной информацией, ходить по архивам публикаций, новостей, анонсов, анализировать текстовую и графическую информацию, сохранять в БД только нужную информацию, 9не качать в локальные БД всю выборку, а только результаты свобственной аналитики), увязывать результаты 2й работы с результатами первой работы. Периодичность - 1 раз в сутки. Количество конечных страниц, аналитических действий и скачиваний от нескольких десятков до нескольких тысяч. 5. Выдавать аналитику, строить графики из собранной БД. 6. В таком режиме (наблюдения и аналитики) комплекс проработает 0,5-1 год, и результаты меня могут устраивать локальные в любых локальных формах. 7. В перспективе, когда аналитика будет достаточная, выводить комплекс в веб интерфейс, чтобы аналитикой можно было пользоваться публично и непублично через веб. Подскажите пож-та, для реализации данной задачи, какие под MS Windosw языки программирования, инструменты, библиотеки, фреймворки, которые для реализации подойдут больше всего. Изучать всё придется с нуля. Да. Еще желательна поддержка модульности, чтобы в будущем отдельные модули, например, работа с графикой, работа с вебом, модуль парсинга можно было реализовывать силами привлеченных сторонних программистов. Заранее Вас благодарю за советы!
-
Доброе утро! Бился всю ночь, так ничего и не вышло... У меня есть строка вида $t = 'searchword10=Выхино&moduleId=168&Itemid=599'; Айдишники переменные, мне по хорошему нужно только значение searchword10=Выхино, а в данном случае "Выхино". Все остальное надо как-то отсечь. Вопрос как?
- 9 replies
-
- парсер
- регулярные выражения php
-
(and 1 more)
Tagged with: