Jump to content
  • 0

Возможно ли написать универсальный парсер сайтов?


slo_nik
 Share

Question

Добрый день.
Возникла необходимость написать парсер сайтов, универсальный.
Задача в следующем. 
Пользователь вводит адрес сайта в поле формы, через cURL получают содержимое сайта, выделить из выдачи только текст(из div, p, table, span и т.д.).
Но вот вопрос. Каждый сайт, это индивидуальная структура. Как в этом случае, настроив парсер только раз, получать данные с любого сайта, не меняя настройки парсера под каждый сайт? Возможно ли это?
Сейчас использую php, cUrl, htmlpurifier для получения текста с сайта.

Попытался решить таким образом:

<?php
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $address);
        curl_setopt($ch, CURLOPT_HEADER, 1);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
        curl_setopt($ch, CURLOPT_USERAGENT,
                    'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/34.0.1847.116 Chrome/34.0.1847.116 Safari/537.36');
 
        $dirty_html = curl_exec($ch);
 
        $response = (object)curl_getinfo($ch);
 
        if(stripos($response->content_type, 'windows-1251')){;
          $dirty_html = mb_convert_encoding($dirty_html, 'utf-8', 'cp1251');
        }
        curl_close($ch);
 
        $prf = new HTMLPurifier();
        $clean_html = $prf->process($dirty_html,[
              'AutoFormat.AutoParagraph' => true,
              'AutoFormat.RemoveEmpty' => true,
              'AutoFormat.RemoveEmpty.RemoveNbsp' => true,
              'HTML.AllowedElements' => ['p','a','br','table','tbody','tr','th','td','h1','span','big'],
              'HTML.ForbiddenAttributes' => [
                                             'a@href',
                                             'a@style',
                                             'a@rel',
                                             'a@class',
                                             'a@title',
                                             'p@class',
                                             'p@style',
                                             'table@style',
                                             'table@border',
                                             'table@width',
                                             'td@class',
                                             'th@class',
                                             'td@valign',
                                             'td@style',
                                             'td@width',
                                             'td@colspan',
                                             'td@align',
                                             'td@rowspan',
                                             'span@class'
                                            ]
          ]);
  $search = ['<p>','</p>','&amp;','<a>','</a>','<table>','<tbody>','</tbody>','</table>','<tr>','</tr>','<th>','</th>','<td>','</td>','<h1>','</h1>','<span>','</span>','<big>','</big>'];
        $replace = ['',"\r\n",'','',"\r\n",'','','','','',"\r\n",'',' ','','','',"\r\n",'',' ','',' '];
        $clean_html = preg_replace("#(?:<p>\s+</p>)#", '', $clean_html);
        $clean_html = str_replace(["\r","\n","\r\n","\t",'  '], '', $clean_html);
        $clean_html = str_replace($search, $replace, $clean_html);
        $clean_html = preg_replace("#(?:\r\n?|\n){2,}#", "\r\n", $clean_html);
        $clean_html = str_replace(['<br>', '<br />'], " ", $clean_html);
        $clean_html = preg_replace("#(?:\"\'\+;)+#", '', $clean_html);
 
        echo $clean_html;
?>

Или я слишком намудрил?
Некоторые сайты парсит нормально, на некоторых сливаются некоторые слова/фразы, на некоторых вообще часть сайта не парсится. Результат надо записать в отдельный текстовый файл и в бд.
Можно ли найти "золотую середину" которая будет нормально работать с любым сайтом, не меняя настроек скрипта?
Единственная настройка, которая должна меняться это адрес сайта.

Link to comment
Share on other sites

0 answers to this question

Recommended Posts

There have been no answers to this question yet

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

  • Обсуждения

    • Актуальные контакты: Telegram: @Nikker_web E-Mail:   tarasevich.email@gmail.com Портфолио https://www.behance.net/d4d4186e Разрабатываю дизайн групп в соц сетях, сайтов, приложений, другой дизайн под заказ    
    • Актуальные контакты: Telegram: @Nikker_web E-Mail:   tarasevich.email@gmail.com   Разрабатываю дизайн групп в соц сетях, сайтов, приложений, другой дизайн под заказ   Портфолио https://www.behance.net/d4d4186e
    • Доброго всем времени суток. Прошу помощи. Научите принципу изменения футера. Движок Xenforo. Версия 2.2.10. Стиль дефолтный. Что именно нужно в итоге на фото примере. Мой шаблон app.footer less имеет следующее значение.  .p-footer { .xf-publicFooter(); a { .xf-publicFooterLink(); } } .p-footer-inner { .m-pageWidth(); .m-pageInset(); padding-top: @xf-paddingMedium; padding-bottom: @xf-paddingLarge; } .p-footer-row { .m-clearFix(); margin-bottom: -@xf-paddingLarge; } .p-footer-row-main { float: left; margin-bottom: @xf-paddingLarge; } .p-footer-row-opposite { float: right; margin-bottom: @xf-paddingLarge; } .p-footer-linkList { .m-listPlain(); .m-clearFix(); > li { float: left; margin-right: .5em; &:last-child { margin-right: 0; } a { padding: 2px 4px; border-radius: @xf-borderRadiusSmall; &:hover { text-decoration: none; background-color: fade(@xf-publicFooterLink--color, 10%); } } } } .p-footer-rssLink { > span { position: relative; top: -1px; display: inline-block; width: 1.44em; height: 1.44em; line-height: 1.44em; text-align: center; font-size: .8em; background-color: #4682B4; border-radius: 2px; } .fa-rss { color: white; } } .p-footer-copyright { margin-top: @xf-elementSpacer; text-align: center; font-size: @xf-fontSizeSmallest; } .p-footer-debug { margin-top: @xf-paddingLarge; text-align: right; font-size: @xf-fontSizeSmallest; .pairs > dt { color: inherit; } } @media (max-width: @xf-responsiveMedium) { .p-footer-row-main, .p-footer-row-opposite { float: none; } .p-footer-copyright { text-align: left; padding: 0 4px; // aligns with other links } }  
    • Нужны сайты с примерами верстки, типа https://css-tricks.com/. Типовые приемы и нестандартные на все случаи жизни. Накидайте ссылок.
×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy