Jump to content
  • 0

Возможно ли написать универсальный парсер сайтов?


slo_nik
 Share

Question

Добрый день.
Возникла необходимость написать парсер сайтов, универсальный.
Задача в следующем. 
Пользователь вводит адрес сайта в поле формы, через cURL получают содержимое сайта, выделить из выдачи только текст(из div, p, table, span и т.д.).
Но вот вопрос. Каждый сайт, это индивидуальная структура. Как в этом случае, настроив парсер только раз, получать данные с любого сайта, не меняя настройки парсера под каждый сайт? Возможно ли это?
Сейчас использую php, cUrl, htmlpurifier для получения текста с сайта.

Попытался решить таким образом:

<?php
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $address);
        curl_setopt($ch, CURLOPT_HEADER, 1);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
        curl_setopt($ch, CURLOPT_USERAGENT,
                    'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/34.0.1847.116 Chrome/34.0.1847.116 Safari/537.36');
 
        $dirty_html = curl_exec($ch);
 
        $response = (object)curl_getinfo($ch);
 
        if(stripos($response->content_type, 'windows-1251')){;
          $dirty_html = mb_convert_encoding($dirty_html, 'utf-8', 'cp1251');
        }
        curl_close($ch);
 
        $prf = new HTMLPurifier();
        $clean_html = $prf->process($dirty_html,[
              'AutoFormat.AutoParagraph' => true,
              'AutoFormat.RemoveEmpty' => true,
              'AutoFormat.RemoveEmpty.RemoveNbsp' => true,
              'HTML.AllowedElements' => ['p','a','br','table','tbody','tr','th','td','h1','span','big'],
              'HTML.ForbiddenAttributes' => [
                                             'a@href',
                                             'a@style',
                                             'a@rel',
                                             'a@class',
                                             'a@title',
                                             'p@class',
                                             'p@style',
                                             'table@style',
                                             'table@border',
                                             'table@width',
                                             'td@class',
                                             'th@class',
                                             'td@valign',
                                             'td@style',
                                             'td@width',
                                             'td@colspan',
                                             'td@align',
                                             'td@rowspan',
                                             'span@class'
                                            ]
          ]);
  $search = ['<p>','</p>','&amp;','<a>','</a>','<table>','<tbody>','</tbody>','</table>','<tr>','</tr>','<th>','</th>','<td>','</td>','<h1>','</h1>','<span>','</span>','<big>','</big>'];
        $replace = ['',"\r\n",'','',"\r\n",'','','','','',"\r\n",'',' ','','','',"\r\n",'',' ','',' '];
        $clean_html = preg_replace("#(?:<p>\s+</p>)#", '', $clean_html);
        $clean_html = str_replace(["\r","\n","\r\n","\t",'  '], '', $clean_html);
        $clean_html = str_replace($search, $replace, $clean_html);
        $clean_html = preg_replace("#(?:\r\n?|\n){2,}#", "\r\n", $clean_html);
        $clean_html = str_replace(['<br>', '<br />'], " ", $clean_html);
        $clean_html = preg_replace("#(?:\"\'\+;)+#", '', $clean_html);
 
        echo $clean_html;
?>

Или я слишком намудрил?
Некоторые сайты парсит нормально, на некоторых сливаются некоторые слова/фразы, на некоторых вообще часть сайта не парсится. Результат надо записать в отдельный текстовый файл и в бд.
Можно ли найти "золотую середину" которая будет нормально работать с любым сайтом, не меняя настроек скрипта?
Единственная настройка, которая должна меняться это адрес сайта.

Link to comment
Share on other sites

0 answers to this question

Recommended Posts

There have been no answers to this question yet

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy