Jump to content
  • 0

Kirk
 Share

Question

Добрый день! Ребята, перепробовав множество вариантов и не добившись нужного результата я просто вынужден снова обратиться сюда, к Вам за советом...

 

Есть документ, он очень большой и нужно из него удалить всё кроме ссылок которые начинаются с http.

 

Перепробовал много расширений для браузера которые копируют все ссылки из исходного кода в буфер, но там на столько много информации что когда я вставляю то вставляется undefined, а если документ в разумном размере то они отлично все работают.

 

Нужно либо удалить всё и оставить только ссылки или как-то скопировать все ссылки в буфер.

 

Спасибо за внимание!

Link to comment
Share on other sites

7 answers to this question

Recommended Posts

  • 0

с фантазией подходите 
 

document.querySelectorAll("a[href^='http'][href$='html']")

если хотите на php - есть simplexml,DOM,phpQery и т д

каков размер файла то?


пока отлагает

в этом плане notepad++ красавчик. он с такими объемами быстро работает.... тогда как более профессиональные виснут и куда меньших объемах 
Link to comment
Share on other sites

  • 0

Да да, я вот уже нашёл нужный скрипт который отлично работает, может кому понадобится... Прошу прощение за беспокойство!

<?php  /* $html - некий html-код некой страницы, \n - это переход на новую строку (верстальщики иногда это делают) */  $html = "Текст <a href='page1.html'>ссылка</a> и снова <a hREF \n =\"page2.html\" title=''>ссылка</a> конец";  /* Вызываем функцию, которая все совпадения помещает в массив $matches */  preg_match_all("/<[Aa][\s]{1}[^>]*[Hh][Rr][Ee][Ff][^=]*=[ '\"\s]*([^ \"'>\s#]+)[^>]*>/", $html, $matches);  $urls = $matches[1]; // Берём то место, где сама ссылка (благодаря группирующим скобкам в регулярном выражении)  /* Выводим все ссылки */  for ($i = 0; $i < count($urls); $i++)    echo $urls[$i]."<br />";?>
Edited by Kirk
Link to comment
Share on other sites

  • 0

Жесть, скрипт то рабочий, только вот документ получился на 3 миллиона строк из-за того что туда попали и просто пути с одними слэшами и такое дело править очень трудно - очень долго приходится ждать времени после определённой операции, пока отлагает. В общем, я думаю что мой редактор пока я буду спать сам себе деинсталирует когда-нибудь.  :mellow:

 

Может кто помочь с регулярным выражением? Чтобы брались только ссылки которые начинаются на http и заканчиваются на html.

 

Спасибо за внимание!

Link to comment
Share on other sites

  • 0

Николай, в смысле с фантазией подхожу, сарказм?

 

Размер текстового файла больше гигабайта.

 

Вот в notepad++ как раз работает кое как, но всё равно лагает, другие редакторы сразу входят в ступор.

 

Я PHP не очень хорошо знаю и по этому с simplexml, DOM и phpQery я думаю долго буду разбираться, в любом случаи Вам спасибо за то что уделили мне время!

 

Просьба с регулярным выражением всё ещё актуальна, нужно на PHP.

 

В очередной раз спасибо за внимание!

Edited by Kirk
Link to comment
Share on other sites

  • 0
Размер текстового файла больше гигабайта.
c  этого и нужно было начинать))
вы целый гигабайт в браузер вставляли как я понял? а на части его разбить?  
phpQuery - это просто. то же самое jQuery
Link to comment
Share on other sites

  • 0

Николай, да я что только уже не сделал, с помощью многочисленных операций я кое как разгрёб это дело и добился нужного результата. Спасибо Вам и Vano1208 за то что оказались неравнодушны по отношению ко мне!

Edited by Kirk
Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Guest
Answer this question...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy