Jump to content

Anechka

User
  • Posts

    35
  • Joined

  • Last visited

Posts posted by Anechka

  1. Здравствуйте! Есть сайт которому пофиг на поисковые системы, более того - он даже запрещён к индексации но трафик из различных источников не плохой. Посоветуйте кликандер благодаря которому можно конвертировать данный трафик, сайту пофиг на фильтры и прочие санкции, трафик есть и его никак не отнять! Может даже что-то лучше предложите чем кликандер? Была бы очень благодарна!

    Спасибо!

    Если понравится - могу зарегистрироваться по рефке!

  2. 1 минуту назад, wwt сказал:

    Вы практически правы, истинный адрес может быть какой угодно. вплоть до того что картинки могут запрашиваться с другого сервера.

    Печально, а может быть можно как-нибудь посмотреть все пути запроса? Куда он идёт, куда там редирект и т.д. Я думаю что всё таки как-то это можно всё провернуть но здесь я уже ничего не буду говорить - вот здесь уже правда мне не хватает навыков.

  3. 32 минуты назад, wwt сказал:

    О чем я и говорю, у вас нет необходимых навыков, ибо вы даже не поняли половины того что я написал выше =) Поймите по адресу

    http://site.ru/image.jpg

    может быть вовсе никакая не картинка =)

     

    UPD если не понимаете о чем я говорю, вот вам ссылка

    
    http://kyrtgod.ru/test.jpg

      и попробуйте пообновлять страницу раз 10.

    Я прекрасно Вас понимаю и в свою защиту хочу сказать что сейчас я Вам в личку всё таки отправлю ссылку на Тостер с этим моим вопросом и вот цитата одного из последний моих комментариев:

    Цитата

    Я вот сейчас начала думать - а что если прямая ссылка генерируется и что по факту она только визуально как прямая ну а на деле нет? Может же такое быть?

    Судя по дате на Тостере, мне ещё неделю назад пришла в голову такая мысль но я ничего не смогла нарыть по этому поводу. :(

    Хорошо, подскажите мне тогда как узнать истинный прямой адрес или это просто невозможно?

    ОФФТОПИК: признавайтесь, сколько сейчас человек сидят с попкорном? :D

  4. 27 минут назад, wwt сказал:

    Кеширования там скорее всего нет, все картинки лежат на поддомене, выдача судя по-всему осуществляется через скрипт который вполне может анализировать посетителя по различным параметрам и выдавать картинку или не выдавать. То что вы обращаетесь к картинке по адресу вида "http://site.ru/image.jpg" ещё не значит что вы обращаетесь к физическому файлу =) простейшая переадресация с помощью модреврайта всех запросов на скрипт с последующей выдачей может быть для вас и незаметна =) И сделано это как раз чтобы защититься от выкачивания контента. Чтобы обойти нужно анализировать на каком моменте скрипт прекращает выдавать контент, это может зависеть от частоты запросов, юзерагента, ip, реферера, подсети, страны и т.д. причем анализ может осуществляться сразу по всем показателям в комплексе. теоретически это все можно обойти, но для этого нужны соответствующие навыки и время. И даже после этого никто не даст гарантию что все будет стабильно, ибо владельцы кроме этого могут анализировать саму статистику запросов и если увидят всплеск обращений к оригиналам картинок тупо изменят алгоритм анализа.

    Я обращаюсь не к тем ссылкам которые Вы предположили, я обращаюсь именно к прямым ссылкам где разные поддомены. На тех страницах нет никаких скриптов да и быть не может, там просто тупо картинка в исходном коде и всё. То что Вы говорите что там где-то есть скрипты, да они есть на пути к оригиналу, но это если переходить по сайту но я этого не делаю и скрипты меня эти не видят, я обращаюсь сразу тупо по прямым и лимит всё равно как-то вычисляется. Когда парсер собирал прямые ссылки он собирал сначала ссылки на превью и потом с помощью str_replace заменял значения в строке что приводило на выходе к самой наипремейшей ссылке на ту или иную картинку. Закономерности есть везде! Не считайте меня такой уж прям глупой - это всё давно уже пройдено то что Вы говорите и сайт изучен вдоль и поперёк но ответ так и не был найден. :(

    Отбрости всё, все скрипты и всё такое. По факту есть ссылка - она прямая. Я на неё захожу - опа, картинка есть. Я обновляю страницу - опа, опять она есть. Я делаю так примерно 60 раз - опа, пустота. Вот такие вот пироги. Скриптов нет. Как? Я не понимаю!

  5. 3 часа назад, wwt сказал:

    Знаете, возможно там просто стоит кеширование. Помнится мне я парсил картинки (около 20000 штук) с сайта который держал картинки на хостинге картинок, не помню точно каком именно. Так там для того чтобы картинка попала в кеш нужно было сначала зайти на нужную страницу, а уж потом качать картинку по прямому адресу, Со временем картинки из кеша естественно пропадали. А отдавать белую картинку вместо существующей если её нет в кеше очень просто это можно сделать с помощью модреврайта.

    Получается что вроде как способ есть, но если брать во внимание сколько этой графики в общем количестве нужно взять (а ещё некоторые картинки достигают размера аж в 30 мб) то таким способом практически невозможно пользоваться. Я уже молчу про то что не всегда парсинг графики идёт замечательно, бывает картинки не до конца загружаются по непонятной опять же для меня причине и внизу появляются серые полосы и при таком количестве этого будет я думаю очень много. В общем всё сложно.

    Вчера пробовала топовый буржуйский сайт по этой тематики парсить (на нём даже ещё больше этой графики) и Вы знаете, та всё замечательно прошло и было бы вообще всё замечательно но хлебные крошки там не такие качественные и их не так много у каждой картинки, ну а без них сами понимаете, смысла в голых картинках мало.

    В любом случаи Вам огромное спасибо за то что не остались равнодушны!

  6. 35 минут назад, wwt сказал:

    если других путей нет то уж лучше медленно чем никак. а имею ввиду то что можно делать запросы через тор сеть из php.

    Как думаете, я за 10 лет сумею спарсить то что мне нужно таким образом? Речь идёт не по 1.000 картинок, не про 2 и не про 3, их около 600.000!

    Это конечно единственный вариант - то что Вы предлагаете, но он очень кропотливый и долгий, по этому я его не рассматриваю, по этому я и написала что "никак не обойти" потому что это не обход защиты как таковой!

    Есть ещё вариант с ножом но по моему это не тот случай где нужно его применять. Я имею ввиду взять нож, приехать к дата центру ну и Вы понимаете...

    ВСЕМ СТОЯТЬ! ЭТО ОГРАБЛЕНИЕ! ДОСТАВАЙТЕ ВСЕ КАРТИНКИ ВОН С ТОГО СЕРВЕРА, БЫСТРО!

    Ну а если серьёзно, кто-нибудь может мне объяснить как такое возможно... что есть самая наипремейшая ссылка которая ведёт на картинку, но через какое-то время эта же ссылка уже не показывает эту картинку, как такое возможно? Если не заходить в течении дня на сайт и не лазить по нему а только пытаться брать картинки по прямым ссылкам которые заранее были собраны то всё равно защита крутить этот счётчик лимита. Как сервер может такое делать если я обращаюсь к страницам на которых нет никаких скриптов, ничего нет кроме одной картинки. Я вот этого понять не могу. :(

  7. 15 минут назад, wwt сказал:

    очень даже обойти =) Ищите в интернете по фразе "tor+php" =)

    Вот и там тоже говорили - Тор. Я согласна что он помогает но он такой медленный что работать с ним - одни муки. Что лично Вы имеете ввиду под связкой Тора и Пхп?

  8. 19 часов назад, wwt сказал:

    На многих хостингах есть ограничение на количество запрашиваемых файлов в единицу времени, если парсите из php попробуйте просто в каждом витке цикла вставьте sleep(1) перед запросом

    Там не всё так просто, парсю Курлом и библиотекой simple_html_dom. Помогает только прокси но в моём случаи если посчитать то их нужно более 6.000 штук что невозможно. Просто картинка открывается по прямой ссылке, если запрашивать её до тех пор пока лимит не исчерпан то она и дальше будет открываться, после окончания лимита там становится просто пустота.

    Слипы, юзерагенты и реферреры это всё фигня полная!

    В общем мне даже на Тостере никто не смог помочь и я уже поняла что никак это не обойти. :(

  9. Здравствуйте! Если сайт который я пытаюсь парсить и у меня есть прямые ссылки на все файлы которые мне нужны с этого сайта и которые были собраны заранее (все файлы графические - jpg). На сайте какая-то защита, существует конкретное число файлов которые можно скачивать с него а если идёт превышение то по этим прямым ссылка открывается просто пустота. Как такое может быть если я обращаюсь по прямым ссылкам, что сейчас по этой ссылке графика, а потом пустота? Как обойти такое ограничение?

    P.S. У меня нет нормальных прокси а всё что пробовала - очень тормозное но тем не менее через них всё работает какое-то время и каждый лимит нужно просто менять прокси но речь идёт про огромное количество файлов и такой способ просто не подходит.

    Как обойти эту защиту? Помогите советом пожалуйста!

    Спасибо!

  10. Задача решена! С помощью Curl забираю картинку и потом через file_put_contents её сохраняю!

    9 минут назад, wwt сказал:

    используйте curl

    Вы меня на доли секунды обогнали :)

  11. Здравствуйте! Искала ответ - находила, пробовала - не работает, надеюсь что здесь помогут!

    Как скачать картинку по прямой ссылке с https помимо способа с file_get_contents'ом? Что я только не читала, и включала и отключала в php.ini - не хочет эта функция у меня скачивать с https, ну а с http конечно же всё замечательно! У меня OpenServer последний версии и может кто подскажет как сделать так чтобы работало или посоветует какой-либо другой способ?

    Спасибо!

  12. Удивительно, он ещё говорит что не нашёл favicon когда в Метрике она есть и прекрасно показывается, она просто лежит в корне. В общем с обновлением интерфейса Яндекс вебмастера я думаю все эти глюки и связаны, где-то у них в механизме явно появились баги. Спасибо!

  13. Здравствуйте, у одного из моих сайтов на хостинге находится файл robots.txt с таким содержимым:

    User-agent: *
    Disallow: /graphics/
    Disallow: /*.jpg$

    и мне нужно было сделать запрет на индексирование всей графики в конкретной папке и вообще всех jpg. Думала что я правильно всё сделала но вот сегодня пришло письмо от Яндекс вебмастера в котором говорится о том что сайт полностью запрещён к индексированию в robots.txt.

    Это ошибка со стороны Яндекса и нужно писать им или у меня действительно не правильно заполнен этот файл для решения своей задачи?

    Спасибо!

  14. Здравствуйте, знаю как реализовать с помощью jQuery:

    jQuery(function(){
    	$("#file").change(function(){
    		$("#form").submit();
    	});
    });

    но согласитесь что глупо ради такой простой задачи подключать целую библиотеку! Может кто подскажет способ без jQuery?

    Спасибо!

  15. Здравствуйте! В последнее время, меня всё чаще стал разочаровывать мой любимый simple_html_dom.php (: Есть допустим 1.000 страниц одинаковой структуры и всё вроде бы идёт отлично но на некоторых страницах file_get_html просто возвращает false и почему так происходит я даже и не знаю, ведь страницы точно все одинаковые но только с разным содержимым!

    Конечно я Гуглила и много у кого такая же проблема и как способы её решения все почему то как сговорились предлагают использовать Курл!

    В общем мне нужен именно Ваш, вот именно того кто сейчас читает эту строку - совет! Мне нужен самый стабильный способ парсинга который никогда не подведёт и не будет преподносить сюрпризы (если такой конечно же есть)! Желательно чтобы и порог вхождения был как можно ниже!

    Спасибо!

    UPD: Самое вот забавное то, что file_get_contents срабатывает отлично там где file_get_html не работает и если сунуть строку после file_get_content в file_get_html или в file_get_str то тоже ничего не работает что странно или я чего-то не понимаю. :(

  16. Здравствуйте, как обратиться в foreach к массиву, название которого генерируется автоматически? Пробовала конкатенировать знак доллара с переменной в который точное название массива и потом уже на вход в foreach подавать эту переменную но так ничего не работает, как правильно? Спасибо!

  17. Всем привет! Заинтересовала данная зона и хочу зарегистрировать в ней домен но мне пока много всего не ясно а хотелось бы заранее всё узнать...

    1. У РегРу стоит копейки а сколько продление точно не известно, кто регистрировал или просто знает будьте добры, просветите...

    2. Какая информация нужна для того чтобы его зарегистрировать? Какие данные потребуют?

    3. Можно ли зарегистрировать просто частному лицу?

    4. Каковы минусы данной доменной зоны или может быть даже подводные камни?

    Спасибо!

  18. Здравствуйте! Будьте добры, подскажите пожалуйста как сделать такую вещь...

    Есть два радио переключателя. Если выбрать один то определённый div у которого был display none становится display block, если нажать на другой то первый блок должен снова становиться display none а новый уже display block. Мне нужен самый примитивный вариант реализации такой вещи. Я искала но находила примеры с jQuery но грузить всю библиотеку для такой простой вещи как то не хочется - это не правильно.

    Спасибо!

  19. Здравствуйте, я вот никак не могу понять почему так происходит, объясните пожалуйста...

    Есть информационный блок сайта где просто перечислены вложенными списками населённые пункты, вёрстка там самая обычная (float: left, margin-left, clear: left):

    1.png

    При просмотре сайта на любом мобильном устройстве в вертикальном положении, размер шрифта правых ссылок становится заметно больше чем левых:

    2.png

    Если перевернуть устройство в горизонтальное положение то всё становится ровно, так как и должно быть.

    Никакой адаптивности нет, нигде не задаётся размер индивидуально к чему-либо (он только у body и всё, на всём сайте), никакой font-size не помогает вместе с !import.

    Ребята, что это может быть и почему так? Как исправить?

    Спасибо!

  20. 6 часов назад, wwt сказал:
    
    Disallow: /page.php

    равнозначно

    
    Disallow: /page.php*

    подробнее https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml#asterisk-dollar

    У меня вот и были сомнения по поводу первого способа - по этому и создала тему. Теперь убедилась что всё таки это правильно. А Вы не знаете, является ли ошибкой писать в robots.txt всё нижним регистром? Просто я в 100% случаях вижу что везде всё написано в нижнем регистре с первой заглавной буквы - такой вот ещё возможно странный вопрос от меня! :)

  21. Здравствуйте, как правильно и для всех поисковых систем запретить индексирование конкретной странице вместе со всеми возможными её GET параметрами? Спасибо!

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. See more about our Guidelines and Privacy Policy