Парсинг на основе sitemap.xml через PHP
Зачастую на сайте есть файл карты сайта sitemap.xml
.
В этом файле хранятся ссылки на все страницы
сайта для удобства индексации их поисковыми системами
(индексация - это по сути и есть парсинг
сайта яндексом и гуглом). Об устройстве этого
файла вы можете прочитать в
википедии.
Наличие такого файла избавляет нас от получения всех адресов сайта какими-то хитрыми методами. Нам достаточно получить содержимое файла и отделить адреса целевых страниц от нецелевых.
Для того, чтобы проверить наличие
этого файла на любом сайте, просто
в адресной строке браузера после
имени домена вбейте sitemap.xml
и нажмите Enter
. Если что-то
откроется, то можно пробовать эту
методику, а если нет - то этот метод
к данному сайту не применим. Иногда
путь к карте сайта не стандартный,
а содержится в файле robots.txt.
При наличии такого файла мы легко можем получить его следующим образом:
<?php
$xml = simplexml_load_file('http://targ.loc/sitemap.xml');
?>
А затем перебрать циклом записи и отделить урлы целевых страниц от нецелевых.
Поизучайте в интернете различные сайты. Определите, есть ли у них карта сайта.
Возьмите сайт, у которого есть карта, и спарсите с него страницы со контентом.