Метод паука на базе данных для парсинга сайтов в PHP
В предыдущих уроках мы рассмотрели метод паука, в котором ссылки хранились в массиве. Для больших сайтов это может быть не самым удачным выбором, так как большой массив ссылок будет кушать оперативную память. Кроме того, если случится обрыв парсинга, то массив ссылок пропадет и придется начинать сначала.
Более удачным вариантом паука является использование базы данных. В этом случае нужно сделать таблицу, в которую будут помешаться ссылки. Таблица будет иметь две колонки: адреса ссылок и колонку для пометок, спаршена ли эта ссылка или нет.
Парсер будет брать первую неспаршенную ссылку, парсить ее, помечать в базе, что данная ссылка спаршена и брать следующую.
Реализуйте описанный алгоритм.