Кеш при парсинге на PHP
Когда парсится большой сайт, возможны всякие накладки. Обычно они связаны с тем, что вы что-то не учли в своем коде и парсер начал неправильно парсить. В этом случае приходится запускать парсинг сначала.
Это не очень хорошо. Во-первых, так вас могут забанить на этом сайте, во-вторых - это достаточно медленно, в-третьих - не следует без необходимости дергать чужой сайт, проявите уважение.
Для решения проблемы следует кешировать все скачанные страницы в базу данных. Под кешированием в данном случае понимается создание специальной таблицы в базе данных, в которую будут складываться URL-лы и полные тексты страниц, на которые заходил наш парсер.
В этом случае, при запросе определенного URL
через функцию getPage
вы должны
сначала проверить, нет ли в кеше такой
страницы. Если есть, то берем ее из кеша,
а если нет - скачиваем из интернета.
Реализуйте описанное кеширование.