Нормализация кодировки при парсинге на PHP
Иногда вам придется парсить не современные сайты,
а достаточные старые. На таких сайтах кодировка
чаще всего установлена в windows-1251
.
Поэтому, если вы попытаетесь получить русскоязычные
тексты с этого сайта, вы вместо русских букв увидите
вопросики - это первый признак сбившейся кодировки.
В этом случае следует воспользоваться функцией
iconv
, которая перекодирует текст из
устаревшего windows-1251
в современный utf-8
.
Это делается следующим образом:
<?php
$str = iconv('windows-1251', 'utf-8', $str);
?>
Скачайте сайт по ссылке targ1.zip
и разверните его у себя. Напишите парсер,
который зайдет главную страницу
и получит содержимое тегов title
и main
.