Нормализация кодировки при парсинге на PHP

Иногда вам придется парсить не современные сайты, а достаточные старые. На таких сайтах кодировка чаще всего установлена в windows-1251. Поэтому, если вы попытаетесь получить русскоязычные тексты с этого сайта, вы вместо русских букв увидите вопросики - это первый признак сбившейся кодировки.

В этом случае следует воспользоваться функцией iconv, которая перекодирует текст из устаревшего windows-1251 в современный utf-8. Это делается следующим образом:

<?php $str = iconv('windows-1251', 'utf-8', $str); ?>

Скачайте сайт по ссылке targ1.zip и разверните его у себя. Напишите парсер, который зайдет главную страницу и получит содержимое тегов title и main.



Чат с GPT Компилятор