Предварительная чистка текста при парсинге через регулярки на PHP

При парсинге в тексте страницы может быть всякий мусор. Перед тем, как что-то разбирать регулярками, следует избавиться от этого мусора.

Например, в следующем тексте есть комментарии HTML:

<p> text1 </p> <p> text2 </p> <!-- <p> text3 </p> -->

Давайте от них избавимся:

<?php $str = preg_replace('#<!--.+?-->#su', '', $str); ?>

Проверим, что теперь в строке нет комментариев:

<?php var_dump($str); ?>

Очистите текст от тегов style.

Очистите текст от тегов script.

Очистите текст от комментариев CSS.

Очистите текст от пустых строк.



Чат с GPT Компилятор