Предварительная чистка текста при парсинге через регулярки на PHP
При парсинге в тексте страницы может быть всякий мусор. Перед тем, как что-то разбирать регулярками, следует избавиться от этого мусора.
Например, в следующем тексте есть комментарии HTML:
<p>
text1
</p>
<p>
text2
</p>
<!--
<p>
text3
</p>
-->
Давайте от них избавимся:
<?php
$str = preg_replace('#<!--.+?-->#su', '', $str);
?>
Проверим, что теперь в строке нет комментариев:
<?php
var_dump($str);
?>
Очистите текст от тегов style
.
Очистите текст от тегов script
.
Очистите текст от комментариев CSS.
Очистите текст от пустых строк.