/*Функция очистки текста от HTML кода*/
function dehtml($text){
$search = array ("''si", // Вырезает javaScript
"'<[\/\!]*?[^<>]*?>'si", // Вырезает HTML-теги
"'([\r\n])[\s]+'", // Вырезает пробельные символы
"'&(quot|#34);'i", // Заменяет HTML-сущности
"'&(amp|#38);'i",
"'&(lt|#60);'i",
"'&(gt|#62);'i",
"'&(nbsp|#160);'i",
"'&(iexcl|#161);'i",
"'&(cent|#162);'i",
"'&(pound|#163);'i",
"'&(copy|#169);'i",
"'(\d+);'e"); // интерпретировать как php-код
$replace = array ("",
"",
"\\1",
"\"",
"&",
"<",
">",
" ",
chr(161),
chr(162),
chr(163),
chr(169),
"chr(\\1)");
$text2 = preg_replace($search, $replace, $text);
return $text2;
}
/*Парсинг текста из Яндекса*/
function yandex_text($key){
$key.=" обзор";
$key=urlencode($key);
$serp = file_get_contents("http://www.yandex.ru/yandsearch?text={$key}&numdoc=10");
$text="";
$pattern = '/]*href=\"(http:\/\/[^\"]*)\"/is';
preg_match_all($pattern, $serp, $out);
foreach ($out[1] as $v) {
$site = file_get_contents("$v");
$site=dehtml($site);
$text.=$site;
}
return $text;
}
?>