肿瘤康复网,内容丰富有趣,生活中的好帮手!
肿瘤康复网 > php抓取新浪新闻 新浪新闻采集程序

php抓取新浪新闻 新浪新闻采集程序

时间:2021-09-16 04:45:03

相关推荐

利用正则表达式提取内容信息<?php

//error_reporting(0);

$date=date("Ymd");

//echo $date;

$url="http://top./ws/GetTopDataList.php?top_type=day&top_cat=all&top_time=".$date."&top_show_num=20&top_order=ASC";

$doc=file_get_contents($url);

header("Content-Type:text/html;charset=gb2312");//UNICODE转GB2312

//echo $doc;

preg_match_all('/"url":".*l/U',$doc,$article);//获取文章列表

$article=current($article);//二维数组转一维数组

//print_r($article);

$rule="/\"url\":(.*)\"\"/";

function OnlyUrl($string){

$string=stripslashes($string);

$string=str_replace('"url":"',"",$string);

return $string;

}

function GetTitle($url){ //获取文章标题

$doc=file_get_contents($url);

$rule="/

/";

preg_match($rule,$doc,$result);

echo $result;

}

foreach($article as &$value){

$value=OnlyUrl($value);

}//提取了URL

?><?php

function GetTitle($url){ //获取文章标题

$rule="/

/";

preg_match_all($rule,$doc,$result);

$rule="/>(.*)";//截掉

preg_match($rule,$result[0][1],$title);

return $title[1];

}

function GetContent($url){

$doc=file_get_contents($url);//打开网页

// echo $doc;

$rule="/publish_helper(.*)publish_helper_end/xs";

preg_match($rule,$doc,$result);//取出正文部分

//echo $result[0];

$rule="/publish_helper(.*)/xs";

preg_match($rule,$result[0],$out);//取出链接部分

//print_r($out);

$content=str_replace($out[0],"",$result[0]);//提取纯文字段的内容

echo $content;

}

?>

发布php中文网,转载请注明出处,感谢您的尊重!

如果觉得《php抓取新浪新闻 新浪新闻采集程序》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。