简介:新闻网页正文抽取,可提取互联网上99% 已上文章,智能识别包含的标题及正文内容。 互联网上几百万个站点,每个站点还有N个不同的文章页面模版,您只需要接入我们的接口,就无需再为编写获取文章内容的正则而苦恼了,直接提取标题及正文内容。
已连接应用数:2308
PHP调用网页提取接口示例:
<?php
$queryUrl = "http://www.sina.com.cn/";
$queryUrl = urlencode($queryUrl);
$url = 'https://api.ip138.com/text/?url='.$queryUrl.'&type=1';
$header = array('token:00d5cb1fac5dc5cbfe2ff218292a2dfd33');
echo getData($url,$header);
function getData($url,$header){
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_HTTP_VERSION,CURL_HTTP_VERSION_1_1);
curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,3);
$handles = curl_exec($ch);
curl_close($ch);
return $handles;
}
?>