简介:新闻网页正文抽取,可提取互联网上99% 已上文章,智能识别包含的标题及正文内容。 互联网上几百万个站点,每个站点还有N个不同的文章页面模版,您只需要接入我们的接口,就无需再为编写获取文章内容的正则而苦恼了,直接提取标题及正文内容。
已连接应用数:2305
PHP调用网页提取接口示例:
<?php $queryUrl = "http://www.sina.com.cn/"; $queryUrl = urlencode($queryUrl); $url = 'https://api.ip138.com/text/?url='.$queryUrl.'&type=1'; $header = array('token:00d5cb1fac5dc5cbfe2ff218292a2dfd33'); echo getData($url,$header); function getData($url,$header){ $ch = curl_init(); curl_setopt($ch,CURLOPT_URL,$url); curl_setopt($ch,CURLOPT_HTTP_VERSION,CURL_HTTP_VERSION_1_1); curl_setopt($ch,CURLOPT_HTTPHEADER,$header); curl_setopt($ch,CURLOPT_RETURNTRANSFER,1); curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,3); $handles = curl_exec($ch); curl_close($ch); return $handles; } ?>