简介:新闻网页正文抽取,可提取互联网上99% 已上文章,智能识别包含的标题及正文内容。 互联网上几百万个站点,每个站点还有N个不同的文章页面模版,您只需要接入我们的接口,就无需再为编写获取文章内容的正则而苦恼了,直接提取标题及正文内容。
已连接应用数:2308
PHP调用网页提取接口示例:
                                    <?php
                                    $queryUrl = "http://www.sina.com.cn/";
                                    $queryUrl = urlencode($queryUrl);
                                    $url = 'https://api.ip138.com/text/?url='.$queryUrl.'&type=1';
                                    $header = array('token:00d5cb1fac5dc5cbfe2ff218292a2dfd33');
                                    echo getData($url,$header);   
                                    function getData($url,$header){  
                                        $ch = curl_init();  
                                        curl_setopt($ch,CURLOPT_URL,$url);
                                        curl_setopt($ch,CURLOPT_HTTP_VERSION,CURL_HTTP_VERSION_1_1);
                                        curl_setopt($ch,CURLOPT_HTTPHEADER,$header); 
                                        curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);  
                                        curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,3);  
                                        $handles = curl_exec($ch);  
                                        curl_close($ch);  
                                        return $handles;  
                                    }
                                    ?>