简介:新闻网页正文抽取,可提取互联网上99% 已上文章,智能识别包含的标题及正文内容。 互联网上几百万个站点,每个站点还有N个不同的文章页面模版,您只需要接入我们的接口,就无需再为编写获取文章内容的正则而苦恼了,直接提取标题及正文内容。
已连接应用数:2305
Python调用网页提取接口示例:
#!/usr/bin/python # -*- coding: utf-8 -*- import httplib2 from urllib.parse import urlencode #python3 #from urllib import urlencode #python2 params = urlencode({'url':'http://www.sina.com.cn/','type':'1'}) url = 'https://api.ip138.com/url/?'+params headers = {"token":"8594766483a2d65d76804906dd1a1c6a"}#token为示例 http = httplib2.Http() response, content = http.request(url,'GET',headers=headers) print(content.decode("utf-8"))