简介:新闻网页正文抽取,可提取互联网上99% 已上文章,智能识别包含的标题及正文内容。 互联网上几百万个站点,每个站点还有N个不同的文章页面模版,您只需要接入我们的接口,就无需再为编写获取文章内容的正则而苦恼了,直接提取标题及正文内容。
已连接应用数:2308
Go语言调用网页提取接口示例:
package main
import (
"encoding/json"
"fmt"
"io/ioutil"
"net/url"
"net/http"
)
const (
APIURL = "https://api.ip138.com/text/"
TOKEN = "bd4c2bf9a38ab06f7cae88c9759ee172"
)
//----------------------------------
// 正文提取接口调用示例代码
//----------------------------------
//json struct
type jsoninfo struct {
Ret string `json:"ret"`
Url string `json:"url"`
Data [2] string `json:"data"`
}
func main() {
queryUrl := "http://www.sina.com.cn/"
queryUrl = url.QueryEscape(queryUrl)
getText(queryUrl)
}
func getText(url string) {
queryUrl := fmt.Sprintf("%s?url=%s&",APIURL,url)
client := &http.Client{}
reqest, err := http.NewRequest("GET",queryUrl,nil)
if err != nil {
fmt.Println("Fatal error ",err.Error())
}
reqest.Header.Add("token",TOKEN)
response, err := client.Do(reqest)
defer response.Body.Close()
if err != nil {
fmt.Println("Fatal error ",err.Error())
}
if response.StatusCode == 200 {
bodyByte, _ := ioutil.ReadAll(response.Body)
var info jsoninfo
json.Unmarshal(bodyByte,&info)
fmt.Println(info.Data)
}
return
}