简介:新闻网页正文抽取,可提取互联网上99% 已上文章,智能识别包含的标题及正文内容。 互联网上几百万个站点,每个站点还有N个不同的文章页面模版,您只需要接入我们的接口,就无需再为编写获取文章内容的正则而苦恼了,直接提取标题及正文内容。
已连接应用数:2305
Go语言调用网页提取接口示例:
package main import ( "encoding/json" "fmt" "io/ioutil" "net/url" "net/http" ) const ( APIURL = "https://api.ip138.com/text/" TOKEN = "bd4c2bf9a38ab06f7cae88c9759ee172" ) //---------------------------------- // 正文提取接口调用示例代码 //---------------------------------- //json struct type jsoninfo struct { Ret string `json:"ret"` Url string `json:"url"` Data [2] string `json:"data"` } func main() { queryUrl := "http://www.sina.com.cn/" queryUrl = url.QueryEscape(queryUrl) getText(queryUrl) } func getText(url string) { queryUrl := fmt.Sprintf("%s?url=%s&",APIURL,url) client := &http.Client{} reqest, err := http.NewRequest("GET",queryUrl,nil) if err != nil { fmt.Println("Fatal error ",err.Error()) } reqest.Header.Add("token",TOKEN) response, err := client.Do(reqest) defer response.Body.Close() if err != nil { fmt.Println("Fatal error ",err.Error()) } if response.StatusCode == 200 { bodyByte, _ := ioutil.ReadAll(response.Body) var info jsoninfo json.Unmarshal(bodyByte,&info) fmt.Println(info.Data) } return }