什么是网页抓取

python编程 · 2020-10-06
      在互联网上进行自动数据抓取这件事和互联网存在的时间差不多一样长,虽然网页抓取。HhdIT米工网
       HhdIT米工网
      并不是新术语,但是多年以来,这件事更常见的称谓是网页抓屏(screen scraping)、数据挖掘(data mining)、网页收割(Web harvesting)或其他类似的版本。今天大众好像更倾向于用“网页抓取”,我倾向于把遍历多个页面的程序称作网络爬虫(Web crawler),或者把网页抓取程序称为网络机器人(bot)。HhdIT米工网
      理论上,网页抓取是一种通过多种手段收集网络数据的方式,不光是通过API交互(或者直接与浏览器交互)的方式。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。HhdIT米工网
      实践中,网页抓取涉及非常广泛的编程技术和手段,比如数据分析、自然语言解析和信息安全等。