金融界2023年11月24日消息,据国家知识产权局公告,腾讯科技(深圳)有限公司取得一项名为“网页信息获取方法、装置和计算机可读存储介质”,授权公告号CN109902220B,申请日期为2019年2月。
专利摘要显示,本公开揭示了一种网页信息获取方法包括:轮询所配置的不同监控类型,以进行网页信息的获取;获取为监控类型所配置的站点监控信息;根据地址信息进行网页爬取,获得所对应的页面数据;根据所获得的页面数据确定所对应网页页面的类型,网页页面的类型包括列表页和详情页;在页面数据所对应的网页页面为列表页时,根据页面数据中携带的链接信息获得继续进行网页爬取的地址信息以及进行万个亿爬取,以获得所对应的页面数据;在页面数据所对应的网页页面为详情页时,对页面数据进行关键字匹配处理,以获得在监控站点下与所关注关键字相匹配的网页信息,使网页信息的获取具有高效性。
本文源自金融界