在人工智能快速发展、数据价值不断凸显的当下,规范网络爬虫行为、保障数据安全有序利用,是数字政府建设的重要课题。近期,国家数据局对自动化程序收集公开数据的合法边界作出权威解读,明确要求收集公开数据必须合法合规、安全可控、不侵权、不滥用。坪山区紧跟数字发展趋势,全省率先完成政府门户网站robots协议部署落地,为网络数据采集划定清晰边界,助力政府网站与人工智能深度融合发展。
robots协议又称爬虫协议,是由网站所有者生成的一个指定配置文件,用于告知爬虫哪些是可抓取、优先抓取及禁止抓取的页面。目前,robots协议已在全球广泛普及,被国内外政府网站及头部互联网企业普遍部署,已成为规范爬虫行为的行业共识与基础规则。

政府网站数据作为人工智能语料的重要来源,其采集合规性备受关注。坪山区经过前期评估调研,明确政府网站robots协议部署的核心内容:支持国内合规爬虫采集,引导境外合规爬虫优先抓取英文版数据,禁止非法爬虫;限制低价值数据抓取,减少无效请求;优化网站地图并与robots协议协同,明确重点政务信息抓取优先级。此次部署,既提升网站运行效率、防范数据风险,又增强政务信息传播效能、便利群众办事查询,实现数据合规与服务效能双提升,为坪山区以数字技术赋能政务服务、护航AI产业发展提供有力支撑。
下一步,坪山区将持续推进政府数据开放共享,探索人工智能与数字政府融合应用,以技术创新提升政务服务效能,为区域高质量发展注入数字动能。(信息员:王雪纯)





粤公网安备 44031002000124号
"创新坪山"
i深圳
点击停止