( )网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成部分。
( )八爪鱼采集器是一款可视化免编程的网页采集软件。
( )数据清洗就是按照一定的规则把“脏数据”“洗掉”。
( )数据清洗是一种对数据进行重新审查和校验的过程。
( )错误数据产生的原因是业务系统不健全,在接收输入后没有进行判断直接写入后台数据库造成的。
( )对于大数据而言,最基本、最重要的要求就是减少错误、保证质量,因此,大数据收集的信息量要尽量精确。
( )如果数据有多个来源,有必要进行关联性验证。
( )数据清洗是一个反复的过程,不可能在几天内完成,只有不断地发现问题、解决问题。
( )按照数据产生的主体不同,数据采集范围主要包括数据库采集、系统日志采集、网络数据采集、感知设备数据采集等。
( )数据仓库的最终目的是为用户和业务部门提供决策支持。
( )只有结构化数据是有用数据。
( )数据库指的是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
( )并行数据库系统的目标是高性能和高可用性,通过多个节点并行执行数据库任务,提高整个数据库系统的性能和可用性。
( )操作系统中负责管理和存储文件信息的软件机构称为文件管理系统。
( )大数据采集数据来源广泛,数据量小。