12-12更新-数据采集与消息系统-新测试题汇总--题库列表

分别简述Z-Score 规范化和Min-Max规范化的优缺点。

简述 HDFS的体系结构。

简述定制在爬取网页时，定制请求头的作用。

简述Scrapy工作流主要的运行步骤。

简述Scrapy 体系架构。

使用Kafka生产者将数据从MySQL数据库中读取，并发送到Kafka消息队列。

简述是Flume每个组件的作用。

试写出Flume集成Kafka的配置信息。

简述数据抽取模块主要负责的功能。

简述Kettle 转换的作用。

简述使用kettle把文本文件导入MySQL数据库中的步骤。

简述使用Kettle把本地文件加载到HDFS中的步骤。

编写代码绘制一个柱状图，展示不同水果的销售量。假设有以下数据。 Fruits = ['Apple', 'Banana', 'Orange', 'Mango'] Sales = [30, 45, 20, 35]

创建一个Series对象，包含以下数据:[1, 2, 3, 4, 5]，并将其赋值给变量series。然后，计算series中的所有元素的平均值。

创建两个Series对象，分别包含以下数据:[1, 2, 3, 4, 5] 和 [10, 20, 30, 40, 50]，并将它们分别赋值给变量series1和series2。然后，将这两个Series对象相加，并将结果保存在变量result中。

...