____可实时捕捉数据源中发生的变化。
____可以实现实时高效的数据集成,是实时主动数据仓库连续数据集成的有效解决方案。
CDC有两个典型的应用场景分别是____和____。
Kettle 的基本功能包括____管理和____管理。
Kettle中,____是一个图形用户界面,可以方便、直观地完成数据转换任务。
每个Kettle作业由一个或多个____和连接作业项的____组成。
Kettle中步骤之间的数据以____方式传递。
在pandas中____函数可以计算值的平均数。
在pandas中____函数可以计算样本值的标准差。
pandas提供了____和____函数,可以更容易地检测缺失值。
pandas提供了各种方法来清除缺失的值,____函数可以通过指定值和插值的方法填充缺失数据。
Python安装好以后,默认是没有安装Matplotlib库的,需要单独安装,其命令是____。
简述数据脱敏的原则。
在数据脱敏中,简述什么是保持业务规则的关联性。
假设有一个数据集X={4,8,15,21,21,24,25,28,34},采用基于平均值的等高分箱方法对其进行平滑处理,请描述具体分箱处理的步骤。