教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

问答>python+大数据开发>Hive数据模型中的分区是指的什么?

Hive数据模型中的分区是指的什么?

来源传智教育2022年04月08日 14时54分42秒

分区的概念是根据“分区列”的值对表的数据进行粗略划分的机制,在Hive存储上的体现就是在表的主目录(Hive的表实际显示就是一个文件夹)下的一个子目录,这个子目录的名字就是定义的分区列的名字。分区是为了加快数据查询速度设计的,例如,现在有个日志文件,文件中的每条记录都带有时间戳。如果根据时间来分区,那么同一天的数据将会被分到同一个分区中。这样的话,如果查询每一天或某几天的数据就会变得很高效,因为只需要扫描对应分区中的文件即可。

  注意:分区列不是表里的某个字段,而是独立的列,根据这个列查询存储表中的数据文件。

和我们在线交谈!