深入解析hive中的NULL(空值)和''(空字符串)_hive null-程序员宅基地

技术标签: 数据仓库(hive)  Hadoop  

一、hive里面的 null(空值) 和 ''(空字符串) 是两个不同的东西

1、如果查某个字段【 a 是否为空】应该这样写:

a is null

a is not null

2、如果查某个字段 【a 是否为''】应该这样写:

a = ''

a <>''

在hive的数据中,null值(空值)较为常见,比如字段没有值,就是所谓的null值(空值),而 ''(空字符串)多为人为给定的,不多见。

二、【表】NULL值的处理

HIVE表中默认将NULL存为\N,可查看表的源文件(hadoop fs -cat或者hadoop fs -text),文件中存储大量\N,  
这样造成浪费大量空间。而且用java、python直接进入路径操作源数据时,解析也要注意。

另外,hive表的源文件中,默认列分隔符为\001(SOH),行分隔符为\n(目前只支持\n,别的不能用,所以定义时不需要显示声明)。元素间分隔符\002,map中key和value的分隔符为\003

1、举例,如源文件中一条记录为:

10000042SOH77SOH435SOH16SOH22SOH1156120000SOH\NSOH\NSOH\NSOH\NSOH\NSOH\NSOH\NSOHyoukuSOH85133.0SOH111

可以看出存储NULL的\N 浪费了大量空间。

但hive的NULL有时候是必须的:
1)、hive中insert语句必须列数匹配,不支持不写入,没有值的列必须使用null占位。

2)、hive表的数据文件中按分隔符区分各个列。空列会保存NULL(\n)来保留列位置。但外部表加载某些数据时如果列不够,如表13列,文件数据只有2列,则在表查询时表中的末尾剩余列无数据对应,自动显示为NULL。

所以,NULL转化为空字符串,可以节省磁盘空间,实现方法有几种:
    1)建表时直接指定(两种方式):
        a、用语句

ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe’
    with serdeproperties('serialization.null.format' = '')

     实现,注意两者必须一起使用,如

   CREATE TABLE hive_tb (id int,name STRING)
   PARTITIONED BY ( `day` string,`type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', `hour` tinyint)
   ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe’
   WITH SERDEPROPERTIES (
        ‘field.delim’='/t’,
        ‘escape.delim’='//’,
        ‘serialization.null.format'=''
   ) STORED AS TEXTFILE;

         b、或者通过ROW FORMAT DELIMITED NULL DEFINED AS '' 如

   CREATE TABLE hive_tb (id int,name STRING)
   PARTITIONED BY ( `day` string,`type` tinyint COMMENT '0 as bid, 1 as win, 2 as ck', `hour` tinyint)
   ROW FORMAT DELIMITED 
        NULL DEFINED AS '' 
   STORED AS TEXTFILE;

          2)修改已存在的表:

    alter table hive_tb set serdeproperties('serialization.null.format' = '');
节省空间的验证结果如下:
    hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=00/0*
    1137
    hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=01/0*
    319753
    -----------------------------------
    hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=00/0*
    885
    hadoop fs -du /hivedata/warehouse/pmp.db/hive_tb/day=2016-05-14/type=1/hour=01/0*
    249529

三、【字段】null值处理——NVL、Coalesce函数

1、NVL函数

NVL函数的格式如下:NVL(expr1,expr2)
含义是:如果第一个参数为null(空值)那么显示第二个参数的值,如果第一个参数的值不为null(空值),则显示第一个参数本来的值。

select nvl(null,3);    -- 结果:3

select nvl('',3);      -- 结果:''   (注意:在hive中展示位1,但实际为'',可用select nvl('',3)='';验证)

2、Coalesce函数

Coalese函数格式如下:Coalesce(expr1, expr2, expr3….. exprn)

Coalese函数的作用和NVL函数有点相似,其优势是有更多的选项
表示可以指定多个表达式的占位符。所有表达式必须是相同类型,或者可以隐性转换为相同的类型

作用是:返回表达式中第一个非空表达式。

SELECT COALESCE(NULL,null,3,4,5);   -- 结果为:3

SELECT COALESCE(NULL,null,'',3,4,5);   -- 结果为:''

SELECT COALESCE(NULL,null,null,NULL);  -- 结果为:null

如果所有自变量均为 NULL,则 COALESCE 返回 NULL

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_40873462/article/details/101692970

智能推荐

python多进程 保活_转: android app进程保活的文章列表-程序员宅基地

文章浏览阅读44次。从CIO、CEO、CFO、COO&period;&period;&period;到CVO 这22个你了解几个&quest; &lpar;史上最完整版&rpar;1.CEO:是Chief Executive Officer的缩写,即首席执行官. 由于市场风云变幻,决策的速度和执行的力度比以往任何时候都更加重要.传统的“董事会决策.经理层执行”的公司体制..._安卓进程保活

如何高效优雅的完成一次机器学习服务部署?一文详解部署难点以及实战案例_机器学习模型的云端服务器部署-程序员宅基地

文章浏览阅读2.2w次,点赞582次,收藏582次。数据准备:从公共数据集中获取数据,并进行数据清洗和特征工程处理,将数据转化为适合机器学习算法处理的格式。创建SageMaker Notebook实例:通过AWS Management Console或AWS SDK创建SageMaker Notebook实例,并连接到实例。编写代码:在Notebook中编写代码,使用Amazon SageMaker提供的XGBoost算法和数据输入通道,加载并处理数据,训练并评估模型。模型调优:通过调整模型的参数和超参数,优化模型性能。_机器学习模型的云端服务器部署

Sublime text 3搭建Python开发环境及常用插件安装_sublime python 环境搭建-程序员宅基地

文章浏览阅读4.9k次。Sublime text 3搭建Python开发环境及常用插件安装_sublime python 环境搭建

在CentOS 7上安装MySQL 8.0_centos7安装mysql8.0gpg密钥-程序员宅基地

文章浏览阅读643次。MySQL在首次安装后会执行一个安全脚本,用于设置root用户的密码以及其他安全选项。_centos7安装mysql8.0gpg密钥

echarts绘制圆角方形进度图_echarts symbolboundingdata-程序员宅基地

文章浏览阅读864次。这种场景下,可以使用两个系列,一个系列是完整的图形,当做『背景』来表达总数值,另一个系列是使用 `symbolClip` 进行剪裁过的图形,表达当前数值。_echarts symbolboundingdata

学python需要什么样的电脑,python需要什么样的电脑_python机器学习需要怎样配置的电脑-程序员宅基地

文章浏览阅读1k次,点赞18次,收藏16次。这篇文章主要介绍了学python对电脑配置要求高吗,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获,下面让小编带着大家一起了解一下。_python机器学习需要怎样配置的电脑

随便推点

模型部署——RKNN模型量化精度分析及混合量化提高精度_if set do_quantization = true-程序员宅基地

文章浏览阅读508次,点赞4次,收藏8次。3.1 量化精度分析流程计算不同情况下,同一层网络输入值的余弦距离,来近似的查看每一层精度损失的情况。具体量化精度分析的流程如下:3.2 量化精度分析accuracy_analysis接口量化精度分析调用accuracy_analysis接口,推理并产生快照,也就是dump出每一层的tensor数据。会dump出包括fp32和quant两种数据类型的快照,用于计算量化误差。该接口使用的量化方式与config_中指定的一致。_if set do_quantization = true

汽车整车EMC检测-程序员宅基地

文章浏览阅读512次,点赞15次,收藏6次。摘要:RE辐射、CE传导、BCI大电流注入,ESD静电、ISO7637瞬态脉冲干扰等EMC测试、EMC整改,一站式服务,双C报告

docker安装PHP5.6 提示 does not have a Release file_docker php5.6-程序员宅基地

文章浏览阅读276次。docker安装PHP5.6_docker php5.6

TPC-B测试:Greenplum 6版本比5版本到底好了多少?_tpcb测试-程序员宅基地

文章浏览阅读1.3k次。pgbench 简介:pgbench是一种在PostgreSQL上运行基准测试的简单程序。它可能在并发的数据库会话中一遍一遍地运行相同序列的 SQL 命令,并且计算平均事务率(每秒的事务数)。默认情况下,pgbench会测试一种基于 TPC-B 但是要更宽松的场景,其中在每个事务中涉及五个SELECT、UPDATE以及INSERT命令。但是,通过编写自己的事务脚本文件很容易用来测试其他情况..._tpcb测试

[ATF]-TEE/REE系统切换时ATF的寄存器的保存和恢复_atf-tee-程序员宅基地

文章浏览阅读1k次。ATF点滴1、设置运行时栈SP2、寄存器的保存和恢复的实现3、寄存器的保存和恢复的使用场景1、设置运行时栈SPbl31_entrypoint—>el3_entrypoint_common---->plat_set_my_stack—>platform_set_stack—>platform_get_stack动态找到该cpufunc platform_set_stackmov x9, x30 // lrbl platform_get_stackmov sp, x0r_atf-tee

PPT模板下载-程序员宅基地

文章浏览阅读134次。300多个各种类型的PPT模板下载,为您提供各种类型PPT模板、PPT图片、PPT素材、海报模板、新媒体配图等内容下载。