hive的常见函数

查看函数的介绍（必读）：

show functions ; #查看hive中的所有内置函数
hive的常见函数
desc function extended 函数名; #查看某个函数的详细介绍

成都创新互联公司主要从事成都网站设计、成都网站建设、网页设计、企业做网站、公司建网站等业务。立足成都服务水磨沟,10余年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:028-86922220

1.hive中常见的内置函数

1）集合函数

创建数组
array(ele1,ele2,ele3)
例：select array(1,2,3,4);
hive的常见函数
判断值是否在数组中
array_contains(arr,value)
例：select array_contains(array(1,2,3,4),5);

创建一个map（基数为key,偶数为value）
map(key0,value0,key1,value1…)
例：select map('zs',1,'ls',2)

返回map中所有的key
map_keys(map)
例：select map_keys(map('zs',1,'ls',2)
hive的常见函数
返回map中所有的value
map_values(map)
例：select map_values(map('zs',1,'ls',2)

2）数值函数

小数四舍五入：
round(x,[d]) 参数1：浮点数,参数二：保留的位数
例：select round(4.5,1) 返回5
例：select round(5.1) 返回5 默认保留整数位

向上取整：
celi(num)
例：ceil(5.1) #6
向下取整：
floor(num)
例：floor(5.1) #6

3）字符串操作

substr(str,pos,len)#截取字符串（下标从1开始）
例：select substr(‘abcd’,1) abcd
例：select substr(‘abcd’,1,1) a
ps：substr和substring用法相同
instr(str,substr)#返回子串开始的位置
例：instr(‘abcd’,’cd’) 3
例：instr(‘abcd’ ,’zy’) 0 #没有的默认返回0

split(str,regex)#字符串切分，返回一个数组
例：select split(‘hello world’,’ ’)
hive的常见函数
concat(str1,str2…)#字符串拼接
例：concat(‘ab’,’cd’,’ef’) ‘abcdef’

concat_ws(separarot,[string|array])#字符串拼接
例：select concat_ws(‘,’,’ab’,’cd’,’ef’) #’ab,cd,ef’
例：select concat_ws(',','a',array('b','c')); ‘a,b,c’
大小写转化
lcase /lower #字符串转化为小写
ucase /upper #字符串转化为大写

nvl#字符串判断
例：select nvl(value,'delfaut') #如果前者为null,返回后者

if
语法：if(表达式,返回值1,,返回值2)
例： if(value is null ,'default',value) ,表达式为true，返回返回值1，否则返回返回值2

4）日期操作

unix_timestamp(data,format)#返回指定日期的时间戳
例：
hive的常见函数
例：select unix_timestamp('2018-9-1','yyyy-MM-dd'); #返回给定日期的时间戳

from_unixtime(timestamp,format)#返回相应时间戳的时间
例：from_unixtime(1151561,’yyyy-MM-dd’)

year(data)#返回给定日期的年
例： year('2018-5-4') #返回2018
相应的函数还有：month、day、hour、minute、second

weekofyear(data)#返回相应日期，是一年中的第几周
例：select weekofyear('2018-5-5') ;
hive的常见函数
datediff(date1,date2)#两个日期相差的天数
例：select datediff('2018-5-9','2018-5-10');

5）表生成函数

语法：explode(a) a可以是一个array,或者map,将数组或者map炸裂为多行
例：select explode(array(1,2,3));
hive的常见函数
例：select explode(map('zs',1,'ls',2));

实际应用：

#建表语句
create table user_info(name string,info map) row format delimited fields terminated by ‘\t’ collection items terminated by ‘,’ map keys terminated by ‘:’

#数据格式：zs age:28,salary:20000,address:beijing

#生成数据：
zs age:28
zs salary:20000
zs address:Beijing

#使用表生成函数解决：
select name,t.* from user_info lateral view explode(info) t;

hive的常见函数

2. 自定义函数

在hive中函数的分类：
hive的常见函数
这里我们自定义UDF，一路经一路出。
第一步：自定义Java类（导入hive依赖，编写类继承UDF）
注意：方法的名称一定要是evaluate！！！！

package com.zy.mr.hive;
import org.apache.hadoop.hive.ql.exec.UDF;
public class MyUDF extends UDF{
    /**
     * 参数：参数就是调用函数传入的参数
     * 返回值就是，调用的函数的返回值
     * 
     * 
     * 注意：
     * 1.方法的修饰符必须为public
     * 2.返回值不能为void
     * 3.一般的参数也不能
     */
    //三个数求和
    public int evaluate(int num1,int num2,int num3) {
        return num1+num2+num3;
    }
    //ip位数补齐  192.166.1.1 -----192.168.001.001
    public  String evaluate(String ip) {
        String[] split = ip.split("\\.");
        for(int i=0;i

第二步：打jar包，上传到Linux 第三步：将jar包放入hive的classpath下：add jar ../xx..jar 第四步：验证是否添加成功：list jars; 第五步：创建临时函数，关联自定义函数：create temporary function func_my as '类的权限定名称' 第六步：验证是否关联成功：show functions; 此时hive的内置函数库中会多一个函数第七步：使用自定义函数

`3. hive中的分析函数`

分析函数的介绍：分析函数有三种：row_number()，rank()，dense_rank() 三种函数需要与聚合函数共同使用。也可以与over()一起使用。语法： row_number() over(partition by /distribute by order by /sort by ) rank () over(partition by /distribute by order by /sort by ) dense_rank() over(partition by /distribute by order by /sort by )

三种函数的区别：实际应用：数据： 95002 刘晨女 19 IS 95017 王风娟女 18 IS 95018 王一女 19 IS 95013 冯伟男 21 CS 95014 王小丽女 19 CS 95019 邢小丽女 19 IS 95020 赵钱男 21 IS 95003 王敏女 22 MA 95004 张立男 19 IS 95012 孙花女 20 CS 95010 孔小涛男 19 CS 95005 刘刚男 18 MA 95006 孙庆男 23 CS 95007 易思玲女 19 MA 95008 李娜女 18 CS 95021 周二男 17 MA 95022 郑明男 20 MA 95001 李勇男 20 CS 95011 包小柏男 18 MA 95009 梦圆圆女 18 MA 95015 王君男 18 MA

需求：列出每个部门中年龄最小的三个解决：

#step1：
create table stu_step1 as select * ,row_number over(partition by department  order by age desc ) as top from student_manager  ;
# step2:
selecet * from stu_step1  where top <=3 ;


4. hive中处理json
以一个案例为准：
数据：
['{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}','{"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"}' ,'{"movie":"914","rate":"3","timeStamp":"978301968","uid":"1"}' ,'{"movie":"3408","rate":"4","timeStamp":"978300275","uid":"1"}' ,'{"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"}' ,'{"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"}' ,'{"movie":"1287","rate":"5","timeStamp":"978302039","uid":"1"}' ,'{"movie":"2804","rate":"5","timeStamp":"978300719","uid":"1"}' ,'{"movie":"594","rate":"4","timeStamp":"978302268","uid":"1"}']
使用的函数：get_json_object(json,path) ，json是一个json字符串
path是解析的路径。
例：
select get_json_object('{"movie":"914","rate":"3","timeStamp":"978301968","uid":"1"}',$.movie)

解释：在这个函数的path中
$：表示根目录 {}
.：表示子节点 moive   rate  timestamp
[]：表示数组的元素
*：表示数组中的所有
例：以上面的数据为例：
select get_json_object(json,$[*].movie) 取上面数据的所有的json中的movie的值。
5. transform
 Transform是一个hive的脚本解析方式（shell和python 脚本）
 需求：统计周一到周日哪一天的观影人数最多？
 数据：
{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"} {"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"} {"movie":"914","rate":"3","timeStamp":"978301968","uid":"1"} {"movie":"3408","rate":"4","timeStamp":"978300275","uid":"1"} {"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"} {"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"} {"movie":"1287","rate":"5","timeStamp":"978302039","uid":"1"} {"movie":"2804","rate":"5","timeStamp":"978300719","uid":"1"} {"movie":"594","rate":"4","timeStamp":"978302268","uid":"1"}
第一步 ： 建表：
#建表：
create table movie_01(line string);
#加载数据
load data local inpath '/home/hadoop/movie' into table movie_01;
#Json解析原始表
create table movie_02 as  
select  
get_json_object(line,'$.movie') as moive_id ,  
get_json_object(line,'$.rate') as rate ,  
get_json_object(line,'$.timeStamp') as `timeStamp`,  
get_json_object(line,'$.uid') as  userid 
from movie_01; 

第二步 ： 编写Python脚本：
#!/usr/bin/python
import sys
import datetime
for line in sys.stdin:
line = line.strip()
movie,rate,unixtime,userid = line.split('\t')
weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
print '\t'.join([movie, rate, str(weekday),userid])
第三步 ： 在hive中调用脚本解析数据
将脚本文件加载到hive的classpath下：add file /home/hadoop/datas/my.py;

检验：list files;/ list file;

第四步 ： 查询解析
## 
select transform(moive_id,rate,timestamp,userid) using 'python my.py' as (movieid,rate,week_day,userid)  from movie_02;
#transform:向脚本中传入的参数
#using:调用脚本（shell 是  sh  xxx.sh）
# as后面是别名            
            
                                

                    当前题目：hive的常见函数                    

                    标题链接：http://csdahua.cn/article/jjoepc.html


                
                    
                    
                        扫二维码与项目经理沟通
                        我们在微信上24小时期待你的声音
                        解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
                    
                
                
                    其他资讯
                    
                        短视频运营费
短视频运营财务分析表模板
南充短视频代运营在哪有
怎么运营动画短视频赚钱
it人力外包公司服务多样化企业选择方便


        
            
                
                    行业动态
                    企业网站建设的重要性！
                    现在虽然是移动互联网时代，但企业网站依然重要，包含PC站点，移动站。可以说企业网站关系企业的未来发展和前途，尤其对中小企业更是如此，一些中小企业老板，对自己的名片很在乎，因为这是个门面。...
                
            
            
                服务项目
                
                    
                        
                            网站建设
                            
                            查看详情
                        
                    
                    
                        
                            移动端/APP
                            
                            查看详情
                        
                    
                    
                        
                            微信/小程序
                            
                            查看详情
                        
                    
                    
                        
                            技术支持
                            
                            查看详情
                        
                    
                    
                        
                            其它服务
                            
                            查看详情
                        
                    
                    
                        
                            更多服务项目
                             用我们的专业和诚信赢得您的信赖，从PC到移动互联网均有您想要的服务！
                            获取更多
                        
                    
                
            
            
                 联系吧 在百度地图上找到我们 
                电话：13518219792
                如遇占线或暂未接听请拨：136xxx98888
                 业务咨询 技术咨询 售后服务


    
        
            
                
                    网站制作
                    成都网站制作
成都网站制作
达州网站制作
广安网站制作公司
                
                
                    网站建设
                    企业网站建设公司
彭州网站建设
手机网站建设
重庆网站建设网络公司
                
                
                    网站设计
                    成都网站设计
成都网站设计制作公司
成都网站设计
企业网站设计
                
                
                    联系我们
                    电话：13518219792
                    邮箱：631063699@qq.com
                    地址：成都青羊区锦天国际1002号
                    网址：www.csdahua.cn
                
                
                    
                    
                         
                            微信二维码
                        
                    
                
            
        
        
            
                友情链接
                手机APP开发
堡垒主机
梅州网站开发
成都网站代运营
香港虚拟主机
四川正泰动物
开业活动策划
全网整合营销推广
绵竹做网站
营销网站建设
            
        
    
    
        
             Copyright © 2002-2023 www.csdahua.cn 快上网建站品牌 QQ：244261566 版权所有 备案号：蜀ICP备19037934号
            
             
        
    
    
        
            在线咨询
            
            13518219792
             
                 
                    微信二维码
                
            
             
                 
                    移动版官网

hive的常见函数

查看函数的介绍（必读）：

1.hive中常见的内置函数

1）集合函数

2）数值函数

3）字符串操作

4）日期操作

5）表生成函数

2. 自定义函数

3. hive中的分析函数

4. hive中处理json

5. transform

扫二维码与项目经理沟通

其他资讯

行业动态

企业网站建设的重要性！

服务项目

网站建设

移动端/APP

微信/小程序

技术支持

其它服务

更多服务项目

联系吧 在百度地图上找到我们

电话：13518219792

`3. hive中的分析函数`

联系吧在百度地图上找到我们