Hive笛卡尔积实现数据平滑 2020-11-25| BigData - Hive 在分析金融行业的投资数据时,经常会使用到平滑这个操作,下面记录了几种情形的实现与优化
所谓平滑数据的平滑具体表现有多种情形,简单列举一下几种:
拉链表的数据一般没有连续的时间主键,只使用开始日期和结束日期来描述一个状态值(如评级)的生效日期范围,对拉链表做数据平滑就是把起期和止期展开成连续的时间, ...
Read more 基于CentOS7.5部署MySQL5.7及报错解决 2020-07-26卸载CentOS7.5自带的MariaDB
基于CentOS6.8安装是我们要卸载系统自带的MySQL,而7.5系统需要卸载MariaDB
rpm -qa|grep mariadbrpm -e --nodeps mariadb-libs
下载MySQL5.7wget http://dev.my ...
Read more Vundle & zsh 2020-07-26| Linux 安装oh-my-zshsudo yum install -y zsh# curl方式安装sh -c "$(curl -fsSL https://raw.githubusercontent.com/robbyrussell/oh-my-zsh/master/tools/install.sh)"# wg ...
Read more wsl的搭建与配置 2020-07-26| Linux Windows Subsystem for Linux(简称WSL)是一个在Windows 10上能够运行原生Linux二进制可执行文件(ELF格式)的兼容层。
启用wsl控制面板 -> 程序 -> 启用或关闭windows功能 -> 勾选试用linux的windows系统或者在 ...
Read more Hexo迁移报错解决 2020-07-26Hexo基于 Ubuntu20.04 LTS on Windows 1909
1. melody主题翻页button乱码与图片不显示不能同时解决
cnpm install --save hexo-renderer-pug hexo-generator-feed hexo-generator-site ...
Read more 阿里大数据之路 2020-07-26| BigData 数据同步同步方式的选择1.直连同步之间调用规范的接口API可以实现数据的直连同步,配置简单,易于实现,但是业务量大时容易拖垮性能
2.同步数据文件约定好文件编码、大小和格式能够直接同步数据文件,通过校验文件解决网络传输造成的丢包等问题,通过压缩解压缩和加解密提高文件传输的安全性
3.数据库日志解析同 ...
Read more VM一键启停脚本 2020-07-26| Batch Script 添加vmware workstation的安装目录到环境变量
# 测试配置vmrun# 回显如下内容表示配置正确vmrun version 1.17.0 build-14665864Usage: vmrun [AUTHENTICATION-FLAGS] COMMAND [PARAMETERS]
启 ...
Read more Ubuntu安装配置MySQL 2020-07-26| Linux sudo apt updatesudo apt install mysql-serversudo mysql_secure_installation# 按照下述配置后即可登陆mysql -uroot -p
#1VALIDATE PASSWORD PLUGIN can be used to test ...
Read more SparkOptimize 2020-07-26| BigData - Spark 1.Cache经常使用的表可以使用cache进行缓存
缓存和释放缓存的方法
// 缓存dataFrame.cachesparkSession.catalog.cacheTable("tableName")// 释放缓存dataFrame.unpersistsparkSession.catalog. ...
Read more