Hive笛卡尔积实现数据平滑
在分析金融行业的投资数据时,经常会使用到平滑这个操作,下面记录了几种情形的实现与优化 所谓平滑数据的平滑具体表现有多种情形,简单列举一下几种: 拉链表的数据一般没有连续的时间主键,只使用开始日期和结束日期来描述一个状态值(如评级)的生效日期范围,对拉链表做数据平滑就是把起期和止期展开成连续的时间, ...
Read more
基于CentOS7.5部署MySQL5.7及报错解决
卸载CentOS7.5自带的MariaDB 基于CentOS6.8安装是我们要卸载系统自带的MySQL,而7.5系统需要卸载MariaDB rpm -qa|grep mariadbrpm -e --nodeps mariadb-libs 下载MySQL5.7wget http://dev.my ...
Read more
Record4Gitalk
Read more
Vundle & zsh
安装oh-my-zshsudo yum install -y zsh# curl方式安装sh -c "$(curl -fsSL https://raw.githubusercontent.com/robbyrussell/oh-my-zsh/master/tools/install.sh)"# wg ...
Read more
wsl的搭建与配置
Windows Subsystem for Linux(简称WSL)是一个在Windows 10上能够运行原生Linux二进制可执行文件(ELF格式)的兼容层。 启用wsl控制面板 -> 程序 -> 启用或关闭windows功能 -> 勾选试用linux的windows系统或者在 ...
Read more
Hexo迁移报错解决
Hexo基于 Ubuntu20.04 LTS on Windows 1909 1. melody主题翻页button乱码与图片不显示不能同时解决 cnpm install --save hexo-renderer-pug hexo-generator-feed hexo-generator-site ...
Read more
阿里大数据之路
数据同步同步方式的选择1.直连同步之间调用规范的接口API可以实现数据的直连同步,配置简单,易于实现,但是业务量大时容易拖垮性能 2.同步数据文件约定好文件编码、大小和格式能够直接同步数据文件,通过校验文件解决网络传输造成的丢包等问题,通过压缩解压缩和加解密提高文件传输的安全性 3.数据库日志解析同 ...
Read more
VM一键启停脚本
添加vmware workstation的安装目录到环境变量 # 测试配置vmrun# 回显如下内容表示配置正确vmrun version 1.17.0 build-14665864Usage: vmrun [AUTHENTICATION-FLAGS] COMMAND [PARAMETERS] 启 ...
Read more
Ubuntu安装配置MySQL
sudo apt updatesudo apt install mysql-serversudo mysql_secure_installation# 按照下述配置后即可登陆mysql -uroot -p #1VALIDATE PASSWORD PLUGIN can be used to test ...
Read more
SparkOptimize
1.Cache经常使用的表可以使用cache进行缓存 缓存和释放缓存的方法 // 缓存dataFrame.cachesparkSession.catalog.cacheTable("tableName")// 释放缓存dataFrame.unpersistsparkSession.catalog. ...
Read more