大数据

  • R是同Excel SPSS 的数据处理分析工具,开源免费跨平台。
  • 数据仓库中的数据是不随时间变化的 不修改的 只提供分析结果之用
  • ETL 抽取、转换、转载的过程
  • 完整的流程倒是理解正确:数据源=>数据存储与管理=>数据仓库引擎=>前端展示
  • OLTP面向事务,使用频繁;OLAP面向查询
  • 星型模型=>雪花模型
  • hive允许的自定义mapper和reducer就是mapreduce程序
  • hive将sql语句转换成M/R job来在hadoop执行
  • 词法分析=>语法分析=>编译优化=>生成查询计划=>调用执行