汪垟是干什么的

一句话 大数据就是管理和利用大量数据的

分开来讲就是数据如何产生、数据如何搬运、数据如何存储、数据有效的整理起来方便使用、数据如何进行加工提高价值、数據怎么使用,管理这整个生命周期

数据的产生:就是数据的源头,我们怎么来生产数据有业务上用的数据比如MySQL中的用户表,有前端埋點(监控用户的每个操作)有程序输出的日志数据,有爬虫爬来的数据这么多数据的源头,我们需要一个数据该怎么产生数据

数据接入:数据怎么从这么多源头搬运到数据中心进行统一处理。用什么方法搬运搭建个管道让它一直进来,还是隔段时间搬运一次这都是要栲虑的。

数据存储:大量数据如何存才能不会丢,而且读取快

数据仓库:数据怎么进行有效的管理就是数据仓库该考虑的事情了。

数據计算:大量的数据要进行加工才能产生价值,那么加工工具的效率就影响着你的效率

数据应用:数据能用来做什么。

我要回帖

更多关于 萉垟 的文章

 

随机推荐