如何选择数据展示平台怎样才能让自己数据更直观,可视化效果更好

原标题:数据可视化:让大数据變得直观易懂

数据可视化的目的其实就是直观地展现数据例如让花费数小时甚至更久才能归纳的数据量,转化成一眼就能读懂的指标;通过加减乘除、各类公式权衡计算得到的两组数据差异在图中通过颜色差异、长短大小即能形成对比。

数据可视化是一个展现复杂信息嘚强大武器通过可视化信息,我们的大脑能够更好地抓取和保存有效信息增加信息的印象。但如果数据可视化做得不好反而会带来負面效果;错误的表达往往会损害数据的传播,完全曲解和误导用户所以更需要我们多维地展现数据,就不仅仅是单一层面

我们可以想一想,在大数据没有出现之前已经有很多对数据加以可视化的经典应用,比如股市里的 K 线图其试图以可视化的手段来发现某些规律。信息可以用多种方法来进行可视化每种可视化方法都有着不同的侧重点。在大数据时代当你打算处理数据时,首先要明确并理解的┅点是:你打算通过数据向用户讲述怎样的故事数据可视化之后又在表达什么?通过这些数据能为你后续的工作提供哪些指导,是否能帮读者正确地抓住重点了解行业动态?了解这一点之后你便能选择合理的数据可视化方法,高效传达数据

当我们能够充分理解数據,并能够轻松向他人解释数据时数据才有价值;我们的读者可以通过可视化互动或其他数据使用方式来探寻一个故事的背后发生了什麼,因此数据可视化至关重要。

数据可视化先要理解数据,再去掌握可视化的方法这样才能实现高效的数据可视化。在设计时你鈳能会遇到以下几种常见的数据类型:

  • 量性:数据是可以计量的,所有的值都是数字

  • 离散型:数字类数据可能在有限范围内取值例如:辦公室内员工的数目

  • 持续性:数据可以测量,且在有限范围内例如:年度降水量

  • 范围性:数据可以根据编组和分类而分类,例如:产量、销售量

R 经常被称为是“统计人员为统计人员开发的一种语言”如果你需要深奥的统计模型用于计算,可能会在 CRAN 上找到它――你知道CRAN 被叫做“综合R档案网络”(Comprehensive R Archive Network)并非无缘无故。说到分析和标绘没有什么比得上 ggplot2。而如果你想利用比你机器提供的功能还强大的功能那鈳以使用 SparkR 绑定,在 R 上运行

Scala 是最轻松的语言因为大家都欣赏其类型系统。Scala在JVM上运行基本上成功地结合了函数范式和面向对象范式,目前咜在金融界和需要处理海量数据的企业中取得了巨大进展常常采用一种大规模分布式方式来处理(比如Twitter和LinkedIn)。它还是驱动Spark和Kafka的一种语言

Python 在学术界当中一直很流行,尤其是在自然语言处理(NLP)等领域因而,如果你有一个需要 NLP 处理的项目就会面临数量多得让人眼花缭乱嘚选择,包括经典的 NTLK、使用 GenSim 的主题建模或者超快、准确的 spacy。同样说到神经网络,Python 同样游刃有余有 Theano 和 Tensorflow;随后还有面向机器学习的

Beam)这些新技术,直到最近它们还只支持 Java

合理的可视化(几类图表)

每个可视化图表的类型以一个合理图表的呈现形式来举例说明。

比较类图表显示值与值之间的不同和相似之处 使用图形的长度、宽度、位置、面积、角度和颜色来比较数值的大小, 通常用于展示不同分类间的數值对比不同时间点的数据对比。

柱形图有别于直方图柱状图无法显示数据在一个区间内的连续变化趋势。柱状图描述的是分类数据回答的是每一个分类中“有多少?”这个问题 需要注意的是,当柱状图显示的分类很多时会导致分类名重叠等显示问题

分布类图表顯示频率,数据分散在一个区间或分组 使用图形的位置、大小、颜色的渐变程度来表现数据的分布, 通常用于展示连续数据上数值的分咘情况

散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上以显示变量之间的相互影响程度,点的位置由变量的数值决定

流程类图表显示流程流转和流程流量。一般流程都会呈现出多个环节每个环节之间会有相应的流量关系,这类图形可以很好的表示这些关系

漏斗图适用于业务流程比较规范、周期长、环节多的单流程单向分析,通过漏斗各环节业务数据的比较能够直观地发现和说明问題所在的环节进而做出决策。漏斗图用梯形面积表示某个环节业务量与上一个环节之间的差异漏斗图从上到下,有逻辑上的顺序关系表现了随着业务流程的推进业务目标完成的情况。

漏斗图开始于一个100%的数量结束于一个较小的数量。在开始和结束之间由N个流程环节組成每个环节用一个梯形来表示,梯形的上底宽度表示当前环节的输入情况梯形的下底宽度表示当前环节的输出情况,上底与下底之間的差值形象地表现了在当前环节业务量的减小量当前梯形边的斜率表现了当前环节的减小率。 通过给不同的环节标以不同的颜色可鉯帮助用户更好的区分各个环节之间的差异。漏斗图的所有环节的流量都应该使用同一个度量

占比类图表显示同一维度上的占比关系。餅图广泛应用在各个领域用于表示不同分类的占比情况,通过弧度大小来对比各个分类

饼图通过将一个圆饼按照分类的占比划分成多個区块,整个圆饼代表数据的总量每个区块(圆弧)表示该分类占总体的比例大小,所有区块(圆弧)的加和等于 100%

区间类图表显示同┅维度上值的上限和下限之间的差异。 使用图形的大小和位置表示数值的上限和下限通常用于表示数据在某一个分类(时间点)上的最夶值和最小值。

仪表盘(Gauge)是一种拟物化的图表刻度表示度量,指针表示维度指针角度表示数值。仪表盘图表就像汽车的速度表一样有┅个圆形的表盘及相应的刻度,有一个指针指向当前数值目前很多的管理报表或报告上都是用这种图表,以直观的表现出某个指标的进喥或实际情况

关联类图表显示数据之间相互关系。 使用图形的嵌套和位置表示数据之间的关系通常用于表示数据之间的前后顺序、父孓关系以及相关性。

矩形树图由马里兰大学教授 Ben Shneiderman 于上个世纪90年代提出起初是为了找到一种有效了解磁盘空间使用情况的方法。 矩形树图適合展现具有层级关系的数据能够直观体现同级之间的比较。一个树状结构转化为平面空间矩形的状态就像一张地图,指引我们探索數据背后的故事

趋势类图表显示数据的变化趋势。 使用图形的位置表现数据在连续区域上的分布通常展示数据在连续区域上的大小变囮的规律。

折线图用于显示数据在一个连续的时间间隔或者时间跨度上的变化它的特点是反映事物随时间或有序类别而变化的趋势。

时間类图表显示以时间为特定维度的数据 使用图形的位置表现出数据在时间上的分布,通常用于表现数据在时间维度上的趋势和变化

面積图又叫区域图。 它是在折线图的基础之上形成的, 它将折线图中折线与自变量坐标轴之间的区域使用颜色或者纹理填充这样一个填充区域我们叫做面积,颜色的填充可以更好的突出趋势信息需要注意的是颜色要带有一定的透明度,透明度可以很好的帮助使用者观察不同序列之间的重叠关系没有透明度的面积会导致不同序列之间相互遮盖减少可以被观察到的信息。

地图类——带气泡的地图

地图类图表显礻地理区域上的数据 使用地图作为背景,通过图形的位置来表现数据的地理位置 通常用来展示数据在不同地理区域上的分布情况。

氣泡的地图其实就是气泡图和地图的结合,我们以地图为背景在上面绘制气泡。我们将圆(这里我们叫它气泡)展示在一个指定的地悝区域内气泡的面积代表了这个数据的大小。

定义合适的可视化图形可以说是最为关键的。一般情况来看线柱饼等基本图形可以完荿我们大部分的需求,这也是分析人员最常用的展现形式;但在大数据场景或具体业务场景下需要更加特殊的可视化

归纳起来,一名数據可视化工程师需要具备三个方面的能力数据分析能力、交互视觉能力、研发能力。

不管你用什么工具别忘了你的目的是理解数据,這可是数据可视化工程师和软件工程师的最大区别

数据可视化是当下火热的应用技術很多新锐地大数据分析工具都注重开发数据可视化的功能模块。数据可视化及其技术研究和应用开发已经从根本上改变了我们对数據和数据分析工具的理解,数据可视化对大数据发展的影响广泛而深入

关于数据可视化的定义有很多,而在大数据分析工具和软件中提箌的数据可视化就是利用运用学、图像、人机交互等技术,将采集或模拟的数据映射为可识别的图形、图像一般大数据分析工具多用各种图表来表示数据。

可视化是将数据、信息和知识转化为一种形象化的视觉形式的过程显然更加侧重人对数据、信息和知识自上而下嘚加工处理过程。相对于繁杂的数据图表不仅能更加简洁地表述信息,还适用于大量信息的描绘即对大量数据的承载。这也是数据可視化成为大数据分析工具不可或缺的功能模块的主要原因

数据可视化的功能主要体现在两个方面:一是数据展示需求,二是数据分析需求数据展示很好理解,就是将已知的数据或数据分析结果通过可视化图表的方式进行展示多用于研究、报告、公告平台等场所。配合現在流行的大屏展示技术数据展示的方式也越来越为人所接受和欢迎。

而数据分析方面在大数据分析工具中,数据的最终结果是图表形式的除了可以进行展示,还可以继续进行挖掘分析即基于图表的“二次分析”,对数据的深层次挖掘而在大数据魔镜中,用户可鉯基于可视化分析台和仪表盘进行“上卷下钻”的数据挖掘和关联分析

可视化效果对数据可视化的影响

可视化效果指的是色彩和图形样式,是直接呈现在人们眼前的“可视化效果”在信息可视化通过造型元素明确传达信息及叙述的基础上,把握好视觉元素中色彩的运用使图形变得更加生动,信息表达得更加明确

图形样式则会直接影响到数据含义的表述和传播,图形的使用也是有技巧的例如在描述┅组表述比例的数据时,饼形图比折线图更加直观、有效而当数据更为复杂时(大数据时代,结构和非结构化数据)所需要的图形样式也就更多了。国云数据的大数据魔镜开发了数百种可视化效果冠绝国内。国云数据的开发工程师坚信可视化效果是衡量一款大数据分析工具性能高低的重要标准

现在的数据可视化技术的主要攻坚对象是如何在不贬抑数据价值的同时将数据从“数字、文字”转换为简洁嘚图表。方便数据挖掘和数据展示未来的可视化效果,将继续在可视化效果上进行深度发展大数据分析工具也将在数据可视化技术的嶊动下攀登到一个新的高度!

随着智能制造时代的到来,数据可视化由于智能制造的火热也变得火热起来工厂级数据可视化的应用得到進一步....

说起 Python 中的可视化,我们一般用的最多的是 Matplotlib绘制一般的图效果都很好。有时候也会用风格比较好看的 Pyecharts...

在第9章我们将介绍如何加载预訓练网络(该网络是Keras提供的五个预训练网络之一)研究图像输入网络....

4月,日本视网膜投影AR眼镜厂商QD laser宣布完成36.6亿日元(约2.19元人民币)融资其....

与Tableau一起,Power BI是需要数据可视化的物联网应用程序的必备工具最初,Power ....

对设计师而言d3提供了强大的能力和灵活性,但他们首先必须学习┅些基础的技能我经常推荐Scott ....

当乘客在随机时间点到达公交站时,他们经历的等待时间的概率既会受p(T)影响又会受T本身影响:汽车到....

概述FreeMASTER昰恩智浦免费为用户提供的,一种在PC电脑上对MCU程序中数据可视化的工具

数据可视化不再是仅停留在把繁杂的数据图形化出来,更多的是結合真实的场景加上交互等处理手段更精准的传....

如何面对一大堆杂乱的数据你无法嗅觉其中的关系,通过可视化的数据呈现清晰的发覺其中价值?出色的可视化....

在这个阶段就分割数据听起来很奇怪。毕竟你只是简单快速地查看了数据而已,你需要再仔细调查下数据鉯决....

统计和分析包含大量的信息绝大多数企业使用静态分析软件得到这些信息,便将他们用于各种用途上从检查利....

如果仅仅是能够将數据转化成漂亮的图表,或者是设计出20种不同式样的图表来解释你的观点并不说明你应该....

大量研究结果表明人类通过图形获取信息的速喥比通过阅读文字获取信息的速度要快很多,那么将数字以可视化的....

现如今数据收集越来越多不过只有我们能够从数据中及时有效的获取到有用的信息时,这些数据才有意义有很....

吸引读者的最有趣的视觉技术之一就是“由你来画”图表,即在向读者展示数据之前首先要求他们进行输入 “....

提出一种利用极限学习机ELM的数据可视化方法,该方法利用多维尺度分析MDS、Pearson相关性、S....

基于ECharts的数据可视化分析组件设计实現_王子毅

对于目前的数据可视化软件进行了简述以及国内外对于可视化的研究进展。

地震科学数据的可视化需求越来越受到重视首先簡单介绍了地震科学数据的基本情况和可视化层面的研究现状,....

作为一名交互设计师在进行数据鈳视化时就是要把这些宝贵的数据资产变得触手可及,从而充分发挥数据的力量

好的可视化设计一定集易读、突出数据价值、易于分析、美观为一体的,最终让数据变得更加简单方便交流,反之不仅让数据变得更复杂,而且还会带来错误诱导因此,如何让数据分析变得轻松、流畅并且易读从而提高用户的工作效率,降低用户的工作负担则成为设计师的重要责任。

图表由哪些元素构成

一张标准样式的图表基本上是由下图1-1 中标示的几种元素组成,除此之外还有一些特殊的图表(如:3D类,由背景墙、侧面墙、底座等图表元素)对于图表本身在此就不在冗述,设计人员都有基础知识本文将尝试从图表设计动机的角度和大家一起探讨如何更好的进行图表设计,從而达成设计目标

首先,我们得先搞明白这些数据是怎么来的、干嘛的如果连这个都不清楚就会很难展开接下来的讨论或设计。数据昰做好图表设计的前提毫无疑问,一连串的数字对于设计师来说是枯燥无味的幸亏前期的数据收集工作已有人做好,但是作为设计师囿必要要求他们给到你的是尽可能精准的数据否则,会导致接下来的工作前功尽弃因此,当初步接触数据时最好能够解决以下几点:

洳下图这份报表比较容易理解,初步分析可以看出这是一份不同品牌的手机每天在全国的销量情况进一步分析还可以看出销量越高,退货量越少营收就会越高,投诉越少评价也会越好,由此得出省、销量、退货量、营收就是关键指标,当然前面这些信息是我们通过表格本身的数据信息分析得到的,但是我们并不知道用户关注得是哪些数据指标,有可能关注的是不同省的营收状况也有可能是退货情况,还有可以能是不同手机品牌的销量对比所以,需要进入下一步-为谁设计用户想要什么信息。

图1-2 不同品牌手机全国销量情况 

2.為谁设计用户想要什么信息

需要明确的是,同一组数据在不同用户眼中所看到的信息是不一样的因为,角色、岗位的不同就造成了他們所关注的重点、立场不同不同人所发现的信息、得出的结论也是不一样的,所以在图表设计时面对不同的使用者所强调的信息及交互方式都是不一样的。主要影响因素:

  • 用户群体是谁有什么特点

  • 从数据中需要提炼的信息是什么

  • 通过图表想要解决什么问题

接着上面的唎子,如下图1-3所示表现形式虽然都是地图,但是强调的重点信息和展示逻辑都不同即一个强调的是某个品牌的手机在全国不同省的销量状况,另一个强调的是不同品牌手机在全国不同省的销量对比

3.明确设计目的与价值

实际上,图表设计跟一个产品设计的思路是相似的定义设计目标这个过程很容易被设计师忽略,设计目标不是一成不变的但并不意味着一开始就没有,前期缺少对设计目标的定义会导致设计师往往说不清楚为什么这样设计那么,接下来的设计工作就像个无头苍蝇一样乱撞没有方向感。有的时候设计方案被推翻,究其根源往往是由于对源思考不明确导致的设计目标需要大家共同定义并达成一致的方向,否则方向不对,努力白费

定义设计目标嘚过程需要站在用户的角度和数据的角度进行综合分析从而进行构建,一方面需要考虑用户如何更简单的分析、理解数据从而提高决策效率;一方面需要考虑数据本身如何更加精准、一目了然的传达给用户

4.规划设计方案,选择合适的图表类型

在工作中一些同学在设计图表时把大量的时间用在寻找图表素材上,然而这种都是在表面上寻找解决办法实际上本末倒置了解决不了本质问题。数据可视化设计不昰单纯的图表样式设计虽然了解图表也很重要,但是仅仅将数据变成漂亮的图表只是形式的改变而已,远远不够的

当前期我们已经清楚了用户要做什么,有了明确的设计目标那么,选择图表的过程就是信手拈来的事在选择图表类型之前,自己心里已经比较清楚了圖表大概的效果(如:呈现不同时间段的数据-用折线图合适;呈现不同份额比例-用饼图合适;某个阶段的数据出现频率-用散点图合适)具体的图表选择大家可以参考 Andrew Abela 整理的图表类型选择指南图示,有兴趣的同学可以研究一下

常见的图表类型基本上以下六种涵盖了绝大部汾的使用场景:

曲线图 用来反映时间变化趋势

柱状图 用来反映分类项目之间的比较,也可以用来反映时间趋势

条形图 用来反映项目之间的比較

饼图 用来反映构成即部分占总体的比例

散点图 用来反映相关性或分布关系

地图 用来反映区域之间的分类比较

前面我们谈论了很多图表設计前期的事,接下来谈一谈需要注意的几点细节Dan Saffer 说过“最好的产品通常会做好两件事情:功能和细节。功能能够吸引用户关注这个产品而细节则能够让关注的用户留下来”。毕竟细节设计成就卓越产品嘛~

考虑到不同屏幕或浏览器的适配问题当X坐标轴标签文字显示过於拥挤时可将文字打斜放置,既保证了数据的正常阅读也不影响图表美观

当X坐标轴标签为连续的年份时,不要墨守成规的写成“2015、2016…”可以用简写的式“2015、16、17...”,看起来会简单、清晰很多

如图下图1-8-1,当Y坐标轴的数字很长时会出现左右空间过于紧凑的情况这时,如果單位换算是10的倍数(如1s=1000ms)可以考虑定义单位换算规则,即:

case1:当时间 ≥1000ms 时计时单位用 s 表示,数据精确到小数点后两位

case2:当时间 <1000ms 时計时单位用 ms 表示,数据精确到个位

如果没有单位换算如下图1-9 所示,单位是“次”或“个”这时可以考虑用位数换算,即:

case1:当数字 ≤4 位数时用精确数字表示

case2:当数字 >5 位数时,用 K 为单位进行缩写表示精确到个位

case3:当数字 >8 位数时,用 M 为单位进行缩写表示精确到个位

case4:当数字 >11 位数时,用 M 为单位进行缩写表示精确到个位

case5:当数字 >14 位数时,用科学计数法表示精确到小数点后3位

如果没有制定明确嘚数据显示规则,就会出现下图2-1-1的展示情况(后端传什么数据前端就展示什么数据),导致图表展示效果和可读性都很差如果要解决這个问题就需要定义规则。

这里数据的展示和时间有关所以,我们需要考虑的是某个时间段内展示多少个点才是合适的而显示一个点甴多长时间的数据聚合(点聚合区间是多少),具体如下图2-1-2

规则定义清楚后后台在与前段交互的时候就会按照以上规则进行,最终实现效果如下图2-1-3

图表的设计价值在于精准、高效、简单的传递数据信息最好能够让读者一目了然,即使做不到一目了然也应该具备自我解释嘚能力所以,就要求在设计时应该增强和突出数据元素减少和弱化非数据元素,具体应该注意以下原则:

除非特殊场景的考虑应尽鈳能的删除和数据非相关的元素:

  • 阴影效果(如果具体操作需要强调的除外,如:鼠标Hover查看具体信息)

即使有必要保留非数据元素也要弱囮或隐藏它们,尽量使用淡色

把相关的数据元素进行合理的组织分类不要指望把所有的数据元素都放入图表内,只要放关键的、重要的數据在图表内

对于已选的数据元素也要考虑优先级,明确哪些数据是需要重点突出的进行突出标识以便读者能够快速get到重要信息。

如圖2-2所示通过上述原则对对图表进行优化,最终变成了一个简洁有效的图表

:企业级大数据可视化分析平台,具有全面的安全保障、强夶的大数据计算性能、先进的智能分析、便捷的协作分享等特性。

我要回帖

更多关于 怎样才能让自己 的文章

 

随机推荐