一、数据可视化
就大数据而言,其本身是一座矿藏。如稀土矿,表面上看仅仅是一堆土或岩石,很难看出数据的价值。因此,大数据的可视化包含两方面内容:数据的挖掘和数据的有效呈现。
从总体数据可视化而言,应注意以下两点:从用户出发、从客观科学出发。
从用户出发,则需使数据变得形象易懂,使其在阅读时感受到舒适、颜色配比合适,在可视化呈现中,迅速获取重点内容,最后一个也是最重要的,即为用户呈现的内容是真实可靠的。
二、理论与应用研究
为做到以上几点,便需要在数据分析时要有科学性。
如何做到科学性?模型设计、数据筛选、数据分析和数据挖掘几方面下功夫。因此,基于这几点,开始的项目有若干个,其中有国家级层面的,也有企业应用需求的。在做项目的过程中做了总结工作:
1.模型调研工作。将国内外所有的可视化研究进展成果进行调研,如Google、百度的可视化,调研其可视化会用到的工具。
2.可视化模型调研。包括对美国国家统计局、人口局、世界银行、英法德等先进国家的具有政府大数据的可视化呈现模型的调研,另外,还对典型的可视化用到的统计分析模型进行了调研,以及对数据模型、挖掘模型的调研,这方面形成了八个调研报告。
基于以上的工作基础做了一些工程项目,将工程项目中的政府或大型企业所具有的信息数据以数据图、模型库的形式装入到自己开发的图库工具之中,完成大数据可视化的呈现体系。简单的数据呈现用Excel也可以实现,利用一些简单的饼图、柱状图、折线图的分析。但对于真正的大数据而言,由于数据的属性、维度很多,如空间属性、时间属性、地理属性等,以及一些行业的分类属性要求,简单的饼图、折线图很难满足大数据的可视化要求。
三、数据分析模型
(一)数据的基本呈现
数据分析的模型有很多种,首先,如果要准确的掌握我们所了解的数据及数据模型和数据分析间的对应。数据模型不正确,得到的数据可信度便会丧失。有了数据模型后,需将数据进行图形化的展示,具体应做以下几方面的工作:第一要关联数据,将模型和数据做好关联;第二是对数据进行层级分类,分析数据具体属于哪个层次、维度;第三是对数据维度的处理,目前看到的数据大部分是二维数据,对于二维数据的呈现是横、竖两个坐标,用折线图、柱状图便可以表示。二维数据的呈现形式是较为单调的,所表达的寓意不够丰富,很难将多个指标间的内在关系进行表达。因此,如何对数据进行维度的表示也很重要。做好这些工作后,便可以分析数据坐标的生成。
1.数据表述关系
首先以二维数据为例,分析关联数据如何表达表述关系。在做表述时,可以利用流图、网络图或表格图的形式将数据间的关系关联起来。
接着可以做一些数据对比图,用作数据的对比分析和呈现。例如柱状图的应用,也可将柱状图画在两侧进行对比。数据类型的对比图还可以利用饼图的变异——南丁格尔图,对比图也可以通过柱状图的高矮、饼图的面积大小及柱状图的占比面积,对图形数据大小和占比进行一目了然的对比,这些用传统的Excel方式实现起来是比较困难的,但这些并不是对图的最复杂的表示,仅仅是两个维度或三个维度的表达。
2.数据层级关系。
在进行数据表达时,尤其是一些复杂的数据,需先对数据进行分层和分类,判断其属于哪个层级,如低层级的需用低层级的表达方式进行分类。进行层级分类表达时,也运用了很多分类的技术,而不是简单的通过。这些也需有合适的算法保证对数据进行分层分类。
3.数据信息表达。
数据信息的表达与具体的数据属性及数据算法相关联,这是一种柱状图的表示,来表达各个不同数据在表格中占据的位置,还可以观察面积图,如在家庭消费中哪些占比较大,可用面积图来表示,可能会比之前用到的柱状图会在效果上得到更好的展示。还可以用动态的散点图来表达,随着时间的推移或横坐标的占比,可以看到不同的内容消费在不同地区的占比。曾经最著名的一个案例:一位专家用三点或气泡图的动态化,形象地表达了中国人均寿命的增长趋势。
(二)数据和属性的结合
很多数据都是具有属性的,如地理属性、时间属性、空间属性等。
以地理属性为例,许多图如某个地区的工业聚集度、人口密度、环境污染度、人口迁移等均与地理有关,我们可以在GIS地图上利用色彩的明亮或高亮等形式将数据的大小分布在地图上。因此,在进行数据展示时,往往也可以利用GIS形式作为数据的入口,如文化产业法人单位的统计,中东部较多,西部、北部较少等。
对图形的表述内容很多,可以将数据分为点图、线图、面图,再进行分类表达。
四、北邮Chart系统
为使数据可视化更好的表达,北邮也做了一套自己的系统——北邮chart,更方便地表达数据可视化。在这套系统中,做了以下几方面的内容:
1.数据地图。做到“一图知天下”,将与数据相关的地理信息加在地图上。
2.制图工具。图形分为31各大类、100多张,在图中对20多种参数进行优化。
3.数据分析工具。数据管理、科学管理、大数据研究来使用。
4.专业应用。定制个性化专业图,用于更好的表述。因为数据属性不同,不能只用简单的柱状图、折线图、饼图表示所有的图形。
5.用户作品。运用北邮chart系统,用户可以自己生成保存研究成果。
如上图,不仅有时间维度、地理信息、法人单位数等分析,都在一张图上表示出来,也是一张动态图。因此,对数据可视化的展示,除传统的简单图形外还有很多复杂的表示,大数据可视化的表示不应是简单的静态表示,而是利用静态与动态相叠加的表达方法来呈现。