原标题:数据科学和商业智能专业人员中级tableau指南
作者:帕芙琳考尔
翻译:李海明
校对:顾
本文约5000字。建议读8分钟。
通过这篇文章,我们将教你使用Tabelau软件,不需要编程就可以做简单的数据分析。
介绍
“图片最大的价值在于,它们能驱使我们发现以前从未意识到的东西。”——约翰w图基
我们假设你手里有一些数据,但是不擅长编程,但是希望从中收集整理出一些自己的看法。这时候你可能会不知所措,不知道从何下手。
我给你讲讲——。在Tableau的帮助下,你可以让数据中的信息像下面的图表一样清晰,完全不需要编程就可以轻松操作。来看看画面的魔力吧!
本文主要针对熟悉Tableau软件,能用它画出一些基本图表,希望通过学习开阔眼界的人。
对于那些从未欣赏过Tableau的美丽和简单的初学者,请快速阅读Tableau的介绍(https://www . analyticsvidhya . com/blog/2017/07/data-visualization-made-easy/),并在返回本文之前尝试一些简单的可视化练习。
本文将讨论一些可以帮助我们用Tableau绘制动态图形的核心函数。现在,让我们赶快开始吧!
目录
1.多源数据处理
数据连接
数据融合
2.数据的条件组合
聚集
3.数据计算和粒度选择
4.参数控制
5.结束语
多源数据处理
数据连接
将所有数据存储在一个表中是不现实的。为了避免更新引起的数据异常,数据总是存储在多个关系表中。为了便于理解,这里举一个简单的例子。
有一家超市想扩大业务,发现退货单每天都在增加。为了分析产品被退回的原因,找到正确的应对方法,他们绘制了如下图表;
从上表可以看出,退货最多的产品是粘合剂。从条形图的颜色来看,机器产品和餐桌产品的退货率(退货/购买)最高。
上图看似和上图没什么区别,实际上是结合——订单表和退货表两个表的数据建立的。这就是通常所说的连接。
为了便于理解这种联系,我们再举一个例子:
点击此处下载该样本超市的销售数据。(https://github . com/pavleenkaur/TableauTutorial-SuperstoreData/blob/master/Sample-superstore . xls)
打开Tableau并输入数据:
数据集由三个表组成:订单表、人员表和退货表。这里我们首先关注订单和退货单。
将订单拖到空白处,并使用数据解释器清除错误数据。
拖动返回到相同的区域,您将得到下图:
连接两个表后,至少可以获得一个交集区域,Tableau会根据它们共同的列顺序ID自动连接两个表。通过内部连接,只保留两个表中具有相同订单ID的数据行。
您还可以在Tableau中更改连接方法和连接字段,并且您需要确保对连接的修改是可行的。
更改连接方法(从内部连接到右侧连接):
更改连接字段:(连接字段)
您看到我是如何将订单的行ID与退货中的订单ID联系起来的了吗?但是因为这两个数据不兼容,我们看不到任何记录,圆圈附近的红色标记提醒我们有问题。
现在让我们回到图表:
将订单表(订单)中的子类别拖到行中,并将退货表(退货)中的退货总数拖到列中。)
将行ID拖到标记窗口,并将其统计方法从计数转换为总和。现在拖到图表上:
最后,单击“演示”并选择BulletGraph以获得所需的图形。
我们这里用的是内接,你也可以根据需要选择内、左、右、外任意一种连接方式。
数据融合
数据融合和数据连接很像,但又不一样。用于连接的数据需要来自同一个数据源。从上面的例子可以看出,我们使用的数据都是来自同一个Excel格式的文件。但是数据融合允许我们使用来自不同数据源的数据。再来看一个例子。
该超市还涉足咖啡和饮料行业,其品牌咖啡连锁店与各州的超市同步经营。但是看到下面的业绩图表后,管理层开始考虑关闭一些咖啡分店。
我们可以看到有些咖啡分店和超市一样业绩突出,比如加州。
我们可以看到,有些咖啡分店和超市一样有着出色的表现,比如加州加州。
和纽约纽约分行。同时也有一些咖啡分店业绩不佳,比如爱荷华,爱荷华。
新墨西哥州的新墨西哥分行。与数据连接类似,上图中两个不同行业的数据集来源于不同的数据源——,一个来自Excel,另一个来自TDE数据库。
让我们画一个图表来更好地理解数据融合的概念。我们从超市和咖啡连锁店的数据开始。超级商店(https://github.com/pavlenkaur/tableau教程-超级商店数据/blob/master/sample-superstore . xls)数据;
以及咖啡连锁样本的数据库(https://github.com/pavlenkaur/tableau教程-superstore data/blob/master/sample-coffee chain . TDE);
也可以在这里找到相关数据:(https://github.com/Pavleenkaur/Tableau教程-on-AnalyticsVidhya/blob/master/sample-coee chain . xlsx)。
首先导入超市数据样本Sample-superstore . xls;
然后进入工作表,点击数据-新建数据源,下载CoffeeChain的TDE文件,一起导入数据集:
选择超市数据库下的States表,将其拖到行中,并将sales表Sales拖到列中。
选择CoffeeChain下的Sales表,并将其拖到列中,得到下图:
你一定注意到了一些小问题。让我们逐一解决它们:
在屏幕的左上角,超市数据库上有一个蓝色的标记——,表示该数据库是主要的数据源。
CoffeeChain数据上有一个橙色标记3354,表示这个库是二级数据源。
CoffeeChain数据库中有一个橙色链链接到状态表3354,即数据融合区3354,这意味着这个区域是两个数据集共有的。
图表中的“29null”表示该表中有29个null值,因为CoffeeChain数据集中的州数据量没有Superstore数据集中的大。
我们交换第三步和第四步,以便可以纠正这些空值:
选择超市CoffeeChain中的States表,将其拖到行中,并将sales表Sales拖到列中。可以:
选择超级商店下的销售表Sales,并将其拖动到列中,以获得:
将标记部分中每个图形对应的图表改为面积图;在标记板的区域中,您可以相应地修改每个图标。
右键单击第二个图形,选择双轴,将两个图形合并为一个图形;
最后,我们改变了配色方案,就这样,我们完成了一次数据融合!
数据的调整和组合
现在,无论您的数据是融合的还是连接的,都已经准备好了。让我们一起来做一些有趣的仪表盘吧。我们在这里只使用超市数据:订单退货(左连接)
聚合
现在我们以调查分析为例快速设计一下。在食物消费调查中,你可以在食物偏好部分用“LF”代替“低脂”或“reg”代替“normal”。
在这种情况下,可视化过程中会出现这样的问题:
如您所见,因为使用了不同的名称,
可以看到,由于使用了不同的名称,这种可视化的效果并不理想。因此,可行的解决方案是将LF和低脂合并到同一组中,将reg和Regular合并到另一组中:
以下仪表板将更有助于我们理解:
以上是分类及其子分类的回归分析。但是柱状图中我们看不到具体的数据,其中复印机的退货率最高,其次是家具:
到目前为止,销售团队似乎做得不错。但实际上,回报数量增长很快,好在回报增速放缓。
通过饼状图,可以直观的看到各个品类的回报。例如,技术产品目录的退货数量最多。
其他的分析就交给你了,比如退货在各州的分布。一旦学会制作上面的图表,就可以轻松实现数据分析。现在我们开始学习:
我们将从下图开始。请注意,此图是订单和退货表之间的左连接(left join ):
在另一个表中,制作如下图表:
查看返回表下返回的维度?我们将使用维度来构建组,右键单击该维度:
转到“创建-组”。我们将创建不同的产品组,以区分退回的产品和尚未退回的产品。单击“空组”并更改名称:
相同的操作创建“Yes”维度,最终分组如下:
点击“应用-确定”,那么你可以在维度下看到一个名为“ReturnedOrNot”的组。
将新维度拖动到“标记”窗格中的颜色上,如下图所示:
这一步会自动分离每个子目录(子类别)中的销售情况,这取决于订单中返回表的值是Null还是Yes。
剩下的步骤更加模块化,让我们开始吧:
将Sales拖到“标记”窗格中的标签上;
右键单击销售药丸-快速表格计算-占总数的百分比。
再次右键单击sales pill-compute using-table(交叉)
另外,在某些版本中,Null/Yes经常作为In/Out的别名出现。你可以根据你的需要来改变它。右键单击“标记”窗格中的入/出蓝色药丸,然后选择“编辑替身”。
现在,让我们跳回已经制作好的饼图,对ReturnedOrNot组做同样的操作。首先,我们创建表格的两个副本,并选择其中一个:
将该组拖到图表中,如下所示:
右键单击返回以获取:
选择“仅保留”,这样您只能看到返回的图形。你会看到回报的全部损失。剩下的标着销售价值。
现在选择另一个副本,重复前两步。与以前不同,我们保留返回的图表,这里我们保留未返回的图表。这将向您显示剩余/保留订单剩余/保留订单。
然后制作一个图表:
将订单日期拖放到列中,将销售额拖放到行中,您将得到这样一个图表。
在图形的顶部,拖放ReturnedOrNot维,但与之前一样,排除未返回的行,右键单击并选择排除排除。
我们现在需要做的是将上述工作表整合到一个仪表板中。为什么不试着做一个州际回报分布图?
聚集
你公司在对收益进行分析后发现,收益的增加并没有那么令人担忧,不应该以此作为不拓展业务的理由。
然而,超市目前只计划在销售额和利润超过配额的州扩大业务。比如销售金额超过4万,利润超过10000:
因此,上图所示的集合与组非常相似。在集合中,数据包可以满足特定的设置条件。另一种解释是,分组可以帮助您实现更高级别的层次结构,正如我们在前面的示例中看到的那样,而聚合可以帮助您实现更低的粒度。
让我们通过创建上面的仪表板来更好地理解集合的含义:
让我们从一张简单的地图开始。我们将把销售额和利润加到这张图上。右键单击状态并选择创建-设置。
在字段中填写设置信息:
再次右键点击状态表,输入这次设定的利润额。
现在,我们将连接这两个集合,以获得所需的配置。右键单击SalesAbove40k组-创建合并集创建组合集
按照下图填写:
在这一步中,将销售和利润这两个条件连接起来(条件相关),以获得必要的组合计算。结果如下:
将此新地图集拖放到地图图表的顶部,将其从符号地图转换为填充地图。
可以随意自定义上面的图表,比如改变颜色,添加标签等等。
图形的制作和我们做的收益趋势图一样简单。正如我们之前排除未返回组一样,这里我们排除了属于未扩展业务组的那些州。
计算字段
超市的数据收集相当全面。它提供了大量的信息和字段集。但是像所有的数据一样,我们总是有机会从中提取更多的特征。计算字段可以帮助你得到这些特性,同时也可以对数据进行简单和复杂的计算。
什么是计算字段?
简单来说就是一个可以用来计算数据的公式。不同的方法就像不同的变量。
如何创建计算字段?
进入分析分析界面,点击创建计算字段,弹出如下图框图:
在这里你可以写自己的公式。如你所见,Tableau提供了多种语法,不会让你失望。可以使用“If-Else”条件,“’ Case ‘”条件(我们下面会看到),当然还有一些常用的数学公式。现在就让我们来了解一下。
从哪里开始?先说简单的,比如订单相关的平均销售额。最合适的公式是总销售额/总订单数。如果将此公式转换为Tableau术语,则总销售额为销售总额,订单总数为COUNT。
接下来,我们来看看这个应用程序:
在“计算”框中,进行以下更改:
要获得累计销售收入(计算字段),请将维度中的MeasureNames拖放到空白处,以获得上面的计算结果:
在这里,您对计算字段所做的是创建自己的方法来衡量指标。你可以像销售和利润一样使用这个方法。
显然,这只是关于计算字段的一般情况。它们还可以用于越来越复杂的计算,我们可以在下一章看到更复杂的应用。
参数控制
在Tableau中,下面显示的过滤器是与可视化交互的好方法:
作为一种方法,过滤器可以让你从不同的角度看数据,参数也是一种很好的方法。它可以用来替换过滤器,也可以显示自己的动态属性。
那么什么是参数呢?作为参数方程的一个变量,我们可以改变它,这样方程每次都会得到不同的结果。
我们试着用一个例子来理解参数的概念。到目前为止,我们对一些不相关的值做了一些不相关的图表。每当我们要做不同的图表来分析不同产品的销售额、利润、数量或折扣时,除了数值不同,其他内容基本相似。
借助于参数控制,我们可以用非常简单的方式实现上述工作,从而避免重复劳动。
以销售为例:
接下来是利润:
只要点击MeasureValue列表,就可以得到不同维度的累计结果。这里,MeasureValue是我们的参数,我们可以更改它的值。
现在我们自己做一个参数控制。事实上,参数非常依赖于计算字段,因此这将是检验您之前所学内容的好机会:
这次我们将从一个空白屏幕开始。
单击标注附近的向下箭头,并选择“创建参数:”。
现在我们要交换销售额、利润、数量和折扣的值。填写下面的字段,然后单击确定。
右键单击新创建的参数,并选择显示参数控制:
不要指望下拉菜单能神奇地让程序创建自己的图表。这里我们需要完成一些计算。
目前我们只是对这些参数进行命名,并没有实际值。为此,我们将创建一个计算字段。
转到分析-创建计算字段分析-创建计算字段,并在创建的字段中填写以下不言自明的详细信息。
您可以在数值中找到新创建的字段,因此首先将Order Date拖放到列中,将数值名称NameOfMeasure拖放到行中。
现在您可以尝试更改值了!
我们已经在仪表板上创建了一个图表。要查看每个类别的曲线,只需将维度拖到图表的顶部:
创建其他图表也是如此。但是,不要将不同的数字名称nameofeease拖动到行和列中,而是拖动nameofeease参数。
结束语
本文到此结束。不过不用担心,我以后会发表其他关于Tableau的文章。
像往常一样,我会给你一个仪表盘让你做:
一开始总是有点困难,但如果你足够努力,你就能解决它。当然,如果你还有其他问题或者希望我的下一篇文章提到某些方面,请留言。
祝福你们,数据开发者!
原文链接:3359 www . analyticsvidhya . com/blog/2018/01/tableau-for-intermediate-data-science/