事实上,您可以使用“应用步骤”删除您在此处采取的任何步骤,而不仅仅是最近的步骤,这非常方便。不幸的是,在查询编辑器中删除步骤后,也没有撤消操作,因此您无法恢复已删除的内容。
选择“转换”功能区上的“计数行”菜单选项以查看行数;如果您使用从计算机世界,你会看到有超过两百万行——比你能拉入 Excel 及其行数限制为 1,048,576. 删除 Count Rows 步骤以返回完整数据。
目前,夏季航班延误表中有 50 多个列。为了便于管理,请选择您可能想要在某些数据可视化中使用的几个列:MONTH、FL_DATE、Airline、FL_NUM、ORIGIN、ORIGIN_CITY_NAME、DEST、DEST_CITY_NAME、CRS_DEP_TIME、DEP_DELAY、ARR_DELAY、CANCELLED、CARRIER_DELAY、WEATHER_DELAY、NAS_DELAY、SECURITY_DELAY、LATE_AIRCRAFT_DELAY。
单击主页功能区上的选择列按钮,取消选择选择所有列,然后选中要保留的列旁边的框并单击确定。
如果您稍后决定要重新添加任何列,您可以通过单击“编辑查询”返回到查询编辑器,然后单击“应用步骤”列中“已删除的其他列”旁边的设置齿轮。这样对话框就会重新显示您之前的选择,您可以向项目添加更多列。
最后,确保将那些作为数字没有意义的列更改为文本。例如,除非您希望 Power BI 计算航班号的总和(而您不想),否则请将其转换为文本。否则,尝试使用这些字段作为类别来制作图表将行不通,最终会浪费大量时间(不要问我怎么知道的)。您可以通过右键单击列标题并选择更改类型 > 文本将 FL_NUM 和 MONTH 转换为文本。另一个调整:CANCELLED 列显示 0 表示 false,1 表示 true — 如果您愿意,您可以将该类型更改为 True/False。
有趣的来了。
轻松可视化
使用“关闭并应用”关闭查询编辑器以返回主 Power BI 应用程序。(由于这些文件太大,这可能需要一点时间。)此时,您可能还需要执行“文件”>“保存”以将您的工作保存为 Power BI 项目,这样如果发生某些事情,您就不需要重新创建您的步骤。
您的 Power BI 空白画布应如下所示:
Power BI 空白画布。
最好删除我们合并到 2015_SUMMER_ONTIME 中的所有其他查询文件,因为我们不会再使用它们。如果您转到右侧的“字段”面板并尝试右键单击并选择“删除”,您将收到一条警告,提示您无法删除这些查询,因为它们被另一个查询引用。但是,您可以右键单击,然后隐藏让他们离开。
对除 2015_SUMMER_ONTIME 之外的所有查询执行此操作。现在只剩下一个查询表,2015_SUMMER_ONTIME 表将自动展开以显示其列名。(当菜单中有多个查询时,默认情况下不会显示列名;单击其中一个查询旁边的三角形以将其展开;右键单击并选择“全部展开”以查看所有查询的字段。)
想要绘制出发延误的图表?单击 DEP_DELAY 旁边的复选框。您将获得一个条形图,其中一条条形总结了数据中的所有延误时间。(如果您未指定,Power BI 会尝试猜测哪种可视化最适合您的数据。)单击航空公司,图表将变为每家航空公司航班延误总数的条形图。
不过,航空公司延误总和并不是那么有用;航空公司的航班越多,延误的时间就越长。但是,如果您在“可视化”面板下查看并在“值”下找到 DEP_DELAY,您可以单击三角形下拉菜单并将 DEP_DELAY 分钟数的总和更改为平均值(或中位数,如果您愿意的话)。
单击“值”字段旁边的三角形将显示可视化选项,例如将“总和”更改为“平均值”。
(如果图形太小,只需单击并拖动框的一个角即可调整其大小。)
该图表目前按航空公司的字母顺序排列。如果您希望按从高到低的顺序排列,请点击右上角的省略号,然后选择“排序依据”>“DEP_DELAY 的平均值”。
单击图表右上角的省略号即可调出排序选项。
到达延迟也很有趣。将 ARR_DELAY 拖到面板的“值”区域,并将其从“总和”更改为“平均值”。再次单击右上角的省略号,按 ARR_DELAY 降序排序(如果默认为升序,只需再次单击)。现在您应该有一个如下所示的图表:
显示出发和到达延误的图表。
(您可以通过单击图表边框右上角省略号旁边的“焦点模式”图标来查看占据整个画布的图表版本。)
默认标题有点蹩脚。您可以通过单击“可视化”选项下方的画笔图标来更改标题和许多设计默认值。要编辑特定图表,请确保单击它以使其处于活动状态(边界框可见)。单击“标题”,您将看到更改标题文本、字体颜色、大小、对齐方式等的选项。
还有一些选项可以向条形图添加数据标签、更改 X 轴和 Y 轴等等。
例如,您可以将标题更改为 2015 年 6 月至 9 月平均出发和到达延误(分钟),增加文本大小并居中对齐。如果您想重命名字段,您可以在“字段”面板上执行此操作 - 右键单击字段并选择重命名。尝试将 DEP_DELAY 更改为 Dep Delay,将 ARR_DELAY 更改为 Arr Delay。
好吧,看起来精神航空去年夏天确实不是最佳选择——但也许这家航空公司在某些机场有严重延误,但在其他机场没有?我们可以修改可视化效果,只包括几个机场。
有几种方法可以缩小数据子集的范围。过滤器可以应用于一个图表、整个页面或多页报告中的所有页面。您可以在编辑报告时更改过滤器;但如果您随后将您的工作作为 Power BI 仪表板共享,只读用户将只能看到您过滤的内容,并且无法重新添加数据。
另一种选择是添加交互式切片器。使用切片器,如果您稍后与其他人共享您的工作,他们可以交互式地过滤数据并将其添加回来。
我们两种都试一下吧。
[继续]
过滤数据
当我在 3 月份开始使用 Power BI 时,一个主要缺点是无法在报告、表格或切片器中添加文本搜索框。如果你正在分析包含很多不同类别的信息(例如美国航班数据),那么为了找到圣路易斯,你必须滚动浏览列表中的数百个城市,这非常烦人。
自 6 月 30 日 Power BI Desktop 软件更新以来,您可以在报告中添加可文本搜索的切片器,从而更轻松地在数百(或数千)个项目中找到一个项目。稍后会详细介绍。但也有可能您知道列表中的数百个项目中只有几个感兴趣的项目,并且您想仅使用部分数据创建报告。
一种方法是将报告过滤为几个关键类别 - 在这种情况下,可能仅显示一些已知感兴趣的城市,例如贵公司设有办事处的城市。
为此,请单击画布上的空白区域,然后将 DEST_CITY_NAME 拖到报告级别过滤器上(您会看到“将数据字段拖到此处”区域)。选择几个城市。如果您跟着我,我选择了亚特兰大、波士顿、芝加哥、克利夫兰、拉斯维加斯、洛杉矶、新奥尔良、纽约、费城、旧金山、圣何塞、西雅图和华盛顿特区
点击过滤器上的 DEST_CITY_NAME 标题将其关闭。然后对 ORIGIN_CITY_NAME 执行相同操作 — 将其拖到 DEST_CITY_NAME 过滤器顶部并选择所需的城市 — 这样您就只获得主要城市之间的航班信息。
此时,报告本身可能值得注意,数据现在仅针对少数城市。您可以通过单击主页功能区上的“文本框”按钮将文本添加到页面。在画布上按您想要的方式移动和塑造它,然后写一些文字来解释报告涵盖哪些城市。
现在,我们可以通过添加几个切片器让用户轻松选择出发地和目的地城市。单击画布的空白区域,然后单击切片器可视化图标(它看起来像“可视化”下表格图标上的小过滤器/漏斗 - 在 2016 年 5 月版 Power BI 中,它是“可视化”下倒数第三个图标)。选中 ORIGIN_CITY_NAME。现在再次单击画布的空白区域,再次单击切片器图标,然后单击 DEST_CITY_NAME。根据需要调整切片器的大小并在画布上移动切片器。
如果切片器中仍有足够多的城市,值得添加搜索框,请点击切片器右上角的省略号并选择“搜索”。这将为切片器添加一个文本搜索框。

向切片器添加搜索框。
如果文本太小,难以阅读,请点击每个切片器,然后点击画笔图标并在项目下选择新的文本大小。与图表一样,您可以更改标题并点击字段以重命名它们(例如,从 ORIGIN_CITY_NAME 更改为 Origin City,从 DEST_CITY_NAME 更改为 Desintation City),并增加标题字体大小。
您现在可能已经看到了首先过滤数据的好处:如果没有该页面级过滤器,每个切片器上将有超过 300 个城市需要滚动浏览。
最后,查看实际航班(而不仅仅是航空公司)可能会很有趣。将航空公司拖到画布上的空白处,然后添加 FL_NUM。您将得到一张表格。添加 Dep Delay 和 Arr Delay,然后再次确保将两者从“总和”更改为“平均值”(在“值”下)。将 FL_NUM 重命名为 Flight。您可以通过单击 CRS_DEP_TIME 并将其添加到表格中来添加预定的出发时间。
现在,当您在切片器中单击出发地和目的地城市时,您将看到所有可用航班及其平均到达和离开延误时间。如果您单击图表中的一家航空公司的条形图,表格将仅显示该航空公司的航班。
(注意:虽然不太容易找到,但您可以自定义页面上的图形之间的交互方式。单击一个图形将其激活;然后在“格式”功能区上,选择“编辑交互”。页面上的其他图形都会有一些附加图标:一个过滤器和一个带有斜线的圆圈。单击过滤器意味着图形将根据活动图形中发生的情况而改变;单击带有斜线的圆圈表示图形不会改变。)
人们也很容易采取同样的图表,决定看中位数而不是平均数,因为一些不幸的非常航班晚点可能会对总体平均水平产生巨大影响。与 Excel 一样,您可以通过单击带有页面名称的选项卡旁边的加号将页面添加到 Power BI 报告中(默认为第 1 页)。
更方便的是,我们已经设置好了切片器和图表:右键单击页面并复制它。现在单击图表非常容易;在“值”部分下,单击“出发延误的平均值”和“到达延误的平均值”,然后将每个更改为“中位数”。如果您继续操作,您还需要将图表的标题和包含航班数据的表格从“平均值”更改为“中位数”。
除了 Spirit 航空,所有航空公司在所有这些城市的到达延误时间中位数均为 0 或以下。当我只看抵达波士顿的航班时,Spirit 航空的延误情况看起来更加明显——尽管公平地说,他们可能只是在 2015 年夏天经历了一个糟糕的时期,之后情况有所改善。
显示抵达波士顿的航班的图表。
交互式深入分析
想知道平均延迟如何按月细分?Power BI 具有按日期字段自动深入分析的功能,我们可以通过在新页面上创建新的可视化效果来查看。
再次右键单击第 1 页并复制它,单击图表以激活它,然后取消单击 Airlines 并单击 FL_DATE。您将只会在图表上看到两个条形图,一个用于到达,一个用于离开。
这是因为 Power BI 默认按年份绘制图表,而我们只有一年的数据。在“轴”下,您可以单击“年份”旁边的 x 将其删除,这样图表将停止按年汇总(这对于这些数据来说有点没用)。现在默认为“季度”。对于这个特定的四个月数据集,这也没什么用,但我们假设它有用。
要启用 Power BI 的日期向下钻取功能,请单击图表右上角的向下箭头。现在,如果您单击第三季度的其中一个条形图,它将向下钻取以显示月份。单击某个月的条形图,它将放大该月的天数。
要返回更大的时间组,请点击图表左上角的向上箭头。请注意,在向上和向下钻取时,您将不再影响页面上的其他视觉效果,因此表格上的数据不会发生变化。
日期字段的日期向下钻取是自动的,但您可以为任何层次结构设置向下钻取。在第一页上激活图表,然后将 FL_NUM 拖到轴字段上,确保它最终位于航空公司下方。除了出现向下钻取图标外,图表上似乎没有任何变化。
点击右上角的向下箭头以激活向下钻取,点击航空公司的栏目,您将看到该航空公司各个航班的所有数据。同样,由于向下钻取处于活动状态,因此您不会看到表格上的任何变化。如果您想在此过程中手动过滤特定航空公司的表格,您可以临时添加航空公司作为页面级过滤器或为航空公司添加第三个切片器。
单击左上角的向上箭头返回原始图形,再次单击向下箭头以停用向下钻取功能(如果仍处于选中状态),图形将像以前一样工作。
如果想要更改此页面图表的标题,请再次激活图表,单击“可视化”面板上的画笔图标,然后单击“标题”。
最后一步,您可能希望将页面选项卡的名称从“第 1 页”和“第 1 页的副本”重命名为更有意义的名称。目前,此操作与 Excel 中的操作方式不同 — 您需要双击选项卡名称,而不是右键单击选项卡。
您可以在 Power BI 中生成更多可视化效果。除了“可视化”面板中的所有图标(包括树形图和实际地理地图)外,还有其他图形可从自定义视觉效果图库。如果您找到喜欢的图表,请从图库中下载,然后使用“可视化”面板中最后一个图标旁边的省略号将其导入。您必须将其单独导入到要使用它的任何报告中。(您可以找到 Microsoft Research 创建的较新自定义可视化图表之一的示例这里。
还有许多其他方法可以可视化这些数据,例如查看延迟原因的列,但现在我将继续。
[继续]
分享你的工作
完成一些探索性可视化后,您可能希望与同事分享一些分析。为此,您首先需要发布数据并向 Power BI 云服务报告。保存您的工作,然后转到主页 > 发布。如果您当前尚未登录,则需要登录 Power BI 帐户(如果您还没有帐户,则需要创建一个)。
将数据发布到 Power BI 云服务后,您将有机会从数据中“获取快速见解”。这是 Microsoft 自动查看各种数据点的功能,以便突出显示异常值和相关性等内容。不幸的是,Quick Insights 不知道它不应该将所有延迟时间加在一起——它需要对它们取平均值才有意义。(我认为默认设置对于销售和利润等数据文件会更好用,因为按地区或商店随时间推移求和可能会更有意义。)
我尝试了 Quick Insights,方法是复制我的项目(我将项目另存为另一个名称),然后按目的地城市、航空公司和航班对数据进行分组。(如果您想继续操作,请转到“编辑查询”>“转换”>“分组依据”,然后按照对话框创建一个新的平均到达延误列,选择“关闭并应用”,重新进行可视化,然后发布)。
Quick Insights 试图找出您数据中有趣的方面。不过,为了使此功能正常工作,您的数据需要采用它能够理解的格式。
要获取 Power BI 云服务中数据集的快速洞察,请单击左侧菜单中其名称旁边的省略号(如果未显示菜单,请单击左上角的三行菜单图标以显示菜单),然后选择“快速洞察”。 (找不到快速洞察?请确保在“数据集”下而不是“报告”下执行此操作。)
查看 Quick Insights 后,转到 Power BI 云主页面,如果需要,请登录,单击左上角的三条水平线图标以查看菜单(如有必要),您应该会看到所有数据集、报告和仪表板。如果您在发布到服务之前已经在桌面软件中创建了可视化报告页面,它们将显示在“报告”下(您的数据不出所料地显示在“数据集”下)。
您可以直接在网络上共享报告以供公众查看,然后还可以将其嵌入到您自己的网站上:转到文件 > 发布到网络。请注意,虽然此功能在测试版中是免费的,但自从 7 月初退出预览版以来,我还没有看到微软保证它会一直免费。
如果这是您只想与少数人分享的私人数据,则需要将您的工作作为仪表板分享。如果您想将整个报告页面作为仪表板分享,请单击页面上方的图钉图标,然后选择将其添加到新仪表板。您还可以将来自不同页面(甚至不同数据集)的可视化效果混合搭配到仪表板上,方法是单击单个可视化效果,然后单击该可视化效果右上角的图钉图标并将其固定到现有或新的仪表板。然后,您可以单击右上角的共享图标,并通过输入他们的电子邮件地址与他人共享。
该对话框非常直观,可让您决定收件人是否可以重新共享或仅查看。 (截至本文撰写时,某些数据集可以使用行级安全性,仅允许某些用户查看数据集中的更敏感信息,但某些功能处于预览阶段,可能会发生变化。)
您可以从仪表板本身将 Web 内容、图像、文本框和视频嵌入到仪表板中;您还可以在报告中创建其他可视化效果并将其固定到仪表板,包括添加调出一个或几个关键指标的“卡片”。您可以在 Power BI 服务中编辑报告,方法是单击页面上方的“编辑报告”链接,然后将新可视化效果固定到任何仪表板。
您可以点击顶部(黑色)导航栏上的设置齿轮图标,点击“仪表板”,然后点击要编辑的特定仪表板,从而允许用户以自然语言提问。点击“在此仪表板上显示问答搜索框”旁边的复选框。
此功能允许您(或您的仪表板查看者)通过键入问题从数据集生成新的可视化效果。一旦我找到了查询的适当格式,我发现这是一个非常引人注目的界面。例如,我导入了 IDG 美国网站的月度搜索访问数据,然后能够通过键入“显示每月搜索访问量”等内容来查看数据的各个部分计算机世界”或“哪个月的搜索访问量最大首席信息官“。虽然我可以使用固定在仪表板上的报告页面上的切片器创建相同的交互性,但这里的附加值是用户可以提出我不一定会为他们建模的问题。
对于航班数据,我在仪表板上查询了诸如“哪个出发城市的平均安全延误时间最长?”(阿拉斯加埃达克岛。谁知道?)和“从波士顿出发,哪个目的地城市的平均天气延误时间最长?”等问题。
当您输入 Power BI 识别为可能来自数据集的内容时,该单词会加下划线,并且您会看到可供选择的内容。您想要波士顿作为出发城市还是目的地城市?单击并选择。如果可视化类型(例如柱状图或条形图)不是您想要的类型,您可以在查询中指定一个。
Power BI 仪表板提供自然语言查询,在数据集中强调列名。
一个问题:尝试提取旧金山或纽约等城市的数据对我来说不起作用,因为直到我输入第四个字母,系统才开始识别城市名称;三个字母和一个空格不太好用。幸运的是,我也可以使用 Origin 机场代码中的 SFO(代表旧金山)或 JFK 和 LGA(代表纽约)——但如果您想使用此功能并在数据中包含城市,请记住这一点。
如果您的数据没有直观的列名,您可以向数据模型添加“同义词”——仅限桌面版——以便以其他方式引用列。单击左侧面板中的关系图标(它是显示三个框的第三个图标),选择建模功能区,您应该会在右侧看到一个同义词图标和字段列表。例如,如果您单击“Origin City”下的文本框,您可以输入其他替代名称,例如“Leaving”。
结论
在使用 Power BI 的短短几周内,我发现它是一个相当直观的平台,可以加载数据并快速进行基本的数据探索和可视化。
截至 3 月份的 Microsoft Data Insights Summit,Power BI 缺少一些我认为基本的功能——切片器的文本搜索、表格的条件格式、日历数据选择器作为切片器——但自那时起,微软在改进平台方面取得了进展。表格的条件格式已添加到5 月 31 日桌面更新,可搜索切片器已进入6 月 30 日更新微软表示更好的日期范围选择器正在开发中。
该平台更新频率相当高——桌面版每月更新一次,云服务更新更频繁——承诺持续提供新特性和功能。作为一名 R 用户,我对软件中 R 脚本的集成以及微软整合感到好奇Power BI 服务中的 R 图形(需要专业帐户)——尽管您绝对不需要了解或使用 R 来使用 Power BI。
如果您已经使用 Excel(尤其是在 Windows 上),或者是将公司数据存储在 Microsoft 基础架构中的 Microsoft 用户,我建议您下载 Power BI,注册一个免费帐户并试用 Power BI。如果您不使用其他 Microsoft 产品,如果您想进行一些快速的数据探索和分析并且目前没有最喜欢的平台,那么尝试该平台可能仍然值得,因为 Power BI 除了电子表格、SQL Server 和 Microsoft Azure 之外还会引入许多其他数据格式。
虽然我对尝试过的两个在线内容包数据连接(Adobe Analytics 和 Google Analytics)有些失望,主要是因为它们没有涵盖长期的网站内容趋势,但这并不是说 Salesforce 或 MailChimp 等其他一些工具对你不起作用。微软正在开发所谓的企业级“解决方案模板”例如,Salesforce 和 Dynamics CRM 提供了几款产品,旨在让企业分析报告变得更加容易。(微软表示,内容包发布者通常负责关注哪些场景。)
底线是什么?微软设计 Power BI 是为了让企业用户进行自助分析,在某些情况下,需要 IT 部门的帮助来设置网关或内部“内容包”以连接内部数据。它不像其他平台那样强大,Tableau但它也不具备 Tableau 的私人数据分析高昂的价格。(Tableau Public 是免费的,但功能不如付费软件,而且不是为共享私人数据而设计的,而这对企业用户来说通常至关重要。)
如果您是全职数据分析师或商业设计师,需要创建出版级质量的图形,那么这款应用可能不适合您。但如果您在分析数据和共享工作时不需要高端定制和功能,那么这款应用可能是一个不错的选择。