微软已经进入免费的自助数据分析领域电力商业智能。
Power BI 提供类似于 Excel 的 Power Query 的基本数据整理功能。它还允许您通过几次点击或拖放来创建交互式可视化、报告和仪表板;在仪表板上输入有关数据的自然语言问题;并处理对于 Excel 来说太大的文件。
它可以处理数十种数据类型,不仅包括 Excel、Access 和 CSV 文件,还包括 Salesforce、Google Analytics、MailChimp、GitHub、QuickBooks Online 等。而且,它将运行 R 脚本——这意味着您可以通过 R 提取和处理的任何数据都可以导入到 Power BI 中。
Power BI 指南
在本文中,我整理了开始使用 Power BI 的分步指南,以及许多其他资源来帮助您:
Power BI 到底是什么?
Power BI 包括可下载的桌面程序和云服务,两者都提供不同但重叠的功能。数据整理仅适用于桌面;可视化和报告可以在其中创建;仪表板和报告共享仅限于云。此外,还有适用于 iOS、Android 和 Windows 的移动应用程序,可让您查看 Power BI 或SQL Server 报告服务 (SSRS)报告和仪表板。
至少目前,您可以在不付费的情况下利用大多数 Power BI 功能 - 尽管微软显然打赌您会喜欢基本的云服务,从而可以使用每月 9.99 美元的付费帐户。付费帐户的主要好处是增加数据存储(10GB 与 1GB)、更及时的自动数据刷新、创建企业“内容包”的能力和更高的流媒体容量。
不过请注意,当您注册 Power BI 云服务时,Microsoft 需要一个企业电子邮件地址 - 虽然它无法筛选出所有非商业地址,但它不会接受 Gmail.com 等已知的免费消费者地址。 .gov 和 .mil 地址的帐户也不支持在 powerbi.com 直接注册,但 .edu 和 .org 地址则支持。
如果您想使用 Power BI 的任何免费移动应用程序,则需要 Power BI 云帐户或对组织的 SQL Server 的访问权限。
另一方面,Power BI Desktop(至少目前如此)不仅免费,而且不需要帐户、电子邮件地址或信用卡 - 只需一台 Windows PC。
如果您想了解如何使用这个仍在不断发展的新工具来创建报告和仪表板,请继续阅读。
将数据导入 Power BI
Power BI Desktop 是更好的起点,除非您确定数据已经采用可视化所需的格式。 (如果您像我一样更喜欢使用 R 或 Python 等脚本语言来处理数据,则可能会出现这种情况。)
如果您习惯使用 Excel,您可能会认为选择“文件”>“打开”是开始在 Power BI 中分析数据的方法。但你错了 - 文件 > 打开仅适用于已经存在的Power BI 项目。
相反,要导入新数据,请单击“主页”选项卡上的“获取数据”按钮,选择数据源类型,然后单击“连接”。
要加载文件,请转到获取数据并选择您的数据类型。
这将打开一个熟悉的 Windows 文件选择对话框。选择您的文件,您将看到数据的预览。如果看起来不错,并且在开始绘制图形和图表之前您不需要对数据执行任何其他操作,请点击“加载”。否则,单击“编辑”,这将打开 Power BI 查询编辑器。
在本文中,我将使用我从去年夏天下载的每月航空公司航班延误信息文件。美国联邦航空管理局 (FAA)网站。我知道,尤其是对于航空公司而言,过去的表现并不能保证未来的结果。但如果您打算在今年夏天预订航班,那么回答以下问题可能会很有趣(如果不一定是预测性的):去年夏天哪些航空公司的延误情况最好和最严重?是否有任何表现特别差或特别好的特定航班?这些 Power BI 图表可以帮助您轻松解答这些问题。
如果你想跟随的话,你可以从交通部网站下载您自己的数据文件。或者,如果您愿意,您可以下载我在这里使用的相同文件 -可供 Computerworld Insider 计划的所有成员使用;注册是免费的,因此如果您还不是 Insider,注册起来也很简单。文件包含按月计算的美国国内航班数据(因此,如果您想查看飞往巴黎的航班,这将无济于事)。六月、七月、八月和九月有单独的文件。
首先加载 6 月文件 (2015_06_ONTIME.csv):转到 Power BI 中的获取数据 > CSV。选择并打开您的文件,您将看到数据的预览。然后单击编辑(不是Load)以调出查询编辑器。现在我们可以进行一些数据整理。
此时需要检查的一件事是数字列是否作为数字(右对齐)或文本(左对齐)加载。换句话说,如果您在数据预览中看到左对齐的数字,则它们没有正确导入 - 这就是选择“编辑”并打开“查询编辑器”窗口的原因之一,即使您认为不需要更改数据结构。
确保数字列以数字形式加载 - 换句话说,右对齐。
进入查询编辑器后,您可以右键单击列标题并选择“更改类型”,以便手动选择数据类型,例如整数、小数、日期、日期/时间等。但是,除了检查列类型之外,我们还可以对这些数据执行更多操作。
进入查询编辑器后,您可以开始调整数据。
笔记:如果您对数据整理不感兴趣并想开始使用图表和图形,请加载 Summer15delays.csv 文件并向前跳至部分 - 但请确保在导入文件时航班号从数字更改为文本。
[继续]
数据争论
查询编辑器允许您通过合并多个数据源以及旋转或逆旋转数据等方式重塑和转换数据。它还可以处理常见的数据苦差事,例如添加、删除、重命名和移动列。
对于航班延误数据,您希望将多个月份合并到一个表中,因此在添加 7 月、8 月和 9 月之前,不要开始更改 6 月内的数据。否则,在组合每个文件之前,您必须对每个文件重复相同的转换。
要将更多 CSV 文件导入此活动查询编辑器窗口,请单击“新建源”>“CSV”并选择一个文件(一次只能选择一个),快速浏览一下数据预览,然后单击“确定”。
现在,每个数据源都应列在左侧面板的“查询”下。接下来,在“查询”面板中,单击要添加数据的表(对于本示例,您可以选择 2015_06_ONTIME 并向其中添加其他月份)。
单击“附加查询”(如果您的浏览器窗口很窄,“附加查询”可能位于“组合”按钮下方),单击“三个或更多表”(默认为两个表),然后按照对话框中的说明进行操作。
附加查询允许您组合数据源。
您的 2015_06_ONTIME 文件现在应该包含四个月的数据,而不仅仅是 6 月的数据,因此可能值得将其重命名为 2015_SUMMER_ONTIME 之类的名称。您可以在左侧查询面板中右键单击它来重命名;或者,在该查询处于活动状态(从“查询”面板中单击)时,查看右侧面板上的“查询设置”并更改“属性”下的“名称”框中的文本。
接下来,让我们尝试使用公共列合并两个表 - 这通常称为 SQL 中的联接或使用 Excel 中的查找表。
2015_06_ONTIME 中的 CARRIER 列使用航空公司代码(例如 AA)而不是航空公司名称。最好能提供完整的航空公司名称,因为并非所有代码都很直观 - AA 可能很明显,但 VX 和 B6 就不那么明显了。我创建了一个包含航空公司代码和承运商名称的文件,航空公司代码.csv,这也可以在。您可以使用“新建源”按钮将文件导入到当前查询编辑器窗口中。
在我的系统上,航空公司代码.csv导入 Power BI 时没有正确的列名称。相反,这些列被命名为“Column1”和“Column2”(显然是系统默认值),而真正的列名称“Code”和“Airline”则显示为第一行数据。如果您也遇到这种情况,请查看“主页”功能区的右侧,您应该会看到一个“使用第一行作为标题”的选项。单击该按钮即可修复它。
接下来,我们将航空公司名称信息添加到航班延误数据中。当主数据源 2015_SUMMER_ONTIME 处于活动状态时,选择合并查询。在弹出的对话框中,选择带有查找信息的查询表,本例航空公司代码,然后单击每个表中公共列的列标题:2015_SUMMER_ONTIME 中的 CARRIER 和 coaches 表中的 Code。
最后,选择您想要的合并/连接类型 - 它们在下拉列表中进行了描述。例如,我们想要的“Left Outer”表示“保留第一个表中的所有行,无论第二个表中是否存在匹配项”。 Power BI 现在将尝试估计有多少匹配行,如果您犯了一个错误并最终得到零个匹配,这会很有帮助,因此需要重新检查您用于连接的列以及两者中数据的格式是否相同。
一切都好吗?单击确定,加入完成。
合并后,您将在数据表的最右侧看到一列标记为 NewColumn,列名称左侧有一个表图标,右侧有箭头。单击箭头展开该表列以查看数据 - 您可以选择要添加到原始表中的列。
展开表列以查看数据。
如果您想将该航空公司列移至更靠近承运商的位置,请前往“转换”选项卡。在那里您可以选择移动新的(或任何其他)列。在这种情况下,使用 Power BI 界面,您可以选择新列,然后使用“移动”>“到开头”,然后使用“移动”>“向右”四次,以获得“航空公司”列旁边的“承运商”列。但还有一个不那么麻烦的方法。
变换功能区有许多选项,包括移动列。
首先,如果您在表格上方没有看到公式栏,请转到“视图”功能区并选中“公式栏”以使其可见。然后前往“变换”功能区,确保选择“航空公司”列,然后选择“移动”>“到开头”。现在,您将看到一个 M 语言公式,该公式对列进行重新排序。单击“移动”>“向右”,您将看到公式如何变化。看起来您可以将航空公司列剪切并粘贴到您想要的位置 - 但您无法在此处进行更改。
检查视图功能区下的公式栏以查看底层 M 语言脚本。
相反,转到“视图”>“高级编辑器”,您将看到所有步骤作为脚本。编辑 Table.ReorderColumns 行以根据需要添加 Airline,然后单击 Done。您的航空公司栏应该已移动。
编辑 Table.ReorderColumns 行以根据需要添加航空公司。
注意:自 2016 年 7 月 Power BI Desktop 更新开始,您可以直接在 Power BI 查询编辑器中运行 R 脚本,以便处理数据(或执行其他任务),但有一些事情需要了解。一是显而易见的:您需要在计算机上本地安装 R。此外,当您第一次尝试在项目中运行 R 脚本时,系统会要求您提交一些有关数据隐私的信息;点击“继续”,然后将 R 和您的数据源设置为“公共”。还有两个重要的变量名称需要记住。 Power BI 查询编辑器中当前活动的数据集存储在 R 变量中dataset;无论您希望从 R 脚本返回什么数据帧,都应保存在名为的 R 变量中output。运行脚本后,您应该得到一个与执行上面的合并查询命令时看到的表类似的表;该表需要扩展。发布后不久,我在合并或附加查询后在复杂数据集上运行 R 脚本时遇到了问题,但我希望这个新兴功能能够得到改进。
“转换”菜单上还有许多其他可用操作,例如按一列或多列对值进行分组、根据分隔符或特定数量的字符拆分列,以及旋转(类似于创建 Excel 数据透视表)或逆透视(将多列数据移动到两列:变量数据(例如“月份”)和值数据(例如“六月”)。
您还可以使用“转换”功能区上的选项进行一些基本的统计探索,例如计算行数或创建摘要统计信息,例如计数、平均值、中位数和标准差。当您执行数据汇总时,包含新汇总值的表将出现在原始数据表的位置。要恢复原始数据的视图,请转到数据表右侧的“应用步骤”列并删除汇总功能。
事实上,您可以使用“应用步骤”来删除您在此处执行的任何步骤,而不仅仅是最近的步骤,这相当方便。不幸的是,在查询编辑器中删除步骤后也没有撤消功能,因此您无法恢复已删除的内容。
选择“转换”功能区上的“计数行”菜单选项以查看行数;如果您使用的是从以下位置下载的航班延误文件计算机世界,您会看到略多于 200 万行 — 超出了您可以在 Excel 及其中提取的行数限制为 1,048,576 行。删除“计数行”步骤以返回完整数据。
目前夏季航班延误表中有 50 多列。为了使事情更易于管理,请仅选择您可能希望在某些数据可视化中使用的几个选项:MONTH、FL_DATE、Airline、FL_NUM、ORIGIN、ORIGIN_CITY_NAME、DEST、DEST_CITY_NAME、CRS_DEP_TIME、DEP_DELAY、ARR_DELAY、CANCELLED、CARRIER_DELAY、WEATHER_DELAY、NAS_DELAY、安全延迟、飞机延迟延迟。
单击主页功能区上的选择列按钮,取消选择选择所有列,然后选中要保留的列旁边的框,然后单击确定。
如果您稍后决定要添加回任何列,则可以通过单击“编辑查询”返回到查询编辑器,然后单击“应用的步骤”列中“已删除的其他列”旁边的设置齿轮。这将使对话框恢复为您之前的选择,并且您可以向项目添加更多列。
最后,确保将没有意义的数字列更改为文本。例如,除非您希望 Power BI 计算航班号的总和(而您并不这样做),否则请将其转换为文本。否则,尝试用这些字段作为类别来制作图表将不起作用,并且您最终会浪费大量时间(不要问我是怎么知道的)。您可以通过右键单击列标题并选择“更改类型”>“文本”将 FL_NUM 和 MONTH 转换为文本。另一个调整:CANCELED 列显示 0 表示 false,1 表示 true — 如果需要,您可以将该类型更改为 True/False。
现在来了有趣的部分。
简单的可视化
使用“关闭并应用”关闭查询编辑器,返回主 Power BI 应用程序。 (因为这些文件太大,这可能需要一些时间。)此时,您可能还需要执行“文件”>“保存”,将您的工作保存为 Power BI 项目,以便在出现问题时,您无需重新创建步骤。
您的 Power BI 空白画布应如下所示:
Power BI 空白画布。
最好删除我们合并到 2015_SUMMER_ONTIME 中的所有其他查询文件,因为我们不会再使用它们。如果您转到右侧的“字段”面板并尝试右键单击并选择“删除”,您将收到一条警告,指出您无法删除这些查询,因为它们已被另一个查询引用。不过,您可以右键单击,然后隐藏他们让他们离开。
对除 2015_SUMMER_ONTIME 之外的所有查询执行此操作。现在只剩下一张查询表,2015_SUMMER_ONTIME 表将自动展开以显示其列名称。 (当菜单中有多个查询时,默认情况下不显示列名称;单击一个查询旁边的三角形将其展开;右键单击并选择“全部展开”以查看所有查询的字段。)
想要绘制出发延误情况图表吗?单击 DEP_DELAY 旁边的复选框。您将得到一个条形图,其中一个条形汇总了数据中的所有延迟时间。 (如果您未指定,Power BI 会尝试猜测哪种可视化效果最适合您的数据。)单击“航空公司”,图表将变成每个航空公司的总航班延误时间的条形图。
不过,航空公司的总延误总和并没有多大用处。航空公司的航班越多,延误的时间可能就越长。但是,如果您查看“可视化”面板并在“值”下找到 DEP_DELAY,则可以单击三角形下拉菜单并将 DEP_DELAY 分钟的总和更改为平均值(或中值,如果您愿意)。
单击“值”字段旁边的三角形会显示可视化选项,例如将“总和”更改为“平均值”。
(如果图表太小,只需单击并拖动框的一角即可调整其大小。)
该图表目前按航空公司字母顺序排序。如果您希望从最高到最低排序,请单击右上角的省略号,然后选择“排序方式”>“DEP_DELAY 平均值”。
单击图表右上角的省略号将显示排序选项。
到达延误也会很有趣。将 ARR_DELAY 拖到面板的 Value 区域,并将其从 Sum 更改为 Average。再次单击右上角的省略号可按 ARR_DELAY 降序排序(如果默认为升序,只需再次单击即可)。您现在应该有一个如下所示的图表:
显示出发和到达延误的图表。
(您可以通过单击图表边框右上角省略号旁边的“焦点模式”图标来查看占据整个画布的图表版本。)
默认标题有点蹩脚。您可以通过单击可视化选项下方的画笔图标来更改标题和许多设计默认值。要编辑特定图表,请确保单击它以使其处于活动状态(边界框可见)。单击“标题”,您将看到用于更改标题文本、字体颜色、大小、对齐方式等的选项。
还有一些选项可以将数据标签添加到条形图、更改 X 轴和 Y 轴等。
例如,您可以将标题更改为“2015 年 6 月至 9 月平均出发和到达延误时间(分钟)”,增大文本大小并居中对齐。如果要重命名字段,可以在“字段”面板上执行此操作 - 右键单击字段并选择“重命名”。尝试将 DEP_DELAY 更改为 Dep Delay,将 ARR_DELAY 更改为 Arr Delay。
好吧,看起来精神航空确实不是去年夏天的最佳选择,但也许该航空公司在某些机场有严重延误,而在其他机场却没有?我们可以修改可视化以仅包含几个机场。
有几种方法可以缩小数据子集的范围。过滤器可以应用于一张图表、整个页面或多页报告中的所有页面。您可以在编辑报告时更改过滤器;但如果您随后将您的工作共享为 Power BI 仪表板,只读用户将只能看到您筛选的内容,并且无法重新添加数据。
另一种选择是添加交互式切片器。使用切片器,如果您稍后与其他人共享您的工作,他们可以交互式地过滤数据并将其添加回来。
让我们两者都尝试一下。
[继续]
过滤您的数据
当我三月份开始使用 Power BI 时,一个主要缺点是无法将文本搜索框添加到报表、表格或切片器中。如果您要分析许多不同类别的信息,例如美国航班数据,则必须滚动列表中的数百个城市才能找到圣路易斯,这是非常烦人的。
自 6 月 30 日 Power BI Desktop 软件更新开始,您可以在报表中添加可文本搜索的切片器,从而更轻松地从数百个(或数千个)项目中筛选出一个项目。稍后会详细介绍。但也有可能您知道列表中的数百个项目中只有几个您感兴趣的项目,并且您希望创建仅包含数据子集的报告。
实现此目的的一种方法是将报告过滤为几个关键类别 - 在这种情况下,可能只显示一些已知感兴趣的城市,例如您的公司设有办事处的地方。
为此,请单击画布的空白区域,然后将 DEST_CITY_NAME 拖到报告级别过滤器上(您可以在其中看到“将数据字段拖至此处”区域)。选几个城市。如果你跟着的话,我选择了亚特兰大、波士顿、芝加哥、克利夫兰、拉斯维加斯、洛杉矶、新奥尔良、纽约、费城、旧金山、圣何塞、西雅图和华盛顿特区
单击过滤器上的 DEST_CITY_NAME 标题将其关闭。然后对 ORIGIN_CITY_NAME 执行相同操作 - 将其拖到 DEST_CITY_NAME 过滤器顶部并选择您想要的城市 - 您将获得主要城市之间的航班信息。
在这一点上,报告本身可能值得注意的是,该数据现在仅适用于少数城市。您可以通过单击主页功能区上的文本框按钮向页面添加文本。在画布上按照您想要的方式移动和塑造它,然后编写一些文本来解释报告涵盖的城市。
现在,我们可以通过添加几个切片器让用户轻松选择出发地和目的地城市。单击画布的空白区域,然后单击切片器可视化图标(它看起来像“可视化”下表格图标上的一个小过滤器/漏斗 - 在 2016 年 5 月版的 Power BI 中,它是“可视化”下倒数第三个图标)。检查 ORIGIN_CITY_NAME。现在,再次单击画布的空白区域,再次单击切片器图标,然后单击 DEST_CITY_NAME。根据需要调整切片器的大小并在画布上移动切片器。
如果切片器中仍有足够的城市值得添加搜索框,请单击切片器右上角的省略号并选择搜索。这将向切片器添加一个文本搜索框。

将搜索框添加到切片器。
如果文本有点小且难以阅读,请单击每个切片器,然后单击画笔图标并在“项目”下选择新的文本大小。正如图表一样,您可以更改标题并单击字段进行重命名(例如,从 ORIGIN_CITY_NAME 更改为出发城市,将 DEST_CITY_NAME 更改为目的地城市),并增加标题字体大小。
您现在可能可以看到首先过滤数据的好处:如果没有页面级过滤器,每个切片器上将有 300 多个城市可供滚动。
最后,看看实际的航班,而不仅仅是航空公司,可能会很有趣。将 Airline 拖到画布上的空白位置,然后添加 FL_NUM。你会得到一张桌子。添加 Dep Delay 和 Arr Delay,然后再次确保将两者从 Sum 更改为 Average(在 Values 下)。将 FL_NUM 重命名为 Flight。您可以通过单击 CRS_DEP_TIME 并将其添加到表中来添加计划出发时间。
现在,当您在切片器中单击出发地和目的地城市时,您将看到所有可用航班及其平均到达和出发延误时间。如果您单击图表中一家航空公司的栏,表格将仅显示该航空公司的航班。
(注意:这不是很容易找到,但您可以自定义页面上图形之间的交互方式。单击一个图形将其激活;然后在“格式”功能区上选择“编辑交互”。页面上的其他图形都会有一些附加图标:过滤器和带有斜线的圆圈。单击过滤器意味着图形将根据活动图形中发生的情况进行更改;单击带有斜线的圆圈表示不会更改。)
采取相同的图形并决定查看中位数而不是平均值也很容易,因为一些不幸的人非常航班晚点可能会对整体平均水平产生巨大影响。与在 Excel 中一样,您可以通过单击带有页面名称的选项卡旁边的加号(默认应为第 1 页)将页面添加到 Power BI 报表中。
甚至更方便,因为我们已经设置了切片器和图表:右键单击页面并复制它。现在可以很容易地点击图表;在 Value 部分下,单击 Average of Dep Delay 和 Average of Arr Delay,并将它们分别更改为 Median。如果您继续进行操作,您还需要将包含航班数据的图表和表格的标题从“平均值”更改为“中值”。
除精神航空外,所有这些城市的所有航空公司的到达延误中位数均为 0 或以下。当我只看飞往波士顿的航班时,精神航空的延误看起来更加明显——尽管公平地说,他们可能刚刚在 2015 年经历了一个糟糕的夏天,但此后有所改善。
显示抵达波士顿的航班的图表。
交互式深入分析
想了解按月平均延误情况如何细分吗? Power BI 具有按日期字段自动向下钻取的功能,我们可以通过在新页面上创建新的可视化来查看这些字段。
再次右键单击第 1 页并复制它,单击图表将其激活,然后取消单击航空公司并单击 FL_DATE。您只会在图表上看到两个条形图,每个条形代表到达和出发。
这是因为 Power BI 默认按年份绘制图表,而我们只获得了一年的数据。在“轴”下,您可以单击“年份”旁边的 x 将其删除,这样图表将停止每年聚合(这对于该数据来说有点无用)。现在默认为季度。对于这个特定的四个月数据集来说,这也没有多大用处,但让我们假设它有多大用处。
要启用 Power BI 的日期钻取,请单击图表右上角的向下箭头。现在,如果您单击第三季度的栏之一,它将向下钻取以显示月份。单击一个月的栏,它将放大该月的天数。
要返回到更大的时间组,请单击图表左上角的向上箭头。请注意,当您向上和向下钻取时,您将不再影响页面上的其他视觉效果,因此表上的数据不会更改。
日期字段的日期钻取是自动进行的,但您可以为任何层次结构设置钻取。激活第一页上的图表,然后将 FL_NUM 拖到“轴”字段上,确保它最终位于“航空公司”下方。除了出现向下钻取图标外,图表上不会出现任何变化。
单击右上角的向下箭头以激活向下钻取,单击航空公司的栏,您将看到该航空公司各个航班的所有数据。同样,由于向下钻取处于活动状态,因此您不会在表上看到任何更改。如果您希望在此过程中能够手动筛选特定航空公司的表格,您可以临时添加航空公司作为页面级筛选器,或者为航空公司添加第三个切片器。
单击左上角的向上箭头返回到原始图形,如果仍处于选中状态,则再次单击向下箭头以停用钻取功能,并且图形将像以前一样工作。
如果要更改此页面上图表的标题,请再次使图表处于活动状态,单击“可视化”面板上的画笔图标,然后单击“标题”。
最后一步,您可能需要将页面选项卡从“Page 1”和“Duplicate of Page 1”重命名为更有意义的名称。目前,这与 Excel 中的工作方式不同 - 您需要双击选项卡名称,而不是右键单击选项卡。
您可以在 Power BI 中生成更多可视化效果。除了“可视化”面板中的所有图标(包括树图和实际地理地图)之外,还有其他图形可用于从定制视觉效果库。如果您找到喜欢的图标,请从图库中下载,然后使用可视化面板中最后一个图标旁边的省略号将其导入。您必须将其单独导入到您想要使用它的任何报告中。 (您可以找到 Microsoft Research 创建的最新自定义视觉效果之一的示例这里.)
还有很多其他方法可以可视化此数据,例如查看包含延迟原因的列,但现在我将继续。
[继续]
分享你的工作
完成一些探索性可视化后,您可能想与同事分享您的一些分析。为此,您首先需要将数据和报告发布到 Power BI 云服务。保存您的工作,然后转到“主页”>“发布”。如果您当前尚未登录,则需要登录 Power BI 帐户(如果尚未登录,则创建一个帐户)。
将数据发布到 Power BI 云服务后,您将有机会从数据中“快速获取见解”。这是微软对各种数据点的自动查看,以便突出显示异常值和相关性等内容。不幸的是,Quick Insights 不知道它不应该将所有延迟时间加在一起 - 它需要对它们进行平均才有意义。 (我预计默认值对于销售和利润等数据文件会更好,其中按区域或商店随时间推移的总和可能更有意义。)
我通过复制我的项目(我对另一个名称进行了“另存为”)来尝试“快速洞察”,然后按目的地城市、航空公司和航班对数据进行分组。 (如果您想继续操作,请转到“编辑查询”>“转换”>“分组依据”,然后按照对话框创建平均到达延迟的新列,选择“关闭并应用”,重新进行可视化,然后发布)。
快速洞察尝试找出数据中有趣的方面。然而,为了使其正常工作,您的数据需要采用它可以理解的格式。
要快速了解 Power BI 云服务中的数据集,请单击左侧菜单中数据集名称旁边的省略号(如果菜单不可见,请单击左上角的三行菜单图标以显示该菜单),然后选择“快速洞察”。 (找不到快速见解?请确保您是在数据集而不是报告下执行此操作。)
查看 Quick Insights 后,转到 Power BI 云主页面,如果需要,请登录,单击左上角的三横线图标以查看菜单(如果需要),您应该会看到所有数据集、报告和仪表板。如果您在发布到服务之前已经在桌面软件中创建了可视化报告页面,它们将显示在“报告”下(毫不奇怪,您的数据显示在“数据集”下)。
您可以将报告直接共享到网络上以供公众查看,然后您还可以将其嵌入到您自己网站的某个位置:转到“文件”>“发布到网络”。请注意,虽然它在测试版中是免费的,但自从 7 月初停止预览以来,我还没有看到微软保证它将保持免费。
如果这是您只想与其他几个人共享的私人数据,则您需要将您的工作共享为仪表板。如果您想要将整个报告页面共享为仪表板,请单击页面上方的图钉(图钉)图标,然后选择将其添加到新仪表板。您还可以将不同页面甚至不同数据集的可视化效果混合并匹配到仪表板上,方法是单击单个可视化效果,然后单击该可视化效果右上角的图钉图标,并将其固定到现有或新的仪表板。然后,您可以单击右上角的共享图标,并通过输入其他人的电子邮件地址与他人共享。
该对话框非常不言自明,可让您决定收件人是否可以重新共享或仅查看。 (在撰写本文时,行级安全性可用于某些数据集,仅允许某些用户查看数据集中更敏感的信息,但某些功能处于预览状态,并且可能会发生变化。)
您可以从仪表板本身将网页内容、图像、文本框和视频嵌入到仪表板中;您还可以在报告中创建其他可视化效果并将其固定到仪表板,包括添加调出一个或几个关键指标的“卡片”。您可以在 Power BI 服务中编辑报告,方法是单击页面上方的“编辑报告”链接,然后将新的可视化效果固定到任何仪表板。
您可以允许用户提出自然语言问题,方法是单击顶部(黑色)导航栏上的设置齿轮图标,单击仪表板,然后单击要编辑的特定仪表板。单击“在此仪表板上显示问答搜索框”旁边的复选框。
此功能允许您(或您的仪表板查看者)通过输入问题从数据集中生成新的可视化效果。一旦我找到了适合我的查询的格式,我发现这是一个非常引人注目的界面。例如,我导入了 IDG 美国网站的每月搜索访问量数据,然后通过输入“显示每月搜索访问量”等内容来查看数据的各个部分。计算机世界”或“哪个月份的搜索访问量最大首席信息官“虽然我可以在固定到仪表板的报告页面上与切片器创建相同的交互性,但这里的增值之处在于,用户可以提出我不一定认为要为他们建模的问题。
对于航班数据,我在仪表板上查询了诸如“哪个始发城市的平均安全延误时间最长?”之类的问题。 (阿拉斯加埃达克岛。谁知道呢?)以及“哪个目的地城市与波士顿之间的平均天气延误时间最长?”
当您输入 Power BI 识别为可能来自您的数据集的内容时,该单词会带有下划线,并且您会看到可供选择的选项。您想要出发地城市还是目的地城市波士顿?单击并选择。如果可视化类型(例如柱形图或条形图)不是您想要的类型,您可以在查询中指定一种。
Power BI 仪表板提供自然语言查询,并在数据集中的列名称下划线。
有一点狡辩:尝试提取旧金山或纽约等城市的数据对我来说不起作用,因为系统直到我输入第四个字母才开始识别城市名称;三个字母和一个空格效果不太好。幸运的是,我还可以使用 Origin 机场代码中的 SFO(旧金山)或 JFK 和 LGA(纽约) - 但如果您想使用此功能并在数据中包含城市,则需要记住这一点。
如果您的数据没有直观的列名称,您可以向数据模型添加“同义词”(仅限 Desktop),以作为引用列的替代方法。单击左侧面板中的“关系”图标(这是显示三个框的第三个图标),选择“建模”功能区,您应该会在右侧看到“同义词”图标和字段列表。例如,如果您单击“始发城市”下的文本框,则可以输入其他替代名称,例如“离开”。
结论
在使用 Power BI 的短短几周内,我发现它是一个相当直观的平台,可用于加载数据并快速进行基本的数据探索和可视化。
截至 3 月份的 Microsoft 数据洞察峰会,Power BI 缺少一些我认为基本的功能——切片器的文本搜索、表格的条件格式、作为切片器的日历数据选择器——但自那时以来,微软在改进平台方面取得了进展。表格的条件格式已添加到5 月 31 日桌面更新,可搜索切片器到达6月30日更新微软表示,更好的日期范围选择器正在开发中。
该平台的更新相当频繁——桌面每月一次,云服务更频繁——提供持续的新特性和功能的承诺。作为 R 用户,我对软件中 R 脚本的集成以及 Microsoft 的整合很感兴趣Power BI 服务中的 R 图形(需要专业帐户)——尽管您绝对不需要了解或使用 R for Power BI。
如果您已经使用 Excel(尤其是在 Windows 上),或者是在 Microsoft 基础架构中存储公司数据的 Microsoft 商店,我建议您下载 Power BI,注册免费帐户并试用 Power BI。如果您不使用其他 Microsoft 产品,并且想要进行一些快速的数据探索和分析并且目前没有最喜欢的平台,那么尝试该平台可能仍然值得,因为除了电子表格、SQL Server 和 Microsoft Azure 之外,Power BI 还将引入许多其他数据格式。
虽然我对我尝试的两个在线内容包数据连接(Adobe Analytics 和 Google Analytics)感到有点失望,主要是因为它们没有涵盖长期的网站内容趋势,但这并不是说 Salesforce 或 MailChimp 等其他一些连接不适合您。微软正在开发所谓的企业级产品“解决方案模板”— 例如,Salesforce 和 Dynamics CRM 提供了多种产品 — 旨在让企业分析报告变得更容易。 (微软表示,内容包发行商通常负责关注哪些场景。)
底线? Microsoft 为业务用户设计了 Power BI 来进行自助分析,在某些情况下,在 IT 的帮助下设置连接到内部数据的网关或内部“内容包”。它不像一个平台那样强大,比如说画面— 但它也不具备 Tableau 针对私人数据分析的强大价格标签。 (Tableau Public 是免费的,但功能比付费软件少,而且不是为共享私人数据而设计的,而这对于企业用户来说通常至关重要。)
如果您是创建出版质量图形的全职数据分析师或商业设计师,那么这可能不适合您。但如果您在分析数据和共享工作时不需要高端定制和功能,这可能是一个有吸引力的选择。
