从多维数据中快速发现top-k见解 - AiLi的博客

OLAP工具已被企业广泛使用，以做出更好的决策。但这些工具的分析过程仍然需要用户在OLAP查询中进行繁琐的试验指定维度组合，手动提出查询，分析结果然后得到分析结论。本文首次尝试从多维数据中自动提取top-k洞察。因此提出洞察的概念，来获取从多个步骤的聚合结果导出的有趣观点（例如，按维度排序，通过维度计算度量的百分比）。

实例：我们有如下一个汽车销售数据集（年份，品牌，类别，销售）。OLAP工具支持数据汇总（例如，按年份和品牌的销售额汇总，如图1(a)所示）。仅聚合并未显示出太多信息（例如，明确的趋势）。在以下示例中，我们通过对聚合执行分析操作（例如，排名，差异）来演示洞察提供有价值的信息。

示例1.（每年增加的销售额）：

我们可以通过逐年增加的销售额来比较不同品牌的增长趋势（参见图1中的步骤2）。在图1（b）中，我们观察到H品牌的年销售额逐年上升。品牌H的销售的聚合结果（参见图1（a））首先下降然后上升，其趋势不易直观理解。相比之下，洞察的结果显示了H明显的上升趋势（参见图1(b)）。这种洞察力可以有效地用于揭示潜在市场并寻求利润。

示例2.（品牌间年销售额增加的排名）：

关于品牌B，我们从原始聚合（参见步骤1）和每年增加的销售（参见步骤2）中没有找到关于它的任何“有趣”信息。尽管如此，我们还是可以通过对年度销售额进行分析操作来获得洞察力。例如，如果我们对每个品牌的年销售额增加进行排名（参见步骤3），我们得出：“品牌B的品牌（跨品牌）每年增加的销售量随着年份而下降”，如图1（c）所示。这种洞察力意味着品牌B的竞争力随着年份而降低。

本文内容： 1.分析了top-k洞察要解决的问题（第2节），并为洞察提供了有意义的评分函数（第3节）;

2.我们提出了我们的top-k洞察提取系统（第4节）和计算框架（第5节）的架构;

3.我们设计了一套优化技术 - 修剪，订购，专用立方体（第6节）和计算共享（第7节），以加速洞察力提取;

4.我们通过案例研究和用户研究（第8节）验证了对三个真实数据集的top-k见解的有效性，并证明了我们提案的效率（第9节）。

挑战： C1）巨大的搜索空间：搜索空间是属性d的数量和洞察深度exp（即洞察中的步数）的指数。此外，搜索空间是维度的域大小和分析操作的组合的多项式。

C2）复杂的洞察计算：对观察的评估需要在聚合后应用多个分析操作（例如，上例中的步骤2和3），每个分析操作可能需要访问聚合结果中的多个值。

C3）洞察力评分的非单调性：洞察力评分函数不是单调的。例如，品牌B每年的销售额增量没有有趣的洞察见解（参见步骤2），但是对于年度增长的销售额排名，品牌B的排名有一个洞察，如图1所示（ C）。此外，在上面的例子中，品牌T的排名没有有趣的见解（如图2(a));但是它的子空间有一个洞察力中的<*, T, SUV>，其中SUV是该类别的值。（例如，图2（b）

2.问题陈述在本节中，我们提供了多维数据模型，复合提取器和洞察得分函数的正式定义。

2.1 数据模型和子空间我们给出了一个多维数据集R（D，M），其中D = <D1 , …, Dd> 是维度属性列表，M是测量属性。设dom（Di）表示属性Di的域。我们假设每个Di满足| dom（Di）| > 1。

考虑在数据集D上定义的整个OLAP多维数据集。给定一个多维数据集单元，我们可以通过子空间S描述其属性的值，并通过度量S.M描述其聚合值，如下所述：

定义1（子空间）：

为简单起见，我们还将S.M称为子空间S的度量。通过改变单个维度来分析立方体单元（即子空间）的变化是方便的。因此，我们定义一个兄弟组来覆盖仅在一个维度上不同的子空间。

定义2（兄弟组）：

示例：表1说明了一个示例数据集（汽车销售）。它包含两个维度（年份，品牌）和一个度量（销售）。通过确定的年份（到2010年）改变品牌，我们可以比较同年不同品牌的销售额：(<2010,F>,<2010,B>,<2010,H>,<2010,T>)。这四个子空间属于兄弟组SG（<2010，* >，Brand）。

2.2 复合提取器我们将对兄弟组进行分析操作以得出观察结果。首先，我们在兄弟组中引入一个提取器作为基本分析操作。

定义（提取器）

实例：本文介绍了四个提取器实例（Rank，％，avg，prev）并在表2中描述它们的语义。提取器prev强制要求维度Dx必须是序数属性，因为prevDx（Sc）是指沿着Dx的Sc的前一个子空间。其他提取器适用于任何类型的属性。除了这些提取器之外，我们还允许数据分析师为其应用程序定义自己的提取器。

示例：我们在表3中说明将兄弟组SG（S，Year），其中S =< *，F>，作为各提取器输入，然后计算出各个子空间对应的度量值，其中 Rank计算所有年份中每个Sc的等级。提取器％计算所有年份中每个Sc的百分比。提取器avg计算每个Sc与平均值的差值，提取器prev获得每个avg(Sc)与其先前子空间的差异。

然后，我们引入一个复合提取器Ce，来组合兄弟组上的多步骤分析运算符。

定义4（复合提取器）

我们假设聚合函数是数据集中度量属性M的SUM，深度参数τ代表复合提取器的复杂性。当τ=1时，复合提取器与聚合函数相同。们建议将τ设置为2或3，这分别类似于数学中的一阶导数和二阶导数。对于图1中的示例，步骤1-2 可以用depth-2复合提取器Ce=<(SUM,Sales),(∇prev,year)>来表示，步骤1-3可以用depth-3复合提取器Ce=<(SUM,sales),(∇prev,year),(Rank,Brand)> 表示。

接下来，我们定义了在兄弟组SG(S,D）上应用复合提取器ce的结果集，如定义5所示。

定义5（执行复合提取器后的结果集）

示例：图3 结果集φ显示了在兄弟组SG(< *,F>,Year）上使用复合提取器Ce = <(SUM,Sales),(％,Year)>了后的结果集：

例如，在level=2时，子空间Sc=<2014, Fi > 的衍生度量

2.3 问题定义直观地，业务分析师对特殊事实（例如，兄弟群体内的显着差异）和意外趋势（例如，在一段时间内的快速上升）感兴趣。在兄弟组SG（S，Di ）上使用复合提取器Ce后，设为结果集φ。我们从中提取两种有代表性的洞察。

1.点洞察力（突出）：突出点（最前(No.1) /最后(Last)）意味着子空间在与的其他子空间明显不同。

2.形状洞察力（趋势）：这种见解是适用于当Di是一个序数维时，上升/下降趋势意味着当Di增加时，呈现出这样的趋势。

我们通过表示特定的洞察实例，其中T是洞察类型。我们的问题是根据得分函数找到前k个见解，我们将在第3节中详细说明。

问题1（洞察问题）。在给定数据集R(D,M)和复合提取器深度τ的情况下，在所有可能的子空间和复合提取器及洞察类型中找到前k个得分最高的洞察。

搜索空间大小：在给出解决方案之前，我们首先分析在的搜索空间大小，在我们的分析中，让为最大的维度域大小，β是提取器类型的数量，而

是洞察类型的数量。我们的解决方案的搜索空间如下。

引理1

证明：首先，输入视觉类型

。兄弟组的个数，子空间的数量是，并且Di有O(d)种选择。

        提取器具有可能的选择， 由于复合提取器含有τ-1提取器，因此有）可能的复合提取器。

        通过乘以上述项，我们得到了可能的见解数：

3.有意义的洞察洞察得分反映了洞察的有趣性。为了对不同的见解进行排名，洞察得分指标应该表示：（i）普遍性（即适用于不同类型的见解），（ii）可比性（即，在不同类型的见解中公平）。

3.1 洞察分数我们为洞察主题提出了合适的评分函数：

其中Imp是计算在兄弟组SG（S，Di）中的影响力，是从整个结果集φ中看T类型洞察的重要性，而φ是对SG（S，Di）应用提取器Ce的结果集。

影响力Imp：从业务角度来看，影响反映了洞察主题对整个数据集的重要性，（例如本例中的市场份额S），它的值域在区间[0,1]中被归一化。.

重要性测量：它揭示了结果集中观察到的洞察的罕见性。分数越高，洞察力就越不常见/出乎意料。我们打算根据p-value来形成SigT，它主要测量事件的极端程度。同时在不容类型中具有可比性，

当用户为每种洞察类型正确设置零假设检验时，可以在不同类型的洞察之间进行公平比较。

3.2 洞察力的是根据洞察主体的聚合值进行评估的，即获得的聚合值相对于基线的重要性。我们将基线表示为一个与洞察类型相关的空假设，它反映了大多数非洞察形成的常见情况，并通过基于显著性的假设检验来量化洞察意义。下面的两个图表显示了两个不同的时间序列信号：左一个比右一个更重要，因为它包含一定的规律，而不是纯噪声。

在统计学中，p-value “就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率”，我们通过对不同类型洞察设置不同类型的零假设来衡量的p值。示例：点洞察和形状洞察的有意义性函数。

点洞察的：设X = {x1，x2，…，xn}为结果集φ的数值。在商业领域，产品的销售额通常遵循 power-law 幂律分布。因此，我们将点洞察力的零假设设定为：

       H0：X遵循具有高斯噪声的幂律分布。

当H0为真时，有意义性应该揭示最大值与其余值的差异有多么令人惊讶。

首先，我们按降序排序X并获得最大值xmax。然后，我们将X \ {xmax}中的值拟合为幂律分布，如果它是正常的，数据分布应该如如图4（a）所示，其中预测误差为（即，从估计值减去观测值，也称为残差）近似高斯分布。接下来，我们（i）通过得出的预测误差，（ii）计算p值来确定对假设检验H0 xmax 是否真实的惊人程度。如图4（b）所示。最后，我们得到

我们在图4中说明了一个例子。对于结果集A，预测误差很大，因此我们得到 p = Pr（ε>= 0.09 并将其显着性推导为 = 1 -p = 0.91。对于结果集B，预测误差很小，因此我们推导出显着性，因为= 1- p = 1- 0.62 = 0.38。因此，A比B更重要。

形状洞察的Sig。设X = <x1，x2，…，xn >是结果集中时间序列的值。通常趋势既不上升也不下降。因此，我们将零假设设置为：

                        H0 : X forms a shape with slope ≈0.

在商业智能应用中，数据分析师被吸引到明显的上升/下降趋势，其斜率与0非常不同。因此，p值应该衡量斜率与0的差异程度。

首先，我们通过线性回归将X拟合到一条线上（见图5（a）），然后计算其斜率斜率slope和拟合优度值γ。在本文中，我们使用逻辑分布L(μ，λ)，其中μ是常数参数，用于模拟斜率的分布。在图5（b）中，p值是斜率值等于或大于观察到的上升趋势斜率的概率。我们将p值计算为p =。最后，我们将意义定义为，其中拟合优度值r2是T用作权重。

我们在图5中举例说明了一个例子。考虑图5（a）中的蓝点和红点的形状。在将蓝点拟合到线之后，我们获得斜率斜率A = 1.02并且拟合优度值rA2 = 0.99。类似地，在拟合红点后，我们得到slopeB = 0.11和rB = 0.92。如图5（b）所示，我们然后计算：pA = 0.11和pB = 0.79。在这个例子中，由于slopeA> slopeB，A的显着性（即0.88 =0.99 *（1- 0.11））大于B的显着性（即0.19）。

4.系统架构我们首先描述top-k洞察提取系统的架构，然后讨论我们系统的可扩展性。

4.1架构概述图6描绘了我们系统的架构，它由三层组成。

1.系统配置层（在底部）允许用户配置系统设置，例如，指定新的洞察类型，或基于用户的信念定制原假设。将在4.2节详细说明该层的细节。

2.洞察提取层（中间）是系统的核心组成部分。首先，它列举了兄弟组和复合提取器的每个可能的组合。然后，它将每对）输入计算引擎并调用洞察引擎来计算得分。在此过程中，图层会保留前k个洞察列表。

3.用户界面层（在顶部）是我们系统的前端。它向用户呈现并可视化前k个见解。

4.2可扩展性扩展性特点：

聚合函数和提取器：复合提取器必须将聚合函数作为第一级的提取器，将其他提取器放在高级别。首先，支持OLAP中的许多典型聚合函数，例如SUM，COUNT，AVERAGE，MAX，MIN。其次，允许数据分析师定义他自己的提取器（例如，与Rank-1的差异）。

数据集：系统构建在OLAP系统之上，因此它可以处理OLAP系统中的任何类型的数据集。对于具有多个度量属性的数据集，用户可以选择一个度量属性，也可以在系统配置层用其他度量属性的加权和作为派生度量。

洞察的定制：系统支持其他洞察类型，例如，两种趋势之间的相关性，以及季节性趋势。

得分函数：有效函数，也是可定制的。在本文，洞察类型的重要性是基于p值定义的，p值主要衡量事件对现实世界中“普遍认知”的极端程度。数据分析师可以根据他们的领域知识定制他们的“普遍认知”。

自定义搜索空间：专家用户可能对他们正在寻找的内容有所了解。因此，我们使专家用户能够声明约束并限制搜索空间。例如，专家用户可能只考虑汽车销售数据集中与品牌B相关的兄弟组。

洞察提取计算框架 5.1计算框架算法1 是用于系统架构中的洞察提取层的计算框架的伪代码。它采用堆来保存前k个洞察力。该算法需要生成复合提取器Ce和兄弟组SG（S，Di）的所有可能实例。然后它计算每个洞察，并找到更好的洞察后更新H.

通常，兄弟组的数量远远大于复合提取器的数量。为了保持内存消耗的可管理性，我们采用分而治之的方法来生成兄弟组，使用递归函数（第9-18行）实现它，它包含两个阶段：

在阶段I（第9-14行）中，我们首先检查该提取洞察组是否有效。如果是，那么我们通过算法2计算该结果。接下来，我们计算每种洞察类型的得分，并在找到更好的洞察后更新H.

在阶段II（第15-18行）中，我们通过在维度Di上实例化其值来创建子空间S‘。对于每个S’，我们选择一个维度Dj，在兄弟组SG（S‘，Dj）上调用递归调用。

示例：给定表1中的数据集，我们在表4中展示了所获得的见解。为了便于说明，仅考虑点洞察和固定复合提取器Ce =<(SUM，Sales),(∇prev,Year)>由于页面限制，我们不会显示计算Imp和Sig的步骤。当k = 1时，top-1 洞察对应于表4中的第一行。

5.2计算引擎从概念上讲，衍生度量M’的计算（在第4行），可以通过递归函数’RecurExtract’来实现。

在此函数中，level指示Ce中提取器的当前深度。初始级别为τ，对应于最高级别。

示例：表4中的兄弟组SG (<2013,* >，Brand）的复合提取器Ce = <(SUM,Sales),(∇prev,Year)>。我们在图7中说明了派生度量的递归计算。每个树节点表示’RecurExtract’的递归调用。在第一阶段，我们以自上而下的方式构建树。当我们达到底层时（即，level= 1），第二阶段开始。接下来，我们以自下而上的方式检查这些树节点，并在每个树节点上应用相应的提取器来计算其派生度量。然后，我们获得结果集= {(<2013,F>,9）,(<201,，B>,-3,(<2013,H>,7),(<2013,T>,-5）}。最后，我们计算（参见3.2节）的Sig值和Imp值，以获得洞察分数（即0.02）。

数据立方体优化：我们的框架经常执行聚合，例如SUM(S)（Alg.2中的第16行）和（Alg.1中的第12行）。我们可以构建一个数据立方体并利用它来降低聚合成本。

数据立方体是立方体的集合，其中每个立方体存储特定维度集合的分组结果。图8（a）说明了为具有模式（A，B，C，M）的数据集构建的数据立方体。它包含八个立方体。长方体<A，B>的结果如图8（b）

为了有效地计算SUM（S），我们建议将每个长方体存储为哈希表。给定子空间S，我们可以在立方体中查找相应的条目，然后在O（1）时间内检索SUM（S）。

5.3时间复杂度分析由于算法1和算法2都将大部分时间花在重复递归调用上，因此我们专注于分析这些算法中的递归调用的数量。我们遵循2.3节中的符号。在我们的分析中，表示最大域大小，β表示提取器类型的数量。

对于算法1：它为所有可能见解调用递归函数“EnumerateInsight”。对’EnumerateInsight’的递归调用次数为。

对于算法2：它检查属性Di的每个值，因此最多调用递归函数’RecurExtract’ 次，“RecurExtract”的递归调用次数是

6.优化技术 6.1按上限分数修剪考虑在算法1中第10-12行的洞察得分的计算，（参见第5.2节）。此计算方法调用了算法2，为了降低成本，我们提出了上限分数，设置它是洞察力得分的上限（参见引理2）。

有了这个引理，我们可以在算法1的第10行之前实现以下修剪规则。我们计算，然后将其与（即第k个洞察得分）进行比较。如果，那么我们跳过第10-14行的执行。

6.2子空间排序上述修剪规则的有效性（参见第6.1节）取决于（即到目前为止发现的第k个洞察力分数）。为了能够进行有效的修剪，希望尽早获得高。因此，我们提出了在算法1中重新排序外部和内部循环（第15-18行）的技术。

外循环的排序（第15-16行）：观察到上限分数= Imp（S‘）仅取决于S’。因此，我们建议在第16行为每个子空间S‘计算，然后按的降序检查这些子空间。

内循环的排序（第17-18行）：直观的策略是按域大小

dom（Dj）

的升序对维度进行排序。当

dom（Dj）

虽然很小，但很少会产生子空间，并且每个子空间的平均影响预计会很高。这将增加早期获得高的可能性。

6.3兄弟立方体在计算每个SUM（S）的哈希表查找操作和现子空间排序的排序操作（参见第6.2节）中产生了显着的开销。

在本节中，我们提出了一个兄弟多维数据集，以减少哈希表中的查找操作数。此外，我们的兄弟多维数据集可以避免在我们的框架中进行冗余排序操作。

6.3.1兄弟立方体结构我们的兄弟立方体设计的方式更适合我们框架中使用的操作。具体来说，我们的兄弟立方体是以下长方体的集合：

按照5.2节中的示例，我们考虑具有模式（A，B，C，M）的数据集。我们将数据立方体与图9中的兄弟立方体进行比较。数据立方体中的立方体包含许多单元格（参见图9（a））。另一方面，兄弟立方体中的长方体包含较少的细胞，但每个细胞存储更多信息（见图9（b））。

与数据立方体相比，兄弟立方体在最坏的情况下最多占用空间的d倍。尽管如此，冰山立方体技术[8]可以用来显着缩小我们的立方体尺寸。具体而言，我们仅存储其度量高于数据集中的minsup％（例如，0.1％）度量的条目。我们的实验研究表明，我们的兄弟立方体足够小，可以放入主记忆中。

在下面的讨论中，我们演示了在数据立方体上使用兄弟多维数据集的优势。

6.3.2减少哈希表查找操作我们在第5节中的算法执行此操作：“给定兄弟组SG（S，Di），检索每个子空间S02SG（S，Di）的SUM（S 0）。”

例如，我们将SG（ha1，⇤i，B）作为兄弟组并假设dom（B）= {b1，b2，b3}。当使用传统的数据立方体时，我们向图9（a）中的长方体发出三个查找操作ha1，b1i，ha1，b2i，ha1，b3i。

使用我们的兄弟立方体，只需向图9（b）中的长方体发出一个查找操作（a1）就足够了。然后，我们可以检索ha1，b3 i，ha1，b2 i，ha1，b1 i的条目列表，并按顺序处理列表。

除了减少查找操作之外，兄弟多维数据集还改进了数据访问局部性（例如，将随机访问转换为顺序访问）并有利于CPU缓存的性能[7]。

6.3.3避免循环排序中的排序操作当我们在算法1中的第15-16行实现外循环排序（参见第6.2节）时，我们需要按照上限分数的降序对子空间S0 2 SG（S，Di）进行排序（可以从SUM值导出））。

使用我们的兄弟立方体，我们可以直接检索排序列表并避免即时排序操作。

我们用上述优化技术扩展了计算框架（算法1），然后在附录E.1中提出了优化的计算框架（算法3）。

7.计算共享本节介绍计算共享技术，以进一步加速我们的解决方案

7.1在同级组内共享

首先，我们在一个例子中确定兄弟群体内的分享机会。然后，我们设计共享的条件。

例如，假设我们在兄弟组SG（<*，B>，Year）上应用复合提取器Ce = <(SUM，Sales),(％，Year)>。观察到这些树在级别1具有相同的内容，如红色矩形所示。为了降低计算成本，我们建议识别共享内容并仅计算一次，如图11（b）所示。

我们发现当满足某些条件时可以节省大量计算。具体来说，我们在引理3中证明，如果兄弟组SG（S，Di）和Ce的最后一个提取器具有相同的维度（即Ce=，那么我们可以在级别处共享中间结果。

7.2跨兄弟群组共享我们继续调查跨多个兄弟群体的分享机会。

考虑我们在算法1中的计算框架。在修复复合提取器Ce（在第4行）之后，我们枚举兄弟组并在每个组上应用Ce。在这个例子中，我们假设Ce = h（SUM，Sales），（％，Brand）i。图10（a）说明当我们在多个兄弟群体上应用Ce时的计算过程：SG（h2010，⇤i，Brand）···SG（h2014，⇤i，Brand），然后是SG（h⇤，嗨，年）···SG（h⇤，Fi，年）。观察到，在级别2，绿色矩形中的派生度量与红色矩形中的度量相同。这是因为某些子空间（h2010，Hi：42％）出现在多个兄弟组（SG（h2010，⇤i，Brand）和SG（h⇤，Hi，Year））中。

我们用图10（b）中的例子说明了这种方法的工作原理。我们使用临时哈希表来存储我们在之前处理过的子空间S0（在其他兄弟组中）的已确定度量S0.M0。最初是空的。首先，我们检查SG（h2010，⇤i，Brand），并处理四个子空间h2010，Fi，h2010，Bi，h2010，Hi，h2010，Ti。由于是空的，我们需要计算上述子空间的派生度量，然后将它们插入。同样地，当我们检查SG（h2011，⇤i，Brand），···，SG（h2014，⇤i，Brand）时，我们会填充。最后，当我们检查SG（h⇤，Hi，Year）时，我们可以找到它的子空间，从而直接检索它们的派生度量。

然后，我们讨论如何将上述技术融入我们的算法中。首先，我们应用上述技术并获得附录E.3中的高效计算引擎（算法5）。其次，通过使用第6节和第7节中的所有技术，我们在附录E.4中为洞察提取层提供了一个有效的计算框架（算法6）。

8.有效性研究在本节中，我们通过（1）案例研究，（2）洞察力实用研究，以及（3）对真实数据集的人力研究来评估top-k洞察力提取系统的有效性。

8.1案例研究我们收集以下两个真实数据集（即汽车销售和平板电脑销售），然后展示从这些数据集中获得的见解。

汽车销售数据集9：数据集包含276个元组。每个元组（即汽车）都有4个维度和一个度量销售额。维度的域大小为：Year (5), Brand (8), Category (8) 和 Model(55)。

平板电脑销售数据集10：数据集包含20,685个元组。每个元组（即平板电脑）具有11个维度和度量销售额。维度的域大小为：Year (11), CPU (2), OS (7), Connectivity (5), Price (23), Region (9), Country (54), Product (2), Resolution (18), Size (9) 和 Vendor (157)。

表5显示了汽车销售和平板电脑销售的top-2个见解，分别为τ= 2和τ= 3。为方便起见，我们在表5中省略了兄弟组中的。例如，SG({SUV},Year)相当于SG（<,,SUV, >,Year）。然后，我们将详细介绍图12至图15中的一些见解。

汽车销售的见解：

我们首先将我们的洞察与汽车销售的原始汇总结果进行比较。图12(a)中的top-2形状洞察来自于表5(a)。 SG(<，，SUV，* >，Year）意味着我们按年比较SUV汽车。它的提取器Ce = <SUM,Sales),(%,Category)>，分析所有类别中SUV销售的百分比。图12（a）显示这样的百分比随着年份而增加。但是，图12（b）中的原始聚合结果并未显示此信息。

图13（a）指的是top-1点洞察力（Outstanding的No.1）见表5（b）。它的SG((< ，，SUV，* >，Year）意味着我们按年比较SUV 的车。它的提取器，我们分析SUV的年度份额超过所有类别的年平均份额。图13（a）显示，2014年，SUV与其他年份相比具有最大的优势。但是，图13（b）中的原始聚合结果并未显示此信息。

平板电脑销售的见解：

我们将我们的见解与平板电脑销售的原始汇总结果进行比较。图14(a)即表5(c)中的top-1形状洞察。其意味着我们按年比较平板电脑的销售额。它的Ce = 意味着我们分析连续年份之间的增量销售额。如图14（a）所示，增量销售额随着年份而下降。相比之下，图14（b）中的原始聚合结果仅显示了上升趋势，但它不像上述见解那样具有信息性。

图15（a）是指表5（d）中的前1点洞察（最后的突出）。它的意味着我们比较平板电脑的销售额。它的提取器意味着我们分析每年的增量销售额超过所有年份的增量销售额的平均值。图15（b）显示，与其他年份相比，07/2012是“出色的最后一次”。另一方面，图15（b）中的原始聚合结果没有揭示上述见解。

8.2洞察力研究在本节中，我们将评估来自一家领先IT公司的6位领域专家对top-k见解的效用。

实习生数据集：该数据集从2012年至2016年从上述IT公司的大学关系（UR）团队获得。它包含1,201个元组。每个元组（即实习生）都有15个维度。维度的域名大小为：年（4），组（50），姓名（1109），全时（2），开始季度（13），结束季度（13），持续时间（4），导师（300），国籍（16），学位（3），Origin（20），University（200），Department（813），Research Area（511），Advisor（831）。在本研究中，聚合函数为COUNT。

研究方法：我们首先使用深度2和深度3复合提取器提取前5个洞察，并在附录G的表9中说明这些见解。由于数据提供者的保密原因，我们通过伪值对某些属性进行匿名化（例如，A，B，C，D）。

在下面的用户研究中，我们邀请了3位UR经理和3位数据分析师（来自上述IT公司）并将其称为域专家，因为他们之前已对此数据集进行过分析。我们与他们进行一对一的访谈，根据我们的见解收集他们的评论，并要求他们通过以下两个指标评估这些见解：

1.有用性:(从1到5），得分越高表示更有用的洞察力。

2.难度:(从1到5），较高的分数表示通过使用现有的数据分析工具（即，Microsoft Excel数据透视表）更难以获得洞察力。

结果和反馈：在这些访谈中，领域专家欣赏我们的top-k见解并发现它们非常有用。他们一致认为我们的大部分见解都是可行的。例如，UR团队可以采取措施改善某个地区的实习生多样性，或者进一步分析一些关于办理登机手续和结账实习生人数的异常季度的根本原因。

我们在表9中报告了领域专家对我们的前5个见解的评分。深度2见解和深度3见解的平均有用性得分分别为3.24和3.76。另一方面，深度2见解和深度3见解的平均难度分数分别为2.88和4.12。总之，领域专家一致认为深度3见解更有用。但是，这些观点很难用他们的数据分析工具来总结。

附： B 有效性：

定义7（在兄弟组上提取器的有效性）：

实例: 在图(18)中，一个兄弟组 SG(<,F>,Year) 对于提取器 Ce = <(SUM,Sales),(%,Year)>,是有效的，维度 ‘Year’ 在 Ce[2] 有已知的值在每一个子空间 SG(<,F>,Year).上。然而, 对于相同的提取器兄弟组 SG(<,>Brand) 则是无效的，因为兄弟组 SG(<,>Brand) 没有维度 ‘Year’。

C 相关性洞察

 相关洞察：给定两个兄弟组和，其中Di是有序维度，正/负相关洞察意味着度量值和在Di呈现正/ 否 相关性。

我们用复合提取器Ce计算两个兄弟组（即和）的计算结果，在两个时间序列X和Y上。通常，数据分析师对正/负相关时间感兴趣。

因此，我们将相关洞察力的零假设设置为：

p-value 值揭示了（X，Y）的相关性与零假设H0的差值，相关系数遵循正态分布，其中μ= 0，δ= 0.05。因此，可以通过来计算两个时间序列的相关性的p值。

我们计算汽车销售数据集的一些相关性见解，然后简要讨论它们。汽车销售数据集的前2个相关见解在图21（a）和（b）中可视化。图21（a）显示品牌T的销售百分比与2010年至2014年整个汽车市场的百分比正相关。然而，微型汽车Subcompact（即Category = Subcompact）销售的百分比与 2010年至2014年整个汽车市场的百分比，如图21（b）所示。

CATALOG