AiLi Blog

远方

通过Anaconda打造集群pyspark上的Python环境

通过Anaconda打造集群pyspark上的Python环境

前言 前言:网上的参考链接:https://luzhijun.github.io/2017/12/10/pyspark%E4%BE%9D%E8%B5%96%E9%83%A8%E7%BD%B2/ 下面开始详细步骤: 一. 开发机 由于集群是Linux系统,所以我们自己打包的Python环境最好也要在Linux环境下进行。 二. 下载Anaconda An...

ERROR: Command errored out with exit status 1

rror in sagemaker setup command: 'extras_require' must be a dictionary

本篇为安装数据科学使用的包的过程中出现的错误 错误log: 1 2 3 error in sagemaker setup command: 'extras_require' must be a dictionary whose values are strings or lists of strings containing valid project/version requ...

从多维数据中快速发现top-k见解

从多维数据中快速发现top-k见解

OLAP工具已被企业广泛使用,以做出更好的决策。但这些工具的分析过程仍然需要用户在OLAP查询中进行繁琐的试验指定维度组合,手动提出查询,分析结果然后得到分析结论。本文首次尝试从多维数据中自动提取top-k洞察。因此提出洞察的概念,来获取从多个步骤的聚合结果导出的有趣观点(例如,按维度排序,通过维度计算度量的百分比)。 实例: 我们有如下一个汽车销售数据集(年份,品牌,类别,销售)。OLA...

散列/哈希函数


无重复字符的最长子串

The longest substring without duplicate characters

题目:无重复字符的最长子串 给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。 示例 1: 输入: “abcabcbb” 输出: 3 解释: 因为无重复字符的最长子串是 “abc”,所以其长度为 3。 示例 2: 输入: “bbbbb” 输出: 1 解释: 因为无重复字符的最长子串是 “b”,所以其长度为 1。 示例 3: 输入: “pw...

散列/哈希函数

什么是哈希 散列(英语:Hashing)是计算机科学中一种对数据的处理方法,通过某种特定的函数/算法(称为散列函数/算法)将要检索的项与用来检索的索引(称为散列,或者散列值)关联起来,生成一种便于搜索的数据结构(称为散列表)。 哈希函数就是一种映射,是从关键字到存储地址的映射。 应用 密码学: MD5,SHA-256 数据结构: 特征 输入长度可以是任意...

Avoiding success at all cost

Watching "Escape from the Ivory Tower: The Haskell Journey"

“Avoiding success at all cost” is the informal motto behinds Haskell. It could be parenthesized in two ways, either “Avoiding (success at all cost)” or “(Avoiding sucess) (at all cost)”. I’m not going to interpret them directly but rather to share some thoughts on “the success vs. costs” basing ...

程序员中的梦想家

Dreamers among programmers

本文首发于我的知乎专栏 The Little Programmer,转载请保留链接 ;) 有一类程序员是 visionary 型的,为了实现一些超前的 idea,绕过某些技术的限制,他们写的 code 晦涩高深得只有他们自己能懂,做出来的 tool 看上去很美好结果处处是坑出了 bug 根本没法查,但正是这类人不断创造出新的东西,在洗礼之后成为一个个 big thing。 我每周...

「知乎」如何通俗地解释停机问题?

How to explain the Halting Problem?

这篇文章转载自我在知乎上的回答 我用 Python 伪代码来解释下,我觉得对这个问题有兴趣的应该都是有点编程基础的,所以直接上 code 应该是最容易的。 背景知识 「停机问题」研究的是:是否存在一个「程序」,能够判断另外一个「程序」在特定的「输入」下,是会给出结果(停机),还是会无限执行下去(不停机)。 在下文中,我们用「函数」来表示「程序」,「函数返回」即表示给出了结果。...

如何客观地评价「小程序」的体验?

Wechat Mini-Program vs. the Web, a UX comparison

本文首发于我的知乎专栏 The Little Programmer,转载请保留链接 ;) 2017 年 1 月 9 号凌晨,看完《星战》回家,发现朋友圈都炸了……原来是「小程序」如约公测(以下简称小程序)。果然贵圈人都睡得晚啊,一个个大半夜了精神得不行。 截图推荐什么的已经漫天都是了,而且连 「推荐小程序的小程序」都已经出现了,我们就直入正题吧,今天笔者不跟你们聊情怀,就聊体验:...