-
最值得推荐的统计和数据分析好书之一
所属栏目:[大数据] 日期:2021-03-08 热度:175
副标题#e# 推荐一本统计和数据分析领域非常受欢迎的书,这书升级版原版评价甚至比第1版更好,中文版最近刚出版。后面的图中给出了豆瓣和知乎对第一版的评价,还有知乎受关注的相关问题的网址。 《R语言实战(第2版)》 R in Action ,Second Edition: Data a[详细]
-
大数加法、减法和乘法
所属栏目:[大数据] 日期:2021-03-08 热度:151
加法: #includestdio.h#includestring.h#includestdlib.hchar* add(const char *arr,const char *brr){ int lena=strlen(arr); int lenb=strlen(brr); int maxlen=(lenalenb)?lenb:lena; char* sum=(char*)malloc(maxlen+2); memset(sum,'0',maxlen+1); s[详细]
-
当我们谈大数据分析的时候,我们在谈什么?
所属栏目:[大数据] 日期:2021-03-08 热度:68
副标题#e# 数据分析是一个大话题,借这篇笔记整理一下自己的思路:数据分析是什么?涉及到哪些技术?有哪些数据公司玩家?如何定位数据分析的价值?如果选择数据分析作为自己的职业,需要掌握什么样的基本概念?希望帮助对于数据分析有兴趣的同学快速入门![详细]
-
【快讯】R语言在大数据统计分析中的应用及前景
所属栏目:[大数据] 日期:2021-03-08 热度:123
2016年6月8日下午,数据观—清华大数据“技术·前沿”系列思享会在清数D-LAB顺利举办。本次活动有幸邀请到美国普度大学统计系教授及清华大学统计学研究中心兼职教授朱宇进行R语言在大数据统计分析中的应用及前景主题分享。 本次讲座分别介绍了统计分析语言[详细]
-
精准测试新玩法の基于犯罪心理学挖掘代码风险
所属栏目:[大数据] 日期:2021-03-08 热度:59
副标题#e# 前言 ? 犯罪心理学还能用于挖掘代码风险? 挖掘出来的东西是什么? 挖掘出来的东东长什么样子? 挖掘出来能用来做什么? 具体怎么样挖掘呢? 这是本文的主要探讨的内容. ? 在大型的项目中,代码和模块的复杂度在很大程度上决定了测试任务的时间,?[详细]
-
常用的数据标准化方法
所属栏目:[大数据] 日期:2021-03-08 热度:172
数据的标准化(normalization)是将数据按照一定规则缩放,使之落入一个小的特定区间。这样去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化,当然,也有一些其他的标准化[详细]
-
BI Intelligence 报告:2016 年 5 大数字化趋势(附下载)
所属栏目:[大数据] 日期:2021-03-08 热度:196
副标题#e# C新智元编译?? ? 来 源:Business Insider 译者:闻菲 【新智元导读】Business Insider 网站日前公开了旗下调研团队 BI Intelligence 去年 2 月发布的调查报告,成功预测了消息APP成为新的OS和Bot的崛起。报告还预计物联网是下一场工业革命,将颠[详细]
-
HDU 1212 Big Number(大数取模)
所属栏目:[大数据] 日期:2021-03-08 热度:115
Big Number Time Limit: 2000/1000 MS (Java/Others)????Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 7063????Accepted Submission(s): 4866 Problem Description As we know,Big Number is always troublesome. But it's really imp[详细]
-
R语言:SMOTE - Supersampling Rare Events in R:用R对非平衡数
所属栏目:[大数据] 日期:2021-03-08 热度:73
副标题#e# SMOTE - Supersampling Rare Events in R:用R对稀有事件进行超级采样 在这个例子中将用到以下三个包 {DMwR} - Functions and data for the book “Data Mining with R” and SMOTE algorithm:SMOTE算法 {caret} - modeling wrapper,functions,com[详细]
-
寻找第K大数的方法
所属栏目:[大数据] 日期:2021-03-08 热度:135
寻找一堆数中第K大的数,第一感觉是排序,然后将排序之后的值取第K个。但是实际上,这种方式最少的时间复杂度是O(nlogn)。有更简单的方式可以实现线性的时间复杂度。 算法总是有穷尽的,而思想无穷尽,而实用算法的本质是用空间去换取时间。 这里的方案是[详细]
-
WindowsXP SP3 AFD.sys 本地拒绝服务漏洞的挖掘过程
所属栏目:[大数据] 日期:2021-03-07 热度:91
标 题: WindowsXP SP3 AFD.sys 本地拒绝服务漏洞的挖掘过程 时 间: 2013-03-17,15:22:33 这是本人第一次做漏洞挖掘,2月的时候开始研究漏洞挖掘技术,2月24号那天在进行Fuzz测试的时候偶然的发现了一个afd.sys未处理的异常,然后就对这个异常如获至宝的分[详细]
-
520我与大数据有个约会——上海大数据创新应用论坛完美落幕
所属栏目:[大数据] 日期:2021-03-07 热度:179
副标题#e# 2016年5月20日周五下午,由上海市大数据联盟牵头,慧与(中国)有限公司、联通小沃科技与华院数据共同承办,来自金融服务业、运营商、零售及电商、制造等行业的大数据应用先行者们为各行各业170余位来宾们打开了一扇通向大数据应用落地彼岸的智慧之[详细]
-
基因数据处理33之Avocado运行记录(参考基因组)
所属栏目:[大数据] 日期:2021-03-07 热度:200
1.数据下载: avocaodo的test resource中 2.预处理: cat Homo_sapiens_assembly19.fasta | grep -i -n '' Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19Head.txt cat Homo_sapiens_assembly19.fasta | head -34770016 |tail -787820 Homo[详细]
-
推荐 | 9个最佳的大数据处理编程语言
所属栏目:[大数据] 日期:2021-03-07 热度:134
副标题#e# 大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需要变得前所未有的巨大。 那么,在巨大的数据集[详细]
-
基因数据处理36之qc-metrics安装
所属栏目:[大数据] 日期:2021-03-07 热度:63
副标题#e# 更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 Read and variant metrics,useable for pipeline quality control purposes qc-metrics主要是用于read和变异的度量,流水线质量控制的目的 2.[详细]
-
基因数据处理34之使用samtools和bcftools进行变异分析
所属栏目:[大数据] 日期:2021-03-07 热度:136
1.指令: (1) samtools mpileup -vf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058.sorted.bam NA12878_snp_A2G_chr20_225058.variants 或者: samtools mpileup -vf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225[详细]
-
推荐系统技术 --- 文本相似性计算(二)
所属栏目:[大数据] 日期:2021-03-07 热度:197
副标题#e# 第一篇地址:推荐系统技术之文本相似性计算(一)上一篇中我们的小明已经中学毕业了,今天这一篇继续文本相似性的计算。首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量,并没有任何上下文的关系,所以思想还停留在机器层面,还没有[详细]
-
基因数据处理35之使用samtools和bcftools进行变异分析2--连续处
所属栏目:[大数据] 日期:2021-03-07 热度:122
指令: samtools mpileup -uf Homo_sapiens_assembly19chr20.fasta NA12878_snp_A2G_chr20_225058_longer.sorted.bam | bcftools call -mv NA12878_snp_A2G_chr20_225058_longer.raw.vcf bcftools filter -s LowQual -e '%QUAL20 || DP100' NA12878_snp_A2[详细]
-
nyoj 28 大数阶乘
所属栏目:[大数据] 日期:2021-03-07 热度:184
大数阶乘 时间限制: 3000?ms ?|? 内存限制: 65535?KB 难度: 3 描述 我们都知道如何计算一个数的阶乘,可是,如果这个数很大呢,我们该如何去计算它并输出它? 输入 输入一个整数m(0m=5000) 输出 输出m的阶乘,并在输出结束之后输入一个换行符 样例输入[详细]
-
机器学习中的相似性度量:距离,原来还有这么多类
所属栏目:[大数据] 日期:2021-03-06 热度:167
副标题#e# 来自:苍梧 - 博客园 链接:http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法[详细]
-
Twitter开源大数据实时分析系统Heron:Heron架构
所属栏目:[大数据] 日期:2021-03-06 热度:114
副标题#e# Heron架构 Heron是Apache Storm的一个直接继承者。从架构角度来看,它与Storm截然不同,但是从API的角度看它是完全向后兼容的。 下面的章节指明了Heron和Storm的区别,描述了Heron背后的设计目标,并解释了其架构的主要组件。 代码库 Heron代码库[详细]
-
大数据分析界的“神兽”Apache Kylin初解
所属栏目:[大数据] 日期:2021-03-06 热度:136
副标题#e# 转自李栋,来自Kyligence公司,也是Apache Kylin Committer PMC member,在加入Kyligence之前曾就职于eBay、微软。 今天分享的主题是:聊聊“神兽”Apache Kylin的最新特性。本次分享将首先对Apache Kylin进行基本介绍;接下来介绍1.5.x最新版本[详细]
-
kylin-BI工具-tableau9
所属栏目:[大数据] 日期:2021-03-06 热度:141
副标题#e# Tableau 9 Tableau 9.x has been released a while,there are many users are asking about support this version with Apache Kylin. With updated Kylin ODBC Driver,now user could interactive with Kylin service through Tableau 9.x. Apac[详细]
-
Presto随笔
所属栏目:[大数据] 日期:2021-03-06 热度:75
解决了什么问题 快读的交互式查询 presto 和hive到底什么关系 http://www.mutouxiaogui.cn/blog/?p=395 和hive在一个层级,都是基于hdfs的。但是presto可以借助hive的元信息找到hdfs上的节点。 presto现在已经可以连接 MySQL postgre hive等了 presto为什[详细]
-
HDOJ/HDU 5686 Problem B(斐波拉契+大数~)
所属栏目:[大数据] 日期:2021-03-06 热度:90
Problem Description 度熊面前有一个全是由1构成的字符串,被称为全1序列。你可以合并任意相邻的两个1,从而形成一个新的序列。对于给定的一个全1序列,请计算根据以上方法,可以构成多少种不同的序列。 Input 这里包括多组测试数据,每组测试数据包含一个[详细]
