php实现大数据分析 php能做大数据吗

PHP的性能探讨和测试

缘起

创新互联建站-专业网站定制、快速模板网站建设、高性价比朝天网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式朝天网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖朝天地区。费用合理售后完善,十多年实体公司更值得信赖。

关于PHP 很多人的直观感觉是PHP是一种灵活的脚本语言 库类丰富 使用简单 安全 非常适合WEB开发 但性能低下 PHP的性能是否真 的就如同大家的感觉一样的差呢?本文就是围绕这么一个话题来进行探讨的 从源码 应用场景 基准性能 对比分析等几个方面深入分析PHP之性能问题 并通 过真实的数据来说话

从原理分析PHP性能

从原理分析PHP的性能 主要从以下几个方面 内存管理 变量 函数 运行机制来进行分析

内存管理

类似Nginx的内存管理方式 PHP在内部也是基于内存池 并且引入内存池的生命周期概念 在内存池方面 PHP对PHP脚本和扩展的所有内 存相关操作都进行了托管 对大内存和小内存的管理采用了不同的实现方式和优化 具体可以参考以下文档 在内存分配和回收的生命周期内 PHP采用一次初始化申请+动态扩容+内存标识回收机制 并且在每次请求结束后直 接对内存池进行重新mask

变量

总所周知 PHP是一种弱变量类型的语言 所以在PHP内部 所有的PHP变量都对应成一种类型Zval 其中具体定义如下

图一PHP变量

在变量方面 PHP做了大量的优化工作 比如说Reference counting和copy on writer机制 这样能够保证内存使用上的优化 并且减少内存拷贝次数(请参考) 在数组方面 PHP内部采用高效的hashtable来实现

函数

在PHP内部 所有的PHP函数都回转化成内部的一个函数指针 比如说扩展中函数

ZEND_FUNCTION ( my_function );//类似function my_function(){}

在内部展开后就会是一个函数

void zif_my_function ( INTERNAL_FUNCTION_PARAMETERS );

void zif_my_function(

int ht

zval * return_value

zval * this_ptr

int return_value_used

zend_executor_globals * executor_globals

);

从这个角度来看 PHP函数在内部也是对应一个函数指针

运行机制

在话说PHP性能的时候 很多人都会说“C/C++是编译型 JAVA是半编译型 PHP是解释型” 也就是说PHP是先动态解析再代码运行的 所以从这个角度来看 PHP性能必然很差

的确 从PHP脚本运行来输出 的确是一个动态解析再代码运行的过程 具体来说 PHP脚本的运行机制如下图所示

图二 PHP运行机制

PHP的运行阶段也分成三个阶段

Parse 语法分析阶段

Compile 编译产出opcode中间码

Execute 运行 动态运行进行输出

所以说 在PHP内部 本身也是存在编译的过程 并且据此产生了大量的opcode cache工具 比如说apc eacc xcache等等 这些opcode cache在生产环境基本上在标配 基于opcode cache 能到做到“PHP脚本编译一次 多次运行”的效果 从这点上 PHP就和JAVA的半编译机制非常类似

所以 从运行机制上来看 PHP的运行模式和JAVA是非常类似的 都是先产生中间码 然后运行在不同虚拟机上

动态运行

从上面的几个分析来看 PHP在内存管理 变量 函数 运行机制等几个方面都做了大量的工作 所以从原理来看 PHP 不应该存在性能问题 性能至少也应该和Java 比较接近

这个时候就不得不谈PHP动态语言的特性所带来的性能问题了 由于PHP是动态运行时 所以所有的变量 函数 对象调用 作用域实现等等都是在 执行阶段中才确定的 这个从根本上决定了PHP性能中很难改变的一些东西 在C/C++等能够在静态编译阶段确定的变量 函数 在PHP中需要在动态运行 中确定 也就决定了PHP中间码不能直接运行而需要运行在Zend Engine上

说到PHP变量的具体实现 又不得不说一个东西了 Hashtable Hashtable可以说在PHP灵魂之一 在PHP内部广泛用到 包含变量符号栈 函数符号栈等等都是基于hashtable的

以PHP变量为例来说明下PHP的动态运行特点 比如说代码

?php

$var = “hello  blog xiuwz ”;

?

该代码的执行结果就是在变量符号栈(是一个hashtable)中新增一个项

当要使用到该变量时候 就去变量符合栈中去查找(也就是变量调用对出了一个hash查找的过程)

同样对于函数调用也基本上类似有一个函数符号栈(hashtable)

其实关于动态运行的变量查找特点 在PHP的运行机制中也能看出一些 PHP代码通过解释 编译后的流程下图

图 PHP运行实例

从上图可以看出 PHP代码在pile之后 产出的了类符号表 函数符号表 和OPCODE 在真正执行的时候 zend Engine会根据op code去对应的符号表中进行查找 处理

从某种程度上 在这种问题的上 很难找到解决方案 因为这是由于PHP语言的动态特性所决定的 但是在国内外也有不少的人在寻找解决方案 因为 通过这样 能够从根本上完全的优化PHP 典型的列子有facebook的hiphop

结论

从上面分析来看 在基础的内存管理 变量 函数 运行机制方面 PHP本身并不会存在明显的性能差异 但由于PHP的动态运行特性 决定了 PHP和其他的编译型语言相比 所有的变量查找 函数运行等等都会多一些hash查找的CPU开销和额外的内存开销 至于这种开销具体有多大 可以通过后 续的基准性能和对比分析得出

因此 也可以大体看出PHP不太适合的一些场景 大量计算性任务 大数据量的运算 内存要求很严格的应用场景 如果要实现这些功能 也建议通过扩展的方式实现 然后再提供钩子函数给PHP调用 这样可以减低内部计算的变量 函数等系列开销

基准性能

对于PHP基准性能 目前缺少标准的数据 大多数同学都存在感性的认识 有人认为 QPS就是PHP的极限了 此外 对于框架的性能和框架对性能的影响很没有响应的权威数字

本章节的目的是给出一个基准的参考性能指标 通过数据给大家一个直观的了解

具体的基准性能有以下几个方面

裸PHP性能 完成基本的功能

裸框架的性能 只做最简单的路由分发 只走通核心功能

标准模块的基准性能 所谓标准模块的基准性能 是指一个具有完整服务模块功能的基准性能

环境说明

测试环境

Uname aPnux db forum test db baidu _ # SMP Wed Aug   : : CST x _ x _ x _ GNU/Pnux

Red Hat Enterprise Pnux AS release (Nahant Update )

Intel(R) Xeon(R) CPU           E   @ GHz

软件相关

Nginx nginx version: nginx/   built by gcc (Red Hat )

Php (采用php fpm)

PHP (cP) (built: Mar  : : )

Copyright (c) The PHP Group

Zend Engine v Copyright (c) Zend Technologies

with eAccelerator v Copyright (c) eAccelerator by eAccelerator

bingo

PHP框架

其他说明

目标机器的部署方式 nginx php fpm php脚本

测试压力机器和目标机器独立部署

裸PHP性能

最简单的PHP脚本

?php

require_once ‘ /actions/indexAction php’;

$objAction = new indexAction();

$objAction init();

$objAction execute();

?

Acitons/indexAction php里面的代码如下

?php

class indexAction

{

pubPc function execute()

{

echo ‘hello  world!’;

}

}

?

通过压力工具测试结果如下

裸PHP框架性能

为了和 的对比 基于bingo 框架实现了类似的功能 代码如下

?php

require_once ‘Bingo/Controller/Front php’;

$objFrontController = Bingo_Controller_Front::getInstance(array(

‘actionDir’ = ‘ /actions’

));

$objFrontController dispatch();

压力测试结果如下

从该测试结果可以看出 框架虽然有一定的消耗 但对整体的性能来说影响是非常小的

标准PHP模块的基准性能

所谓标准PHP模块 是指一个PHP模块所必须要具体的基本功能

路由分发

自动加载

LOG初始化Notice日志打印 所以的UI请求都一条标准的日志

错误处理

时间校正

自动计算每个阶段耗时开销

编码识别编码转化

标准配置文件的解析和调用

采用bingo 的代码自动生成工具产生标准的测试PHP模块 test

测试结果如下

结论

从测试数据的结论来看 PHP本身的性能还是可以的 基准性能完全能够达到几千甚至上W的QPS 至于为什么在大多数的PHP模块中表现不佳 其实这个时候更应该去找出系统的瓶颈点 而是简单的说OK PHP不行 那我们换C来搞吧 (下一个章节 会通过一些例子来对比 采用C来处理不见得有特 别的优势)

通过基准数据 可以得出以下几个具体的结论

PHP本身性能也很不错 简单功能下能够达到 QPS 极限也能过W

PHP框架本身对性能影响非常有限 尤其是在有一定业务逻辑和数据交互的情况下 几乎可以忽略

一个标准的PHP模块 基准性能能够达到 QPS( cpu idle)

对比分析

lishixinzhi/Article/program/PHP/201311/21287

php采集大数据的方案

1、建议你读写数据和下载图片分开,各用不同的进程完成。

比如说,取数据用get-data.php,下载图片用get-image.php。

2、多进程的话,php可以简单的用pcntl_fork()。这样可以并发多个子进程。

但是我不建议你用fork,我建议你安装一个gearman worker。这样你要并发几个,就启几个worker,写代码简单,根本不用在代码里考虑thread啊,process等等。

3、综上,解决方案这样:

(1)安装gearman worker。

(2)写一个get-data.php,在crontab里设置它每5分钟执行一次,只负责读数据,然后把读回来的数据一条一条的扔到 gearman worker的队列里;

然后再写一个处理数据的脚本作为worker,例如叫process-data.php,这个脚本常驻内存。它作为worker从geraman 队列里读出一条一条的数据,然后跟你的数据库老数据比较,进行你的业务逻辑。如果你要10个并发,那就启动10个process-data.php好了。处理完后,如果图片地址有变动需要下载图片,就把图片地址扔到 gearman worker的另一个队列里。

(3)再写一个download-data.php,作为下载图片的worker,同样,你启动10个20个并发随便你。这个进程也常驻内存运行,从gearman worker的图片数据队列里取数据出来,下载图片

4、常驻进程的话,就是在代码里写个while(true)死循环,让它一直运行好了。如果怕内存泄露啥的,你可以每循环10万次退出一下。然后在crontab里设置,每分钟检查一下进程有没有启动,比如说这样启动3个process-data worker进程:

* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php /dev/null 21'

不知道你明白了没有

全类分析是大数据挖掘算法吗

、预测建模:将已有数据和模型用于对未知变量的语言。

分类,用于预测离散的目标变量。

回归,用于预测连续的目标变量。

2、聚类分析:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。

3、关联分析(又称关系模式):反映一个事物与其他事物之间的相互依存性和关联性。用来发现描述数据中强关联特征的模式。

4、异常检测:识别其特征显著不同于其他数据的观测值。

有时也把数据挖掘分为:分类,回归,聚类,关联分析。

二、大数据分析方法,常用的哪些

数据分析的目的越明确,分析越有价值。明确目的后,需要梳理思路,搭建分析框架,把分析目的分解成若干个不同的分析要点,然后针对每个分析要点确定分析方法和具体分析指标;最后,确保分析框架的体系化(体系化,即先分析什么,后分析什么,使得各个分析点之间具有逻辑联系),使分析结果具有说服力。

大数据分析方法主要有4种,分别为:

可视化分析、数据挖掘算法、预测性分析能力、数据质量和数据管理。

三、大数据分析的理论核心就是什么算法

大数据分析在计算方面最重要的核心算法就是map和reduce。

四、PHP的算法可以实现大数据分析吗?

首先,算法和语言无关;

其次,php的优势在于web开发,其它方面也可以应用,但并不主流;

大数据处理java、python之类更好些,任何方面的应用最重要的其实是生态系统是否完善。

五、大数据的分析手段有哪些?

1.分类

分类是一种根本的数据剖析办法,数据依据其特色,可将数据对象划分为不同的部分和类型,再进一步剖析,可以进一步发掘事物的实质。

2.回归

回归是一种运用广泛的计算剖析办法,可以通过规定因变量和自变量来确认变量之间的因果关系,树立回归模型,并依据实测数据来求解模型的各参数,然后点评回归模型是否可以很好的拟合实测数据,如果可以很好的拟合,则可以依据自变量作进一步猜测。

3.聚类

聚类是依据数据的内涵性质将数据分红一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性不同尽可能大的一种分类办法,其与分类剖析不同,所划分的类是不知道的,因而,聚类剖析也称为无指导或无监督的学习。

4.类似匹配

类似匹配是通过必定的办法,来计算两个数据的类似程度,类似程度一般会用一个是百分比来衡量。类似匹配算法被用在许多不同的计算场景,如数据清洗、用户输入纠错、推荐计算、剽窃检测体系、主动评分体系、网页查找和DNA序列匹配等范畴。

5.频频项集

频频项集是指案例中频频出现的项的集合,如啤酒和尿不湿,Apriori算法是一种发掘关联规矩的频频项集算法,其核心思想是通过候选集生成和情节的向下关闭检测两个阶段来发掘频频项集,现在已被广泛的应用在商业、网络安全等范畴。

关于大数据的分析手段有哪些,青藤小编就和您分享到这里了。如果你对大数据工程有浓厚的兴趣,希望这篇文章能够对你有所帮助。如果您还想了解更多数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

六、大数据分析的基础是什么?

1、可视化分析

大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。

2、数据挖掘算法

大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。

3、预测性分析能力

大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。

4、语义引擎

大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。

5、数据质量和数据管理

大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。 大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

php能做大数据分析吗

数据挖掘现在用的比较多的是python。

数据分析这块现在用的比较多的是scala。

php不适合做大数据分析

大数据分析如何实现

     搭建大数据分析平台的工作是循序渐进的,不同公司要根据自身所处阶段选择合适的平台形态,没有必要过分追求平台的分析深度和服务属性,关键是能解决当下的问题。

大数据分析平台是对大数据时代的数据分析产品(或称作模块)的泛称,诸如业务报表、OLAP应用、BI工具等都属于大数据分析平台的范畴。与用户行为分析平台相比,其分析维度更集中在核心业务数据,特别是对于一些非纯线上业务的领域,例如线上电商、线下零售、物流、金融等行业。而用户行为分析平台会更集中分析与用户及用户行为相关的数据。

企业目前实现大数据分析平台的方法主要有三种:

(1)采购第三方相关数据产品

例如Tableau、Growing IO、神策、中琛魔方等。此类产品能帮助企业迅速搭建数据分析环境,不少第三方厂商还会提供专业的技术支持团队。但选择此方法,在统计数据的广度、深度和准确性上可能都有所局限。例如某些主打无埋点技术的产品,只能统计到页面上的一些通用数据。

随着企业数据化运营程度的加深,这类产品可能会力不从心。该方案适合缺少研发资源、数据运营初中期的企业。一般一些创业公司、小微企业可能会选择此方案。

(2)利用开源产品搭建大数据分析平台

对于有一定开发能力的团队,可以采用该方式快速且低成本地搭建起可用的大数据分析平台。该方案的关键是对开源产品的选择,选择正确的框架,在后续的扩展过程中会逐步体现出优势。而如果需要根据业务做一些自定义的开发,最后还是绕不过对源码的修改。

(3)完全自建大数据分析平台

对于中大型公司,在具备足够研发实力的情况下,通常还是会自己开发相关的数据产品。自建平台的优势是不言而喻的,企业可以完全根据自身业务需要定制开发,能够对业务需求进行最大化的满足。

对于平台型业务,开发此类产品也可以进行对外的商业化,为平台上的B端客户服务。例如淘宝官方推出的生意参谋就是这样一款成熟的商用数据分析产品,且与淘宝业务和平台优势有非常强的结合。

在搭建大数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。


分享题目:php实现大数据分析 php能做大数据吗
转载来源:http://csdahua.cn/article/hjicso.html
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流