如果不能用Python执行机器学习,那该用什么呢?

 本文转载自公众号“读芯术”(ID:AI_Discovery)

长期学习数据科学的人一定知道如何用Python、R和Julia这些语言执行机器学习任务。然而,如果速度很关键,但硬件很有限,或者所在公司仅使用SQL进行预测分析,又该怎么办呢?答案就是——数据库内的机器学习。

本文使用的是Oracle Cloud。它是免费的,你可以注册并创建一个OLTP数据库 (19c版本,有0.2TB的存储空间)。完成之后,下载云钱包并通过SQL Developer或任何其他工具建立连接。这个过程至少要花费10分钟,但操作很简单,所以这里不多做赘述。

下面将使用Oracle机器学习(OML)在著名的Iris数据集中训练一个分类模型。选择它是因为无须任何准备,只需要创建表格并插入数据。

数据准备

如前所述,要创建一个表格来保存Iris数据集,然后将数据加载到其中。OML要求使用一个列作为行ID(序列),因此要记住:

 
 
 
 
  1. CREATE SEQUENCE seq_iris;
  2. CREATE TABLE iris_data(
  3.     iris_id      NUMBER DEFAULT seq_iris.NEXTVAL,
  4.     sepal_length NUMBER,
  5.     sepal_width  NUMBER,
  6.     petal_length NUMBER,
  7.     petal_width  NUMBER,
  8.     species      VARCHAR2(16)
  9. );

现在可以下载数据并进行加载了:

当一个模态窗口弹出时,只需提供下载CSV的路径并多次点击Next。SQL开发员无需帮助也能正确完成工作。

模型训练

现在可以动手做一些有趣的事情了。训练分类模型可以分解为多个步骤,例如训练/测试分割、模型训练和模型评估,我们从最简单的开始。

训练/测试分割

Oracle常用两个视图完成该步骤:一个用于训练数据,一个用于测试数据。可以轻松创建这些神奇PL/SQL:

 
 
 
 
  1. BEGIN
  2.     EXECUTE IMMEDIATE 
  3.         ‘CREATE OR REPLACE VIEW 
  4.         iris_train_data AS 
  5.         SELECT * FROM iris_data 
  6.         SAMPLE (75) SEED (42)’;
  7.     EXECUTE IMMEDIATE 
  8.         ‘CREATE OR REPLACE VIEW 
  9.         iris_test_data AS 
  10.         SELECT * FROM iris_data 
  11.         MINUS 
  12.         SELECT * FROM iris_train_data’;
  13. END;
  14. /

该脚本完成下列两件事:

  • 创建一个训练视图-75%的数据 (SAMPLE (75)) 在随机种子42中分割( SEED (42))。
  • 创建一个测试视图-区分整个数据集和训练视图

数据储存在叫做iris_train_data和iris_test_data的视图中,猜猜看它们分别存什么。

 
 
 
 
  1. SELECT COUNT(*) FROM iris_train_data;
  2. >>> 111
  3. SELECT COUNT(*) FROM iris_test_data;
  4. >>> 39

模型训练

模型训练最简单的方法是无须创建额外的设置表格,只执行单一过程的DBMS_DATA_MINING包。使用决策树算法来训练模型。方法如下:

 
 
 
 
  1. DECLARE 
  2.     v_setlstDBMS_DATA_MINING.SETTING_LIST;
  3. BEGIN
  4.     v_setlst(‘PREP_AUTO’) := ‘ON’;
  5.     v_setlst(‘ALGO_NAME’) :=‘ALGO_DECISION_TREE’;
  6.  
  7.     DBMS_DATA_MINING.CREATE_MODEL2(
  8.         ‘iris_clf_model’,
  9.         ‘CLASSIFICATION’,
  10.         ‘SELECT * FROM iris_train_data’,
  11.         v_setlst,
  12.         ‘iris_id’,
  13.         ‘species’
  14.     );
  15. END;
  16. /

CREATE_MODEL2过程接受多种参数。接着我们对进入的参数进行解释:

  • iris_clf_model — 只是模型名称,它可以是任何东西。
  • CLASSIFICATION — 正在进行的机器学习任务,因某种原因必须大写。
  • SELECT * FROM iris_train_data — 指定训练数据存储位置。
  • v_setlst — 模型的上述设置列表。
  • iris_id — 序列类型列的名称(每个值都是唯一的)。
  • species — 目标变量的名称(试图预测的东西)

执行这一模块需要一到两秒钟,执行完毕就可以开始计算了!

模型评价

使用该脚本评估此模型:

 
 
 
 
  1. BEGIN
  2.     DBMS_DATA_MINING.APPLY(
  3.         ‘iris_clf_model’, 
  4.         ‘iris_test_data’, 
  5.         ‘iris_id’, 
  6.         ‘iris_apply_result’
  7.     );
  8. END;
  9. /

它将iris_clf_model应用于不可见测试数据iris_test_data,并将评估结果存储到iris_apply_result表中。

行数更多(39×3),但突显了要点。这还不够直观,所以下面以一种稍微不同的方式来展示结果:

 
 
 
 
  1. DECLARE 
  2.      CURSOR iris_ids IS 
  3.          SELECT DISTINCT(iris_id) iris_id
  4.          FROM iris_apply_result 
  5.          ORDER BY iris_id;
  6.      curr_y      VARCHAR2(16);
  7.      curr_yhat   VARCHAR2(16);
  8.      num_correct INTEGER := 0;
  9.      num_total   INTEGER := 0;
  10. BEGIN
  11.     FOR r_id IN iris_ids LOOP
  12.         BEGIN
  13.             EXECUTE IMMEDIATE 
  14.                 ‘SELECT species FROM 
  15.                 iris_test_data 
  16.                 WHERE iris_id = ‘ ||r_id.iris_id
  17.                 INTO curr_y;
  18.             EXECUTE IMMEDIATE 
  19.                 ‘SELECT prediction 
  20.                 FROM iris_apply_result 
  21.                 WHERE iris_id = ‘ ||r_id.iris_id || 
  22.                ‘AND probability = (
  23.                    SELECTMAX(probability) 
  24.                        FROMiris_apply_result 
  25.                        WHERE iris_id = ‘|| r_id.iris_id || 
  26.                    ‘)’ INTO curr_yhat;
  27.         END;
  28.  
  29.         num_total := num_total + 1;
  30.         IF curr_y = curr_yhat THEN 
  31.             num_correct := num_correct +1;
  32.         END IF; 
  33.     END LOOP;
  34.  
  35.     DBMS_OUTPUT.PUT_LINE(‘Num. testcases: ‘ 
  36.         || num_total);
  37.     DBMS_OUTPUT.PUT_LINE(‘Num. correct :‘ 
  38.         || num_correct);
  39.     DBMS_OUTPUT.PUT_LINE(‘Accuracy : ‘ 
  40.         || ROUND((num_correct /num_total), 2));
  41. END;
  42. /

确实很多,但上述脚本不能再简化了。下面进行分解:

  • CURSOR—得到所有不同的iris_ids(因为iris_apply_results 表中有重复)。
  • curr_y, curr_yhat, num_correct, num_total 是存储每次迭代中的实际种类和预测种类、正确分类数量和测试项总数的变量。
  • 对于每个唯一的iris_id 得到实际种类(来自匹配ID的iris_test_data)和预测种类(在 iris_apply_results 表中预测概率最高)
  • 轻松检查实际值和预测值是否相同——这表明分类是正确的。
  • 变量 num_total 和 num_correct 在每次迭代中更新。
  • 最后,将模型性能打印到控制台。

下面为该脚本输出:

  • 测试集有39个用例
  • 39个样本中,正确分类的有37个
  • 结果准确率为95%

以上就是模型评估的基本内容。

并不是所有人在工作中都能使用Python,现在,你又掌握了一种解决机器学习任务的方法。

当前文章:如果不能用Python执行机器学习,那该用什么呢?
当前链接:http://www.csdahua.cn/qtweb/news22/352072.html

网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网