百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

自动化的机器学习:5个常用AutoML 框架介绍

itomcoil 2024-12-28 13:35 33 浏览

AutoML 可以为预测建模问题自动找到数据准备、模型和模型超参数的最佳组合,本文整理了5个最常见且被熟知的开源AutoML 框架。

AutoML框架执行的任务可以被总结成以下几点:

  • 预处理和清理数据。
  • 选择并构建适当的特征。
  • 选择合适的模型。
  • 优化模型超参数。
  • 设计神经网络的拓扑结构(如果使用深度学习)。
  • 机器学习模型后处理。
  • 结果的可视化和展示。

在本文中,我们将介绍以下5 个开源 autoML 库或框架:

  • Auto-Sklearn
  • TPOT
  • Hyperopt Sklearn
  • Auto-Keras
  • H2O AutoML

1、Auto-Sklearn

Auto-sklearn 是一个开箱即用的自动化机器学习库。 auto-sklearn 以 scikit-learn 为基础,自动搜索正确的学习算法并优化其超参数。 通过元学习、贝叶斯优化和集成学习等搜索可以获得最佳的数据处理管道和模型。它可以处理大部分繁琐的工作,例如预处理和特征工程技术: One-Hot 编码、特征归一化、降维等。

安装:

#pip 
pip install auto-sklearn 
#conda 
conda install -c conda-forge auto-sklearn

因为进行了大量的封装,所以使用的方法sklearn基本一样,以下是样例代码:

import sklearn.datasets 
import sklearn.metrics 
import autosklearn.regression 
import matplotlib.pyplot as plt 
X, y = sklearn.datasets.load_diabetes(return_X_y=True) 
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, random_state=1) 
automl = autosklearn.regression.AutoSklearnRegressor( 
time_left_for_this_task=120, 
per_run_time_limit=30, 
tmp_folder='/tmp/autosklearn_regression_example_tmp', 
) 
automl.fit(X_train, y_train, dataset_name='diabetes')

2、TPOT

TPOT(Tree-based Pipeline Optimization Tool)是一个 Python 自动化机器学习工具,它使用遗传算法优化对机器学习的流程进行优化。它也是基于 Scikit-Learn 提供的方法进行数据转换和机器学习模型的构建,但是它使用遗传算法编程进行随机和全局搜索。以下是TPOT 搜索流程:

安装:

#pip 
pip insall tpot 
#conda 
conda install -c conda-forge tpot

样例代码:

from tpot import TPOTClassifier 
from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split 
from sklearn.datasets import load_iris 
import numpy as np 

iris = load_iris() 
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64), 
iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42) 

tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42) 
tpot.fit(X_train, y_train) 
print(tpot.score(X_test, y_test)) 
tpot.export('tpot_iris_pipeline.py')

3、HyperOpt-Sklearn:

HyperOpt-Sklearn 是 HyperOpt 的包装器,可以将 AutoML 和 HyperOpt 与 Scikit-Learn 进行整合,这个库包含了数据预处理的转换和分类、回归算法模型。文档中介绍说:它专为具有数百个参数的模型进行大规模优化而设计 并允许跨多核和多台机器扩展优化过程。

安装:

pip install hyperopt

样例代码:

from pandas import read_csv 
from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split 
from sklearn.metrics import mean_absolute_error 
from hpsklearn import HyperoptEstimator 
from hpsklearn import any_regressor 
from hpsklearn import any_preprocessing 
from hyperopt import tpe 
# load dataset 
iris = load_iris() 
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64), 
iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42) 
model = HyperoptEstimator(regressor=any_regressor('reg'), preprocessing=any_preprocessing('pre'), loss_fn=mean_absolute_error, algo=tpe.suggest, max_evals=50, trial_timeout=30) 
model.fit(X_train, y_train) 
# summarize performance 
mae = model.score(X_test, y_test) 
print("MAE: %.3f" % mae) 
# summarize the best model 
print(model.best_model())

4、AutoKeras

AutoKeras 是一个基于 Keras 的 AutoML 系统,只需几行代码就可以实现神经架构搜索(NAS)的强大功能。 它由德克萨斯 A&M 大学的 DATA 实验室开发,以 TensorFlow的tf.keras API 和Keras为基础进行实现 。

AutoKeras 可以支持不同的任务,例如图像分类、结构化数据分类或回归等。

安装:

pip install autokeras

样例代码:

import numpy as np 
import tensorflow as tf 
from tensorflow.keras.datasets import mnist 
import autokeras as ak 
#Load dataset 
(x_train, y_train), (x_test, y_test) = mnist.load_data() 
print(x_train.shape) # (60000, 28, 28) 
print(y_train.shape) # (60000,) 
print(y_train[:3]) # array([7, 2, 1], dtype=uint8) 

# Initialize the image classifier. 
clf = ak.ImageClassifier(overwrite=True, max_trials=1) 
# Feed the image classifier with training data. 
clf.fit(x_train, y_train, epochs=10) 

# Predict with the best model. 
predicted_y = clf.predict(x_test) 
print(predicted_y) 
# Evaluate the best model with testing data. 
print(clf.evaluate(x_test, y_test))

5、H2O AutoML:

H2O 的 AutoML 可用于在用户指定的时间限制内自动训练和调整许多模型。

H2O 提供了许多适用于 AutoML 对象(模型组)以及单个模型的可解释性方法。 可以自动生成解释,并提供一个简单的界面来探索和解释 AutoML 模型。

安装:

pip insall h2o

H2O可以更详细的说是一个分布式的机器学习平台,所以就需要建立H2O的集群,这部分的代码是使用的java开发的,就需要安装jdk的支持。

在安装完成JAVA后,并且环境变量设置了java路径的情况下在cmd执行以下命令:

java -jar path_to/h2o.jar

就可以启动H2O的集群,就可以通过Web界面进行操作,如果想使用Python代码编写,可以使用以下示例

import h2o 
h2o.init() 
from h2o.automl import H2OAutoML 
churn_df = h2o.import_file('https://raw.githubusercontent.com/srivatsan88/YouTubeLI/master/dataset/WA_Fn-UseC_-Telco-Customer-Churn.csv') 
churn_df.types 
churn_df.describe() 
churn_train,churn_test,churn_valid = churn_df.split_frame(ratios=[.7, .15]) 
churn_train 
y = "Churn" 
x = churn_df.columns 
x.remove(y) 
x.remove("customerID") 
aml = H2OAutoML(max_models = 10, seed = 10, exclude_algos = ["StackedEnsemble", "DeepLearning"], verbosity="info", nfolds=0) 
!nvidia-smi 
aml.train(x = x, y = y, training_frame = churn_train, validation_frame=churn_valid) 

lb = aml.leaderboard 
lb.head() 
churn_pred=aml.leader.predict(churn_test) 
churn_pred.head() 
aml.leader.model_performance(churn_test) 
model_ids = list(aml.leaderboard['model_id'].as_data_frame().iloc[:,0]) 
#se = h2o.get_model([mid for mid in model_ids if "StackedEnsemble_AllModels" in mid][0]) 
#metalearner = h2o.get_model(se.metalearner()['name']) 
model_ids 
h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0]) 
out = h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0]) 
out.params 
out.convert_H2OXGBoostParams_2_XGBoostParams() 
out 
out_gbm = h2o.get_model([mid for mid in model_ids if "GBM" in mid][0]) 
out.confusion_matrix() 
out.varimp_plot() 
aml.leader.download_mojo(path = "./")

总结

在本文中,我们总结了 5 个 AutoML 库以及它如何检查机器学习进行任务的自动化,例如数据预处理、超参数调整、模型选择和评估。除了这5个常见的库以外还有一些其他 AutoML 库,例如 AutoGluon、MLBoX、TransmogrifAI、Auto -WEKA、AdaNet、MLjar、TransmogrifAI、Azure Machine Learning、Ludwig等。

作者:Abonia Sojasingarayar

相关推荐

Python编程实现求解高次方程_python求次幂
Python编程实现求解高次方程_python求次幂

#头条创作挑战赛#编程求解一元多次方程,一般情况下对于高次方程我们只求出近似解,较少的情况可以得到精确解。这里给出两种经典的方法,一种是牛顿迭代法,它是求解方程根的有效方法,通过若干次迭代(重复执行部分代码,每次使变量的当前值被计算出的新值...

2025-10-23 03:58 itomcoil

python常用得内置函数解析——sorted()函数

接下来我们详细解析Python中非常重要的内置函数sorted()1.函数定义sorted()函数用于对任何可迭代对象进行排序,并返回一个新的排序后的列表。语法:sorted(iterabl...

Python入门学习教程:第 6 章 列表

6.1什么是列表?在Python中,列表(List)是一种用于存储多个元素的有序集合,它是最常用的数据结构之一。列表中的元素可以是不同的数据类型,如整数、字符串、浮点数,甚至可以是另一个列表。列...

Python之函数进阶-函数加强(上)_python怎么用函数

一.递归函数递归是一种编程技术,其中函数调用自身以解决问题。递归函数需要有一个或多个终止条件,以防止无限递归。递归可以用于解决许多问题,例如排序、搜索、解析语法等。递归的优点是代码简洁、易于理解,并...

Python内置函数range_python内置函数int的作用

range类型表示不可变的数字序列,通常用于在for循环中循环指定的次数。range(stop)range(start,stop[,step])range构造器的参数必须为整数(可以是内...

python常用得内置函数解析——abs()函数

大家号这两天主要是几个常用得内置函数详解详细解析一下Python中非常常用的内置函数abs()。1.函数定义abs(x)是Python的一个内置函数,用于返回一个数的绝对值。参数:x...

如何在Python中获取数字的绝对值?

Python有两种获取数字绝对值的方法:内置abs()函数返回绝对值。math.fabs()函数还返回浮点绝对值。abs()函数获取绝对值内置abs()函数返回绝对值,要使用该函数,只需直接调用:a...

贪心算法变种及Python模板_贪心算法几个经典例子python

贪心算法是一种在每一步选择中都采取当前状态下最优的选择,从而希望导致结果是全局最优的算法策略。以下是贪心算法的主要变种、对应的模板和解决的问题特点。1.区间调度问题问题特点需要从一组区间中选择最大数...

Python倒车请注意!负步长range的10个高能用法,让代码效率翻倍

你是否曾遇到过需要倒着处理数据的情况?面对时间序列、日志文件或者矩阵操作,传统的遍历方式往往捉襟见肘。今天我们就来揭秘Python中那个被低估的功能——range的负步长操作,让你的代码优雅反转!一、...

Python中while循环详解_python怎么while循环

Python中的`while`循环是一种基于条件判断的重复执行结构,适用于不确定循环次数但明确终止条件的场景。以下是详细解析:---###一、基本语法```pythonwhile条件表达式:循环体...

简单的python-核心篇-面向对象编程

在Python中,类本身也是对象,这被称为"元类"。这种设计让Python的面向对象编程具有极大的灵活性。classMyClass:"""一个简单的...

简单的python-python3中的不变的元组

golang中没有内置的元组类型,但是多值返回的处理结果模拟了元组的味道。因此,在golang中"元组”只是一个将多个值(可能是同类型的,也可能是不同类型的)绑定在一起的一种便利方法,通常,也...

python中必须掌握的20个核心函数——sorted()函数

sorted()是Python的内置函数,用于对可迭代对象进行排序,返回一个新的排序后的列表,不修改原始对象。一、sorted()的基本用法1.1方法签名sorted(iterable,*,ke...

12 个 Python 高级技巧,让你的代码瞬间清晰、高效

在日常的编程工作中,我们常常追求代码的精简、优雅和高效。你可能已经熟练掌握了列表推导式(listcomprehensions)、f-string和枚举(enumerate)等常用技巧,但有时仍会觉...

Python的10个进阶技巧:写出更快、更省内存、更优雅的代码

在Python的世界里,我们总是在追求效率和可读性的完美平衡。你不需要一个数百行的新框架来让你的代码变得优雅而快速。事实上,真正能带来巨大提升的,往往是那些看似微小、却拥有高杠杆作用的技巧。这些技巧能...