百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

路飞学城-Python开发+AI人工智能工程师(完整版)

itomcoil 2024-12-10 15:55 27 浏览

路飞学城-Python开发+AI人工智能工程师(完整版)

download:https://www.666xit.com/4184/


一、先聊一聊大数据技能开展史?

咱们运用的各种大数据技能,最早起源于Google当年发布的三篇论文,Google FS(2003年)、MapReduce(2004年)、BigTable(2006年),其实Google其时并没有发布其源码,可是现已把这三个项目的原理和完成方法在发布的论文中具体的描述了,这几篇论文面世后,就引爆了职业的大数据学习和研究的浪潮。

随后一个叫 Doug Cutting 的技能大牛(也便是写 Lucene 的那位,做JAVA的同学应该都很了解)就开端依据Google发布的论文去开发相关体系,后来渐渐开展成了现在的 Hadoop,包含 MapReduce 和 HDFS。

可是在其时,运用 MapReduce 进行数据剖析和使用仍是有很大门槛的,毕竟要编写 Map 和 Reduce 程序。只能大数据工程师上马,一般BI剖析师仍是一脸懵逼。所以那个时候都是些大公司在玩。

已然有这么大门槛,就会有人勇于站出往来不断处理门槛,比方 Yahoo,他们开发一个叫做 Pig 的东西,Pig是一个脚本语言,依照Pig的语法写出来的脚本能够编译成 MapReduce 程序,然后直接在 Hadoop 上运行了。

这个时候,大数据开发的门槛的确降了一点。

不过,Pig大法虽好,但仍是需求编写脚本啊,这仍是码农的活儿啊。人们就在想,有没有不用写代码的方法就能做大数据核算呢,还真有,这个世界的前进便是由一群长于考虑的“懒人”推动的。

所以,Facebook公司的一群高智商家伙发布了一个叫做 Hive 的东西,这个 Hive 能够支撑运用 SQL 语法直接进行大数据核算。原理其实便是,你只需求写一个查询的 SQL,然后 Hive 会主动解析 SQL 的语法,将这个SQL 句子转化成 MapReduce 程序去履行。

这下子就简略了,SQL 是BI/数据剖析师们最为常用的东西了,从此他们能够无视码农,开开心心的独立去写Hive,去做大数据剖析工作了。Hive从此就火爆了,一般公司的大多数大数据作业都是由Hive完成的,只要极少数较为杂乱的需求才需求数据开发工程师去编写代码,这个时候,大数据的门槛才真真的降低了,大数据使用也才真实遍及,大大小小的公司都开端在自己的事务上运用了。

可是,人们的追求不止如此,尽管数据剖析便利了,可是咱们又发现 MapReduce 程序履行功率不够高啊,其中有多种原因,但有一条很要害,便是 MapReduce 首要是以磁盘作为存储介质,磁盘的功能极大的约束了核算的功率。

在这个时候,Spark 呈现了,Spark 在运行机制上、存储机制上都要优于 MapReduce ,因而大数据核算的功能上也远远超过了 MapReduce 程序,许多企业又开端渐渐采用 Spark 来代替 MapReduce 做数据核算。

至此,MapReduce 和 Spark 都已成型,这类核算结构一般都是按“天”为单位进行数据核算的,因而咱们称它们为“大数据离线核算”。已然有“离线核算”,那就必然也会有非离线核算了,也便是现在称为的“大数据实时核算”。

由于在数据实际的使用场景中,以“天”为颗粒出成果仍是太慢了,只合适十分很多的数据和大局的剖析,但还有许多事务数据,数据量不一定十分庞大,但它却需求实时的去剖析和监控,这个时候就需求“大数据实时核算”结构发挥作用了,这类的代表有:Storm、Spark Streaming、Flink 为干流,也被称为 流式核算,由于它的数据源像水流一样一点点的流入追加的。

当然,除了上面介绍的那些技能,大数据还需求一些相关底层和周边技能来一起支撑的,比方 HDFS 便是分布式文件体系,用于负责存储数据的,HBase 是根据HDFS的NoSQL体系、与 HBase类似的还有 Cassandra也都很抢手。

二、再看一看大数据技能架构?

了解大数据相关技能能够先看下图:

(图片来历网络)

这图基本上很全面的展示了大数据的技能栈,下面将其首要的部分罗列一下,以便有个清晰的认知:

大数据渠道根底:

  • MapReduce,分布式离线核算结构

  • Spark,分布式离线核算结构

  • Storm,流式实时核算结构

  • Spark Streaming,流式实时核算结构

  • Flink,流式实时核算结构

  • Yarn,分布式集群资源调度结构

  • Oozie,大数据调度体系

分布式文件体系:

  • HDFS,分布式文件体系

  • GFS,分布式文件体系

SQL引擎:

  • Spark SQL (Shark),将SQL句子解析成Spark的履行计划在Spark上履行

  • Pig,Yahoo的发布的脚本语言,编译后会生成MapReduce程序

  • Hive,是Hadoop大数据仓库东西,支撑SQL语法来进行大数据核算,把SQL转化MapReduce程序

  • Impala,Cloudera发布的运行在HDFS上的SQL引擎

数据导入导出:

  • Sqoop,专门用将联络数据库中的数据 批量 导入导出到Hadoop

  • Canal,能够 实时 将联络数据库的数据导入到Hadoop

日志收集:

  • Flume,大规模日志分布式收集

大数据发掘与机器学习:

  • Mahout,Hadoop机器学习算法库

  • Spark MLlib,Spark机器学习算法库

  • TensorFlow,开源的机器学习体系

三、猜一猜AI人工智能的开展?

通过上面的回忆,咱们知道了,由于很多数据的产生导致大数据核算技能 MapReduce 的呈现,又由于 MapReduce 的参与门槛问题,导致了 Pig、Hive的呈现,正是由于这类上手简单的东西的呈现,才导致很多的非专业化人员也能参与到大数据这个体系,因而导致了大数据相关技能的飞速开展和使用,又然后进一步推动了机器学习技能的呈现,有了现在的AI人工智能的开展。

但现在人工智能技能的门槛还比较高,并不是任何企业都能进场的,需求十分专业化的高端技能人才去参与,一般人员只能望而生畏,因而AI技能的使用受到了极大的约束,所以也不断的有人提出对人工智能提出质疑。

讲到这里,有没有发现点什么问题?

前史的规律总是那么类似。能够猜测一下,人工智能的门槛有一天也会像 MapReduce 的开发门槛一样被打破,一旦人工智能的参与门槛降低了,各类大小企业都能结合自己的事务场景进入AI领域发挥优势了,那AI就真的进入高速开展的通道了,AI相关实际使用的遍及就指日可下了。

恩,一定是这样的,哈哈,现在就能够等着大牛们将AI的根底渠道建设好,然后降低参与门槛,进一步就迎来了AI的一片光亮,咱们从此就能够过上AI服务人类的美好生活了(想象中…)。

以上,便是从大数据技能变迁想到AI人工智能开展的一些主意,欢迎咱们留言沟通,多多点击文章右下角的“好看”。


相关推荐

Python 类型注解的进阶应用:从静态检查到元编程

阅读文章前辛苦您点下“关注”,方便讨论和分享,为了回馈您的支持,我将每日更新优质内容。如需转载请附上本文源链接!近年来,Python类型注解(TypeHinting)逐渐从一个可选的功能演变为大型...

高阶Python|返回类型提示技巧 (1)

引言Python提供了一种可选的特性——类型提示,它有助于提高代码的可读性、可推理性和可调试性。通过类型提示,开发者能够清楚地了解变量、函数参数和返回值应具备的数据类型。在开发那些需要高度灵活性的应用...

跟我一起学Python-函数的定义(基础)

一.函数的定义和调用1.语法:def函数名():函数封装的代码函数最好能够表达函数内部封装的代码功能,方便后续的调用,函数命名需要遵循规则字母、数字、下划线、不能以数字开头,不能使用系统关键字。&#...

Python函数参数和返回值类型:让你的代码更清晰、更健壮

在Python开发中,你是否遇到过这些抓狂时刻?同事写的函数参数类型全靠猜调试两小时发现传了字符串给数值计算函数重构代码时不知道函数返回的是列表还是字典今天教你两招,彻底解决类型混乱问题!让你的...

python入门到脱坑 函数—参数(python 参数处理)

本文包括必须参数,关键参数,默认参数以及可变参数Python函数参数详解一、位置参数(必需参数)位置参数是函数调用时必须提供的参数,且顺序必须与定义时一致。基本用法defgreet(name,me...

python入门到脱坑经典案例—求两个数的和

下面为大家讲解如何求两个数之和——这是编程中最基础但最重要的算术运算之一。我们会从最简单的情况逐步深入,并穿插相关编程概念。1.最基础版本#定义两个变量num1=5num2=3#...

新手必看!30 个 Python 核心函数详解,手把手教你玩转编程

Python中30个核心函数及其含义、代码示例、注释和应用场景:print():用于输出文本或变量的值到控制台。message="Hello,World!"#定义一个...

Python快速入门教程1:基本语法、数据类型、运算符、数字字符串

Python3的基础教程,涵盖了基本语法、数据类型、类型转换、解释器、注释、运算符、数字和字符串等内容,并附有使用实例场景。Python3的基础教程,涵盖了基本语法、数据类型、类型转换、解释器、注释、...

编程小白学做题:Python 的经典编程题及详解,附代码和注释(八)

适合Python3+的6道编程练习题(附详解)1找出字典中值最小的键题目描述:找出字典中值最小的键(如{"a":5,"b":2,"c...

新手学Python避坑,学习效率狂飙! 二十一、print()函数

感谢大家对《新手学Python避坑,学习效率狂飙!》系列的点赞、关注和收藏,今天这编是这个系列的第二十一个分享,前面还有二十个,大家可以关注下之前发布的文章。下面是我们今天第三个的分享:在Pytho...

编程小白学做题:Python 的经典编程题及详解,附代码和注释(六)

适合Python3+的6道编程练习题(附详解)1、打印杨辉三角的前n行题目描述:给定正整数n,打印杨辉三角的前n行(每个数等于它上方两数之和,每行首尾为1)。编写思路:杨辉三角的第i...

让你的Python代码更易读:7个提升函数可读性的实用技巧

如果你正在阅读这篇文章,很可能你已经用Python编程有一段时间了。今天,让我们聊聊可以提升你编程水平的一件事:编写易读的函数。请想一想:我们花在阅读代码上的时间大约是写代码的10倍。所以,每当你创建...

python入门到脱坑 函数—return语句

Python函数中的return语句详解一、return语句基础1.1基本功能return语句用于从函数中返回一个值,并立即结束函数的执行。defadd(a,b):returna+...

编程小白学做题:Python 的经典编程题及详解,附代码和注释(七)

适合Python3+的6道编程练习题(附详解)1.检查字符串是否以指定子串开头题目描述:判断字符串是否以给定子串开头(如"helloworld"以"hello&...

python的注释符是什么(python的合法注释符号是什么)

python的注释符是什么?python的注释符包括单行注释符和多行注释符。一、python单行注释符号(#)井号(#)常被用作单行注释符号,在代码中使用#时,它右边的任何数据都会被忽略,当做是注释。...