百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

路飞学城-Python开发+AI人工智能工程师(完整版)

itomcoil 2024-12-10 15:55 19 浏览

路飞学城-Python开发+AI人工智能工程师(完整版)

download:https://www.666xit.com/4184/


一、先聊一聊大数据技能开展史?

咱们运用的各种大数据技能,最早起源于Google当年发布的三篇论文,Google FS(2003年)、MapReduce(2004年)、BigTable(2006年),其实Google其时并没有发布其源码,可是现已把这三个项目的原理和完成方法在发布的论文中具体的描述了,这几篇论文面世后,就引爆了职业的大数据学习和研究的浪潮。

随后一个叫 Doug Cutting 的技能大牛(也便是写 Lucene 的那位,做JAVA的同学应该都很了解)就开端依据Google发布的论文去开发相关体系,后来渐渐开展成了现在的 Hadoop,包含 MapReduce 和 HDFS。

可是在其时,运用 MapReduce 进行数据剖析和使用仍是有很大门槛的,毕竟要编写 Map 和 Reduce 程序。只能大数据工程师上马,一般BI剖析师仍是一脸懵逼。所以那个时候都是些大公司在玩。

已然有这么大门槛,就会有人勇于站出往来不断处理门槛,比方 Yahoo,他们开发一个叫做 Pig 的东西,Pig是一个脚本语言,依照Pig的语法写出来的脚本能够编译成 MapReduce 程序,然后直接在 Hadoop 上运行了。

这个时候,大数据开发的门槛的确降了一点。

不过,Pig大法虽好,但仍是需求编写脚本啊,这仍是码农的活儿啊。人们就在想,有没有不用写代码的方法就能做大数据核算呢,还真有,这个世界的前进便是由一群长于考虑的“懒人”推动的。

所以,Facebook公司的一群高智商家伙发布了一个叫做 Hive 的东西,这个 Hive 能够支撑运用 SQL 语法直接进行大数据核算。原理其实便是,你只需求写一个查询的 SQL,然后 Hive 会主动解析 SQL 的语法,将这个SQL 句子转化成 MapReduce 程序去履行。

这下子就简略了,SQL 是BI/数据剖析师们最为常用的东西了,从此他们能够无视码农,开开心心的独立去写Hive,去做大数据剖析工作了。Hive从此就火爆了,一般公司的大多数大数据作业都是由Hive完成的,只要极少数较为杂乱的需求才需求数据开发工程师去编写代码,这个时候,大数据的门槛才真真的降低了,大数据使用也才真实遍及,大大小小的公司都开端在自己的事务上运用了。

可是,人们的追求不止如此,尽管数据剖析便利了,可是咱们又发现 MapReduce 程序履行功率不够高啊,其中有多种原因,但有一条很要害,便是 MapReduce 首要是以磁盘作为存储介质,磁盘的功能极大的约束了核算的功率。

在这个时候,Spark 呈现了,Spark 在运行机制上、存储机制上都要优于 MapReduce ,因而大数据核算的功能上也远远超过了 MapReduce 程序,许多企业又开端渐渐采用 Spark 来代替 MapReduce 做数据核算。

至此,MapReduce 和 Spark 都已成型,这类核算结构一般都是按“天”为单位进行数据核算的,因而咱们称它们为“大数据离线核算”。已然有“离线核算”,那就必然也会有非离线核算了,也便是现在称为的“大数据实时核算”。

由于在数据实际的使用场景中,以“天”为颗粒出成果仍是太慢了,只合适十分很多的数据和大局的剖析,但还有许多事务数据,数据量不一定十分庞大,但它却需求实时的去剖析和监控,这个时候就需求“大数据实时核算”结构发挥作用了,这类的代表有:Storm、Spark Streaming、Flink 为干流,也被称为 流式核算,由于它的数据源像水流一样一点点的流入追加的。

当然,除了上面介绍的那些技能,大数据还需求一些相关底层和周边技能来一起支撑的,比方 HDFS 便是分布式文件体系,用于负责存储数据的,HBase 是根据HDFS的NoSQL体系、与 HBase类似的还有 Cassandra也都很抢手。

二、再看一看大数据技能架构?

了解大数据相关技能能够先看下图:

(图片来历网络)

这图基本上很全面的展示了大数据的技能栈,下面将其首要的部分罗列一下,以便有个清晰的认知:

大数据渠道根底:

  • MapReduce,分布式离线核算结构

  • Spark,分布式离线核算结构

  • Storm,流式实时核算结构

  • Spark Streaming,流式实时核算结构

  • Flink,流式实时核算结构

  • Yarn,分布式集群资源调度结构

  • Oozie,大数据调度体系

分布式文件体系:

  • HDFS,分布式文件体系

  • GFS,分布式文件体系

SQL引擎:

  • Spark SQL (Shark),将SQL句子解析成Spark的履行计划在Spark上履行

  • Pig,Yahoo的发布的脚本语言,编译后会生成MapReduce程序

  • Hive,是Hadoop大数据仓库东西,支撑SQL语法来进行大数据核算,把SQL转化MapReduce程序

  • Impala,Cloudera发布的运行在HDFS上的SQL引擎

数据导入导出:

  • Sqoop,专门用将联络数据库中的数据 批量 导入导出到Hadoop

  • Canal,能够 实时 将联络数据库的数据导入到Hadoop

日志收集:

  • Flume,大规模日志分布式收集

大数据发掘与机器学习:

  • Mahout,Hadoop机器学习算法库

  • Spark MLlib,Spark机器学习算法库

  • TensorFlow,开源的机器学习体系

三、猜一猜AI人工智能的开展?

通过上面的回忆,咱们知道了,由于很多数据的产生导致大数据核算技能 MapReduce 的呈现,又由于 MapReduce 的参与门槛问题,导致了 Pig、Hive的呈现,正是由于这类上手简单的东西的呈现,才导致很多的非专业化人员也能参与到大数据这个体系,因而导致了大数据相关技能的飞速开展和使用,又然后进一步推动了机器学习技能的呈现,有了现在的AI人工智能的开展。

但现在人工智能技能的门槛还比较高,并不是任何企业都能进场的,需求十分专业化的高端技能人才去参与,一般人员只能望而生畏,因而AI技能的使用受到了极大的约束,所以也不断的有人提出对人工智能提出质疑。

讲到这里,有没有发现点什么问题?

前史的规律总是那么类似。能够猜测一下,人工智能的门槛有一天也会像 MapReduce 的开发门槛一样被打破,一旦人工智能的参与门槛降低了,各类大小企业都能结合自己的事务场景进入AI领域发挥优势了,那AI就真的进入高速开展的通道了,AI相关实际使用的遍及就指日可下了。

恩,一定是这样的,哈哈,现在就能够等着大牛们将AI的根底渠道建设好,然后降低参与门槛,进一步就迎来了AI的一片光亮,咱们从此就能够过上AI服务人类的美好生活了(想象中…)。

以上,便是从大数据技能变迁想到AI人工智能开展的一些主意,欢迎咱们留言沟通,多多点击文章右下角的“好看”。


相关推荐

Excel新函数TEXTSPLIT太强大了,轻松搞定数据拆分!

我是【桃大喵学习记】,欢迎大家关注哟~,每天为你分享职场办公软件使用技巧干货!最近我把WPS软件升级到了版本号:12.1.0.15990的最新版本,最版本已经支持文本拆分函数TEXTSPLIT了,并...

Excel超强数据拆分函数TEXTSPLIT,从入门到精通!

我是【桃大喵学习记】,欢迎大家关注哟~,每天为你分享职场办公软件使用技巧干货!今天跟大家分享的是Excel超强数据拆分函数TEXTSPLIT,带你从入门到精通!TEXTSPLIT函数真是太强大了,轻松...

看完就会用的C++17特性总结(c++11常用新特性)

作者:taoklin,腾讯WXG后台开发一、简单特性1.namespace嵌套C++17使我们可以更加简洁使用命名空间:2.std::variant升级版的C语言Union在C++17之前,通...

plsql字符串分割浅谈(plsql字符集设置)

工作之中遇到的小问题,在此抛出问题,并给出解决方法。一方面是为了给自己留下深刻印象,另一方面给遇到相似问题的同学一个解决思路。如若其中有写的不好或者不对的地方也请不加不吝赐教,集思广益,共同进步。遇到...

javascript如何分割字符串(javascript切割字符串)

javascript如何分割字符串在JavaScript中,您可以使用字符串的`split()`方法来将一个字符串分割成一个数组。`split()`方法接收一个参数,这个参数指定了分割字符串的方式。如...

TextSplit函数的使用方法(入门+进阶+高级共八种用法10个公式)

在Excel和WPS新增的几十个函数中,如果按实用性+功能性排名,textsplit排第二,无函数敢排第一。因为它不仅使用简单,而且解决了以前用超复杂公式才能搞定的难题。今天小编用10个公式,让你彻底...

Python字符串split()方法使用技巧

在Python中,字符串操作可谓是基础且关键的技能,而今天咱们要重点攻克的“堡垒”——split()方法,它能将看似浑然一体的字符串,按照我们的需求进行拆分,极大地便利了数据处理与文本解析工作。基本语...

go语言中字符串常用的系统函数(golang 字符串)

最近由于工作比较忙,视频有段时间没有更新了,在这里跟大家说声抱歉了,我尽快抽些时间整理下视频今天就发一篇关于go语言的基础知识吧!我这我工作中用到的一些常用函数,汇总出来分享给大家,希望对...

无规律文本拆分,这些函数你得会(没有分隔符没规律数据拆分)

今天文章来源于表格学员训练营群内答疑,混合文本拆分。其实拆分不难,只要规则明确就好办。就怕规则不清晰,或者规则太多。那真是,Oh,mygod.如上图所示进行拆分,文字表达实在是有点难,所以小熊变身灵...

Python之文本解析:字符串格式化的逆操作?

引言前面的文章中,提到了关于Python中字符串中的相关操作,更多地涉及到了字符串的格式化,有些地方也称为字符串插值操作,本质上,就是把多个字符串拼接在一起,以固定的格式呈现。关于字符串的操作,其实还...

忘记【分列】吧,TEXTSPLIT拆分文本好用100倍

函数TEXTSPLIT的作用是:按分隔符将字符串拆分为行或列。仅ExcelM365版本可用。基本应用将A2单元格内容按逗号拆分。=TEXTSPLIT(A2,",")第二参数设置为逗号...

Excel365版本新函数TEXTSPLIT,专攻文本拆分

Excel中字符串的处理,拆分和合并是比较常见的需求。合并,当前最好用的函数非TEXTJOIN不可。拆分,Office365于2022年3月更新了一个专业函数:TEXTSPLIT语法参数:【...

站长在线Python精讲使用正则表达式的split()方法分割字符串详解

欢迎你来到站长在线的站长学堂学习Python知识,本文学习的是《在Python中使用正则表达式的split()方法分割字符串详解》。使用正则表达式分割字符串在Python中使用正则表达式的split(...

Java中字符串分割的方法(java字符串切割方法)

技术背景在Java编程中,经常需要对字符串进行分割操作,例如将一个包含多个信息的字符串按照特定的分隔符拆分成多个子字符串。常见的应用场景包括解析CSV文件、处理网络请求参数等。实现步骤1.使用Str...

因为一个函数strtok踩坑,我被老工程师无情嘲笑了

在用C/C++实现字符串切割中,strtok函数经常用到,其主要作用是按照给定的字符集分隔字符串,并返回各子字符串。但是实际上,可不止有strtok(),还有strtok、strtok_s、strto...