路飞学城-Python开发+AI人工智能工程师(完整版)
itomcoil 2024-12-10 15:55 33 浏览
路飞学城-Python开发+AI人工智能工程师(完整版)
download:https://www.666xit.com/4184/
一、先聊一聊大数据技能开展史?
咱们运用的各种大数据技能,最早起源于Google当年发布的三篇论文,Google FS(2003年)、MapReduce(2004年)、BigTable(2006年),其实Google其时并没有发布其源码,可是现已把这三个项目的原理和完成方法在发布的论文中具体的描述了,这几篇论文面世后,就引爆了职业的大数据学习和研究的浪潮。
随后一个叫 Doug Cutting 的技能大牛(也便是写 Lucene 的那位,做JAVA的同学应该都很了解)就开端依据Google发布的论文去开发相关体系,后来渐渐开展成了现在的 Hadoop,包含 MapReduce 和 HDFS。
可是在其时,运用 MapReduce 进行数据剖析和使用仍是有很大门槛的,毕竟要编写 Map 和 Reduce 程序。只能大数据工程师上马,一般BI剖析师仍是一脸懵逼。所以那个时候都是些大公司在玩。
已然有这么大门槛,就会有人勇于站出往来不断处理门槛,比方 Yahoo,他们开发一个叫做 Pig 的东西,Pig是一个脚本语言,依照Pig的语法写出来的脚本能够编译成 MapReduce 程序,然后直接在 Hadoop 上运行了。
这个时候,大数据开发的门槛的确降了一点。
不过,Pig大法虽好,但仍是需求编写脚本啊,这仍是码农的活儿啊。人们就在想,有没有不用写代码的方法就能做大数据核算呢,还真有,这个世界的前进便是由一群长于考虑的“懒人”推动的。
所以,Facebook公司的一群高智商家伙发布了一个叫做 Hive 的东西,这个 Hive 能够支撑运用 SQL 语法直接进行大数据核算。原理其实便是,你只需求写一个查询的 SQL,然后 Hive 会主动解析 SQL 的语法,将这个SQL 句子转化成 MapReduce 程序去履行。
这下子就简略了,SQL 是BI/数据剖析师们最为常用的东西了,从此他们能够无视码农,开开心心的独立去写Hive,去做大数据剖析工作了。Hive从此就火爆了,一般公司的大多数大数据作业都是由Hive完成的,只要极少数较为杂乱的需求才需求数据开发工程师去编写代码,这个时候,大数据的门槛才真真的降低了,大数据使用也才真实遍及,大大小小的公司都开端在自己的事务上运用了。
可是,人们的追求不止如此,尽管数据剖析便利了,可是咱们又发现 MapReduce 程序履行功率不够高啊,其中有多种原因,但有一条很要害,便是 MapReduce 首要是以磁盘作为存储介质,磁盘的功能极大的约束了核算的功率。
在这个时候,Spark 呈现了,Spark 在运行机制上、存储机制上都要优于 MapReduce ,因而大数据核算的功能上也远远超过了 MapReduce 程序,许多企业又开端渐渐采用 Spark 来代替 MapReduce 做数据核算。
至此,MapReduce 和 Spark 都已成型,这类核算结构一般都是按“天”为单位进行数据核算的,因而咱们称它们为“大数据离线核算”。已然有“离线核算”,那就必然也会有非离线核算了,也便是现在称为的“大数据实时核算”。
由于在数据实际的使用场景中,以“天”为颗粒出成果仍是太慢了,只合适十分很多的数据和大局的剖析,但还有许多事务数据,数据量不一定十分庞大,但它却需求实时的去剖析和监控,这个时候就需求“大数据实时核算”结构发挥作用了,这类的代表有:Storm、Spark Streaming、Flink 为干流,也被称为 流式核算,由于它的数据源像水流一样一点点的流入追加的。
当然,除了上面介绍的那些技能,大数据还需求一些相关底层和周边技能来一起支撑的,比方 HDFS 便是分布式文件体系,用于负责存储数据的,HBase 是根据HDFS的NoSQL体系、与 HBase类似的还有 Cassandra也都很抢手。
二、再看一看大数据技能架构?
了解大数据相关技能能够先看下图:
(图片来历网络)
这图基本上很全面的展示了大数据的技能栈,下面将其首要的部分罗列一下,以便有个清晰的认知:
大数据渠道根底:
MapReduce,分布式离线核算结构
Spark,分布式离线核算结构
Storm,流式实时核算结构
Spark Streaming,流式实时核算结构
Flink,流式实时核算结构
Yarn,分布式集群资源调度结构
Oozie,大数据调度体系
分布式文件体系:
HDFS,分布式文件体系
GFS,分布式文件体系
SQL引擎:
Spark SQL (Shark),将SQL句子解析成Spark的履行计划在Spark上履行
Pig,Yahoo的发布的脚本语言,编译后会生成MapReduce程序
Hive,是Hadoop大数据仓库东西,支撑SQL语法来进行大数据核算,把SQL转化MapReduce程序
Impala,Cloudera发布的运行在HDFS上的SQL引擎
数据导入导出:
Sqoop,专门用将联络数据库中的数据 批量 导入导出到Hadoop
Canal,能够 实时 将联络数据库的数据导入到Hadoop
日志收集:
Flume,大规模日志分布式收集
大数据发掘与机器学习:
Mahout,Hadoop机器学习算法库
Spark MLlib,Spark机器学习算法库
TensorFlow,开源的机器学习体系
三、猜一猜AI人工智能的开展?
通过上面的回忆,咱们知道了,由于很多数据的产生导致大数据核算技能 MapReduce 的呈现,又由于 MapReduce 的参与门槛问题,导致了 Pig、Hive的呈现,正是由于这类上手简单的东西的呈现,才导致很多的非专业化人员也能参与到大数据这个体系,因而导致了大数据相关技能的飞速开展和使用,又然后进一步推动了机器学习技能的呈现,有了现在的AI人工智能的开展。
但现在人工智能技能的门槛还比较高,并不是任何企业都能进场的,需求十分专业化的高端技能人才去参与,一般人员只能望而生畏,因而AI技能的使用受到了极大的约束,所以也不断的有人提出对人工智能提出质疑。
讲到这里,有没有发现点什么问题?
前史的规律总是那么类似。能够猜测一下,人工智能的门槛有一天也会像 MapReduce 的开发门槛一样被打破,一旦人工智能的参与门槛降低了,各类大小企业都能结合自己的事务场景进入AI领域发挥优势了,那AI就真的进入高速开展的通道了,AI相关实际使用的遍及就指日可下了。
恩,一定是这样的,哈哈,现在就能够等着大牛们将AI的根底渠道建设好,然后降低参与门槛,进一步就迎来了AI的一片光亮,咱们从此就能够过上AI服务人类的美好生活了(想象中…)。
以上,便是从大数据技能变迁想到AI人工智能开展的一些主意,欢迎咱们留言沟通,多多点击文章右下角的“好看”。
相关推荐
- selenium(WEB自动化工具)
-
定义解释Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11),MozillaF...
- 开发利器丨如何使用ELK设计微服务中的日志收集方案?
-
【摘要】微服务各个组件的相关实践会涉及到工具,本文将会介绍微服务日常开发的一些利器,这些工具帮助我们构建更加健壮的微服务系统,并帮助排查解决微服务系统中的问题与性能瓶颈等。我们将重点介绍微服务架构中...
- 高并发系统设计:应对每秒数万QPS的架构策略
-
当面试官问及"如何应对每秒几万QPS(QueriesPerSecond)"时,大概率是想知道你对高并发系统设计的理解有多少。本文将深入探讨从基础设施到应用层面的解决方案。01、理解...
- 2025 年每个 JavaScript 开发者都应该了解的功能
-
大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.Iteratorhelpers开发者...
- JavaScript Array 对象
-
Array对象Array对象用于在变量中存储多个值:varcars=["Saab","Volvo","BMW"];第一个数组元素的索引值为0,第二个索引值为1,以此类推。更多有...
- Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战
-
刚刚,Gemini2.5Pro编程登顶,6美元性价比碾压Claude3.7Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。谷歌,彻底打了一场漂亮的翻...
- 动力节点最新JavaScript教程(高级篇),深入学习JavaScript
-
JavaScript是一种运行在浏览器中的解释型编程语言,它的解释器被称为JavaScript引擎,是浏览器的一部分,JavaScript广泛用于浏览器客户端编程,通常JavaScript脚本是通过嵌...
- 一文看懂Kiro,其 Spec工作流秒杀Cursor,可移植至Claude Code
-
当Cursor的“即兴编程”开始拖累项目质量,AWS新晋IDEKiro以Spec工作流打出“先规范后编码”的系统工程思维:需求-设计-任务三件套一次生成,文档与代码同步落地,复杂项目不...
- 「晚安·好梦」努力只能及格,拼命才能优秀
-
欢迎光临,浏览之前点击上面的音乐放松一下心情吧!喜欢的话给小编一个关注呀!Effortscanonlypass,anddesperatelycanbeexcellent.努力只能及格...
- JavaScript 中 some 与 every 方法的区别是什么?
-
大家好,很高兴又见面了,我是姜茶的编程笔记,我们一起学习前端相关领域技术,共同进步,也欢迎大家关注、点赞、收藏、转发,您的支持是我不断创作的动力在JavaScript中,Array.protot...
- 10个高效的Python爬虫框架,你用过几个?
-
小型爬虫需求,requests库+bs4库就能解决;大型爬虫数据,尤其涉及异步抓取、内容管理及后续扩展等功能时,就需要用到爬虫框架了。下面介绍了10个爬虫框架,大家可以学习使用!1.Scrapysc...
- 12个高效的Python爬虫框架,你用过几个?
-
实现爬虫技术的编程环境有很多种,Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫,为什么呢?因为Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实...
- pip3 install pyspider报错问题解决
-
运行如下命令报错:>>>pip3installpyspider观察上面的报错问题,需要安装pycurl。是到这个网址:http://www.lfd.uci.edu/~gohlke...
- PySpider框架的使用
-
PysiderPysider是一个国人用Python编写的、带有强大的WebUI的网络爬虫系统,它支持多种数据库、任务监控、项目管理、结果查看、URL去重等强大的功能。安装pip3inst...
- 「机器学习」神经网络的激活函数、并通过python实现激活函数
-
神经网络的激活函数、并通过python实现whatis激活函数感知机的网络结构如下:左图中,偏置b没有被画出来,如果要表示出b,可以像右图那样做。用数学式来表示感知机:上面这个数学式子可以被改写:...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)