自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ArYe

人工智能

  • 博客(226)
  • 资源 (12)
  • 收藏
  • 关注

原创 图解Python时间和日期time和datetime数据类型转换

文章目录前言4大数据类型time.struct_time ⇌ floattime.struct_time ⇌ strdatetime.datetime ⇌ strAppendix前言Python版本:3.7.4主要内容:时间相关的数据类型转换floattime.struct_timestrdatetime.datetime4大数据类型import time, datetime_pri...

2020-02-27 08:47:34 741 1

原创 文本清洗正则表达式(持续更新)

文章目录替换标点:中->英转小写查找时间数量词文本切分替换标点:中->英def replace_punctuation(text): """替换标点(英→中)""" text = text.replace(',', ',') # 逗号 text = text.replace(';', ';') # 分号 text = text.replace(...

2019-09-16 15:57:03 1579 4

原创 Python【print】常用颜色(复制用)

字体颜色# redprint('\033[031m')print('\033[0m')# yellowprint('\033[033m')print('\033[0m')# blueprint('\033[034m')print('\033[0m')# purpleprint('\033[035m')print('\033[0m')# 蓝绿色print('\033[0...

2018-06-18 11:43:57 1835

原创 Python工程师的Spark之路(1.4)比较Scala、Java和Python的case模式匹配

匹配常量匹配类型匹配数组匹配元组for匹配元组map匹配元组关键词:match和case类似Java的switch

2021-01-25 15:12:38 7

原创 Python工程师的大数据之路(二a)CentOS7集群网络配置

CentOS7集群网络配置安装Linux基础命令网络配置关闭防火墙设置主机名修改集群网络映射集群间免密登录

2021-01-24 11:35:22 106

原创 Python工程师的大数据之路(二c)集群脚本(持续更)

集群jps集群文件同路径传输集群source环境变量集群启停ZooKeeper群起Kafka群起

2021-01-24 10:09:55 113

原创 Python工程师的大数据之路(2.1)Hadoop,ZooKeeper,HIVE,Spark集群部署

1、环境说明2、网络配置和免密登录3、环境变量4、MySQL安装5、解压Java,Hadoop,ZooKeeper,HIVE,Spark6、配置文件6.1、Hadoop配置6.2、ZooKeeper配置6.3、Spark配置7、文件分发8、初次启动9、HIVE

2021-01-23 13:55:27 108

原创 CentOS7安装MySQL5.7

0、本文环境1、按序执行2、启动mysql3、查看密码4、使用上述密码登录5、修改密码规则,然后改一个好记的密码6、修改root用户的host属性,使root账号可被远程登陆

2021-01-23 11:56:07 78

原创 Python工程师的Spark之路(1.5)Scala手写中文分词

徒手写中文分词scala实现Scala不调包实现中文分词贝叶斯网络+动态规划

2021-01-21 21:48:04 76

原创 Python工程师的Spark之路(1.3)比较Python和Scala数据类型

类型层次结构类型判断和强转iterable collectionSet(set)Map(dict)List(list)元组Range(range)ArrayAnyAnyRefNothingNullUnitBooleanIntDoubleFloatStringLongByte

2021-01-20 23:03:37 98

原创 Python工程师的Spark之路(1.2)比较Python和Scala语法

object函数匿名函数赋值字符串判断循环:for循环:break(没有Python那种continue功能)异常import类继承抽象类单例对象特质(多继承)封装属性(property)abstractoverridetrait

2021-01-19 22:17:05 59

原创 Python工程师的大数据之路(五)Flume原理、安装、操作

文章目录Flume是什么安装基本使用Flume是什么海量日志 采集、聚合、传输 的系统基于流式架构入门功能:实时监控【单个追加文件、目录下多个新文件、目录下的多个追加文件】官网地址:http://flume.apache.org/文档地址:http://flume.apache.org/FlumeUserGuide.html下载地址:http://archive.apache.org/dist/flume/如上图示说明Agent是一个JVM进程,包括 Source

2021-01-19 14:29:11 109 1

原创 Python工程师的Spark之路(1)Scala安装

全称:Scalable Language是一门多范式编程语言(支持面向对象和函数式编程)基于Java之上Spark是Scala写的,所以学Spark前要学Scala计算机语言发展过程机器语言–汇编语言–高级语言(解释型语言、编译型语言)解释型语言(JavaScript)要想运行多次,需要进行多次解释支持跨平台编译型语言(C\C++)要想运行多次,不需要进行多次编译不支持跨平台

2021-01-18 09:54:33 107

原创 Python工程师的Spark之路(1.1)Scala函数简化过程

带参函数无参函数函数作为参数匿名函数函数写法补充比较Scala和Python的函数写法下划线 用法

2021-01-17 10:47:28 137

原创 Python工程师的大数据之路(五)Kafka安装和基本命令

型英帅靓正嘅目录Linux环境准备Kafka安装1、解压、改名2、主要配置3、文件分发4、集群启停5、群起脚本Kafka命令1、创建主题2、查看主题列表3、查看某主题详情4、生产和消费4.1、生产4.2、消费5、删除主题Linux环境准备免密登录https://yellow520.blog.csdn.net/article/details/110143502环境变量https://yellow520.blog.csdn.net/article/details/112692486JDK和ZooK

2021-01-16 17:36:52 68

原创 Python工程师的大数据之路(二b)集群环境变量-复制自用,不定更

`source /etc/profile.d/custom.sh`个人专用的集群环境变量环境变量文件hosts集群环境变量source命令集群环境变量source脚本python自动化运维脚本hadoop环境变量profile

2021-01-16 10:34:26 117

原创 大数据入门(四c)HIVE引擎更换为TEZ

hive更换引擎为tezhive on tezhive引擎改tezmr引擎改为teztez速度tez延时

2021-01-12 21:17:02 37

原创 SQL多字段JOIN(两个表JOIN ON多字段)

全网首发SQL多字段JOINJOIN ON 多字段HIVE多字段JOINMySQL多字段JOIN两个表JOIN ON多字段

2021-01-12 14:02:20 240

原创 Python工程师的大数据之路(四b)HIVE拉链表

什么是拉链表HIVE实现拉链表建表插入数据到 每天新增和变化表更新拉链表首次导入第一次更新第二次更新

2021-01-12 08:16:02 74

原创 Python工程师的大数据之路(三b)大数据集群高可用

High AvailabilityNameNode高可用YARN高可用ZooKeeper配置Hadoop集群高可用QJM:Quorum Journal ManagerZooKeeperFailoverControler:自动故障转移QJM集群+ZooKeeper配置NameNode高可用ResourceManager高可用Hadoop高可用

2021-01-11 09:52:02 126

原创 Python工程师的大数据之路(四e)Java、Hadoop、MySQL、HIVE、Sqoop一波流安装

CentOS7下装一波Java、Hadoop、MySQL、HIVE、SqoopCentOS7搭建离线数据仓库大数据安装centos安装hadoop1、网络配置2、集群间免密登录3、安装MySQL4、解压Java、Hadoop、HIVE、Sqoop5、环境变量6、Hadoop配置7、软件分发8、Hadoop集群启动9、HIVE和Sqoop

2021-01-06 14:41:05 90

原创 Python工程师的大数据之路(三a)ZooKeeper

zookeeper安装zookeeper集群部署分布式的共享命名空间大数据分布式应用程序协调服务zookeeper是开源的分布式应用程序协调服务,用于配置维护、域名服务、分布式同步、组服务、Hadoop集群高可用

2021-01-03 19:17:32 144

原创 大数据入门(四d)Sqoop安装和操作

Sqoop是什么?开源的数据传输工具主用在Hadoop(HDFS)与传统的数据库(MySQL、Oracle…)之间sqoop下载sqoop安装sqoop基本操作sqoop数据传输etlmysql导入到hdfsmysql导入到hivehdfs导出到mysqlhive导出到mysql增量同步、增量更新python2脚本部署sqoop

2020-12-28 12:34:10 86

原创 Python工程师的大数据之路(四a)HIVE基本操作

文章目录进入HIVE模式,写SQL库操作建表查询进入HIVE模式,写SQLhive库操作查看有什么库SHOW DATABASES;建库CREATE DATABASE IF NOT EXISTS hjw_temp;查看指定库DESC hjw_temp;切换库USE hjw_temp;删库DROP DATABASE hjw_temp;强制删库(若数据库不为空)DROP DATABASE hjw_temp CASCADE;建表建表删表查询

2020-12-28 09:58:39 83

原创 Python工程师的大数据之路(零a)数据仓库

数据库Database按照数据结构来组织、存储和管理数据的仓库数据仓库Data Warehouse是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合范式:构造关系数据库遵循的规则范式理论关系建模维度建模维度表事实表数仓分层ODS Operation Data Store 原始层DWD Data Warehouse Detail 明细层DWS Data Warehouse Service 服务层DWT DataData Warehouse Topic 主题层ADS

2020-12-25 23:34:29 76

原创 Python工程师的大数据之路(四)HIVE安装

基于Hadoop的数据仓库工具将结构化的数据文件映射为数据库表,并提供SQL功能;能将SQL语句转变成MapReduce任务来执行场景:非实时 大量不可变数据 的 批处理作业(离线数仓)centos安装mysqlcentos7安装mysql5.7linux安装mysqlcentos7安装HIVElinux安装HIVEHIVE元数据配置到MySQL

2020-12-25 16:34:32 124

原创 Python工程师的大数据之路(三)Hadoop集群部署

集群规划1、网络配置2、主机名3、关闭防火墙4、集群间免密登录5、安装JDK和Hadoop5.1、解压、修改用户主5.2、环境变量5.3、配置文件5.3.1、etc5.3.2、sbin6、文件分发7、集群启动8、运行官方示例

2020-12-06 21:40:19 142

原创 个人设想的冷热数据架构

个人构想的 冷热数据模型热数据:放内存常访问(访问间隔短)冷数据:放硬盘e.g.两个数据A和B,一年都被访问400次,A每天都被访问1次,B某天被访问400次 其余时间几乎不被访问,表面上看AB每年都被访问400次,但A是热,B是冷A数据应放内存B数据长期放磁盘,需要时才放内存(第一次读时会比较耗时,最好可以预先告知),读出后就会在内存,短期内频繁再次访问的速度会很快场景,品类A品类每天都要监控,长期热B品类具有季节性,淡季时 冷数据,旺季时 转为热数据C品类冷门,长期为冷数据

2020-12-04 10:41:22 53

原创 Python工程师的大数据之路(零)整体架构

文章目录定义大数据存储技术大数据处理技术架构图Spark定义大数据存储技术大数据处理技术数据监控管理技术定时任务离线实时发邮件报错预警架构图Sparkpyspark

2020-12-03 17:11:41 78

原创 Python工程师的大数据之路(二)免密登录、文件传输

1、非对称加密1.1、RSA加密算法2、SSH3、SSH免密登录配置3.1、单向免密登录3.2、集群间免密登录4、基于免密登录的文件传输4.1、scp4.2、rsync和xsync对称加密:加密和解密使用相同密钥的加密算法非对称加密:加密和解密使用不同密钥的加密算法非对称加密需要成对的公钥(public key)和私钥(private key)公钥加密的数据 只有对应的私钥可以解密私钥加密的数据 只有对应的公钥可以解密1.1、RSA加密算法主流的非对称加密算法麻省理工学院工作

2020-11-27 15:27:58 121 1

原创 Python工程师的Spark之路(2)CentOS7下Spark安装+集群部署

Apache SparkTM是大数据分析引擎在Scala语言中实现更基于内存(相对于MapReduce),适用于实时计算软件安装解压到指定目录、修改用户组spark-submitspark-shellpysparkStandalone集群部署配置文件slavesspark-env.shlog4j.properties(可选)分发到各节点启停命令查看集群状态运行官方案例基于yarn的集群部署方式

2020-11-21 16:46:58 238 1

原创 Python工程师的大数据之路(一)Java入门

最近学大数据,据说要懂点Java才行安装Java8第一个Java程序IDE安装基础语法代码注释命名规范基本结构Java是Java面向对象程序设计语言和Java平台的总称主要特性:面向对象、解释型、平台独立与可移植性method

2020-11-17 19:59:36 200 2

原创 白痴如我git入门自用笔记

文章目录

2020-11-17 00:10:45 86

原创 python打印a~z

a~zprint([chr(i)for i in range(ord('a'), ord('z') + 1)])['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']print(''.join(chr(i)for i in range(97, 123)))abcdefghijklmnopqrs

2020-11-13 14:43:54 71

原创 Python极简WEB开发HTML、CSS、JavaScript、Flask

HTTPHTMLCSSJavaScriptFlaskGET方法POST方法HyperText Transfer Protocol超文本传输协议HyperText Markup Language超文本标记语言Cascading Style Sheets层叠样式表

2020-11-04 23:39:26 92 1

原创 Python3网络编程socket笔记

pythonpython3socket网络编程通信网络通信通信协议TCP/IP协议套接字服务端客户端

2020-10-31 11:02:21 142

原创 Python3模块pika连接RabbitMQ消息队列(代码自用)

消息队列(Message Queue):在消息的传输过程中保存消息的容器RabbitMQ:实现了高级消息队列协议(AMQP)的开源消息代理软件Python连接RabbitMQpika安装生产者消费者封装自用

2020-10-24 21:22:29 241 1

原创 NLP算法Python相近词查找

近义词查找近似词查找相近词查找自然语言处理NLP词向量编辑距离找邻居使用编辑距离查找相近词

2020-10-24 21:20:42 287 1

原创 程序员的金融笔记:金融-基础知识

经济:人们生产、流通、分配、消费一切物质精神资料的总称经济学:研究 如何 对 社会稀缺资源 进行 有效分配金融:货币的发行、流通和回笼,贷款的发放和收回,存款的存入和提取,汇兑的往来等经济活动金融市场&金融工具利率&金融资产定价金融机构&金融制度商业银行经营与管理投资银行&证券投资基金信托&租赁金融工程&金融风险货币供求及其均衡中央银行与金融监管国际金融及其管理汇率

2020-10-24 21:13:13 376 1

原创 程序员的金融笔记:金融史

《搞懂金融的第一本书》天津教育出版社豆瓣8分多1、货币史2、银行史3、负利率时代4、美元史5、汇率史6、通货膨胀史7、房价

2020-10-21 16:44:38 432 6

NLP文本10分类EXCEL

用于自然语言处理的文本10分类语料,xlsx格式,数据量19467,分别为: [('science', 2093), ('car', 2066), ('finance', 2052), ('sports', 2017), ('military', 2007), ('medicine', 2000), ('entertainment', 1906), ('politics', 1865), ('education', 1749), ('fashion', 1712)]

2020-09-19

Python程序写诗【1分钟】古诗词生成

Python词向量gensim文本生成,训练【一分钟】,诗词歌赋【一秒生成】

2019-02-11

Python一分钟生成古诗词

Python文本生成程序,从零训练词向量,一分钟生成古诗对联~

2019-01-31

离线数仓安装包.rar

亲测可用的JDK、Hadoop、HIVE安装包,配套博文: https://yellow520.blog.csdn.net/article/details/112253651

2021-01-06

大数据入门HIVE和MySQL安装包

配套专栏:https://blog.csdn.net/yellow_python/category_10582173.html

2020-12-25

大数据入门安装包Hadoop、JDK等

配套本专栏(https://blog.csdn.net/yellow_python/category_10582173.html)的大数据入门安装包

2020-12-25

自然语言处理文本分类实验

Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论

2020-09-27

2020中国省市拼音.xlsx

2020年中国一级和二级行政区划的【驼峰拼音】,一共三百多条数据,另附行政区划全称和简称,说得够清楚了,下了就不要给差评。

2020-07-21

region2019.xlsx

中国行政区划2019(2020年采集),采集自国家统计局http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/

2020-05-28

中国行政区划【更新至2018-10-31】

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-27

中国行政区划(更新至2018-10-31)

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-14

Keras英译中seq2seq简洁示例

Keras【极简】seq2seq英译中示例,附带语料以及训练500次后的模型

2019-02-21

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除