自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ArYe

人工智能

  • 博客(9)
  • 资源 (12)
  • 收藏
  • 关注

原创 Python监督学习【词分类】算法

基于统计单标签多分类多标签多分类机器学习补充全部分析结果比较阅读扩展:半监督词分类算法前言场景根据关键词来判断一个标题属于什么类型的文章例如《小米雷军用苹果被吐槽,官方回应:不用就是不关心产品》标题里出现小米和苹果,则大概率认为该文章的主题是手机,而此处就是要用算法找出【小米、苹果】这类词及其对应的主题常用方法基于统计、监督分类模型(贝叶斯…)、半监督、无监督模型(词向量…)

2020-05-21 09:59:16 282

原创 Python常用脚本头(复制自用)

配置系统路径忽略FutureWarningjupyter可视化Oracle+sqlalchemy其它crontab+anacondashellpython2

2020-05-20 19:59:41 279

原创 Python读写ElasticSearch【自用】

按照和基本调用安装conda insatll elasticsearch基本调用from elasticsearch import Elasticsearch, helpersHOSTS = 'http://abc.com'INDEX = 'abc'es = Elasticsearch(HOSTS)js = es.search(INDEX, {'query': {'match_all': {}}})print(js)封装自用from elasticsearch import E

2020-05-20 09:40:34 286

原创 Python默认起始时间

Python默认起始时间为1970-01-01 08:00:00代码验证import timet = 0print(time.localtime(t))print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(t)))打印结果time.struct_time(tm_year=1970, tm_mon=1, tm_mday=1, tm_hour=8, tm_min=0, tm_sec=0, tm_wday=3, tm_yday=1, tm_

2020-05-15 20:20:20 323

原创 计算单词在文章中不同位置的权重

场景在信息抽取中,词语在文章中各个位置具有不同的权重。把文章简单分为前中后三部分,某词出现在前面时有较大概率是关键词,出现在其它位置时有较小概率是关键词例如某【日期类】实体在结尾出现的概率较大,故该实体结尾权重较高,在开头和中间出现的词极可能是伪实体通常文章信息权重排序:开头>结尾>中间步骤统计实体在文章出现的位置计算位置密度计算位置权重

2020-05-13 09:04:43 347

原创 NLP工程师的工作感悟(持续更)

文章目录数学是要学的,但不需要真的去算(微积分什么的)统计学思想和业务高度挂钩所以找一个自己喜欢的业务本科生,如果不是搞研究,很难做深深度学习的可解释性很差,否定词模型都解不出领导不懂,沟通困难说到底供求关系,目前已经供过于求积累数据积累算法...

2020-05-09 21:00:29 447

原创 驼峰命名转下划线命名

场景:json数据常以驼峰命名,需要转下划线命名,以对应Python或数据库字段名命名方式说明特点适用领域示例下划线命名单词间用下划线分隔清晰Python、MySQL、Oracleteacher_name驼峰命名第一个字母小写,后面其他单词首字母大写短json、前端开发、Java、ElasticeSearchteacherNameimport redef sub(name): """驼峰命名 -> 下划线命名""" retur

2020-05-09 10:23:13 242

原创 NLP项目数据仓库

架构图外源数据原始层标准层清洗层算法层应用层前端相关知识补充数据库数据仓库数据库和数据仓库的区别元数据(metadata)

2020-05-04 14:04:59 244

原创 行政区划信息抽取算法(区划抽取)

文章目录前言基础知识数据处理歧义名称指向不明带歧义地名重名后缀后缀去掉后缀代码示例前言行政区划信息抽取算法,简称区划抽取本文区划仅针对中国(缺港澳台),时间2019年,:http://www.stats.gov.cn/tjsj/tjbz/http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/index.html全国区...

2020-05-02 18:17:55 651

NLP文本10分类EXCEL

用于自然语言处理的文本10分类语料,xlsx格式,数据量19467,分别为: [('science', 2093), ('car', 2066), ('finance', 2052), ('sports', 2017), ('military', 2007), ('medicine', 2000), ('entertainment', 1906), ('politics', 1865), ('education', 1749), ('fashion', 1712)]

2020-09-19

Python程序写诗【1分钟】古诗词生成

Python词向量gensim文本生成,训练【一分钟】,诗词歌赋【一秒生成】

2019-02-11

Python一分钟生成古诗词

Python文本生成程序,从零训练词向量,一分钟生成古诗对联~

2019-01-31

离线数仓安装包.rar

亲测可用的JDK、Hadoop、HIVE安装包,配套博文: https://yellow520.blog.csdn.net/article/details/112253651

2021-01-06

大数据入门HIVE和MySQL安装包

配套专栏:https://blog.csdn.net/yellow_python/category_10582173.html

2020-12-25

大数据入门安装包Hadoop、JDK等

配套本专栏(https://blog.csdn.net/yellow_python/category_10582173.html)的大数据入门安装包

2020-12-25

自然语言处理文本分类实验

Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论

2020-09-27

2020中国省市拼音.xlsx

2020年中国一级和二级行政区划的【驼峰拼音】,一共三百多条数据,另附行政区划全称和简称,说得够清楚了,下了就不要给差评。

2020-07-21

region2019.xlsx

中国行政区划2019(2020年采集),采集自国家统计局http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/

2020-05-28

中国行政区划【更新至2018-10-31】

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-27

中国行政区划(更新至2018-10-31)

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-14

Keras英译中seq2seq简洁示例

Keras【极简】seq2seq英译中示例,附带语料以及训练500次后的模型

2019-02-21

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除