自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ArYe

人工智能

  • 博客(8)
  • 资源 (12)
  • 收藏
  • 关注

原创 Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA

实际工作中,待测数据可能已知,也可能未知逻辑回归整体最优(最高准度第2,平均准度第1,结果稳定,速度ok)独热编码优于词向量独热编码tfidf优于count线性svm训练时间过长,结果不稳定独热tfidf+线性svm准度最优深度学习的训练轮数不易确认,导致不稳定数据量较少情况下深度学习的准确度较机器学习低词向量相当于降维,低维空间上,逻辑回归和线性SVM效果一般,高斯核函数SVM效果更好但不稳定无监督学习中,【词向量+专家系统】有76%的准确率主题模型LDA是垃圾

2020-09-27 15:18:37 299

原创 【原创首发】训练集停止训练后,验证集加入训练(在深度学习算法中)

在深度学习中,为了防止过拟合,被切分出来的验证集用来停止训练,但木有用于训练而导致浪费本文尝试训练集停止训练后,验证集加入训练,并用多组参数进行实验图像识别结果有提升,非常不稳定但可控,建议在选择10%作为验证集并在训练结束后加入至少1次文本分类结果有明显提升,不稳定但可控无论哪种分类,训练集结束后,进行至少一轮验证集,极高概率提升模型准确率

2020-09-26 09:48:45 323 1

原创 标注数据较少时【长文本分类任务】的半监督学习Python算法

具有小量准确标注数据#mermaid-svg-O0JlRfpc08ZZQ7aH .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-O0JlRfpc08ZZQ7aH .label text{fill:#333}#mermaid-svg-O0JlRfpc08ZZQ7aH .node rect,#mermaid-svg

2020-09-19 00:10:29 271 5

原创 给自己立一个人生目标(不定更)

近期目标每周两次运动(羽毛球、健身、跑步、乒乓球、golf……)夏天23.45前睡,冬天23.30前睡

2020-09-17 17:41:10 1568 8

原创 【20行代码】中文NLP词向量词聚类Python原创算法(直接复制可用)

文章目录学前基础原理词向量+norm+kmeans部分结果展示学前基础1、词向量2、聚类算法原理:语料>文本切分>词向量>词单位向量>聚类主要可调参数: 停词和词性过滤时间词处理词窗词向量维度sg=1簇数失败实验词向量+kmeans:高频词和低频词会被分开词向量+norm+DBSCAN:大部分词被连成一片LDA(长文切短):大部分词主题概率极低(主题0)

2020-09-10 11:08:19 796 3

原创 信息抽取Python算法总结:词库匹配,词向量,TFIDF,机器学习,深度学习(持续更)

文章目录词典匹配词典匹配升级版:设定阈值、多标签TFIDF词典匹配+词向量TFIDF+词向量LDA词典匹配from jieba import cutlexicon = {'剑圣', '大法师', '守望者', '山丘之王'}def extract(text): return [w for w in cut(text)if w in lexicon]print(extract('剑圣斩杀大法师'))词典匹配升级版:设定阈值、多标签TFIDF词典匹配+词向量TFIDF+词向量

2020-09-02 20:51:42 387

原创 标注数据类型及对应的监督学习方案

具有大量准确标注数据具有小量准确标注数据基于规则的数据增强筛选高概率的数据增强图像数据增强逆离散化or上采样迁移学习数据含有标注,但与业务需求不完全相符标注粒度过粗标注元数不同标注数据含噪音无标注数据半监督学习方案无监督学习方案文本数据结构化文本数据非结构化文本数据半结构化文本数据

2020-09-02 10:19:47 135

原创 NLP关键词权重算法总结Python实现(超级全,持续更)

词频TFIDF词在文中位置文章总长度词长词跨度词性词与主题的关系否定句自然衰减权重TextRank内联权重上下文特征向量最尾补充一些失败实验

2020-09-01 14:16:18 1029

NLP文本10分类EXCEL

用于自然语言处理的文本10分类语料,xlsx格式,数据量19467,分别为: [('science', 2093), ('car', 2066), ('finance', 2052), ('sports', 2017), ('military', 2007), ('medicine', 2000), ('entertainment', 1906), ('politics', 1865), ('education', 1749), ('fashion', 1712)]

2020-09-19

Python程序写诗【1分钟】古诗词生成

Python词向量gensim文本生成,训练【一分钟】,诗词歌赋【一秒生成】

2019-02-11

Python一分钟生成古诗词

Python文本生成程序,从零训练词向量,一分钟生成古诗对联~

2019-01-31

离线数仓安装包.rar

亲测可用的JDK、Hadoop、HIVE安装包,配套博文: https://yellow520.blog.csdn.net/article/details/112253651

2021-01-06

大数据入门HIVE和MySQL安装包

配套专栏:https://blog.csdn.net/yellow_python/category_10582173.html

2020-12-25

大数据入门安装包Hadoop、JDK等

配套本专栏(https://blog.csdn.net/yellow_python/category_10582173.html)的大数据入门安装包

2020-12-25

自然语言处理文本分类实验

Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论

2020-09-27

2020中国省市拼音.xlsx

2020年中国一级和二级行政区划的【驼峰拼音】,一共三百多条数据,另附行政区划全称和简称,说得够清楚了,下了就不要给差评。

2020-07-21

region2019.xlsx

中国行政区划2019(2020年采集),采集自国家统计局http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/

2020-05-28

中国行政区划【更新至2018-10-31】

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-27

中国行政区划(更新至2018-10-31)

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-14

Keras英译中seq2seq简洁示例

Keras【极简】seq2seq英译中示例,附带语料以及训练500次后的模型

2019-02-21

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除