- 博客(8)
- 资源 (12)
- 收藏
- 关注
原创 Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA
实际工作中,待测数据可能已知,也可能未知逻辑回归整体最优(最高准度第2,平均准度第1,结果稳定,速度ok)独热编码优于词向量独热编码tfidf优于count线性svm训练时间过长,结果不稳定独热tfidf+线性svm准度最优深度学习的训练轮数不易确认,导致不稳定数据量较少情况下深度学习的准确度较机器学习低词向量相当于降维,低维空间上,逻辑回归和线性SVM效果一般,高斯核函数SVM效果更好但不稳定无监督学习中,【词向量+专家系统】有76%的准确率主题模型LDA是垃圾
2020-09-27 15:18:37
299
原创 【原创首发】训练集停止训练后,验证集加入训练(在深度学习算法中)
在深度学习中,为了防止过拟合,被切分出来的验证集用来停止训练,但木有用于训练而导致浪费本文尝试训练集停止训练后,验证集加入训练,并用多组参数进行实验图像识别结果有提升,非常不稳定但可控,建议在选择10%作为验证集并在训练结束后加入至少1次文本分类结果有明显提升,不稳定但可控无论哪种分类,训练集结束后,进行至少一轮验证集,极高概率提升模型准确率
2020-09-26 09:48:45
323
1
原创 标注数据较少时【长文本分类任务】的半监督学习Python算法
具有小量准确标注数据#mermaid-svg-O0JlRfpc08ZZQ7aH .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-O0JlRfpc08ZZQ7aH .label text{fill:#333}#mermaid-svg-O0JlRfpc08ZZQ7aH .node rect,#mermaid-svg
2020-09-19 00:10:29
271
5
原创 【20行代码】中文NLP词向量词聚类Python原创算法(直接复制可用)
文章目录学前基础原理词向量+norm+kmeans部分结果展示学前基础1、词向量2、聚类算法原理:语料>文本切分>词向量>词单位向量>聚类主要可调参数: 停词和词性过滤时间词处理词窗词向量维度sg=1簇数失败实验词向量+kmeans:高频词和低频词会被分开词向量+norm+DBSCAN:大部分词被连成一片LDA(长文切短):大部分词主题概率极低(主题0)
2020-09-10 11:08:19
796
3
原创 信息抽取Python算法总结:词库匹配,词向量,TFIDF,机器学习,深度学习(持续更)
文章目录词典匹配词典匹配升级版:设定阈值、多标签TFIDF词典匹配+词向量TFIDF+词向量LDA词典匹配from jieba import cutlexicon = {'剑圣', '大法师', '守望者', '山丘之王'}def extract(text): return [w for w in cut(text)if w in lexicon]print(extract('剑圣斩杀大法师'))词典匹配升级版:设定阈值、多标签TFIDF词典匹配+词向量TFIDF+词向量
2020-09-02 20:51:42
387
原创 标注数据类型及对应的监督学习方案
具有大量准确标注数据具有小量准确标注数据基于规则的数据增强筛选高概率的数据增强图像数据增强逆离散化or上采样迁移学习数据含有标注,但与业务需求不完全相符标注粒度过粗标注元数不同标注数据含噪音无标注数据半监督学习方案无监督学习方案文本数据结构化文本数据非结构化文本数据半结构化文本数据
2020-09-02 10:19:47
135
原创 NLP关键词权重算法总结Python实现(超级全,持续更)
词频TFIDF词在文中位置文章总长度词长词跨度词性词与主题的关系否定句自然衰减权重TextRank内联权重上下文特征向量最尾补充一些失败实验
2020-09-01 14:16:18
1029
NLP文本10分类EXCEL
2020-09-19
离线数仓安装包.rar
2021-01-06
大数据入门安装包Hadoop、JDK等
2020-12-25
自然语言处理文本分类实验
2020-09-27
region2019.xlsx
2020-05-28
中国行政区划【更新至2018-10-31】
2019-03-27
中国行政区划(更新至2018-10-31)
2019-03-14
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝