自然语言处理--文本分类

如果你接触过机器学习,那你就知道老师的实验课都会给你一堆数据,让你标注其中一些数据喂给模型让它自己学习,然后再丢给它一些未标注的数据来测试它的准确率。笔者最初对机器学习的认识就是这样--做分类。不过对于文本分类来说,我们有更好的方法。比如一本书里全是跟恋爱、青春有关的词,那它八成是本言情小说;一段影


自然语言处理--分词与词性

之前的笔记我们都是在讨论以英语为代表的西方自然语言如何在机器中处理的,实际上,机器在处理中文时更为困难,因为中文比西方语言更为复杂,比如英语两个词之间是有空格分开的,英语单词的词性比中文词更加明显,等等。在处理中文时,我们需要先将一句连续的话像英语那样拆分为各个单词,并为这些单词标注好词性,等等。我


自然语言处理--隐马尔可夫模型HMM

其实笔者感觉这一节的内容你或多或少在其他地方见过,因为HMM在应用太广了,并且在NLP其他章节中,HMM也是常客。不过要是这是你第一次接触HMM,那可能就很痛苦了。这节的笔记是笔者写的最痛苦的,因为公式非常多,理解起来有点吃力,幸运的是期末考试基本不会考这一节的复杂的公式推导与计算。另外,本节内容涉


机器学习--优化算法

梯度是多元函数在某一点处的一阶变化信息所组成的向量。如果把函数图像看作一座山,那么梯度指向"爬升最快"的方向,而负梯度则指向"下降最快"的方向。优化算法的核心目标,就是在参数空间中高效地寻找使损失函数最小化的最优参数。 1. 梯度的定义与梯度下降法 - 梯度的定义与几何意义 - 梯度下降法的核心思想


自然语言处理--语言模型

我感觉我写这个东西纯纯是在给自己期末复习...罢了,八成也是写给我自己看的,如果你刚好是那两成愿意看我整理这门课笔记的读者,那我要先说好:本文章由笔者在西北工业大学本科NLP(Natural Language Processing,自然语言处理)课程上课笔记整理而成,作为一门本科课程,这门课比科普向