使用Scrapy爬取豆瓣电影评论

前言

最近需要做一个通过神经网络(LSTM)做情感分析的项目。第一步数据集就难住了,英文可以用 IMDB 的评论数据集,但是没有找到好用的中文数据集,就想着自己用爬虫爬一些数据。考虑了一下,决定用豆瓣的影评作为原始数据,一方面是和 IMDB 数据集类似,处理数据时可以借鉴一下,而且豆瓣影评带一个分数,可以方便标记数据,不用人工标记,但是得针对性的选一些电影的影评。

使用PyTorch训练MNIST数据集

前言

PyTorch 是一个基于 Python 的深度学习平台,它简单易用上手快的同时功能十分强大。

本篇文章首先将介绍 PyTorch 的基本数据结构 Tensor 的一些操作;随后给出神经网络中的 HelloWorld 例子:用最经典的卷积神经网络(LeNet5)训练手写数据集 MNIST

计算机网络之网页请求过程

场景

学生 Bob 把他的笔记本连接到宿舍的网络并请求一个 HTTP 页面。宿舍的网络链接连接到学校交换机,交换机又连接到学校路由器。

准备阶段一:DHCP UDP IP ETH

当 Bob 用网线将笔记本连接到网络端口后,没有 IP 地址他就不能做任何的事情,所以笔记本采取的第一个与网络相关的步骤是运行 DHCP 协议,从本地的 DHCP 服务器获取一个 IP 地址以及其它信息。

数据库中的连接操作

前言

在介绍一下的内容之前,先介绍两个表:R和 S,内容如下:

表 R

ABC
a1b11
a2b22
a3b23
a4b34

表 S

BD
b15
b26
b47

笛卡尔积

两个表的笛卡尔积定义为:

\begin{equation} R \times S = \{<t,g> \mid t \in R \quad AND \quad g \in S\} \end{equation}

多线程中的生产者消费者模型

线程的概念

为了减少程序并发执行的时空开销,使得并发粒度更细,并发性更好,把进程的两项功能(独立分配资源和被调度分派执行)分开得到线程。线程是操作系统进程中能够独立执行的实体,是处理器调度和分派的基本单位。