pip不能使用：

https://blog.csdn.net/hll19950830/article/details/88551506

安装：

https://www.zhihu.com/collection/261855801

https://www.jianshu.com/p/91365f343585

https://blog.csdn.net/liboshi123/article/details/116809849

一劳永逸配置pip源（推荐）：只需在windows命令行中输入一行命令，即可永久设置pip下载源为国内源
1
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

帮助：jupyter notebook –help

启动：在cmd命令行中，输入：jupyter notebook

配置默认启动路径：命令行输入命令：jupyter notebook –generate-config，找到“c.NotebookApp.notebook_dir=……”，把路径改成自己的工作目录。

快捷键：https://blog.csdn.net/qq_37294751/article/details/79489910

Jupyter Notebook的基本使用

https://www.jianshu.com/p/91365f343585

File页面：

对于现有的文件，可以通过勾选文件的方式，对选中文件进行复制、重命名、移动、下载、查看、编辑和删除的操作。

同时，也可以根据需要，在“New”下拉列表中选择想要创建文件的环境，进行创建“ipynb”格式的笔记本、“txt”格式的文档、终端或文件夹。

笔记本的基本操作

笔记本重命名的两种方式：

⑴ 笔记本内部重命名

在使用笔记本时，可以直接在其内部进行重命名。在左上方“Jupyter”的图标旁有程序默认的标题“Untitled”，点击“Untitled”然后在弹出的对话框中输入自拟的标题，点击“Rename”即完成了重命名。

⑵ 笔记本外部重命名

若在使用笔记本时忘记了重命名，且已经保存并退出至“Files”界面，则在“Files”界面勾选需要重命名的文件，点击“Rename”然后直接输入自拟的标题即可。

Running页面

Running页面主要展示的是当前正在运行当中的终端和“ipynb”格式的笔记本。若想要关闭已经打开的终端和“ipynb”格式的笔记本，仅仅关闭其页面是无法彻底退出程序的，需要在Running页面点击其对应的“Shutdown”。

教程

https://www.zhihu.com/zvideo/1346452501533818881

执行快捷键：shift+回车,运行并到达下一行；ctrl+回车，只运行这一行

自动补全：Tab

Help: np.random.random? np.random.random()：光标放在括号里，按住shift双击Tab

魔术命令：

专属于jupyter notebook的方法，带%的

%matplotlib inline 让画出来的图直接显示在web界面内

1
2
3


import matplotlib.pyplot as plt
import numpy as np
data = np.arange(20)

1
2


%matplotlib inline
plt.plot(data**2)

[<matplotlib.lines.Line2D at 0x21f15d5fb08>]

推荐个更简单的方法，直接使用pip下载清华大学的matplotlib镜像，代码是：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple matplotlib。这个镜像会自己把matplotlib需要的库顺便安装了，这样一行代码就可以搞定。

%pwd 查看当前目录

%timeit [x**3 for x in range(1000)] 执行本行代码所需要的时间

python数据分析神器Jupyter notebook快速入门

https://www.bilibili.com/video/BV1Q4411H7fJ?from=search&seid=5559550492727856855&spm_id_from=333.337.0.0

内核是ipython，可以命令行直接输ipython进入

数据分析与可视化案例：学习时间与成绩的关系（线性回归）

数据集csv，用逗号隔开的数据，也可以用excel打开自动转化为单元格

第1步：导入数据分析库pandas，数据可视化库matplotlib

%matplotlib inline是Ipython的魔法函数，其作用是使matplotlib绘制的图像嵌入在juptyer notebook的单元格里

1
2
3


import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

第2步：导入数据集，查看数据集

1
2


dataset = pd.read_csv('./studentscores.csv')
dataset.head(10)#查看前十行

	Hours	Scores
0	2.5	21
1	5.1	47
2	3.2	27
3	8.5	75
4	3.5	30
5	1.5	20
6	9.2	88
7	5.5	60
8	8.3	81
9	2.7	25

1

type(dataset)#二维表格类型

pandas.core.frame.DataFrame

1

dataset.shape#25行2列

(25, 2)

1

dataset.columns#第一行的表头

Index(['Hours', 'Scores'], dtype='object')

1

dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Hours   25 non-null     float64
 1   Scores  25 non-null     int64  
dtypes: float64(1), int64(1)
memory usage: 528.0 bytes

1
2


dataset.describe()#快速的一览统计特征，
#个数，平均数，标准差，最小值，下四分位数，中位数，上四分位数，最大值

	Hours	Scores
count	25.000000	25.000000
mean	5.012000	51.480000
std	2.525094	25.286887
min	1.100000	17.000000
25%	2.700000	30.000000
50%	4.800000	47.000000
75%	7.400000	75.000000
max	9.200000	95.000000

第3步：提取特征

提取特征：学习时间提取标签：学习成绩

1
2


feature_columns = ['Hours']
label_column = ['Scores']

1
2


features = dataset[feature_columns]
label = dataset[label_column]

1

features.head()

	Hours
0	2.5
1	5.1
2	3.2
3	8.5
4	3.5

1

type(features)#二维表格数据

pandas.core.frame.DataFrame

1

label.head()

	Scores
0	21
1	47
2	27
3	75
4	30

1

X = features.values#数据变成了一维数组

1

X

array([[2.5],
       [5.1],
       [3.2],
       [8.5],
       [3.5],
       [1.5],
       [9.2],
       [5.5],
       [8.3],
       [2.7],
       [7.7],
       [5.9],
       [4.5],
       [3.3],
       [1.1],
       [8.9],
       [2.5],
       [1.9],
       [6.1],
       [7.4],
       [2.7],
       [4.8],
       [3.8],
       [6.9],
       [7.8]])

1

X.shape#25行1列的向量

(25, 1)

1

Y = label.values

第四步：建立模型

拆分数据，四分之三的数据作为训练集，四分之一的数据作为测试集

1
2


from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0) 

用训练集的数据进行训练

1
2
3
4
5


#调用sklearn中的线性模型把训练集的数据传进来进行模型的训练
#regressor 是训练好的模型
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor = regressor.fit(X_train, Y_train)

对测试集进行预测

1
2


#用训练好的模型regressor来对测试集的数据来进行测试
Y_pred = regressor.predict(X_test)

可视化

1
2
3
4
5


# 散点图：红色点表示训练集的点
plt.scatter(X_train , Y_train, color = 'red')
# 线图：蓝色线表示由训练集训练出的线性回归模型
plt.plot(X_train , regressor.predict(X_train), color ='blue')
plt.show()

1
2
3
4
5


# 散点图：红色点表示测试集的点
plt.scatter(X_test , Y_test, color = 'red')
# 线图：蓝色线表示对测试集进行预测的结果
plt.plot(X_test , regressor.predict(X_test), color ='blue')
plt.show()

	Hours	Scores
0	2.5	21
1	5.1	47
2	3.2	27
3	8.5	75
4	3.5	30
5	1.5	20
6	9.2	88
7	5.5	60
8	8.3	81
9	2.7	25

	Hours	Scores
0	2.5	21
1	5.1	47
2	3.2	27
3	8.5	75
4	3.5	30
5	1.5	20
6	9.2	88
7	5.5	60
8	8.3	81
9	2.7	25

Contents