[TOC]

数据分析(EDA)学习总结

参考:https://mp.weixin.qq.com/s/DWUmup4P_tdYWaK3buK72w

0、简介

探索性数据分析(Exploratory Data Analysis,EDA)是一种探索数据的结构和规律的一种数据分析方法。

  • 对数据进行清洗
  • 对数据进行描述(描述统计量,图表)
  • 查看数据的分布
  • 比较数据之间的关系
  • 培养对数据的直觉
  • 对数据进行总结

一、数据及背景

https://tianchi.aliyun.com/competition/entrance/531810/information(阿里天池-零基础入门NLP赛事)

二、实验环境

导入需要使用的包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
import seaborn as sns
import scipy
from collections import Counter

三、数据探索

首先,利用Pandas对数据进行读取。

df_train = pd.read_csv(train_path, sep='\t')
df_test = pd.read_csv(test_path, sep='\t')