2017-02-04 14 views
0

у меня есть CSV-файл,
данных:Как нормализовать данные по всем параметрам в одном диапазоне шкалы

выход: 1172,4, 1712,7, 863,88, 2731,34, 5220

Дождь (мм): 113,6, 152,3, 181,9, 152,3, 125,3

фиктивная (types_of_soil): 1, 0, 0, 2, 1

фиктивная переменная: 1 ==> Средние черноземКерамзитПГС

0 ==> глубокий черный

2 ==> Редька коричневого

Зависимая переменная (у): выход

независимой переменной: дождь, манекен (типы почв)

Таким образом, Я хочу нормализовать эти данные, Как масштабировать данные в диапазоне от 1 до 10?

Я попытался использовать формулу: (xi - min)/(max - min) Правильно ли это?

и как масштабировать данные для двоичной переменной (манекен)?

ответ

1

вы можете использовать этот код, чтобы нормализовать данные

import pandas 
import scipy 
import numpy 
from sklearn.preprocessing import MinMaxScaler 
url = "filename.csv" 
names = ['yield','Rain','types of soil'] 
dataframe = pandas.read_csv(url, names=names) 
array = dataframe.values 
# separate array into input and output components 
X = array[:,] **select x independent variable** 
Y = array[:,] **select y dependent variable** 
scaler = MinMaxScaler(feature_range=(0, 1)) 
rescaledX = scaler.fit_transform(X) 
# summarize transformed data 
numpy.set_printoptions(precision=3) 
print(rescaledX[0:5,:]) 

для более подробной информации. см. эту ссылку http://machinelearningmastery.com/prepare-data-machine-learning-python-scikit-learn/