Попытка получить некоторые большие данные панели из excel в python, поэтому я могу сделать некоторый анализ регрессии данных в массиве GMM/Cross Sectional (думаю, пакет sci-kit). Я переместил свои данные с excel на Python, но формат для регрессионного анализа неверен (см. Ниже). На сайте Scikit есть несколько наборов данных, с которыми можно играть, но это не очень полезно для обсуждения форматов и того, как получить ваши данные в аналогичном формате, чтобы получить мои данные на Python.Excel для Python для больших данных панели, формат регрессии готов?
Есть ли у кого-нибудь опыт использования данных excel (.xlsx) и получение его в Python, «регрессионный»?
Я уже сделал свой необходимый регрессионный анализ в R и Stata, но мне хотелось бы лучше использовать Python для регрессионного анализа, так как он имеет некоторые приятные атрибуты.
Вот мой формат dataframe, от excel до Python. (это обрезается от формы набора данных 10000 X 60)
BANKS YEARS CIR DSF EQCUS EQLI EQNT EQUITY
0 CR1 2005 65.46 927915.00 28.553 23.948 37.542 264946.50
1 CR1 2006 65.98 1026491.00 30.491 26.584 36.143 312986.00
2 CR1 2007 60.26 1437615.00 27.003 23.413 28.238 388197.20
3 CR1 2008 58.08 1605464.00 24.024 20.160 25.828 385696.80
4 CR1 2009 65.21 1538570.00 28.160 22.850 27.907 433267.30
5 CR1 2010 54.45 1822863.00 31.009 24.555 28.274 565254.60
6 CR1 2011 57.38 2075505.00 30.905 24.861 29.618 641440.50
7 CR1 2012 62.12 2533641.00 29.595 24.509 28.883 749821.50
типы данных:
>>>df.dtypes
BANKS object
YEARS int64
CIR float64
DSF float64
EQCUS float64
EQLI float64
EQNT float64
EQUITY float64
Unicode в столбцах (я не думаю, что научно-кит любит это!)
>>>df.columns.tolist()
[u'BANKS', u'YEARS', u'CIR', u'DSF', u'EQCUS', u'EQLI', u'EQNT', u'EQUITY']
Я не вижу никаких проблем с набором данных. Это панда данных, и его можно использовать в scikit-learn. В чем проблема, с которой вы сталкиваетесь при использовании этого набора данных? – ayhan
Я предполагаю, что на странице scikit-learn я не вижу никакой документации для ввода данных excel. Все, что я вижу, - это уже загруженные их наборы данных, а затем они начинают извлекать функции и подходят для модели. Как я запустил базовую OLS для этих данных выше? Я не вижу этого нигде на странице scikit. У Statsmodels есть аналогичные проблемы с документацией. – StringTheo