2016-01-11 7 views
6

Я пытаюсь использовать Google Datalab для чтения в файле в ноутбуке ipython, базовом pd.read_csv(), поскольку я не могу найти путь к файлу. Я использую его локально, а также загружал его в хранилище облачных хранилищ Google в ведро.Чтение в файле с Google datalab

Я побежал следующие команды, чтобы понять, где я

os.getcwd() 

дает '/content/[email protected]'

os.listdir('/content/[email protected]') 

дает [ '.git', '' .gitignore , «DATALAB», «Привет World.ipynb»,»] .ipynb_checkpoints

ответ

9

Ниже считывает содержимое объекта в переменную строки под названием text:

%%storage read --object "gs://path/to/data.csv" --variable text 

Тогда

from cStringIO import StringIO 
mydata = pd.read_csv(StringIO(text)) 
mydata.head() 

Надеется панда будет поддерживать "gs://" URL-адреса (как это делает для s3:// в настоящее время, чтобы позволить чтение непосредственно из хранилища Google Cloud.

Я нашел следующие документы действительно полезно:

https://github.com/GoogleCloudPlatform/datalab/tree/master/content/datalab/tutorials

Надежда, что помогает (просто начать работу с DATALAB тоже, так что, может быть, кто-то будет иметь более чистый метод в ближайшее время).

+0

Я получаю эту ошибку: Cell магии '%% storage' не нашел (Но линия магии'% storage' существует, вы имели в виду, что вместо этого?)? – vvv

+0

также выглядит так, как будто я должен указать путь, но это то, что мне неизвестно :) – vvv

+0

'%% storage' действительно работает для меня. Два бита кода находятся в отдельных ячейках в записной книжке, '%%' - это клеточная магия. Чтобы прояснить путь, 'gs: // path/the/data.csv' указывает на файл в облачном хранилище Google в вашем ковше, а не локально на вашем ноутбуке, так что вы загрузили его. 'gs: // bucket/file.csv' – Chris

1

Вы также можете запускать запросы BigQuery непосредственно против файлов CSV в Cloud Storage, создав объект-оболочку FederatedTable. Это описано здесь:

https://github.com/GoogleCloudPlatform/datalab/blob/master/content/datalab/tutorials/BigQuery/Using%20External%20Tables%20from%20BigQuery.ipynb

+0

, но для этого требуется указать путь? Я просто смущен относительно того, где этот файл csv я загружаю в хранилище «живет», – vvv