Я использую google bigQuery для анализа набора данных обзора амазонки. У набора данных есть «полезный» столбец, который выглядит так: «полезно»: [0, 0], где первый элемент является «да», а второй - «полным» голосованием.Google bigQuery split column
Когда я загружаю данные inn bigQuery, он разбивает столбец на две строки, потому что он не поддерживает формат массива. bigQuery screenshot. Используя метод «применить ряд» в питона панд я могу разделить полезную колонку в два columns- «полезный голос» и «общий голос»: jupyter notebook screenshot
Если я пишу этот запрос, чтобы сделать то же самое в BQ:
SELECT TA1.reviewerID, TA1.helpful AS yes, TA2.helpful AS total
FROM table_name as TA1
LEFT JOIN table_name as TA2
ON TA1.reviewerID = TA2.reviewerID and TA2.helpful != TA1.helpful
GROUP BY TA1.reviewerID
Я получаю следующее сообщение об ошибке: Ошибка: (L1: 27): Выражение 'TA1.helpful' нет в списке GROUP BY.
Тот же запрос работает в моем sqlite3. Что я делаю неправильно в BQ?
Спасибо,
это кажется как интересный набор данных, вы сможете поделиться? –
@Felipe [ссылка] (http://jmcauley.ucsd.edu/data/amazon/) – biswajit
Спасибо! Теперь, если вы загрузили его в BigQuery и открыли данные, вы можете публиковать этот набор данных. Было бы намного легче ответить на такие вопросы :). https://twitter.com/felipehoffa/status/761635507080081408 –