2016-12-16 5 views
0

Я попытался загрузить указанный ниже JSON-файл в Spark HQL, но не смог быть успешно загружен. Выдает ошибку _corrupt_record.Невозможно загрузить Complex JSON Spark HQL - _corrupt_record error

Может ли кто-нибудь пролить свет на эту ошибку? Я могу читать и использовать файл с другими приложениями, такими как Notepad ++ (JSTool plugin), и я уверен, что он правильный и не поврежден.

{"markers": [ 
 
\t \t { 
 
\t \t \t "point":new GLatLng(40.266044,-74.718479), 
 
\t \t \t "homeTeam":"Lawrence Library", 
 
\t \t \t "awayTeam":"LUGip", 
 
\t \t \t "markerImage":"images/red.png", 
 
\t \t \t "information": "Linux users group meets second Wednesday of each month.", 
 
\t \t \t "fixture":"Wednesday 7pm", 
 
\t \t \t "capacity":"", 
 
\t \t \t "previousScore":"" 
 
\t \t }, 
 
\t \t { 
 
\t \t \t "point":new GLatLng(40.211600,-74.695702), 
 
\t \t \t "homeTeam":"Hamilton Library", 
 
\t \t \t "awayTeam":"LUGip HW SIG", 
 
\t \t \t "markerImage":"images/white.png", 
 
\t \t \t "information": "Linux users can meet the first Tuesday of the month to work out harward and configuration issues.", 
 
\t \t \t "fixture":"Tuesday 7pm", 
 
\t \t \t "capacity":"", 
 
\t \t \t "tv":"" 
 
\t \t }, 
 
\t \t { 
 
\t \t \t "point":new GLatLng(40.294535,-74.682012), 
 
\t \t \t "homeTeam":"Applebees", 
 
\t \t \t "awayTeam":"After LUPip Mtg Spot", 
 
\t \t \t "markerImage":"images/newcastle.png", 
 
\t \t \t "information": "Some of us go there after the main LUGip meeting, drink brews, and talk.", 
 
\t \t \t "fixture":"Wednesday whenever", 
 
\t \t \t "capacity":"2 to 4 pints", 
 
\t \t \t "tv":"" 
 
\t \t }, 
 
] }

+0

, пожалуйста, отправьте свой код – mtoto

ответ

0

Ваш JSON должны быть в одной строке за один объект

{ object1 } 
{ object2 } 

Только эта структура поддерживается по умолчанию read.json. Если вы хотите прочитать JSONs многоканального, можно было бы с помощью sparkContext.wholeTextFiles и ручного разборе

В документации text:

Обратите внимание, что файл, который предлагается в качестве файла JSON не типичный JSON файл. Каждая строка должна содержать отдельный автономный действительный объект JSON. Как следствие, обычный многострочный файл JSON будет чаще всего терпеть неудачу.