Cassandra предоставляет свои разделы как многострочные строки, однако внутренне хранящиеся в виде рядов, и именно так я хотел бы работать с моими данными с помощью Spark.Как сделать перегородку Кассандры похожим на широкий ряд в Spark?
Чтобы быть более конкретным, я, так или иначе, получаю RDD разделов Cassandra или их данные.
Тогда я хотел бы сделать map
операцию, и в замыкании, я хотел бы выразить что-то вроде этого:
row['parameter1']['value']/len(row['parameter2']['vector_value'])
псевдокода просто чтобы дать представление о том, простом разделении и принимая длину вектора.
Моя таблица будет
create table(
dataset_name text,
parameter text,
value real,
vector_value list<real>,
primary key(dataset_name, parameter));
Как я могу сделать это efficiencly? Использование с PySpark.
Мне кажется, что-то вроде Pandas set_index
.