Вопросы по теме 'apache-spark-sql'

Spark SQL не может завершить запись данных Parquet с большим количеством сегментов
Я пытаюсь использовать Apache Spark SQL для переноса данных журнала json в S3 в файлы Parquet также на S3. Мой код в основном: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6)...
3179 просмотров

Ошибка при записи перераспределенного SchemaRDD в Parquet с помощью Spark SQL
Я пытаюсь записать таблицы Spark SQL для сохранения в файлы Parquet. Из-за другого проблемы Мне нужно уменьшить количество разделов перед записью. Мой код data.coalesce(1000,shuffle=true).saveAsParquetFile("s3n://...") Это бросает...
868 просмотров
schedule 02.06.2022

Сохранение ›› 25T SchemaRDD в формате Parquet на S3
Я столкнулся с рядом проблем при попытке сохранить очень большой SchemaRDD, как в формате Parquet на S3. Я уже задавал конкретные вопросы по этим проблемам, но это то, что мне действительно нужно сделать. Код должен выглядеть примерно так import...
2235 просмотров

SQL-функции со schemaRDD с использованием интегрированного языка SQL
Я хочу отфильтровать schemaRDD, используя интегрированный язык SQL на основе функций SQL. Например, я хочу запустить SELECT name FROM people WHERE name LIKE '%AHSAN%' AND name regexp '^[A-Z]{20}$' Как я могу использовать такие функции SQL в...
2033 просмотров
schedule 15.07.2022

Схема из SchemaRDD?
Учитывая SchemaRDD (загружается с использованием SQLContext.parquetFile ), как извлечь его метаданные/схему/список столбцов?
204 просмотров
schedule 19.04.2024

Spark-sql CLI использует только 1 исполнителя при выполнении запроса
Я собираюсь использовать spark-sql cli для замены оболочки hive cli, и я запускаю spark-sql cli, следуя команде (мы используем кластер пряжи Hadoop, hive-site.xml уже скопирован в / conf) .> spark-sql Затем оболочка открывается и работает...
4463 просмотров
schedule 29.12.2021

использовать SQL в DStream.transform() вместо Spark Streaming?
Есть несколько примеров использования SQL поверх Spark Streaming в foreachRDD() . Но если я хочу использовать SQL в tranform() : case class AlertMsg(host:String, count:Int, sum:Double) val lines = ssc.socketTextStream("localhost", 8888)...
958 просмотров

Ошибка при расширении класса scala с помощью интерфейса продукта для преодоления ограничения в 22 поля в Spark-Shell
Мне нужно создать схему класса для поддержки 29 полей. Из-за ограничения в 22 поля с классом case я попытался расширить свой класс sdp_d с помощью интерфейса Product следующим образом: class sdp_d( WID :Option[Int], BATCH_ID :Option[Int], SRC_ID...
1397 просмотров
schedule 01.01.2022

(Py) Spark - Группировка по пользователю в течение определенного промежутка времени
Я обрабатываю много файлов журналов и хотел бы перенести задание в Spark, но я не могу понять, как агрегировать события в рамках временного окна, основанного на событиях, так, как я могу легко это сделать в Pandas. Вот что я хочу сделать: Для...
2297 просмотров

Чистая искра против искры SQL для запроса данных в HDFS
У меня есть (табличные) данные о кластере hdfs, и мне нужно выполнить несколько сложных запросов к нему. Я ожидаю, что в будущем столкнусь с такой же ситуацией много раз с другими данными. Итак, вопрос: Какие факторы следует принимать во...
435 просмотров
schedule 08.01.2023

NoSuchMethodError: org.apache.spark.sql.SQLContext.applySchema
Я пытаюсь выполнить запрос к файлу, хранящемуся в hdfs, с использованием sqlcontext, предоставленного в Apache Spark, с использованием приведенного ниже кода, но я получаю NoSuchMethodError package SQL import org.apache.spark.SparkContext import...
4460 просмотров
schedule 08.05.2023

Spark SQL Scala - получение имен столбцов в JDBCRDD
Я новичок в Spark и Scala. Я пытаюсь получить содержимое из процедуры на SQL-сервере, чтобы использовать его в Spark SQL. Для этого я импортирую данные через JDBCRDD в Scala (Eclipse) и создаю RDD из процедуры. После создания RDD я регистрирую...
3416 просмотров
schedule 22.04.2022

Как удалить столбцы в фрейме данных pyspark
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint,...
256826 просмотров
schedule 15.03.2022

Apache Spark: соединение JDBC не работает
Я задавал этот вопрос и ранее, но не получил ответа ( Невозможно подключиться к postgres с помощью jdbc в оболочке pyspark ). Я успешно установил Spark 1.3.0 на свои локальные окна и запустил образцы программ для тестирования с использованием...
19386 просмотров

SparkSQL с HIVE
Я пытаюсь использовать HIVEContext с помощью SparkSQL, и когда я создаю val hContext = new org.apache.spark.sql.hive.HiveContext(sc) Я понял, что улей не является участником spark.sql, когда заглянул в документация говорит, что я должен...
517 просмотров
schedule 05.05.2023

Spark SQL HiveContext — saveAsTable создает неправильную схему
Я пытаюсь сохранить Dataframe в постоянной таблице Hive в Spark 1.3.0 (PySpark). Это мой код: sc = SparkContext(appName="HiveTest") hc = HiveContext(sc) peopleRDD = sc.parallelize(['{"name":"Yin","age":30}']) peopleDF = hc.jsonRDD(peopleRDD)...
9796 просмотров
schedule 09.05.2024

Spark Streaming: объединение пакетов Dstream в единую выходную папку
Я использую Spark Streaming для получения твитов из твиттера, создавая StreamingContext как: val ssc = new StreamingContext("local[3]", "TwitterFeed",Minutes(1)) и создать твиттер-поток как: val tweetStream = TwitterUtils.createStream(ssc,...
2962 просмотров

Как развернуть Spark DataFrame?
Я начинаю использовать Spark DataFrames, и мне нужно иметь возможность сводить данные для создания нескольких столбцов из одного столбца с несколькими строками. Для этого в Scalding есть встроенная функциональность, и я верю в Pandas в Python, но я...
81449 просмотров

Невозможно загрузить учетные данные AWS при использовании Spark SQL через Билайн
Используя Beeline, подключенный к SparkSQL 1.3, я пытаюсь создать таблицу, которая использует данные S3 (с использованием протокола s3a): CREATE EXTERNAL TABLE mytable (...) STORED AS PARQUET LOCATION 's3a://mybucket/mydata'; Я получаю...
6895 просмотров

Должен ли я использовать registerDataFrameAsTable в Spark SQL?
Во время миграции с PySpark на Spark с помощью Scala я столкнулся с проблемой, связанной с тем, что registerDataFrameAsTable является закрытым. Это заставило меня подумать, что мой подход может быть неправильным. В PySpark я делаю следующее:...
1192 просмотров
schedule 24.02.2023