Вопросы по теме 'apache-spark-sql'
Spark SQL не может завершить запись данных Parquet с большим количеством сегментов
Я пытаюсь использовать Apache Spark SQL для переноса данных журнала json в S3 в файлы Parquet также на S3. Мой код в основном:
import org.apache.spark._
val sqlContext = sql.SQLContext(sc)
val data = sqlContext.jsonFile("s3n://...", 10e-6)...
3179 просмотров
schedule
29.03.2022
Ошибка при записи перераспределенного SchemaRDD в Parquet с помощью Spark SQL
Я пытаюсь записать таблицы Spark SQL для сохранения в файлы Parquet. Из-за другого проблемы Мне нужно уменьшить количество разделов перед записью. Мой код
data.coalesce(1000,shuffle=true).saveAsParquetFile("s3n://...")
Это бросает...
868 просмотров
schedule
02.06.2022
Сохранение ›› 25T SchemaRDD в формате Parquet на S3
Я столкнулся с рядом проблем при попытке сохранить очень большой SchemaRDD, как в формате Parquet на S3. Я уже задавал конкретные вопросы по этим проблемам, но это то, что мне действительно нужно сделать. Код должен выглядеть примерно так
import...
2235 просмотров
schedule
26.02.2022
SQL-функции со schemaRDD с использованием интегрированного языка SQL
Я хочу отфильтровать schemaRDD, используя интегрированный язык SQL на основе функций SQL. Например, я хочу запустить
SELECT name FROM people WHERE name LIKE '%AHSAN%' AND name regexp '^[A-Z]{20}$'
Как я могу использовать такие функции SQL в...
2033 просмотров
schedule
15.07.2022
Схема из SchemaRDD?
Учитывая SchemaRDD (загружается с использованием SQLContext.parquetFile ), как извлечь его метаданные/схему/список столбцов?
204 просмотров
schedule
19.04.2024
Spark-sql CLI использует только 1 исполнителя при выполнении запроса
Я собираюсь использовать spark-sql cli для замены оболочки hive cli, и я запускаю spark-sql cli, следуя команде (мы используем кластер пряжи Hadoop, hive-site.xml уже скопирован в / conf)
.> spark-sql Затем оболочка открывается и работает...
4463 просмотров
schedule
29.12.2021
использовать SQL в DStream.transform() вместо Spark Streaming?
Есть несколько примеров использования SQL поверх Spark Streaming в foreachRDD() . Но если я хочу использовать SQL в tranform() :
case class AlertMsg(host:String, count:Int, sum:Double)
val lines = ssc.socketTextStream("localhost", 8888)...
958 просмотров
schedule
04.12.2022
Ошибка при расширении класса scala с помощью интерфейса продукта для преодоления ограничения в 22 поля в Spark-Shell
Мне нужно создать схему класса для поддержки 29 полей. Из-за ограничения в 22 поля с классом case я попытался расширить свой класс sdp_d с помощью интерфейса Product следующим образом:
class sdp_d( WID :Option[Int], BATCH_ID :Option[Int], SRC_ID...
1397 просмотров
schedule
01.01.2022
(Py) Spark - Группировка по пользователю в течение определенного промежутка времени
Я обрабатываю много файлов журналов и хотел бы перенести задание в Spark, но я не могу понять, как агрегировать события в рамках временного окна, основанного на событиях, так, как я могу легко это сделать в Pandas.
Вот что я хочу сделать:
Для...
2297 просмотров
schedule
28.01.2024
Чистая искра против искры SQL для запроса данных в HDFS
У меня есть (табличные) данные о кластере hdfs, и мне нужно выполнить несколько сложных запросов к нему. Я ожидаю, что в будущем столкнусь с такой же ситуацией много раз с другими данными. Итак, вопрос:
Какие факторы следует принимать во...
435 просмотров
schedule
08.01.2023
NoSuchMethodError: org.apache.spark.sql.SQLContext.applySchema
Я пытаюсь выполнить запрос к файлу, хранящемуся в hdfs, с использованием sqlcontext, предоставленного в Apache Spark, с использованием приведенного ниже кода, но я получаю NoSuchMethodError
package SQL
import org.apache.spark.SparkContext
import...
4460 просмотров
schedule
08.05.2023
Spark SQL Scala - получение имен столбцов в JDBCRDD
Я новичок в Spark и Scala. Я пытаюсь получить содержимое из процедуры на SQL-сервере, чтобы использовать его в Spark SQL. Для этого я импортирую данные через JDBCRDD в Scala (Eclipse) и создаю RDD из процедуры.
После создания RDD я регистрирую...
3416 просмотров
schedule
22.04.2022
Как удалить столбцы в фрейме данных pyspark
>>> a
DataFrame[id: bigint, julian_date: string, user_id: bigint]
>>> b
DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]
>>> a.join(b, a.id==b.id, 'outer')
DataFrame[id: bigint,...
256826 просмотров
schedule
15.03.2022
Apache Spark: соединение JDBC не работает
Я задавал этот вопрос и ранее, но не получил ответа ( Невозможно подключиться к postgres с помощью jdbc в оболочке pyspark ).
Я успешно установил Spark 1.3.0 на свои локальные окна и запустил образцы программ для тестирования с использованием...
19386 просмотров
schedule
21.09.2022
SparkSQL с HIVE
Я пытаюсь использовать HIVEContext с помощью SparkSQL, и когда я создаю
val hContext = new org.apache.spark.sql.hive.HiveContext(sc)
Я понял, что улей не является участником spark.sql, когда заглянул в документация говорит, что я должен...
517 просмотров
schedule
05.05.2023
Spark SQL HiveContext — saveAsTable создает неправильную схему
Я пытаюсь сохранить Dataframe в постоянной таблице Hive в Spark 1.3.0 (PySpark). Это мой код:
sc = SparkContext(appName="HiveTest")
hc = HiveContext(sc)
peopleRDD = sc.parallelize(['{"name":"Yin","age":30}'])
peopleDF = hc.jsonRDD(peopleRDD)...
9796 просмотров
schedule
09.05.2024
Spark Streaming: объединение пакетов Dstream в единую выходную папку
Я использую Spark Streaming для получения твитов из твиттера, создавая StreamingContext как: val ssc = new StreamingContext("local[3]", "TwitterFeed",Minutes(1))
и создать твиттер-поток как: val tweetStream = TwitterUtils.createStream(ssc,...
2962 просмотров
schedule
19.12.2022
Как развернуть Spark DataFrame?
Я начинаю использовать Spark DataFrames, и мне нужно иметь возможность сводить данные для создания нескольких столбцов из одного столбца с несколькими строками. Для этого в Scalding есть встроенная функциональность, и я верю в Pandas в Python, но я...
81449 просмотров
schedule
25.03.2022
Невозможно загрузить учетные данные AWS при использовании Spark SQL через Билайн
Используя Beeline, подключенный к SparkSQL 1.3, я пытаюсь создать таблицу, которая использует данные S3 (с использованием протокола s3a):
CREATE EXTERNAL TABLE mytable (...) STORED AS PARQUET LOCATION 's3a://mybucket/mydata';
Я получаю...
6895 просмотров
schedule
16.03.2022
Должен ли я использовать registerDataFrameAsTable в Spark SQL?
Во время миграции с PySpark на Spark с помощью Scala я столкнулся с проблемой, связанной с тем, что registerDataFrameAsTable является закрытым. Это заставило меня подумать, что мой подход может быть неправильным. В PySpark я делаю следующее:...
1192 просмотров
schedule
24.02.2023