Статьи по тематике apache-spark-sql

Вопросы по теме 'apache-spark-sql'

Spark SQL не может завершить запись данных Parquet с большим количеством сегментов

Я пытаюсь использовать Apache Spark SQL для переноса данных журнала json в S3 в файлы Parquet также на S3. Мой код в основном: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", 10e-6)...

3179 просмотров

29.03.2022

Ошибка при записи перераспределенного SchemaRDD в Parquet с помощью Spark SQL

Я пытаюсь записать таблицы Spark SQL для сохранения в файлы Parquet. Из-за другого проблемы Мне нужно уменьшить количество разделов перед записью. Мой код data.coalesce(1000,shuffle=true).saveAsParquetFile("s3n://...") Это бросает...

868 просмотров

parquet apache-spark apache-spark-sql

02.06.2022

Сохранение ›› 25T SchemaRDD в формате Parquet на S3

Я столкнулся с рядом проблем при попытке сохранить очень большой SchemaRDD, как в формате Parquet на S3. Я уже задавал конкретные вопросы по этим проблемам, но это то, что мне действительно нужно сделать. Код должен выглядеть примерно так import...

2235 просмотров

amazon-s3 parquet apache-spark apache-spark-sql

26.02.2022

SQL-функции со schemaRDD с использованием интегрированного языка SQL

Я хочу отфильтровать schemaRDD, используя интегрированный язык SQL на основе функций SQL. Например, я хочу запустить SELECT name FROM people WHERE name LIKE '%AHSAN%' AND name regexp '^[A-Z]{20}$' Как я могу использовать такие функции SQL в...

2033 просмотров

sql apache-spark apache-spark-sql

15.07.2022

Схема из SchemaRDD?

Учитывая SchemaRDD (загружается с использованием SQLContext.parquetFile ), как извлечь его метаданные/схему/список столбцов?

204 просмотров

apache-spark apache-spark-sql scala rdd

19.04.2024

Spark-sql CLI использует только 1 исполнителя при выполнении запроса

Я собираюсь использовать spark-sql cli для замены оболочки hive cli, и я запускаю spark-sql cli, следуя команде (мы используем кластер пряжи Hadoop, hive-site.xml уже скопирован в / conf) .> spark-sql Затем оболочка открывается и работает...

4463 просмотров

apache-spark apache-spark-sql

29.12.2021

использовать SQL в DStream.transform() вместо Spark Streaming?

Есть несколько примеров использования SQL поверх Spark Streaming в foreachRDD() . Но если я хочу использовать SQL в tranform() : case class AlertMsg(host:String, count:Int, sum:Double) val lines = ssc.socketTextStream("localhost", 8888)...

958 просмотров

apache-spark apache-spark-sql spark-streaming scala

04.12.2022

Ошибка при расширении класса scala с помощью интерфейса продукта для преодоления ограничения в 22 поля в Spark-Shell

Мне нужно создать схему класса для поддержки 29 полей. Из-за ограничения в 22 поля с классом case я попытался расширить свой класс sdp_d с помощью интерфейса Product следующим образом: class sdp_d( WID :Option[Int], BATCH_ID :Option[Int], SRC_ID...

1397 просмотров

apache-spark apache-spark-sql scala

01.01.2022

(Py) Spark - Группировка по пользователю в течение определенного промежутка времени

Я обрабатываю много файлов журналов и хотел бы перенести задание в Spark, но я не могу понять, как агрегировать события в рамках временного окна, основанного на событиях, так, как я могу легко это сделать в Pandas. Вот что я хочу сделать: Для...

2297 просмотров

python apache-spark pyspark apache-spark-sql

28.01.2024

Чистая искра против искры SQL для запроса данных в HDFS

У меня есть (табличные) данные о кластере hdfs, и мне нужно выполнить несколько сложных запросов к нему. Я ожидаю, что в будущем столкнусь с такой же ситуацией много раз с другими данными. Итак, вопрос: Какие факторы следует принимать во...

435 просмотров

apache-spark hadoop apache-spark-sql

08.01.2023

NoSuchMethodError: org.apache.spark.sql.SQLContext.applySchema

Я пытаюсь выполнить запрос к файлу, хранящемуся в hdfs, с использованием sqlcontext, предоставленного в Apache Spark, с использованием приведенного ниже кода, но я получаю NoSuchMethodError package SQL import org.apache.spark.SparkContext import...

4460 просмотров

apache-spark hadoop apache-spark-sql

08.05.2023

Spark SQL Scala - получение имен столбцов в JDBCRDD

Я новичок в Spark и Scala. Я пытаюсь получить содержимое из процедуры на SQL-сервере, чтобы использовать его в Spark SQL. Для этого я импортирую данные через JDBCRDD в Scala (Eclipse) и создаю RDD из процедуры. После создания RDD я регистрирую...

3416 просмотров

apache-spark apache-spark-sql scala

22.04.2022

Как удалить столбцы в фрейме данных pyspark

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint,...

256826 просмотров

apache-spark pyspark apache-spark-sql

15.03.2022

Apache Spark: соединение JDBC не работает

Я задавал этот вопрос и ранее, но не получил ответа ( Невозможно подключиться к postgres с помощью jdbc в оболочке pyspark ). Я успешно установил Spark 1.3.0 на свои локальные окна и запустил образцы программ для тестирования с использованием...

19386 просмотров

postgresql apache-spark apache-spark-sql jdbc

21.09.2022

SparkSQL с HIVE

Я пытаюсь использовать HIVEContext с помощью SparkSQL, и когда я создаю val hContext = new org.apache.spark.sql.hive.HiveContext(sc) Я понял, что улей не является участником spark.sql, когда заглянул в документация говорит, что я должен...

517 просмотров

apache-spark apache-spark-sql

05.05.2023

Spark SQL HiveContext — saveAsTable создает неправильную схему

Я пытаюсь сохранить Dataframe в постоянной таблице Hive в Spark 1.3.0 (PySpark). Это мой код: sc = SparkContext(appName="HiveTest") hc = HiveContext(sc) peopleRDD = sc.parallelize(['{"name":"Yin","age":30}']) peopleDF = hc.jsonRDD(peopleRDD)...

9796 просмотров

apache-spark apache-spark-sql hive

09.05.2024

Spark Streaming: объединение пакетов Dstream в единую выходную папку

Я использую Spark Streaming для получения твитов из твиттера, создавая StreamingContext как: val ssc = new StreamingContext("local[3]", "TwitterFeed",Minutes(1)) и создать твиттер-поток как: val tweetStream = TwitterUtils.createStream(ssc,...

2962 просмотров

apache-spark hadoop apache-spark-sql spark-streaming twitter-streaming-api

19.12.2022

Как развернуть Spark DataFrame?

Я начинаю использовать Spark DataFrames, и мне нужно иметь возможность сводить данные для создания нескольких столбцов из одного столбца с несколькими строками. Для этого в Scalding есть встроенная функциональность, и я верю в Pandas в Python, но я...

81449 просмотров

apache-spark dataframe apache-spark-sql scala pivot

25.03.2022

Невозможно загрузить учетные данные AWS при использовании Spark SQL через Билайн

Используя Beeline, подключенный к SparkSQL 1.3, я пытаюсь создать таблицу, которая использует данные S3 (с использованием протокола s3a): CREATE EXTERNAL TABLE mytable (...) STORED AS PARQUET LOCATION 's3a://mybucket/mydata'; Я получаю...

6895 просмотров

amazon-web-services amazon-s3 apache-spark apache-spark-sql

16.03.2022

Должен ли я использовать registerDataFrameAsTable в Spark SQL?

Во время миграции с PySpark на Spark с помощью Scala я столкнулся с проблемой, связанной с тем, что registerDataFrameAsTable является закрытым. Это заставило меня подумать, что мой подход может быть неправильным. В PySpark я делаю следующее:...

1192 просмотров

apache-spark pyspark apache-spark-sql

24.02.2023

Вопросы по теме 'apache-spark-sql'

Похожие вопросы