Статьи по тематике pyspark-sql

Вопросы по теме 'pyspark-sql'

Почему оконные функции не работают, когда оконная функция X не принимает спецификацию фрейма?

Я пытаюсь использовать окно Spark 1.4 функции в pyspark 1.4.1 но получаются в основном ошибки или неожиданные результаты. Вот очень простой пример, который, как мне кажется, должен работать: from pyspark.sql.window import Window import...

3587 просмотров

25.12.2022

Кадр данных Pyspark: суммирование по столбцу при группировке по другому

У меня есть кадр данных, например следующий In [94]: prova_df.show() order_item_order_id order_item_subtotal 1 299.98 2 199.99 2 250.0 2...

36849 просмотров

python pyspark apache-spark-sql pyspark-sql apache-spark-1.3

01.01.2024

Преобразование RDD в таблицу непредвиденных обстоятельств: Pyspark

В настоящее время я пытаюсь преобразовать RDD в таблицу непредвиденных обстоятельств , чтобы использовать модуль pyspark.ml.clustering.KMeans , который принимает в качестве входных данных фрейм данных. Когда я делаю _2 _ (где K - некоторое...

1195 просмотров

python apache-spark pyspark pyspark-sql

11.10.2022

Загрузить несколько файлов в фрейм данных

Можно ли загрузить несколько файлов как один фрейм данных? Обычно, если мне нужно загрузить один файл, я вызываю, например: file1 = "/a/b/c/folder/file1.csv" dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false',...

547 просмотров

python pyspark dataframe io pyspark-sql

29.10.2022

Как сериализовать объект PySpark GroupedData?

Я запускаю groupBy() в наборе данных, содержащем несколько миллионов записей, и хочу сохранить полученный результат (объект PySpark GroupedData ), чтобы я мог десериализовать его позже и возобновить с этой точки (запуская агрегации поверх этого по...

810 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

17.03.2023

Чем отличаются Spark RDD и DataFrames в том, как они загружают данные в память?

RDD полезны, поскольку они позволяют пользователям обрабатывать данные на уровне "строки" (или отдельного объекта json и т. д.) без необходимости загружать все данные в память. Драйвер выясняет, как распределять распределенные данные (или указатели...

1129 просмотров

apache-spark pyspark pyspark-sql

10.01.2023

Не исключение файла при запуске pyspark в Hadoop

Я собираю два набора данных из двух источников различий в Hive. Я создал объединение двух таблиц в улье, используя create table db.table as select table 1 union select table 2 Я использовал эту таблицу в pyspark с помощью HiveContext для...

853 просмотров

exception pyspark hadoop hive pyspark-sql

09.06.2022

Spark ML Pipeline Причины java.lang.Exception: не удалось скомпилировать Код превышает 64 КБ

Используя Spark 2.0, я пытаюсь запустить простой VectorAssembler в конвейере pyspark ML, например: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features")...

1065 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

06.04.2023

subtractByKey для кадров данных Spark?

Скажем, у меня есть два DataFrames: headers = ["id", "info"] a = sc.parallelize([(1, "info1"), (2, "info2"), (3, "info3")]).toDF(headers) b = sc.parallelize([(2, "info2new")]).toDF(headers) И я хочу получить файлы из a , но перезаписать те...

937 просмотров

apache-spark pyspark pyspark-sql

20.07.2023

показать отдельные значения столбцов в фрейме данных pyspark: python

Пожалуйста, предложите альтернативу pyspark dataframe для Pandas df['col'].unique() . Я хочу перечислить все уникальные значения в столбце фрейма данных pyspark. Не в стиле SQL (зарегистрируйте шаблон, затем запрос SQL для различных значений)....

240424 просмотров

pyspark pyspark-sql

09.06.2023

Цитата чтения pyspark 2 csv игнорируется

tx = 'a,b,c,"[""d"", ""e""]""' file=open('temp.csv','wt') file.writelines(tx) file.close() sparkSession.read.csv('temp.csv', quote='"').show() +---+---+---+-------+---------+ |_c0|_c1|_c2| _c3| _c4| +---+---+---+-------+---------+ | a| b|...

94 просмотров

csv apache-spark pyspark apache-spark-sql pyspark-sql

28.06.2023

Как выбрать последнюю строку, а также как получить доступ к фрейму данных PySpark по индексу?

Из фрейма данных PySpark SQL, например name age city abc 20 A def 30 B Как получить последнюю строку (как в df.limit (1), я могу получить первую строку фрейма данных в новый фрейм данных). И как я могу получить доступ к строкам...

55872 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

04.05.2024

Apache Spark работает с операторами case

Я занимаюсь преобразованием кода SQL в код PySpark и наткнулся на некоторые операторы SQL. Я не знаю, как подойти к истории болезни в pyspark? Я планирую создать RDD, а затем использовать rdd.map, а затем выполнить некоторые логические проверки....

75873 просмотров

apache-spark pyspark rdd pyspark-sql spark-dataframe

04.12.2022

Как выполнить полное внешнее соединение двух RDD с помощью PySpark?

Я ищу способ объединить два RDD по ключу. Данный : x = sc.parallelize([('_guid_YWKnKkcrg_Ej0icb07bhd-mXPjw-FcPi764RRhVrOxE=', 'FR', '75001'), ('_guid_XblBPCaB8qx9SK3D4HuAZwO-1cuBPc1GgfgNUC2PYm4=', 'TN', '8160'),...

1101 просмотров

apache-spark pyspark apache-spark-sql join pyspark-sql

06.05.2024

Как выполнить оператор select top 1 x from table в spark sql

Я столкнулся с проблемой преобразования следующего запроса в spark-sql в SQL-сервере pyspark. coalesce((Select top 1 f2.ChargeAmt from Fact_CMCharges f2 where f2.BldgID = f.BldgID and f2.LeaseID = f.LeaseID and...

1532 просмотров

sql-server apache-spark apache-spark-sql pyspark-sql

04.05.2024

Как pyspark select и map различаются по выходным значениям?

Почему эти два метода преобразования этого фрейма данных приводят к разным выходным фреймам данных? Использование select в кадре данных и map на rdd, кажется, выводит одни и те же значения, но когда я беру среднее значение столбца, я получаю разные...

284 просмотров

python apache-spark pyspark pyspark-sql

09.04.2022

Создайте столбец в кадре данных PySpark, используя список, индексы которого присутствуют в одном столбце кадра данных.

Я новичок в Python и PySpark. У меня есть кадр данных в PySpark, например: ## +---+---+------+ ## | x1| x2| x3 | ## +---+---+------+ ## | 0| a | 13.0| ## | 2| B | -33.0| ## | 1| B | -63.0| ## +---+---+------+ У меня есть массив: arr =...

3929 просмотров

python arrays pyspark pyspark-sql spark-dataframe

02.08.2023

Как преобразовать DataFrame для одного столбца, чтобы создать два новых столбца в pyspark?

У меня есть кадр данных "x", в котором есть два столбца "x1" и "x2" x1(status) x2 kv,true 45 bm,true 65 mp,true 75 kv,null 450 bm,null 550 mp,null 650 Я хочу преобразовать этот кадр данных в формат, в...

641 просмотров

apache-spark pyspark apache-spark-sql pyspark-sql

03.06.2023

Spark: управление всеми данными определенного раздела RDD или DataFrame.

Я нашел несколько сообщений, статей, ссылок в документации и т. д., которые намекают на то, что вы можете получить доступ к определенному разделу, используя foreachPartition . Однако мне еще предстоит выяснить, как что-то сделать со всеми данными в...

1168 просмотров

apache-spark pyspark apache-spark-sql partitioning pyspark-sql

03.04.2023

Spark Structured Streaming с использованием сокетов, установка SCHEMA, отображение DATAFRAME в консоли

Как установить схему для потоковой передачи DataFrame в PySpark. from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import * spark =...

1209 просмотров

apache-spark pyspark apache-spark-sql spark-structured-streaming pyspark-sql

17.04.2023

Вопросы по теме 'pyspark-sql'

Похожие вопросы