Вопросы по теме 'pyspark-sql'

Почему оконные функции не работают, когда оконная функция X не принимает спецификацию фрейма?
Я пытаюсь использовать окно Spark 1.4 функции в pyspark 1.4.1 но получаются в основном ошибки или неожиданные результаты. Вот очень простой пример, который, как мне кажется, должен работать: from pyspark.sql.window import Window import...
3587 просмотров

Кадр данных Pyspark: суммирование по столбцу при группировке по другому
У меня есть кадр данных, например следующий In [94]: prova_df.show() order_item_order_id order_item_subtotal 1 299.98 2 199.99 2 250.0 2...
36849 просмотров

Преобразование RDD в таблицу непредвиденных обстоятельств: Pyspark
В настоящее время я пытаюсь преобразовать RDD в таблицу непредвиденных обстоятельств , чтобы использовать модуль pyspark.ml.clustering.KMeans , который принимает в качестве входных данных фрейм данных. Когда я делаю _2 _ (где K - некоторое...
1195 просмотров
schedule 11.10.2022

Загрузить несколько файлов в фрейм данных
Можно ли загрузить несколько файлов как один фрейм данных? Обычно, если мне нужно загрузить один файл, я вызываю, например: file1 = "/a/b/c/folder/file1.csv" dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false',...
547 просмотров
schedule 29.10.2022

Как сериализовать объект PySpark GroupedData?
Я запускаю groupBy() в наборе данных, содержащем несколько миллионов записей, и хочу сохранить полученный результат (объект PySpark GroupedData ), чтобы я мог десериализовать его позже и возобновить с этой точки (запуская агрегации поверх этого по...
810 просмотров

Чем отличаются Spark RDD и DataFrames в том, как они загружают данные в память?
RDD полезны, поскольку они позволяют пользователям обрабатывать данные на уровне "строки" (или отдельного объекта json и т. д.) без необходимости загружать все данные в память. Драйвер выясняет, как распределять распределенные данные (или указатели...
1129 просмотров
schedule 10.01.2023

Не исключение файла при запуске pyspark в Hadoop
Я собираю два набора данных из двух источников различий в Hive. Я создал объединение двух таблиц в улье, используя create table db.table as select table 1 union select table 2 Я использовал эту таблицу в pyspark с помощью HiveContext для...
853 просмотров
schedule 09.06.2022

Spark ML Pipeline Причины java.lang.Exception: не удалось скомпилировать Код превышает 64 КБ
Используя Spark 2.0, я пытаюсь запустить простой VectorAssembler в конвейере pyspark ML, например: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features")...
1065 просмотров

subtractByKey для кадров данных Spark?
Скажем, у меня есть два DataFrames: headers = ["id", "info"] a = sc.parallelize([(1, "info1"), (2, "info2"), (3, "info3")]).toDF(headers) b = sc.parallelize([(2, "info2new")]).toDF(headers) И я хочу получить файлы из a , но перезаписать те...
937 просмотров
schedule 20.07.2023

показать отдельные значения столбцов в фрейме данных pyspark: python
Пожалуйста, предложите альтернативу pyspark dataframe для Pandas df['col'].unique() . Я хочу перечислить все уникальные значения в столбце фрейма данных pyspark. Не в стиле SQL (зарегистрируйте шаблон, затем запрос SQL для различных значений)....
240424 просмотров
schedule 09.06.2023

Цитата чтения pyspark 2 csv игнорируется
tx = 'a,b,c,"[""d"", ""e""]""' file=open('temp.csv','wt') file.writelines(tx) file.close() sparkSession.read.csv('temp.csv', quote='"').show() +---+---+---+-------+---------+ |_c0|_c1|_c2| _c3| _c4| +---+---+---+-------+---------+ | a| b|...
94 просмотров

Как выбрать последнюю строку, а также как получить доступ к фрейму данных PySpark по индексу?
Из фрейма данных PySpark SQL, например name age city abc 20 A def 30 B Как получить последнюю строку (как в df.limit (1), я могу получить первую строку фрейма данных в новый фрейм данных). И как я могу получить доступ к строкам...
55872 просмотров

Apache Spark работает с операторами case
Я занимаюсь преобразованием кода SQL в код PySpark и наткнулся на некоторые операторы SQL. Я не знаю, как подойти к истории болезни в pyspark? Я планирую создать RDD, а затем использовать rdd.map, а затем выполнить некоторые логические проверки....
75873 просмотров

Как выполнить полное внешнее соединение двух RDD с помощью PySpark?
Я ищу способ объединить два RDD по ключу. Данный : x = sc.parallelize([('_guid_YWKnKkcrg_Ej0icb07bhd-mXPjw-FcPi764RRhVrOxE=', 'FR', '75001'), ('_guid_XblBPCaB8qx9SK3D4HuAZwO-1cuBPc1GgfgNUC2PYm4=', 'TN', '8160'),...
1101 просмотров

Как выполнить оператор select top 1 x from table в spark sql
Я столкнулся с проблемой преобразования следующего запроса в spark-sql в SQL-сервере pyspark. coalesce((Select top 1 f2.ChargeAmt from Fact_CMCharges f2 where f2.BldgID = f.BldgID and f2.LeaseID = f.LeaseID and...
1532 просмотров

Как pyspark select и map различаются по выходным значениям?
Почему эти два метода преобразования этого фрейма данных приводят к разным выходным фреймам данных? Использование select в кадре данных и map на rdd, кажется, выводит одни и те же значения, но когда я беру среднее значение столбца, я получаю разные...
284 просмотров
schedule 09.04.2022

Создайте столбец в кадре данных PySpark, используя список, индексы которого присутствуют в одном столбце кадра данных.
Я новичок в Python и PySpark. У меня есть кадр данных в PySpark, например: ## +---+---+------+ ## | x1| x2| x3 | ## +---+---+------+ ## | 0| a | 13.0| ## | 2| B | -33.0| ## | 1| B | -63.0| ## +---+---+------+ У меня есть массив: arr =...
3929 просмотров

Как преобразовать DataFrame для одного столбца, чтобы создать два новых столбца в pyspark?
У меня есть кадр данных "x", в котором есть два столбца "x1" и "x2" x1(status) x2 kv,true 45 bm,true 65 mp,true 75 kv,null 450 bm,null 550 mp,null 650 Я хочу преобразовать этот кадр данных в формат, в...
641 просмотров

Spark: управление всеми данными определенного раздела RDD или DataFrame.
Я нашел несколько сообщений, статей, ссылок в документации и т. д., которые намекают на то, что вы можете получить доступ к определенному разделу, используя foreachPartition . Однако мне еще предстоит выяснить, как что-то сделать со всеми данными в...
1168 просмотров

Spark Structured Streaming с использованием сокетов, установка SCHEMA, отображение DATAFRAME в консоли
Как установить схему для потоковой передачи DataFrame в PySpark. from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import * spark =...
1209 просмотров