Вопросы по теме 'pyspark-sql'
Почему оконные функции не работают, когда оконная функция X не принимает спецификацию фрейма?
Я пытаюсь использовать окно Spark 1.4 функции в pyspark 1.4.1
но получаются в основном ошибки или неожиданные результаты. Вот очень простой пример, который, как мне кажется, должен работать:
from pyspark.sql.window import Window
import...
3587 просмотров
schedule
25.12.2022
Кадр данных Pyspark: суммирование по столбцу при группировке по другому
У меня есть кадр данных, например следующий
In [94]: prova_df.show()
order_item_order_id order_item_subtotal
1 299.98
2 199.99
2 250.0
2...
36849 просмотров
schedule
01.01.2024
Преобразование RDD в таблицу непредвиденных обстоятельств: Pyspark
В настоящее время я пытаюсь преобразовать RDD в таблицу непредвиденных обстоятельств , чтобы использовать модуль pyspark.ml.clustering.KMeans , который принимает в качестве входных данных фрейм данных.
Когда я делаю _2 _ (где K - некоторое...
1195 просмотров
schedule
11.10.2022
Загрузить несколько файлов в фрейм данных
Можно ли загрузить несколько файлов как один фрейм данных? Обычно, если мне нужно загрузить один файл, я вызываю, например:
file1 = "/a/b/c/folder/file1.csv"
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false',...
547 просмотров
schedule
29.10.2022
Как сериализовать объект PySpark GroupedData?
Я запускаю groupBy() в наборе данных, содержащем несколько миллионов записей, и хочу сохранить полученный результат (объект PySpark GroupedData ), чтобы я мог десериализовать его позже и возобновить с этой точки (запуская агрегации поверх этого по...
810 просмотров
schedule
17.03.2023
Чем отличаются Spark RDD и DataFrames в том, как они загружают данные в память?
RDD полезны, поскольку они позволяют пользователям обрабатывать данные на уровне "строки" (или отдельного объекта json и т. д.) без необходимости загружать все данные в память. Драйвер выясняет, как распределять распределенные данные (или указатели...
1129 просмотров
schedule
10.01.2023
Не исключение файла при запуске pyspark в Hadoop
Я собираю два набора данных из двух источников различий в Hive. Я создал объединение двух таблиц в улье, используя
create table db.table as select table 1 union select table 2
Я использовал эту таблицу в pyspark с помощью HiveContext для...
853 просмотров
schedule
09.06.2022
Spark ML Pipeline Причины java.lang.Exception: не удалось скомпилировать Код превышает 64 КБ
Используя Spark 2.0, я пытаюсь запустить простой VectorAssembler в конвейере pyspark ML, например:
feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \
outputCol="features")...
1065 просмотров
schedule
06.04.2023
subtractByKey для кадров данных Spark?
Скажем, у меня есть два DataFrames:
headers = ["id", "info"]
a = sc.parallelize([(1, "info1"), (2, "info2"), (3, "info3")]).toDF(headers)
b = sc.parallelize([(2, "info2new")]).toDF(headers)
И я хочу получить файлы из a , но перезаписать те...
937 просмотров
schedule
20.07.2023
показать отдельные значения столбцов в фрейме данных pyspark: python
Пожалуйста, предложите альтернативу pyspark dataframe для Pandas df['col'].unique() .
Я хочу перечислить все уникальные значения в столбце фрейма данных pyspark.
Не в стиле SQL (зарегистрируйте шаблон, затем запрос SQL для различных значений)....
240424 просмотров
schedule
09.06.2023
Цитата чтения pyspark 2 csv игнорируется
tx = 'a,b,c,"[""d"", ""e""]""'
file=open('temp.csv','wt')
file.writelines(tx)
file.close()
sparkSession.read.csv('temp.csv', quote='"').show()
+---+---+---+-------+---------+
|_c0|_c1|_c2| _c3| _c4|
+---+---+---+-------+---------+
| a| b|...
94 просмотров
schedule
28.06.2023
Как выбрать последнюю строку, а также как получить доступ к фрейму данных PySpark по индексу?
Из фрейма данных PySpark SQL, например
name age city
abc 20 A
def 30 B
Как получить последнюю строку (как в df.limit (1), я могу получить первую строку фрейма данных в новый фрейм данных).
И как я могу получить доступ к строкам...
55872 просмотров
schedule
04.05.2024
Apache Spark работает с операторами case
Я занимаюсь преобразованием кода SQL в код PySpark и наткнулся на некоторые операторы SQL. Я не знаю, как подойти к истории болезни в pyspark? Я планирую создать RDD, а затем использовать rdd.map, а затем выполнить некоторые логические проверки....
75873 просмотров
schedule
04.12.2022
Как выполнить полное внешнее соединение двух RDD с помощью PySpark?
Я ищу способ объединить два RDD по ключу.
Данный :
x = sc.parallelize([('_guid_YWKnKkcrg_Ej0icb07bhd-mXPjw-FcPi764RRhVrOxE=', 'FR', '75001'),
('_guid_XblBPCaB8qx9SK3D4HuAZwO-1cuBPc1GgfgNUC2PYm4=', 'TN', '8160'),...
1101 просмотров
schedule
06.05.2024
Как выполнить оператор select top 1 x from table в spark sql
Я столкнулся с проблемой преобразования следующего запроса в spark-sql в SQL-сервере pyspark.
coalesce((Select top 1 f2.ChargeAmt from Fact_CMCharges f2
where f2.BldgID = f.BldgID
and f2.LeaseID = f.LeaseID
and...
1532 просмотров
schedule
04.05.2024
Как pyspark select и map различаются по выходным значениям?
Почему эти два метода преобразования этого фрейма данных приводят к разным выходным фреймам данных? Использование select в кадре данных и map на rdd, кажется, выводит одни и те же значения, но когда я беру среднее значение столбца, я получаю разные...
284 просмотров
schedule
09.04.2022
Создайте столбец в кадре данных PySpark, используя список, индексы которого присутствуют в одном столбце кадра данных.
Я новичок в Python и PySpark. У меня есть кадр данных в PySpark, например:
## +---+---+------+
## | x1| x2| x3 |
## +---+---+------+
## | 0| a | 13.0|
## | 2| B | -33.0|
## | 1| B | -63.0|
## +---+---+------+
У меня есть массив: arr =...
3929 просмотров
schedule
02.08.2023
Как преобразовать DataFrame для одного столбца, чтобы создать два новых столбца в pyspark?
У меня есть кадр данных "x", в котором есть два столбца "x1" и "x2"
x1(status) x2
kv,true 45
bm,true 65
mp,true 75
kv,null 450
bm,null 550
mp,null 650
Я хочу преобразовать этот кадр данных в формат, в...
641 просмотров
schedule
03.06.2023
Spark: управление всеми данными определенного раздела RDD или DataFrame.
Я нашел несколько сообщений, статей, ссылок в документации и т. д., которые намекают на то, что вы можете получить доступ к определенному разделу, используя foreachPartition . Однако мне еще предстоит выяснить, как что-то сделать со всеми данными в...
1168 просмотров
schedule
03.04.2023
Spark Structured Streaming с использованием сокетов, установка SCHEMA, отображение DATAFRAME в консоли
Как установить схему для потоковой передачи DataFrame в PySpark.
from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split
# Import data types
from pyspark.sql.types import *
spark =...
1209 просмотров
schedule
17.04.2023