Вопросы по теме 'apache-pig'
Как я могу загрузить файл в DataBag из UDF Yahoo PigLatin?
У меня есть программа Pig, в которой я пытаюсь вычислить минимальный центр между двумя сумками. Я обнаружил, что для того, чтобы это работало, мне нужно ГРУППИРОВАТЬ сумки в один набор данных. Вся операция занимает много времени. Я хочу либо...
871 просмотров
schedule
08.11.2023
Вызов службы RESTful в скрипте Pig
Я работаю над скриптом Pig (мой первый), который загружает большой текстовый файл. Для каждой записи в этом текстовом файле содержимое одного поля должно быть отправлено в службу RESTful для обработки. Ничего не нужно оценивать или фильтровать....
1007 просмотров
schedule
07.04.2022
Hadoop MapReduce — Pig/Cassandra — невозможно создать разделение ввода
Я пытаюсь запустить задание MapReduce с помощью Pig и Cassandra и всегда получаю сообщение об ошибке: ОШИБКА 2118: невозможно создать разделение входных данных для: cassandra://constellation/logs
[РЕШЕНО] Были некоторые переменные среды, которые...
1352 просмотров
schedule
21.02.2023
Как обрезать строку заголовка из файлов, обработанных Hadoop's Pig?
Я пытаюсь проанализировать файлы данных, разделенные вкладками, созданные нашими службами, с помощью Amazon Elastic Map Reduce с помощью программы Pig. Все идет хорошо, за исключением того, что все наши файлы данных содержат строку заголовка,...
3748 просмотров
schedule
20.05.2024
Какой лучший плагин Pig для Eclipse?
Я собираюсь начать играть с PIG-latin, и я надеялся получить подсветку текста и тому подобное в Eclipse. Выполнив быстрый поиск в Google, я нашел для него пару плагинов Eclipse. Они все еще в разработке? Который лучший?
14954 просмотров
schedule
11.07.2022
Передать параметры скрипту jython для свиньи
Я хочу встроить скрипт свиньи в python, но мне нужно передать несколько параметров в скрипт python, и они, похоже, не заполняются.
Если я вызову свой сценарий свиньи напрямую, я могу использовать: $PIGDIR/bin/pig -f...
848 просмотров
schedule
26.03.2024
Ограничения использования PIG с cassandra
Я намерен использовать PIG с cassandra для выполнения запросов. Я установил Pygmalion для этой цели. В прошлом я немного поработал над HIVE, что, очевидно, имеет ограничения языка запросов. Мы не можем реализовать полный язык в запросах....
261 просмотров
schedule
06.03.2023
Список, разделенный запятыми, с AvroStorage в Pig
Я попытался загрузить несколько файлов с помощью AvroStorage в Pig, используя список, разделенный запятыми. Я использовал следующее утверждение:
test_data= LOAD 'repo_1/part-r-00000.avro,repo_2/part-r-00000.avro' USING...
650 просмотров
schedule
03.08.2023
Композитная колонна Cassandra и поршень
У меня есть семейство столбцов либо со строковыми значениями, либо со значением составного типа.
Как я могу загрузить такие данные из кассандры в свинью?
460 просмотров
schedule
06.06.2023
PIG, как подсчитать количество строк в псевдониме
Я сделал что-то подобное, чтобы подсчитать количество строк в псевдониме в PIG:
logs = LOAD 'log'
logs_w_one = foreach logs generate 1 as one;
logs_group = group logs_w_one all;
logs_count = foreach logs_group generate SUM(logs_w_one.one);
dump...
109845 просмотров
schedule
06.11.2022
STORE вывод в один CSV?
В настоящее время, когда я СОХРАНЯЮ в HDFS, создается много файлов деталей.
Есть ли способ сохранить в один файл CSV?
14702 просмотров
schedule
13.07.2022
Apache Pig: исключение OutOfMemory с простой GROUP BY в локальном режиме
Я получаю исключение OutOfMemory от Pig при попытке выполнить очень простую GROUP BY для крошечного (3 КБ), случайно сгенерированного примера набора данных.
Сценарий свиньи:
$ cat example.pig
raw =
LOAD 'example-data'
USING PigStorage()...
5686 просмотров
schedule
04.04.2023
Получение наиболее часто встречающегося значения в PIG
Если у меня есть следующий набор данных:
c1 c2
--- ---
1 5
1 5
1 6
2 9
2 9
3 1
3 2
Я хочу вернуть наиболее часто встречающееся значение во втором столбце (c2) для каждого значения в первом столбце (c1). Поэтому я...
1187 просмотров
schedule
15.01.2023
как объединить / объединить две сумки в свиной латыни
У меня есть два набора данных:
A = {uid, url}; B = {uid, url};
теперь я делаю cogroup :
C = COGROUP A BY uid, B BY uid;
и я хочу изменить C на { group AS uid, DISTINCT A.url+B.url };
Мой вопрос: как мне сделать эту конкатенацию...
3152 просмотров
schedule
04.05.2022
Доступ к полям кортежей
У меня есть следующий сценарий свиньи: Мой файл 1.txt имеет A 1 B 2 C 3 D 4
grunt> A = load '1.txt' using PigStorage(' ') as (a:chararray,b:int);
grunt> B = foreach A generate A.a;
grunt> dump B;
Это дает мне следующую ошибку...
3705 просмотров
schedule
23.05.2024
Многоуровневый JSON в PIG
Я новичок в написании сценариев PIG и работе с JSON. Мне нужно анализировать многоуровневые файлы json в PIG. Сказать,
{
"firstName": "John",
"lastName" : "Smith",
"age" : 25,
"address" :
{...
1639 просмотров
schedule
01.05.2023
Как заставить STORE (перезаписать) HDFS в Pig?
При разработке скриптов Pig, использующих команду STORE , мне приходится удалять выходной каталог для каждого запуска, иначе скрипт останавливается и предлагает:
2012-06-19 19:22:49,680 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 6000:...
31452 просмотров
schedule
20.09.2022
Как преобразовать поля в строки в Pig?
Я хочу преобразовать поля в строки в Pig.
из input.txt
1 2 3
4 5 6
7 8 9
разделитель между полями '\t'.
для вывода.txt
1 2 3 4 ... но я не должен использовать TOKENIZER, потому что содержимое полей может быть предложением. Пожалуйста...
7011 просмотров
schedule
08.03.2024
Как объединить два набора данных по их общему ключу в Hadoop?
У меня есть два набора данных Customer и Goods. Набор данных Customer имеет идентификатор клиента в качестве ключа и список идентификаторов товаров, которые клиент купил в качестве значения. Наборы данных о товарах имеют товар в качестве ключа и...
2362 просмотров
schedule
16.07.2023
Ошибка разыменования после свиньи udf
На самом деле это связано с вопросом Как добавить номера строк для строк в PIG или HIVE?
Третий ответ, предоставленный srini, работает нормально, но у меня проблемы с доступом к данным после udf.
UDF, предоставленный srini, следующий:...
1894 просмотров
schedule
08.02.2023