Вопросы по теме 'apache-pig'

Как я могу загрузить файл в DataBag из UDF Yahoo PigLatin?
У меня есть программа Pig, в которой я пытаюсь вычислить минимальный центр между двумя сумками. Я обнаружил, что для того, чтобы это работало, мне нужно ГРУППИРОВАТЬ сумки в один набор данных. Вся операция занимает много времени. Я хочу либо...
871 просмотров
schedule 08.11.2023

Вызов службы RESTful в скрипте Pig
Я работаю над скриптом Pig (мой первый), который загружает большой текстовый файл. Для каждой записи в этом текстовом файле содержимое одного поля должно быть отправлено в службу RESTful для обработки. Ничего не нужно оценивать или фильтровать....
1007 просмотров
schedule 07.04.2022

Hadoop MapReduce — Pig/Cassandra — невозможно создать разделение ввода
Я пытаюсь запустить задание MapReduce с помощью Pig и Cassandra и всегда получаю сообщение об ошибке: ОШИБКА 2118: невозможно создать разделение входных данных для: cassandra://constellation/logs [РЕШЕНО] Были некоторые переменные среды, которые...
1352 просмотров
schedule 21.02.2023

Как обрезать строку заголовка из файлов, обработанных Hadoop's Pig?
Я пытаюсь проанализировать файлы данных, разделенные вкладками, созданные нашими службами, с помощью Amazon Elastic Map Reduce с помощью программы Pig. Все идет хорошо, за исключением того, что все наши файлы данных содержат строку заголовка,...
3748 просмотров
schedule 20.05.2024

Какой лучший плагин Pig для Eclipse?
Я собираюсь начать играть с PIG-latin, и я надеялся получить подсветку текста и тому подобное в Eclipse. Выполнив быстрый поиск в Google, я нашел для него пару плагинов Eclipse. Они все еще в разработке? Который лучший?
14954 просмотров
schedule 11.07.2022

Передать параметры скрипту jython для свиньи
Я хочу встроить скрипт свиньи в python, но мне нужно передать несколько параметров в скрипт python, и они, похоже, не заполняются. Если я вызову свой сценарий свиньи напрямую, я могу использовать: $PIGDIR/bin/pig -f...
848 просмотров
schedule 26.03.2024

Ограничения использования PIG с cassandra
Я намерен использовать PIG с cassandra для выполнения запросов. Я установил Pygmalion для этой цели. В прошлом я немного поработал над HIVE, что, очевидно, имеет ограничения языка запросов. Мы не можем реализовать полный язык в запросах....
261 просмотров
schedule 06.03.2023

Список, разделенный запятыми, с AvroStorage в Pig
Я попытался загрузить несколько файлов с помощью AvroStorage в Pig, используя список, разделенный запятыми. Я использовал следующее утверждение: test_data= LOAD 'repo_1/part-r-00000.avro,repo_2/part-r-00000.avro' USING...
650 просмотров
schedule 03.08.2023

Композитная колонна Cassandra и поршень
У меня есть семейство столбцов либо со строковыми значениями, либо со значением составного типа. Как я могу загрузить такие данные из кассандры в свинью?
460 просмотров
schedule 06.06.2023

PIG, как подсчитать количество строк в псевдониме
Я сделал что-то подобное, чтобы подсчитать количество строк в псевдониме в PIG: logs = LOAD 'log' logs_w_one = foreach logs generate 1 as one; logs_group = group logs_w_one all; logs_count = foreach logs_group generate SUM(logs_w_one.one); dump...
109845 просмотров
schedule 06.11.2022

STORE вывод в один CSV?
В настоящее время, когда я СОХРАНЯЮ в HDFS, создается много файлов деталей. Есть ли способ сохранить в один файл CSV?
14702 просмотров
schedule 13.07.2022

Apache Pig: исключение OutOfMemory с простой GROUP BY в локальном режиме
Я получаю исключение OutOfMemory от Pig при попытке выполнить очень простую GROUP BY для крошечного (3 КБ), случайно сгенерированного примера набора данных. Сценарий свиньи: $ cat example.pig raw = LOAD 'example-data' USING PigStorage()...
5686 просмотров
schedule 04.04.2023

Получение наиболее часто встречающегося значения в PIG
Если у меня есть следующий набор данных: c1 c2 --- --- 1 5 1 5 1 6 2 9 2 9 3 1 3 2 Я хочу вернуть наиболее часто встречающееся значение во втором столбце (c2) для каждого значения в первом столбце (c1). Поэтому я...
1187 просмотров
schedule 15.01.2023

как объединить / объединить две сумки в свиной латыни
У меня есть два набора данных: A = {uid, url}; B = {uid, url}; теперь я делаю cogroup : C = COGROUP A BY uid, B BY uid; и я хочу изменить C на { group AS uid, DISTINCT A.url+B.url }; Мой вопрос: как мне сделать эту конкатенацию...
3152 просмотров
schedule 04.05.2022

Доступ к полям кортежей
У меня есть следующий сценарий свиньи: Мой файл 1.txt имеет A 1 B 2 C 3 D 4 grunt> A = load '1.txt' using PigStorage(' ') as (a:chararray,b:int); grunt> B = foreach A generate A.a; grunt> dump B; Это дает мне следующую ошибку...
3705 просмотров
schedule 23.05.2024

Многоуровневый JSON в PIG
Я новичок в написании сценариев PIG и работе с JSON. Мне нужно анализировать многоуровневые файлы json в PIG. Сказать, { "firstName": "John", "lastName" : "Smith", "age" : 25, "address" : {...
1639 просмотров
schedule 01.05.2023

Как заставить STORE (перезаписать) HDFS в Pig?
При разработке скриптов Pig, использующих команду STORE , мне приходится удалять выходной каталог для каждого запуска, иначе скрипт останавливается и предлагает: 2012-06-19 19:22:49,680 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 6000:...
31452 просмотров
schedule 20.09.2022

Как преобразовать поля в строки в Pig?
Я хочу преобразовать поля в строки в Pig. из input.txt 1 2 3 4 5 6 7 8 9 разделитель между полями '\t'. для вывода.txt 1 2 3 4 ... но я не должен использовать TOKENIZER, потому что содержимое полей может быть предложением. Пожалуйста...
7011 просмотров
schedule 08.03.2024

Как объединить два набора данных по их общему ключу в Hadoop?
У меня есть два набора данных Customer и Goods. Набор данных Customer имеет идентификатор клиента в качестве ключа и список идентификаторов товаров, которые клиент купил в качестве значения. Наборы данных о товарах имеют товар в качестве ключа и...
2362 просмотров
schedule 16.07.2023

Ошибка разыменования после свиньи udf
На самом деле это связано с вопросом Как добавить номера строк для строк в PIG или HIVE? Третий ответ, предоставленный srini, работает нормально, но у меня проблемы с доступом к данным после udf. UDF, предоставленный srini, следующий:...
1894 просмотров
schedule 08.02.2023