Публикации по теме 'hadoop'
Введение в Apache HBase (часть 2)
Это вторая часть сообщения в блоге, посвященная основам Apache HBase. Первую часть можно найти здесь .
Эта глава будет посвящена темам администрирования HBase, например Кластерная архитектура HBase, репликация, формат хранения данных и т. Д. Это будет полезно системным администраторам, а также разработчикам, которые хотят знать, как HBase работает внутри.
Архитектура HBase
Мы начнем с компонентов, которые есть в кластере HBase, и с того, как они взаимодействуют друг с другом...
Расчет TF-IDF с использованием алгоритма Map-Reduce в PySpark
В этой статье мы рассмотрим практическую реализацию вычисления оценок частоты термина-обратной частоты документов (TF-IDF) для соответствующих слов в каждом документе с использованием алгоритма Map-Reduce в Pyspark.
Введение
Тем не менее, Spark MLlib имеет встроенную функцию для вычисления оценки TD-IDF, которая использует алгоритм сопоставления / сокращения для выполнения кода распределенным образом. В этой статье мы будем использовать устойчивые распределенные наборы данных (RDD)..
Hadoop 3: сравнение с Hadoop 2 и Spark
Выпуск Hadoop 3 в декабре 2017 года ознаменовал начало новой эры в науке о данных. Фреймворк Hadoop является ядром всей экосистемы Hadoop, и различные другие библиотеки сильно зависят от него.
В этой статье мы обсудим основные изменения в Hadoop 3 по сравнению с Hadoop 2. Мы также объясним различия между Hadoop и Apache Spark и посоветуем, как выбрать лучший инструмент для вашей конкретной задачи.
Общая информация
Hadoop 2 и Hadoop 3 - это механизмы обработки данных, разработанные..
Вопросы по теме 'hadoop'
Справка по запросам Hbase/Hadoop
Я работаю над проектом с другом, который будет использовать Hbase для хранения своих данных. Есть ли хорошие примеры запросов? Кажется, я пишу тонну Java-кода для перебора списков RowResult, когда в мире SQL я мог написать простой запрос. Я что-то...
19445 просмотров
schedule
22.09.2022
Жизнь без СОЕДИНЕНИЙ понимание и общие практики
Многие "BAW" (большие задницы) используют методы хранения и извлечения данных, которые полагаются на огромные таблицы с индексами, и используют запросы, которые не будут / не могут использовать JOIN в своих запросах (BigTable, HQL и т. Д.) чтобы...
3184 просмотров
schedule
25.11.2022
Распределенное планирование заданий, управление и отчетность
Недавно я поэкспериментировал с Hadoop и был впечатлен его планированием, управлением и отчетностью по заданиям MapReduce. Кажется, что распределение и выполнение новых заданий происходит довольно плавно, что позволяет разработчику...
11219 просмотров
schedule
22.03.2022
Hadoop или Hadoop Streaming для MapReduce на AWS
Я собираюсь начать проект mapreduce, который будет работать на AWS, и мне предоставляется выбор: использовать Java или C++.
Я понимаю, что написание проекта на Java предоставило бы мне больше функциональных возможностей, однако C++ также мог бы...
1426 просмотров
schedule
15.06.2022
Amazon MapReduce без редукторной работы
Я пытаюсь создать задание только для картографа через AWS (потоковое задание). Поле редуктора является обязательным, поэтому я даю фиктивный исполняемый файл и добавляю -jobconf mapred.map.tasks=0 в поле дополнительных аргументов. В среде Hadoop...
3990 просмотров
schedule
12.04.2022
Любые протестированные платформы/решения, похожие на Apache Hadoop?
Меня интересует проект Apache Hadoop, но я хотел бы знать, существуют ли какие-либо другие протестированные (обратите внимание на «протестированные») проекты/фреймворки.
Ценим любую информацию/ссылки на проекты, похожие на Apache Hadoop, и любые...
1657 просмотров
schedule
06.09.2022
Синхронизация данных между Hadoop и PostgreSql с помощью SymmetricDs
Я использую Hadoop для хранения данных нашего приложения. Как я могу синхронизировать данные между PostgreSql и Hadoop? Я использую SymmetricDS в качестве инструмента репликации.
899 просмотров
schedule
17.12.2022
Идея проекта компьютерной лингвистики с использованием Hadoop MapReduce
Мне нужно сделать проект по курсу компьютерной лингвистики. Есть ли какая-нибудь интересная «лингвистическая» проблема, которая требует больших объемов данных, чтобы работать над сокращением карты Hadoop. Решение или алгоритм должны попытаться...
1991 просмотров
schedule
28.03.2022
Hadoop — статистика работы
Я использовал hadoop для запуска приложений уменьшения карты в нашем кластере. Работа занимает около 10 часов в день. Я хочу знать время, затраченное на каждую работу, и время, затраченное на самую длинную работу и т. д., чтобы я мог оптимизировать...
5646 просмотров
schedule
07.09.2023
Гарантировано ли, что при использовании Hadoop мои редукторы получат все записи с одним и тем же ключом?
Я запускаю задание Hadoop с использованием Hive, которое должно содержать uniq строки во многих текстовых файлах. На этапе сокращения он выбирает для каждого ключа самую последнюю запись с отметкой времени.
Гарантирует ли Hadoop, что каждая...
5984 просмотров
schedule
09.04.2022
Как я могу загрузить файл в DataBag из UDF Yahoo PigLatin?
У меня есть программа Pig, в которой я пытаюсь вычислить минимальный центр между двумя сумками. Я обнаружил, что для того, чтобы это работало, мне нужно ГРУППИРОВАТЬ сумки в один набор данных. Вся операция занимает много времени. Я хочу либо...
871 просмотров
schedule
08.11.2023
Hadoop на Amazon EC2: средство отслеживания вакансий не запускается должным образом
Мы запускаем Hadoop в кластере Amazon EC2. Мы запускаем ведущее устройство, ведомые устройства и присоединяем тома ebs и, наконец, ждем, пока запустится программа отслеживания заданий hadoop, tasktracker и т. Д., И у нас есть тайм-аут 3600 секунд....
1034 просмотров
schedule
12.06.2022
С чего начать работу с распределенными вычислениями?
Я заинтересован в изучении методов распределенных вычислений. Как разработчик Java я, вероятно, захочу начать с Hadoop . Не могли бы вы порекомендовать какие-нибудь книги/учебники/статьи для начала?
1689 просмотров
schedule
09.07.2022
Управление зависимостями с помощью Hadoop Streaming?
У меня небольшой вопрос о потоковой передаче Hadoop. Если я использую потоковую передачу Python и у меня есть пакеты Python, которые требуются моим преобразователям/редукторам, но не установлены по умолчанию, нужно ли мне устанавливать их также на...
1006 просмотров
schedule
30.08.2022
Статическая инициализация Hadoop Mapper
У меня есть фрагмент кода, в котором я использую статический блок кода для инициализации переменной.
public static class JoinMap extends
Mapper<IntWritable, MbrWritable, LongWritable, IntWritable> {
..........
1807 просмотров
schedule
10.03.2023
Запуск периодических заданий Hadoop (рекомендуемая практика)
Клиенты, которые могут в любое время загружать URL-адреса в базу данных, и приложение должны обрабатывать URL-адреса как можно скорее. Поэтому мне нужно периодически запускать задания Hadoop или автоматически запускать задание Hadoop из другого...
1071 просмотров
schedule
21.03.2022
FileNotFoundException при использовании распределенного кэша Hadoop
на этот раз кто-то должен ответить, пожалуйста, я борюсь с запуском моего кода с использованием распределенного кэша. у меня уже есть файлы на hdfs, но когда я запускаю этот код:
import java.awt.image.BufferedImage;
import...
4073 просмотров
schedule
10.11.2022
Расчет расстояния mapreduce в Hadoop
Есть ли реализация расчета расстояния с использованием карты/уменьшения Hadoop. Я пытаюсь рассчитать расстояние между заданным набором точек.
Ищем любые ресурсы.
Изменить
Это очень разумное решение. Я попробовал что-то вроде первого...
5107 просмотров
schedule
20.05.2022
Как хранить сложные объекты в Hadoop Hbase?
У меня есть сложные объекты с полями коллекции, которые необходимо сохранить в Hadoop. Я не хочу просматривать все дерево объектов и явно сохранять каждое поле. Поэтому я просто думаю о сериализации сложных полей и храню их как одну большую часть....
5318 просмотров
schedule
14.12.2022
Hadoop MapReduce — Pig/Cassandra — невозможно создать разделение ввода
Я пытаюсь запустить задание MapReduce с помощью Pig и Cassandra и всегда получаю сообщение об ошибке: ОШИБКА 2118: невозможно создать разделение входных данных для: cassandra://constellation/logs
[РЕШЕНО] Были некоторые переменные среды, которые...
1352 просмотров
schedule
21.02.2023