Большой инструмент Google для работы с данными содержит петабайты данных на многочисленных серверах

6-08-2014 Разное

Также Mesa, как называют этот инструмент, может выдерживать миллионы обновления и запросов в день.

Google обнаружили возможность сделать хранилище данных еще более емким и распределить данные среди различных центров, использую архитектуру, разработанную их инженерами, которая может сделать возможными более надежные и более отзывчивые основанные на облачных технологиях аналитические системы.

Исследователи Google обсудят новую технологию, которую назвали Mesa, на конференции по очень большим базам данных, которая пройдет в следующем месяце в Hangzhou, Китай.

Имплементация Mesa может содержать в себе петабайты данных, обновлять миллионы массивов данных в секунду и отвечать на триллионы запросов в день, говорят Google. Внедрив Mesa в многочисленные дата-центры, можно добиться того, что общая база данных останется невредимой даже в том случае, если какой-то один из этих дата-центров откажет.

Google построил Mesa для того, чтобы хранить и анализировать критические данные по своему рекламному бизнесу, однако такая технология может быть использована и для других, похожих целей, сказали исследователи.

«Mesa поглощает данные, сгенерированные различными службами, аккумулирует их и хранит их внутри, а затем выдает данные по запросам», - написали исследователи в бумаге, описывающей Mesa.

Для Google Mesa решила целый ряд операционных проблем, с которыми не смогли справиться обычные корпоративные базы данных и другие системы аналитики.

Даже самые крупные коммерческие базы данных не обновляют данные постоянно, а происходит это обычно раз в день или в неделю. Google же требовалось анализировать данные сразу же, как только они поступали.

Также Google необходима была строгая согласованность запросов, означающая, что запрос должен давать такие же результаты, связанные с одним и тем же источником постоянно, независимо от того, какой дата-центр обрабатывает запрос.

Согласованность считается сильной стороной относительных систем баз данных, хотя и у таких систем могут быть проблемы со сбором петабайтов данных. Это особенно трудно в том случае, если база данных повторяется на нескольких серверах одного кластера, что обычно делают организации, чтобы добиться лучшего времени отклика и большего времени работы без перезагрузки.

Никакие SQL базы данных, как например Кассандра, не могут с легкостью аккумулировать такое большое количество данных.

Просмотров: