Большой инструмент Google для работы с данными содержит петабайты данных на многочисленных серверах
Также Mesa, как называют этот инструмент, может выдерживать миллионы обновления и запросов в день. Google обнаружили возможность сделать хранилище данных еще более емким и распределить данные среди различных центров, использую архитектуру, разработанную их инженерами, которая может сделать возможными более надежные и более отзывчивые основанные на облачных технологиях аналитические системы. Исследователи Google обсудят новую технологию, которую назвали Mesa, на конференции по очень большим базам данных, которая пройдет в следующем месяце в Hangzhou, Китай. Имплементация Mesa может содержать в себе петабайты данных, обновлять миллионы массивов данных в секунду и отвечать на триллионы запросов в день, говорят Google. Внедрив Mesa в многочисленные дата-центры, можно добиться того, что общая база данных останется невредимой даже в том случае, если какой-то один из этих дата-центров откажет. Google построил Mesa для того, чтобы хранить и анализировать критические данные по своему рекламному бизнесу, однако такая технология может быть использована и для других, похожих целей, сказали исследователи. «Mesa поглощает данные, сгенерированные различными службами, аккумулирует их и хранит их внутри, а затем выдает данные по запросам», - написали исследователи в бумаге, описывающей Mesa. Для Google Mesa решила целый ряд операционных проблем, с которыми не смогли справиться обычные корпоративные базы данных и другие системы аналитики. Даже самые крупные коммерческие базы данных не обновляют данные постоянно, а происходит это обычно раз в день или в неделю. Google же требовалось анализировать данные сразу же, как только они поступали. Также Google необходима была строгая согласованность запросов, означающая, что запрос должен давать такие же результаты, связанные с одним и тем же источником постоянно, независимо от того, какой дата-центр обрабатывает запрос. Согласованность считается сильной стороной относительных систем баз данных, хотя и у таких систем могут быть проблемы со сбором петабайтов данных. Это особенно трудно в том случае, если база данных повторяется на нескольких серверах одного кластера, что обычно делают организации, чтобы добиться лучшего времени отклика и большего времени работы без перезагрузки. Никакие SQL базы данных, как например Кассандра, не могут с легкостью аккумулировать такое большое количество данных. |