Masowo równoległa baza danych z Yale

Badacze z uniwersytetu w Yale opracowali równoległą bazę danych, która ich zdaniem łączy możliwości przetwarzania danych własciwe bazom danych, ze skalowalnością technologii, takich jak Hadoop i MapReduce. Nowe środowisko bazodanowe jest dostępne na zasadach open source.

O udostępnieniu HadoopDB poinformował na swoim blogu profesor informatyki Daniej J. Abadi. Do utworzenia bazy danych wykorzystano motor PostgreSQL, technologię sortowania danych Apache Hadoop oraz Hive, wewnętrzny projekt Hadoop opracowany przez Facebook Inc. Zapytania są dostarczane albo za pomocą konwencjonalnego języka SQL, albo przez MapReduce, prekursora Hadoop wymyślonego przez Google dla celów składowania i indeksowania danych całej sieci WWW. Kod źródłowy

HadoopDB jest już dostępny.

Przetwarzanie danych wykonywane częściowo przez Hadoop, a częściowo w różnych instancjach bazy PostgreSQL rozproszonych na wiele węzłów niewspółdzielącego zasobów klastra komputerów. "W skrócie jest to hybryda MapReduce oraz równoległych baz DBMS. W odróżnieniu innych projektów lub dostawców, takich jak Aster Datam Greenplum czy Hive, HadoopDB integracja przebiega na poziomie implementacji systemu" - mówi Daniej J. Abadi. Jego zdaniem dzięki połączeniu najlepszych właściwości obu modeli przetwarzania danych, HadoopDB może osiągnąć odporność na awarie właściwą dla struktur masowego zrównoleglonego przetwarzania danych, takich jak MapReduce, gdzie awaria serwera ma mały wpływ na pracę całej sieci. "Jednocześnie taka struktura może wykonywać złożone analizy danych prawie tak szybko, jak obecne komercyjne równoległe bazy" - twierdzi Abadi.

HadoopDB, nawet na eksperymentalnym etapie rozwoju, może dać kolejny argument firmom zajmującym się produktami klasy Web 2.0 oraz innym członkom rozrastającego się ruchu NoSQL, który sprzeciwia się powszechnemu wykorzystywaniu baz danych do każdego zastosowania. W przyszłości projekt ten może być wykorzystany w korporacjach szukających mniej kosztownej i lepiej skalowalnej alternatywy dla baz danych Oracle i DB2, znacznie wykraczającej poza możliwości bazy MS SQL Server. Warto dodać, że chociaż HadoopDB jest zbudowany przy wykorzystaniu motoru PostgreSQL, może użyć także inych motorów bazodanowych. Testy wykorzystania MySQL zakończyły się sukcesem, w planach są także testy baz takich jak Infobright czy MonetDB, by usprawnić pracę systemu przy obciążeniach ściśle analitycznych. "Projekt HadoopDB jest dopiero akademickim prototypem udowadniającym możliwość realizacji tej technologii w praktyce i niektóre funkcje ułatwiające pracę jeszcze nie są zaimplementowane. Mimo to, może być użyteczny w niektórych zastosowaniach związanych z analizą skomplikowanych strukturalnych danych" - pokreśla Abadi.

Czytaj też:

Microsoft dostarczył otwarte sterowniki dla Linuksa - kto jeszcze to zrobi?

Systemy deduplikacji Data Domain ostatecznie w rękach EMC

PostgreSQL 8.4 wydany

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200