Cookies

We gebruiken cookies om u de beste ervaring op onze website te bieden. U kunt meer informatie vinden over welke cookies we gebruiken of deze uitschakelen in de instellingen. - Bekijk cookie instellingen

Ga naar inhoud

SQIREL-Graafdatabasesystemen

Gepubliceerd op 27 maart 2023

RSS Feed

Dit artikel is geplaatst op: c2d

In dit project bestuderen we het ontwerp van graaf-database systemen. De term ‘graaf’ betreft de wiskundige betekenis: het gaat om data die de vorm van een netwerk heeft. In sociale netwerken en telecommunicatienetwerken is dit duidelijk het geval, maar graaf-analyse is ook relevant voor data in de vorm van tabellen (omdat er via tabellen ook verbindingen tussen data elementen gevormd worden). Het SQIREL project richt zich op een aantal specifieke zaken: efficiënte data-structuren voor netwerken die snel en continue veranderen, het ontwerp van een query-taal voor graaf-databases, en het integreren van zoekwoordqueries daarin, waarbij de zoekfunctie gebaseerd is op de netwerkstructuur.

Graafdatabasesystemen zijn steeds meer in opkomst. Er zijn veel belangrijke toepassingen op het gebied van veiligheid, logistiek en medische fraude-detectie, waarin het belangrijk is om 'real-time' patronen in zulke grafen te detecteren zo snel als de berichten geplaatst worden en daar direct beslissingen op te nemen.

Begin 2023 spraken we met de projectleider van SQIREL prof. dr. Peter Boncz, senior onderzoeker bij de onderzoeksgroep Database Architectures van het CWI en verantwoordelijk voor de onderzoeksgroep Machine Learning, Database Architectures en Human-centered Data Analytics. Daarnaast is Peter hoogleraar aan de Vrije Universiteit Amsterdam in de bijzondere leerstoel Large-Scale Analytical Data Management. Peter is architect van de databasesystemen MonetDB en VectorWise (nu: Actian Vector) en is betrokken geweest bij vijf spin-off bedrijven op het gebied van datamanagement. Trots is Peter op Marcin Żukowski, één van de promovendi uit de CWI's Data Architectures groep als medeoprichter van Snowflake (dit bedrijf realiseerde in 2021 grootste IPO ooit op Nasdaq) en het naar Nederland halen van concurrent Databricks, dat in de afgelopen jaar meer dan 100 miljoen euro in de Amsterdamse R&D vestiging investeerde.

Partners

Het consortium bestaat uit academische toponderzoekers op het gebied van queryverwerking en Information Retrieval (IR), samen met twee use-case partners en twee technologiepartners: Neo Technology - het bedrijf achter graph database neo4j - en het eerdergenoemde Databricks, dat het populaire open source systeem Apache Spark ontwikkelde en nu als cloud-dienst aanbiedt.

Neo4J is marktleider op het gebied van graafdatabasesystemen. Radboud Universiteit is de tweede academische partner, onder leiding van prof. dr. ir. Arjen de Vries. Arjen houdt zich bezig met het ordenen van nodes in de graaf op basis van de daaraan gelinkte content, bijvoorbeeld op basis van keywords. Ook is het maken van een verrijkte graaf door bijvoorbeeld entiteiten te herkennen in de bijbehorende tekst, een onderwerp.

De use-cases partners zijn WizeNoze en Spinque. Wizenoze gebruikt de nieuwste AI-technologie om de grootste wereldwijde bibliotheek met samengestelde educatieve inhoud te bouwen en matcht die met elk curriculum. Spinque-technologie beantwoordt dagelijks miljoenen vragen in domeinen zoals e-commerce, overheid, enterprise search en cultureel erfgoed.

De Linked Data Benchmark Council (LDBC)

Een van de onderdelen van SQIREL is het leiden van Linked Data Benchmark Council (LDBC, ldbcouncil.org). LDBC is een non-profit samenwerking van onderzoeksinstellingen en industrie rond graafwerkingstechnologieën. LDBC bestaat uit leden uit zowel de industrie als de academische wereld, inclusief organisaties en individuen. “Vrijwel alle graaf database bedrijven zijn lid van LDBC, waaronder Neo4j, maar ook Amazon en Intel. De groep werkt samen om te bepalen wat benchmarks voor graaf database systemen zouden moeten inhouden. Hierdoor kunnen we elkaars technologie vergelijken om tot betere prestaties te komen en de technologie volwassener te maken.”

Er is binnen SQIREL aan een zowel een ‘business intelligence benchmark’ (test voor analytische graafqueries) als aan een tweede versie van ‘interactive benchmark’ gewerkt.

Twee talen

“Al die graafdatabases speken nu nog een andere taal wat natuurlijk erg lastig is bij benchmarks. Ieder systeem heeft zijn eigen querytaal en daardoor is het appels met peren vergelijken. Het is in ieders belang om tot een standaardtaal te komen. Na ons voorstel ‘G-CORE’ hebben we een samenwerking opgezet met ISO om twee nieuwe talen te ontwikkelen als uitbreiding op SQL.”

De werkgroepen van LDBC hebben in het project gewerkt aan twee graafquerytalen: de aankomende ISO GQL- en SQL/PGQ-talen, die respectievelijk in juni 2023 en maart 2024 zullen worden uitgebracht. “We zijn er natuurlijk trots op dat we in het SQIREL project een wereldwijde ISO standaard, namelijk de overal gebruikte SQL query taal, verbeteren.”

DuckDB

In SQIREL is gewerkt aan een eerste praktische implementatie van SQL/PGQ.

CWI heeft afgelopen jaren databasesysteem DuckDB ontwikkeld, dat enorm populair aan het worden is, met inmiddels meer dan 2 miljoen downloads per maand. CWI spin-off bedrijf DuckDB Labs werd in 2021 opgericht en stond vervolgens in 2022 aan de wieg van startup MotherDuck, die DuckDB wil verbinden met de cloud. “De bedoeling is dat DuckDB-gebruikers graafdata kunnen gebruiken en opslaan in DuckDB, in het lab ziet het er al goed uit maar het wordt nog spannend of we de zomer echt gaan halen. De software moet nog bruikbaar gemaakt worden om SQL/PGQ echt makkelijk in DuckDB te krijgen, daar zijn we nog wel een jaar mee bezig. We proberen ook nog een diepe integratie te maken met GNN-pakketten (Graph Neural Network).”
Een Graph Neural Network (GNN) is een klasse van kunstmatige neurale netwerken voor het verwerken van gegevens die kunnen worden weergegeven als grafen.

SQL/PGQ toekomst

SQIREL is inmiddels afgelopen, de postdoc en promovendus zijn klaar. Maar het onderzoek loopt gewoon door.

“Er is nog het nodige werk te verzetten, ik ben heel benieuwd naar de ontvangst in de databasemarkt. Er zit potentie in, veel organisaties hebben er baat bij, een spin-off zou zomaar kunnen.”

De lange termijn missie van Peter is een bloeiend ecosysteem rond R&D databasystemen in Nederland. “Dat er niet alleen onderwijs wordt gegeven over datasystemen maar dat er ook onderzoek wordt gedaan én industrie is die deze systemen ontwerpt.”

Ook interessant voor u

Nieuws

An update on the data and cloud developments in th...

11 oktober 2024

Summaries and slides of CoE-DSC Community Meeting ...

4 oktober 2024

Minister van EZ bevestigt rol TNO en CoE-DSC op he...

3 oktober 2024
Bekijk al het nieuws

Pagina's

Agenda

High Tech and Digitalization online information se...

18 oktober 2024

Save the date – CoE-DSC Community Meeting of Novem...

18 november 2024
Bekijk alle evenementen
  • Privacy overzicht
  • Noodzakelijke cookies
  • Cookies van derden
  • Aanvullende cookies
  • Privacy en cookies

Deze website maakt gebruik van functionele-, analytische- en tracking-cookies om de website te verbeteren.

Strikt Noodzakelijke Cookies moet te allen tijde worden ingeschakeld, zodat wij uw voorkeuren voor cookie-instellingen kunnen opslaan.

Deze website gebruikt Google Analytics, Hotjar en Facebook pixel om anonieme informatie te verzamelen, zoals het aantal bezoekers van de site en de meest populaire pagina's.

Door deze cookie ingeschakeld te houden, kunnen we onze website verbeteren.

Deze website gebruikt de volgende aanvullende cookies/services:

Meer over onze cookies