SQL 2016 – Premiers retours sur Polybase

Consultant SQL Server & Data Insights au sein de la société coopérative SCOP IT et MVP SQL Server depuis 2015, j'ai hâte de partager mes expériences avec vous !

6 Comments

  1. dj uber

    Belle entrée en matière, par contre j’ai du mal à partager ton enthousiasme de la conclusion.

    J’étais pourtant assez impatient d’avoir polybase à disposition parce qu’avant uniquement réservé à APS/PDW. Mais maintenant qu’il est dispo, j’ai du mal à associer les business cases. Au final si on veut s’affranchir de rapatrier les grosses volumétries côté SQL Server, pourquoi ne pas pousser les tables de faible volumétrie dont on a besoin directement sur le cluster. Cela permet en plus de ne pas être limité par la seule utilisation de polybase, mais bien de pouvoir utiliser tous les composants disponibles dans Hadoop.

    De plus, je suis gêné par le développement d’un nouveau moteur from scratch. Microsoft a investi pas mal d’argent/ressource sur Hive en partenariat avec Hortonworks avec des avancées et des développements vraiment intéressants (Tez/vectorisation/CBO), c’est dommage de ne pas profiter de ces avancées sur Polybase qui corrige-moi si je me trompe n’exécute que du code MR. Quand on sait qu’en plus Hive est en constante évolution… (je pense à l’utilisation d’un moteur Spark), j’ai peur que Polybase n’accuse trop de retard en terme de performance.

    A la rigueur, je pouvais comprendre l’existence de Polybase dans l’appliance APS (Serveur SQL Server et Cluster Hadoop sur la même machine). Cela permettait d’avoir un point d’entrée unique pour interroger ses données.

    Mais au final, dans SQL server 2016, l’avantage que je vois maintenant, c’est l’écriture des requêtes permettant d’attaquer du Hadoop dans Management Studio, ce qui semble plutôt léger.

    Tout ça pour dire qu’en fait je préférerais peut-être un support de Hive dans Management Studio (et sachant que le driver ODBC existe, ça pourrait être simple)

    David

    Édition de Sauget Charles-Henri :
    — Plus de détails ici => http://djuber.net/2015/07/06/reflexions-autour-de-polybase-sql-server-2016/

    1. Sauget Charles-Henri

      Hello David,

      Merci pour ton commentaire détaillé, je te rejoins sur ces différents points, disons que je vois dans polybase la possibilité de garder nos habitudes actuelles, les backups comme on sait les faire, la compatibilité avec nos vieux outils de reporting (SSRS, ROLAP, Autres) qui ne saurait pas encore interroger du Hive Nativement. En somme un moyen de commencer des transitions plus légères que de tout migrer dans Hadoop. Un peu comme le propose les tables en mémoire de SQL Server, avoir l’option table externe me plait 🙂 Mais encore une fois tes arguments sont excellents.

Leave a Comment

Your email address will not be published. Required fields are marked *