Pentaho 6

Como já tem se tornado habitual, tivemos um lançamento da nova versão do Pentaho durante o último Pentaho World em Orlando.

Revolução ou evolução?

Antes de explorarmos as novidades, gostaria ressaltar uma mudança na abordagem no lançamentos de novos releases da empresa. Após o Chris Dziekan assumir a frente como CPO (Chief Product Officer) começamos a ver mais lançamentos evolutivos do que revolucionários.

Quem passou pela migração entre as versão 4 e 5 deve lembrar das mudanças profundas realizadas na arquitetura da plataforma. Pouca coisa restou do BA server antigo. O Pentaho 6.0, por outro lado, se mostra como uma evolução direta do 5.0 (tecnicamente 5.4, mas manteremos sempre a comparação com o major release). Isto não é necessariamente ruim. As mudanças que ocorreram da 5.0 para 6.0, apesar de menores vieram com mais features para o usuário final . Ganhamos também em estabilidade durante essas mudanças, uma vez em que boa parte do backend continuou o mesmo. Essa abordagem tende a se pagar ao longo do tempo, sempre acumulando novos recursos, facilitando o upgrade e dando menos dor de cabeça :).

No Pentaho 5.0 a ênfase em arrumação de casa significou mecanismos autenticação, segurança e administração de artefatos foram reescrita. Isso resultou em uma melhora significativa em desempenho, escalabilidade e parametrização, no entanto para o usuário final, poucas features novas foram apresentadas.

O que nos trás para a versão 6.0.

Visão geral do Pentaho 6.0

Os maiores insights vêm de integração de dados estruturados e não estruturados provenientes de fontes heterogêneas, proporcionando uma visão completa para tomar melhores decisões. Mas integrar todos esses dados com fontes de Big Data modernos pode ser um desafio. O Pentaho 6.0 tem como propósito tornar esse processo fácil.

Streamlined Data Refinery – acelerado

Quem assistiu minha palestra sobre SDR no Pentaho Day 2015, teve uma prévia do que estava por vir. O Streamlined Data Refinery, introduzido na versão 5.4, é um arcabouço para geração, edição e publicação de metadados analíticos – cubos e afins. Ao invés de realizar o processo de modelagem manualmente após o desenvolvimento das rotinas de ETL, a idéia é incorporar essa etapa durante a construção da camada de integração. De cara temos o benefício de automatizar a modelagem e simplificar a manutenção. É tudo muito bem acoplado.

A mágica ocorre com a inclusão de alguns metadados (annotations) no fluxo de dados da transformação. A partir dessas anotações os componentes de auto modelagem e publicação geram e publicam automaticamente o modelo para o BA Server. A nova versão trouxe à mesa a possibilidade de criar campos calculados (Add Calculated Measures) e modificar o modelo após publicação diretamente do Analyzer – verdadeira cereja do bolo.

Vamos a um cenário fictício:

Você com um usuário de negócio respirando no seu cangote (pescoço), inicia um projeto de analytics. O desafio é cruzar informações de grande massa de dados de diversas fontes heterogêneas (excel, SGBD, json e Hadoop, por exemplo) e disponibilizá-las em um ambiente seguro para consultas interativas ad-hoc.

Utilizando metodologia ágil, você prontamente abre o Pentaho Data Integration, mescla as fontes e começa a marcar (ou anotar) no fluxo de integração quem é medida e quem é fato. Após criar e executar o job que contém os job entries de auto modeling e auto publish, disponibiliza o cubo para usuário de negócio mergulhar em suas análises. Se necessário refinar o modelo, o próprio usuário consegue realizar os ajustes sem precisar abrir o Schema Workbench ou o PDI!

Data Lineage

Com um projeto em produção, a próxima preocupação de um bom arquiteto é criar estruturas para manter o sistema em ótimas condições de operação. Antecipar impacto de mudanças, rastrear causas e identificar exatamente onde ocorreu problemas faz parte das novidades trazidas pelo Pentaho 6.0.

O Data Lineage, quando habilitado, gera informações indicando exatamente de onde vêm, por onde passam, como são transformados e para onde vão os dados. De posse dessas informações, pode-se então visualizar o fluxo dos dados utilizando-se de ferramentas de terceiros especializadas (como yEd e Meta Integration Technology), além de fornecer um excelente mecanismo para auditoria e verificação de dados.

Mais informações você encontra no site de documentação da plataforma.

Spoon

E falando de ETL, tivemos também mudanças mais sutis na interface do PDI.

Novo Marketplace

A Pentaho integrou os Marketplace do PDI e do BA server. Além do mesmo visual, os dois possuem por baixo o mesmo sistema, respeitadas, claro, as especialidades. Isso faz parte de uma grande iniciativa para unificar a forma de construção de plugins, tanto para o PDI quanto para o BA Server. Falarei mais disso a seguir.

Variável interna do PDI

A partir da versão 6.0, temos uma nova variável de ambiente para indicar o diretório do arquivo ou repositório atual de um step ou job entry dentro de uma transformação ou job do PDI: Internal.Entry.Current.Directory.

Essa variável facilita o processo de desenvolvimento por substituir quadro outras:

Internal.Job.Filename.Directory
Internal.Job.Repository.Directory
Internal.Transformation.Filename.Directory
Internal.Transformation.Repository.Directory

Todas as quatro variáveis continuam disponíveis no P6.0.

Arrumação de casa

Quem aqui já se perdeu com a imensidão conexões legadas que são salvas junto com o arquivo de uma transformação que acaba de sair do forno? Pois bem, esses dias estão contados. Agora, conexões não utilizadas não serão mais salvas nos arquivos .KTR. Ufa!

Plataforma

Em minha opinião, os principais diferenciais do Pentaho são: extensibilidade e o PDI (claro). O PDI dispensa apresentações, resta então falarmos sobre a extensibilidade da plataforma. Em meu pitch comercial faço questão de frisar: no mundo de analytics, tudo é possível com o Pentaho, respeitado os limites de recurso e tempo. O verdadeiro significado deste discurso está enraizada no DNA da empresa – ser uma plataforma de analytics de big data de ponta-a-ponta. Para conseguir tal objetivo, a Pentaho investe em melhorias para possibilitar maior interação com os recursos da plataforma.

Durante o ciclo de vida da versão 5, tivemos várias APIs novas expostas, o 6 segue o mesmo caminho. Nesta versão foram apresentadas novas APIs que permitem melhor controle de usuários e papéis e uma mudança mais profunda da arquitetura de Plugins com a inclusão do framework OSGi.

Pouco tempo atrás Marcello Pontes, publicou um artigo falando um pouco sobre o OSGi. Recomendo, caso não tenha feito, conferir. Em linhas gerais o OSGi vai permitir mais modularidade, upgrades cirúrgicos, hot deployment (sem necessidade de reiniciar o BA server) e, sobretudo, vai permitir que as pessoas desenvolvam plugins que funcionem tanto no PDI quanto no BA Server, como já acontece com o Marketplace, assunto mencionado acima.

Algumas outras novidades que valem destaque:

Atualização do Java, Tomcat, JBOSS, Jackrabbit e Spring

O Java embarcado na plataforma foi atualizado para o 8, o mesmo ocorreu com o Tomcat. Novas versões do JBOSS agora são suportadas. O Spring por sua vez foi atualizado para a versão 3.0 e permite suporte a autenticação via oAuth e Active Directory Federation Services.

Ainda é possível utilizaro Java 7, mas é necessário realizar o deploy manualmente no Tomcat 7.

Mudanças nos Componentes de Steps e Job Entries

De casa nova

Alguns componentes do PDI foram movidos do Spoon para o Marketplace, são eles:

Job Entries:

  • SSH2 Get;
  • SSH2 Put.

Além dos Steps:

  • Aggregate Rows;
  • Get Previous Row Fields;
  • LucidDB Bulk Loader;
  • Streaming XML Input;
  • XML Input;
  • Google Analytics Input.

Deprecated

Os seguintes componentes então com status deprecated, isto significado que serão removidos em versões futuras:

Job Entries

  • MS Access Bulk Load Entry.

Steps:

  • LucidDB Streaming Loader;
  • Greenplum Bulk Loader Step,

Novos

Se você é usuário so SAP HANA, agora poderá carregar seus dados mais rapidamente com o uso do novo Step:
SAP HANA Bulk Loader. O Step pode ser instalado manualmente através do Marketplace no PDI.

Você também pode conferir o vídeo de review em nosso canal do Youtube sobre Analytics Oncase TV. O release completo do Pentaho 6 está disponível na página de documentação.

Próximos passos:

  • Baixe a versão trial do Pentaho e comece a explorar as novas features: versão enterprise ou versão comunidade
  • Treinamento, certificação e curso de Pentaho: oncase
  • Consultoria, licenciamento e suporte: [oncase]http://(www.oncase.com.br “Oncase”)

Até a próxima!

188729a
Iande Coutinho
CIO at