Co się dzieje z Pentaho?

W zasadzie... nic. Wiele organizacji przez lata intensywnie inwestowało w Pentaho Data Integration (PDI). Oprogramowanie może być bezpłatne, ale czas potrzebny do zbudowania projektu w obszarze przetwarzania danych z utworzonymi setkami zadań i transformacji zdecydowanie nie jest. Niestety rozwój PDI w dużej mierze utknął w martwym punkcie. Pojawiają się nowe wersje, ale stare błędy pozostają nienaprawione, a nowa funkcjonalność jest rzadkością.

Hitachi Vantara po przejęciu Penatho w 2015 postanowili bardzo skomercjalizować oprogramowanie które przejeli. ETL nazwany Pentaho Kettle (i jego komercyjna wersja PDI) oferuje tak wiele że wiele firm nie ma motywacji by zakupić jego wersje komercyjną. Hitachi Vantara wycofuje się z Kettle i innych darmowych produktów. Wersje które powstały po zakupie przez nich Pentaho nie wniosły niczego poza zmianami numerów. Postanowili także zamknąć forum które było świetnym miejscem by poprosić o pomoc innych. Efekty tych decyzji są widoczne; popularność Pentaho Kettle spada.

Czy to oznacza że nie ma już sensu używać tego oprogramowania? Absolutnie nie. Jest wiele powodów dla których to nadal świetny ETL. Choć metody przetwarzania danch się zmieniają, powstają nowe techniki i wspierające je oprogramowanie, wiele firm nadal nie potrzebuje niczego więcej niż to co wspiera Pentaho.

Ale dla tych którzy chcą coś więcej i zastanawiają się nad nowym ETLem mamy świetną wiadomoć. Pentaho Kettle rozwija się!

Więcej…

Zapisywanie danych z Pentaho Kettle do Excel

Najlepszym sposobem na sprawną pracę w Excelu jest... unikanie Excela. Jest to szczególnie widoczne przy pracy z dużymi wolumenami danych. Wszystkie modyfikacje danych i obliczenia wykonasz sprawniej i szybciej w Pentaho a rezultat zapiszesz w formacie Excel. Poniżej znajdziesz odpowiedź jak stworzyć formuły, dodać komentarze, użyć szablonów, utworzyć aktualne wykresy oraz inne przydatne informacje.

Przygotuj Pentaho na pracę z Excelem

Jeśli używasz Pentaho w domyślnej konfiguracji, całkiem prawdopodobne jest że przy otwarciu większego pliku pojawi się błąd "java.lang.OutOfMemoryError: GC overhead limit exceeded". Pentaho napisany jest w Java która bardzo lubi pamięć. Dodatkowo pliki Excela są "ciężkie" - ten format wymaga dużo zasobów by przechować dane. Rozwiązaniem jest przydzielenie Penatho większej ilości pamięci. W katalogu "pdi-ce-x.x.x.x-xxx\data-integration" znajdź plik spoon.bat, otwórz go w notatniku i zmodyfikuj linię:

if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m"

Zmieniając parametr "-Xmx". Ustaw go np. na "-Xmx4g". Ponownie uruchom Penatho po zmianie.

Więcej…

Praca z dużymi plikami MS Excel - co zrobić by Excel działał szybciej

Największe firmy mimo deklaracji posiadania "data lake" i podejmowania "data driven" decyzji posługują się często... plikami Excela. Głównymi powodami dlaczego tak robią jest brak niezbędnych umiejętności wśród pracowników. Excel jest znaną aplikacją, zatem jeśli jest do przygotowania raport czy analiza używane jest narzędzie które jest znane. Pozyskanie nowych umiejętności wymaga inwestycji; czy to czasu czy też środków na szkolenie. Excel kusi łatwością tworzenia - szybko możesz stworzyć coś w arkuszu lub kilku. Rezygnacja z takiego stylu pracy wymaga też determinacji i uporządkowana obiegu informacji wewnątrz firmy.

Co "zyskujesz" analizując dane w Excelu? Eksportowanie dużych ilości danych z wielu źródeł jest czasochłonne, nudne i podatne na błędy. Dopiero po zakończeniu raportowania wiesz, co się dzieje. Zazwyczaj jest to tylko raz w tygodniu. Do tego czasu utracono wiele okazji do optymalizacji i podjęcia działań naprawczych. Do czasu wypełnienia raportu jest on prawie nieaktualny. Niezbyt dobra sytuacja.

Konsekwencja pracy z Excelem jest powstawanie "silosów" - dane i rezultaty są bardzo lokalne. Nie musisz rezygnować z Excela całkowicie. Używaj go jednak tam gdzie ma to sens. Najczęściej najlepszym powodem będzie przygotowanie raportu ad hoc na niewielkiej ilości zagregowanych danych, sprawdzenie obliczeń, nadanie raportowi finalnego wyglądu, stworzenie nietypowych wykresów na podstawie przygotowanych danych, użycie go jako formularza do spontanicznego zebrania potrzebnych danych od współpracowników.... Microsoft Excel ma swoje miejsce w firmie ale używaj go z głową.

Więcej…

Uruchamianie skryptów Python w Pentaho PDI

Python jest jednym z najbardziej popularnych języków programowania. Różne statystyki pokazują że jest to albo lider albo zajmuje jedno z trzech miejsc na podium. Dlaczego Python jest tak popularny? Python to język wysokiego poziomu, który charakteryzuje się bardzo prostą składnią. Jest językiem o bardzo szerokim zastosowaniu, pozwalającym na napisanie dosłownie wszystkiego przy użyciu odpowiednich bibliotek lub frameworków. Python jest też często używany jako język skryptowy w aplikacjach napisanych w innych językach. Trzeba podkreślić również fakt, że środowisko Python jest banalnie proste do instalacji a rozszerzanie możliwości przez dodatkowe biblioteki błyskawicznie szybkie i nie absorbujące użytkownika.

Czasami w Pantaho robimy rzeczy które trudno zrealizować używając standardowych komponentów - dlatego bardzo łatwo możemy rozszerzyć możliwości Pentaho wstawiając odpowiedni skrypt napisany w Python'ie.

Więcej…

Strona 6 z 24