Author Archives: Tomislav Zorc

comSysto selects the MapR Big Data Platform for critical software development

Enterprise-grade features shorten development time and provide improved performance for Hadoop and NoSQL projects.

Read more about MapR, comSysto and the Hadoop-based data platform:

Data Visualisation Training in München

“Data visualisation is both an art and a science. It is an art concerned with unleashing creativity and innovation, designing communications that appeal on an aesthetic level and survive in the mind on an emotional one. It is a science aimed at understanding and exploiting the way our eyes and brains process information most efficiently, effectively and accurately.” Andy Kirk

comSysto und bringen Datenvisualisierung in München auf den neuesten Stand!

Während das Erdöl immer knapper wird, werden die Daten als das Öl unserer Wirtschaft immer lauter genannt. Und das neue Öl sprudelt aus unseren Systemen so schnell heraus, dass wir mit unserer Verarbeitung, Speicherung und Interpretation kaum noch Schritt halten können, trotz konstanter Steigerung in Hardwareleistung und parallelen Verarbeitungsalgorithmen. Unsere Pipelines und Speicher werden also ständig erweitert und versuchen es mehr oder weniger erfolgreich mit der Flut aufzunehmen.

Und wie sieht es beim Endverbraucher aus? Trotz einer scheinbaren Überversorgung treten ganz häufig Engpässe auf. Denn aus dem Rohstoff werden nicht immer Produkte, die von den Endverbrauchern so dringend benötigt werden, und das gilt es zu ändern. Aus diesem Grunde möchten wir die Informationskette nun von hinten betrachten: Wie konsumieren Menschen Daten bzw. Informationen? Was für Endprodukte werden wirklich benötigt? Wie sollen diese gestaltet werden, um die Aufnahme zu erleichtern und zu beschleunigen? In der eintägigen Veranstaltung mit Andy Kirk begeben wir uns gemeinsam auf die Suche nach den Antworten.

Mehr Details zu den Inhalten des Trainings findet man unter

Mittwoch, 25.07.2012, 9 – 18 Uhr

comSysto Office im Zentrum von München.

Für wen?
Analysten, Designer, UX-Spezialisten, Statistiker, Excel-Fanatiker, Entwickler, Manager, BI-ler, Information Architects, Excel-Hasser…


EUR 250,- pro Teilnehmer, für Verpflegung ist gesorgt.

Eine kurze und formlose Email auf office [at]

Big Data and Data Science – what’s really new?

Big Data is a hype. It’s also a buzz word. Maybe a trend? Down-to-earth people could say it’s just mass data called “big”. Although there are many very large data warehouses in the BI world, data science seems obsessed with handling “big data – when the size of the data itself becomes party of the problem.” For Gartner and Forrester even “big” is not enough anymore, they started using the term “extreme” and they are right – volume alone is not Big Data.

Big Data is data at extreme scale when it comes to Volume, Velocity, Variety and Variability according to Gartner. Since the word “big” overemphasizes Volume, “extreme” might be the more appropriate term. Anyway, “big” is there, is shorter and sounds better, so let’s stick to it. ;-) Big Data also fits better to big money, extreme money does sound strange, right? According to new study from Wikibon, Big Data pegs revenues at $5B in 2012, surging to more than $50B by 2017.

So what’s really new about Big Data? In order to find an answer we first have to ask ourselves: How come? What lead to this trend? Let’s have a look at some other important and interdependent trends:

“Software is eating the world” and the Internet Revolution
Two decades ago you needed a special training in order to use software systems. Consumers used their Office suites and the few websites out there were only an bunch of static HTML files. Enterprises had their software to support some specific business functions, mostly with relational storage and they just started to put this relational data to use.

The rise of modern Internet started a new trend where all of the technology required to transform industries through software finally works and can be widely delivered at global scale. Today consumers and businesses moved online where more than 2 billion people use the broadband internet and today’s internet is:
- easy to use and everywhere (pervasiveness)
- dynamic, complex and agile (variability)
- extremely large (volume)
- extremely quick (velocity)
- noisy (extracting the message is getting harder)
- vague and uncertain
- not well-structured and diverse (variety)
- not always consistent
- non-relational
- visual
while every single one of these attributes is getting more extreme.

The transformation of Web 1.0 static websites to Web 2.0 web applications is now continuing towards Web 3.0 or Semantic Web where data, their semantics and insights as well as actions derived from that data become the most important part of the internet service.

A Shift in Data
Is Big Data only about Web or Internet Data? Not necessarily, but WWW still is the main driver. Plus the new awareness for an old fact: unlike people, not all data is equal whereas the inequality is even growing. Many new consumer and enterprise apps create data footprints that are constantly growing larger and quicker in more different formats as well as getting more complex. So why treating all data equally? Why would you want to store and process data streams of RFID messages the same way as your business transaction data? Well, only if you have no choice.

Many people talk about unstructured data being Big Data. Thinking about the term “unstructured data” longer than a few seconds opens up following questions: What is data without structure? When does structure end? How can it be interpreted and analyzed?

The answers are: There is no data without structure. If there is absolutely no structure or context, it’s just noise and you can forget about analyzing it. Even a piece of text has a certain structure and context, therefore one can mine it in order to extract the semantics. What most people mean by “unstructured” is data coming from a “non-relational” source with varying structure. After 40 years of dealing with nice and tidy relational data in analytical environments the brave new world surely might seem a bit chaotic and unstructured. But it’s not, it’s just different.

NoSQL – new choice for Data Storage and Processing
In order to efficiently process this kind of data for generating insights and actions, a new set of data management and processing software has emerged. These software technologies are:
- mostly Open-Source and frequently JVM based
- excellent in scaling through massive parallelism on commodity computing capacity
- non-relational
- schemaless
- storing and processing all different kinds of data formats such as JSON, XML, Binary, Text, …
They represent the sofar missing alternative for many use cases such as (complex) event processing, operational intelligence, machine learning, real-time analytics, genetic algorithms, sentiment analysis, etc.

Traditional mass data storage and integration solutions in the domain of Data Warehousing and Business Intelligence are based on relational formats and batch processing running for years on large, expensive and poorly scalable enterprise editions of RDBMS and even more expensive enterprise hardware. As the history has shown many times, it is not always the idea or the use case searching for the right technology (as one would expect it to be), but also the new technology inspiring people when generating ideas and driving innovation.

Looking at the components of a data-driven or analytical application following technologies associated with the term “Big Data” have already taken a leading role:
MongoDB for Data Storage, Real-Time Processing and Operational Intelligence. JSON based, schema-less document oriented DBMS.
Apache Hadoop for ETL/Batch Processing implementing MapReduce algorithm for aggregation
R Project for Statistical Computing and Data Visualization

Hardware and High Performance Cloud Computing
All of the above technologies allow High Performance Computing by supporting high scalability on bunches of commodity hardware. As computing capacity is always getting cheaper and seemingly limitless through different “Cloud” offerings, we don’t have to ask ourselves “Do we really need this data” before storing it. Store first, analyze later is reality today, not only because of cheap hard disk, but also because we have the possibility to add additional computing capacity for a limited time once we want to run our analyses.

It is the combination of the above mentioned trends that sums up in a different way we look at data today. These trends surely depend on and affect each other, but explaining this would lead off the subject. Being a practical person, I would want to get more into details and describe an analytical platform based on the three leading technologies: MongoDB, Apache Hadoop and R. Not now and not here, so stay tuned…



Munich MongoDB User Group: First Meetup

You are invited to the First Meetup Munich MongoDB User Group!

Date: 6/28/2011
Time: Starting 7pm
Who: Brendan McAdams, 10gen Corp.
Subject: „A MongoDB Tour for the Experienced and Newbie Alike“
Location: Münchner Technologiezentrum, comSysto GmbH, Agnes-Pockels-Bogen 1, D – 80992 Munich!/comsysto

A Few Facts on MongoDB:
„MongoDB is an open source, document-oriented database designed with both scalability and developer agility in mind. Instead of storing your data in tables and rows as you would with a relational database, in MongoDB you store JSON-like documents with dynamic schemas. The goal of MongoDB is to bridge the gap between key-value stores (which are fast and scalable) and relational databases (which have rich functionality).
Using BSON (binary JSON), developers can easily map to modern object-oriented languages without a complicated ORM layer. This new data model simplifies coding significantly, and also improves performance by grouping relevant data together internally.
MongoDB was created by former DoubleClick Founder and CTO Dwight Merriman and former DoubleClick engineer and ShopWiki Founder and CTO Eliot Horowitz. They drew upon their experiences building large scale, high availability, robust systems to create a new kind of database. MongoDB maintains many of the great features of a relational database — like indexes and dynamic queries. But by changing the data model from relational to document-oriented, you gain many advantages, including greater agility through flexible schemas and easier horizontal scalability.“

Do you want to learn more about MongoDB? Then please register via
and give us a visit! The number of participants is unfortunately limited to 50.

For any further information please contact Matija Gasparevic/

Verstärkung gesucht – Data Warehouse Developer/DBA (m/w)

Your Geek Crowd
Die Suche nach neuen Kollegen mit großem fachlichen und menschlichen Potenzial sehen wir als eine unserer wichtigsten Daueraufgaben. Unser Motto dabei lautet: “Das Ganze ist mehr als die Summe seiner Teile”. Stolz können wir jetzt schon behaupten, ein tolles Team zu sein: jung aber kompetent, unkompliziert und trotzdem professionell, individuelle Stärken hervorhebend und gleichzeitig die Gemeinsamkeiten stärkend.

Als Data Warehouse Developer/DBA bei comSysto werden Sie in einem kleinen Team mit erfahrenen Consultants, hochqualifizierten Oracle-Technologieexperten und kreativen Softwareentwicklern zusammenarbeiten. Gemeinsam mit unseren Kunden werden Sie komplexe Quellsysteme analysieren, Key Performance Indicators (KPIs) sowie die sich daraus ableitende DWH-Modelle definieren und diese mit führenden Datenbanksystemen sowie ETL-Tools implementieren. Sie lernen verschiedene interessante Branchen und führende Unternehmen kennen, während Ihre methodischen und technologischen Skills stetig erweitert und vertieft werden.

Was Sie unbedingt mitbringen sollten:
• Theoretische Kenntnisse und praktische Erfahrung in ER- und relationaler
• Erste praktische Erfahrungen mit Oracle DBMS oder einem gängigen ETL-Tool
• Ausgewogenes Verhältnis aus technischen und Business-Skills
• Gute Team- und exzellente Kommunikationsfähigkeit, sicheres Auftreten, Lösungsorientierung und ausgeprägtes analytisches Denken
• Reisebereitschaft
• Offenheit gegenüber neuen Ideen und hohe Lernbereitschaft

• Mehrjährige praktische Erfahrung mit Oracle DBMS und PL/SQL oder einem führenden ETL Tool wie Informatica PowerCenter, Oracle Warehouse Builder/Data Integrator
• Oracle Certified Professional (OCP) oder ähnliche Zertifizierung
• Praktische Erfahrung und Zertifizierung in agilen Entwicklungsmethoden oder klassischem Projektmanagement
• Fremdsprachenkenntnisse

Wir bieten Ihnen:
• Leistungsorientierte Entlohnung (immer nach dem Win-Win-Prinzip)
• Ausführliche Inhouse und externe Weiterbildungsmaßnahmen für Ihre Hard- und Soft-Skills
• Offene und einfache Kommunikation sowie kurze Entscheidungswege
• Viel Gestaltungsspielraum in Ihrem Arbeitsleben und die damit verbundene Verantwortung
• Interessante Kollegen und Projekte

Haben wir Ihr Interesse geweckt? Die Aufgaben entsprechen Ihren Vorstellungen von einer anspruchsvollen und eigenverantwortlichen Tätigkeit? Dann freuen wir uns auf Ihre aussagefähigen Bewerbungsunterlagen per Mail auf job[at]!

Apache Wicket Training von comSysto und jWeekend

comSysto und jWeekend laden zum ultimativen Apache Wicket Training im Münchner Technologiezentrum (MTZ). Lernen Sie in 2 Tagen anhand sorgfältig aufeinander abgestimmter Theorieteile und praktischer Beispiele mit uns, wie man Webanwendungen der nächsten Generation mit Hilfe des führenden Frontend-Frameworks entwirft und implementiert.

Beginn: Do, 11.11.2010, 09:00
Ende: Fr, 12.11.2010, 17:00

comSysto GmbH (Münchner Technologiezentrum)
Agnes-Pockels-Bogen 1
80992 München

Kursgebühr pro Teilnehmer: EUR 800,-

Kursunterlagen und praktische Übungen sind in Englisch, unsere Trainer deutschsprachig.

Anmeldung und mehr Details über XING:


Email-Anmeldung und Kontakt: office[at]

Wir freuen uns auf Ihre Kontaktaufnahme!


Swiss-Re spricht es klar aus: Das Unternehmen als eine real existierende Community braucht die elektronische Abbildung, um den Informationsfluß zwischen den Mitarbeitern im komplexen Marktgeschehen auf Hochtouren zu bringen.

Langfristiger Markterfolg und keine kurzfristigen ROI-Betrachtungen werden Swiss-Re Recht geben!

Einfache Kosten- und Erlösrechnung mit QlikView

Ausgangspunkt und fachliche Anforderungen

Ein kleineres Dienstleistungsunternehmen möchte eine einfache Kosten- und Erlösrechnung einführen. Kosten- und Erlösdaten sollen aus der DATEV-Buchhaltung übernommen werden. Eine matrix-ähnliche Organisation des Unternehmens in Teams und Projekte erforderte die zweidimensionale Betrachtung der Erlöse und Kosten. Jede Buchung wird gleichzeitig immer einer Kostenstelle (Team) und einem Kostenträger (Projekt) zugeordnet. Dafür stellt DATEV standardmäßig zwei vordefinierte Felder mit relativ unspektakulären Namen zur Verfügung: Kost1 und Kost2. Die Buchhaltung des Unternehmens sorgt dafür, dass Kost1 mit Kostenstelleninformation und Kost2 mit Kostenträgerinformation befüllt wird.

(Team = Kostenstelle = Kost1, Projekt = Kostenträger = Kost2)

Die dritte Betrachtungsebene sind Kostenarten, die sich aus dem originären Kontenplan ergeben und für die nur eine den Kundenanforderungen entsprechende Zusammenfassung zu Kostenarten gefunden werden musste. In einem Dinstleistungsunternehmen stellen Personalkosten einen größten Block da, so dass in der ersten Ebene zwischen Personal- und übrigen Kosten unterschieden wird. Bei übrigen Kosten wird eine weitere Unterscheidung in Reisekosten, Werbungskosten, Materialkosten usw. getroffen.


Nach genauerer Analyse einiger von DATEV angebotenen Controlling-Tools fiel die “Make-Or-Buy”-Entscheidung eindeutig auf “Make”. DATEV-Buchhaltung ermöglicht nämlich den Export von Primanota in eine semikolon-separierte Textdatei “Primanota.txt”. Die Quelle für die Fakt-Tabelle war also geboren…

Weitere Quellen sollen nur Stammdaten (Dimensionen und evtl. Hierarchien) zu Kostenstellen, Kostenträgern und Kostenarten halten. Aufgrund sehr weiter Verbreitung bietet sich MS Excel für die Speicherung und manuelle Datenpflege durch Buchhaltung hervorragend an.

Nach der Klärung aller Reporting-Anforderungen und Definition der Quellen konnte man mit der Implementierung anfangen, die sich grob in 2 Teilbereiche gliedern lässt:

1. Dateinintegration

Für die Datenintegration bietet QlikView eine SQL-ähnliche Skriptsprache mit einer großen Fülle an Funktionen zur Datentransformation und -aggregation. Nahezu jede beliebige Datenbank oder jedes beliebige Dateiformal lässt sich als Quelle hinzufügen und einheitlich mit anderen Quellen verbinden.

Das Ergebnis des Skripts ist ein einheitliches logisches Datenmodell, das Abfragen über alle vorhandene Spalten bzw. Attribute zulässt. Somit entsteht ein logisch zusammenhängender Themenbereich, was in diesem Beispiel aus einer Fakt-Tabelle und 3 (Mini-)Dimensions-Tabellen besteht. In der Fakt-Tabelle “Primanota” haben wir neben den originären auch abgeleitete Kennzahlen und Merkmale durch Verwendung von Transformationsfunktionen definiert. Die Beziehungen zwischen den einzelnen Quellen stellt QlikView anhand der Spaltennamen fest, so dass man von Anfang an gezwungen ist, absolut saubere Namenskonventionen einzuführen.

Bei der Ausführung des Skriptes werden alle Quellen komprimiert (Faktor 10 – 20!) und in den Arbeitsspeicher des Rechners geladen, was eine fast unglaubliche Abfrageperformance zulässt.

2. Reporting

Basierend auf den im ersten Schritt definierten Merkmalen und Kennzahlen innerhalb des Themenbereich lassen sich nun Berichte in allen denkbaren Darstellungsformen aufbauen – Tabellen, Pivottabellen, einfachere Linien- oder Balken- oder komplexe Radardiagramme. Zusätzlich bietet QlikView auch einige Objekte wie Schaltflächen oder Dateineingaben, die für einen hohen Grad an Benutzerinteraktion sorgen können. Wem das Ganze immer noch nicht ausreichen sollte, hat er die Möglichkeit per VBScript oder JScript die Kontrolle selbst zu übernehmen.

Eine Auftelung der erstellten Tabellen, Diagramme und sonstiger Objekte auf einzelne Dashboards bzw. Seiten (in unserem Beispiel “Reports” und “Details”) ermöglicht eine klare Struktur und bessere Navigation.

Weitere nette Möglichkeit ist die “Ein-Klick” Umstellung einer Anzeige (z.B. Tabelle) in eine andere Anzeige (z.B. Balkendiagramm). Nachfolgend sieht man ein Balkendiagramm, der durch einen Klick aus der Tabelle “Monatsübersicht” entstanden ist.

Aufgrund der Tatsache, dass QlikView alle Daten im Arbeitsspeicher hält, ergibt sich auch eine sehr schnelle und von anderen BI-Werkzeugen in der Form nicht bekannte Möglichkeit der assoziativen Analyse. Durch die Auswahl eines Wertes aus einer Spalte werden alle assoziierten Werte in anderen Spalten weiß hinterlegt, die nicht-assoziierten Werte werden ausgegraut. Unter “Current Selections” sieht man auf einen Blick jede getroffene Auswahl.

Assoziative Analyse mit QlikView eignet sich hervorragend für die Suche nach Datenqualitätsproblemen, eine einfache Erkennung von Mustern in den Rohdaten oder für komplexe Filterbedingungen. In unserem Beispiel verwenden wir die assoziative Analyse durch die Anzeige des Buchungskommentars für eine einfache Übersicht aller einzelnen Buchungen, die sich hinter einer Kosten- bzw. Erlössumme verstecken.


Mit QlikView ist es uns gelungen innerhalb weniger Tage eine zwar einfache aber den Anforderungen völlig entsprechende Kosten- und Erlösrechnung für das kleine Dienstleistungsunternehmen aufzubauen. Schnelle Datenintegration ohne zusätzlichen Aufbau von relationalen Datenstrukuren in Form eines DWH basiert zwar auf SQL-ähnlichen Skripten und setzt einen bestimmten SQL-Kenntnisstand voraus, doch das Ganze wird durch einige Wizards entschärft, die aus den getroffenen Einstellungen den Skriptcode automatisch produzieren.

Im Reporting-Bereich lässt QlikView durch sehr intuitive Bedienung und viele Darstellungsmöglichkeiten keine Wünsche übrig. Erweiterung der Standardfunktionen durch VBScript oder JScript ist zwar möglich, sollte aber selten notwendig sein. Ein absolutes Alleinstellungsmerkmal ist die schon beschriebene assoziative Analyse und die “In-Memory” Datenverarbeitung mit Datenkompression, die für exzellente Performance auch mit großen Datenmengen sorgt.

Im Rahmen unseres Projektes wurde QlikView Personal Edition benutzt – ein Softwarepaket, das gänzlich auf dem Desktop-Rechner zu installieren ist. Für große Unternehmen mit vielen Anwendern kommt die Server Edition mit klassischer Client-Server-Architektur in Frage. Zusätzlich bietet QlikView einen sehr bequemen web-basierten sowie zwei mobile (iPhone und Android) Clients zur Verfügung.

comSysto Offsite Meeting and white-water Rafting in Oetz, Tirol

I wanted to use the opportunity of writing my first post on our corporate blog about something absolutely not related to technology, CRM, business, SCRUM,  JEE, Intelligence or whatever “usual” topic you have read and will read here.  It should be some kind of smooth start for my blogging career…

Here is what I want to share with you – my impressions of our offsite meeting in Tirol, Austria on 26. and 27.9.2009. It was a get together for all “comSystos”, regardless of their role, position, education, business and technological background, sex, nationality, hair or skin colour. More ambitious people like Maxim would even call it “comSysto Open World”, I want to stick to something simpler like offsite meeting or get together.

We planned it as a work-fun weekend in a relaxed atmosphere and magnificent Tirol mountain and river scenery. And that’s the way it started on Saturday. We arrived to “Nature Resort” in Oetz and had our lunch with Tirol specialties on the terrace enjoying the late summer sun and glorious Tirol mountains. The work part began in the afternoon with the goal to share thoughts, informations, ideas and impressions around comSysto – projects, clients, people, planning, tools, processes, financials, strategy, goals, objectives, … Seems like it was interesting since our guides who were supposed to show us the way to the restaurant waited more than 40 minutes until everybody showed up.

Quite late and even more hungry we started our walk to the restaurant following a trekking route through Tirol forrest. After 45 minutes and right before it got very dark we arrived to a lonely small restaurant located next to a nice mountain lake. Extremely friendly Tirol people served good food, loads of beers and home-made liquor while singing some for us not understandable and probably traditional Tirol songs. Few hours later our way back to “Nature Resort” was leading us through complete darkness, which can be experienced only in wild nature or at deep sea. Our guides had a solution once again – one real old-fashioned torch for everyone since fire is not only providing light but also keeping wild animals off! The biggest challenge was to hold the torch properly and not to burn yourself or people next to you, which is no surprise given the amount of beers and “schnapps” for dinner. Once we finally reached the resort with no losses or injuries, few of us decided to have some more drinks while the rest was smart enough and went straight to bed.

While the smart rest was having a breakfast Sunday morning, few of us were slowly waking up and trying to fight the hangover. We had to hurry since our guides were waiting again. The fun part of our weekend was straight ahead – rafting on the Inn river! Inn has its source in a “gletscher” near St. Moritz (Switzerland). It ends in Passau (Germany) joining famous Danube. Several other smaller streams also coming down from icy and snowy mountain tops join Inn when it’s passing Tirol (Austria). A fact that Inn’s water temperature even in hottest summers hardly exceeds 7° C is not a surprise but we didn’t think about it before.

After pressing ourselves into neoprene suites and feeling literally like “presswurst”, we had to prove our guides that everybody is smart enough to row. Sounds silly, but half an hour later I was sorry we didn’t excercise more. Dry rowing finished and we had to get wet.  Probably not less than 5° C (it felt like -25°) did the rest to our hangover – even in neoprene.

We were split into 4 groups on 4 boats, 2 bigger ones for 6-8 people and 2 smaller ones for 4 people. Getting into the boats and starting in slow water was easy. First white waters were managed easily and we got carefree. Our route on the Inn is rated with rafting severity degree of 3 – 4. Then it happened – a white water spot not much worse than the ones before turned our boat upside-down. The guide was shouting “row, row”, some of us thought they were doing it, some of us already panicked and didn’t do it. The result was a “flip” our guide called “nice”, 1 pair of glasses lost, 1 pair of sunglasses (playing cool when rafting!) lost and 4 guys swimming around in panic. We managed to get into our boat again after a while and were completely frozen. But after all it was a good thing – we took rafting, our guide and his commands more seriously and everything went well.

At the total of approx. 1,5 hours our rafting ended when we reached the final stop where showers, dry clothes, food, drinks and our cars were waiting for us. Few Tirol sausages, beer, Almdudler and afternoon sun helped us recover and start our 2 hours drive back to Munich.

Ötz, “Nature Resort”, many thanks, everything was perfect, we’ll be back! But next time we will raft on “Ötztaler Achen” (severity 5 – 6) ;-) Meanwhile we’ll try some sailing!