Reducing text to it’s components

This short phyton programm takes a Webpage as an input and reduces it to it’s components. The components are the words on the webpage. You can use this and customize this to fit your purpose. This code can be applied in web-crawlers, text analytics and other fields. For example if you want do leave out stop words you would define a dictonary of this word and include this with anouther if statement. This could be applied if you want to reduce patent data to it’s components and leave generic terms like ‘a’ ‘this’ ‘innovation’ etc. out. You would do this because words like this have no information value.

[sourcecode language=”python”]

def remove_tags(source):

output = [ ]

atsplit = True

splitlist = [‘ ‘,’>’,'<‘,’n’]

i = 0

while i < len(source):

if source[i] == ‘<‘:

i = source.find(‘>’,i+1)

if source[i] in splitlist:

atsplit = True


if atsplit:


atsplit = False


output[-1] = output[-1] + source[i]

i = i + 1

return output[/sourcecode]


Verwandte Artikel:

Programming like Google, Facebook … : Getting the Basics

It is a new eara. Today programming changed radically from functionality to usablity. A customer expects to be served in milliseconds. Also the amount of data is increasing every second. This requires high performance programming. Internet Companies like google faced this issue ealy on. These companies developed tools and methods to overcome these challange. Many of use call this Big Data Programming. 

Before we can understand Big Data Progamming, we need to understand why it was developed. So I recommend that you learn the basics of googles business: building a search engine. This is also a good start for everybody who never programed before. Afterware in a second post I will introduce you to state of the art Big Data Technologies that help us to use this basic principles on a large scale. Keywords are Hadoop, NoSql, Parallel Programming and a Shared Nothing Architecture. 


1. Learn how to built your own search engine

Fortunatly there are great resource out there that help you in a very professional manner. I recommend to you the Python course by Udacity that is though by Sebestian Thrun a Stanford Professor and google fellow. The course is online and can be taken for free. Take a look:


Now it is your turn, sign up and learn to bulit your own search engine


This post will be continued in the next view weeks: Big Data and Web Intelligence. And The Topics Hadoop and Parallel Programming will follow. 



Big Data und Algorithmen verändern unsere Karriere

„Predictive analytics“ entscheiden in Zukunft, für welche Jobs wir geeignet sind. Ein US-College kann mit einfachsten Big Data Methoden nach 8 Unterrichtstagen vorhersagen (mit einer 70%-igen Korrektheit) ob ein Student eine Note von Drei oder besser erreicht. Gleichzeitig verwenden Colleges Software, die auf Basis von Schul- und CV-Daten, die optimalen Fächer für den Studenten heraussucht. Auch im Business Bereich ist solche Software vermehrt im Einsatz. Diese kann unter anderem Daten der Computernutzung, unserer Zugangskarten, unsere Handydaten (Nutzung und GPS Ortung) verwenden.

Viele Menschen sorgen sich um diese Fremdbestimmung. In Endeffekt führt dies aber dazu, dass Mitarbeiter Jobs bekommen die Sie nicht überfordern, ihrem Charakter entsprechen und optimal ihre Karriere vorantreiben. Viele Mitarbeiter heute brennen sich in jungen aus. Das ist langfristig schädlich für den Einzelnen und für die Unternehmen. Daher tragen solche Systeme langfristig zu Steigerung der Lebensqualität des Einzelnen, dem Unternehmenswert, dem Wirtschaftswachstum und Wohlstand der Gesellschaft bei.

Interessante Artikel zu dem Thema:

HBR – How Companies Will Googlefy Your Career

Coursera Kurs für Data Analysis Interessierte

CIOs and Cloud Computing

For chief information officers, cloud computing is no longer a question of if. Rather, the focus now is on where and how to deploy it.

This key message emerged from a recent survey of CIOs at larger companies, which was conducted by The Boston Consulting Group. CIOs, this latest survey revealed, have moved well past the dip-a-toe stage with regard to the cloud. They consider it a potent tool that can deliver benefits extending far beyond cost reduction. And CIOs are applying cloud services increasingly aggressively, although they do not consider the cloud a panacea. They believe it must be applied selectively—and managed closely.

BCG’s View on Keys to Cloud Success Tomorrow is most intersting. BCG recommend that, as they plan their next wave of investments, they consider dividing the range of scenarios in which the cloud can add value into four categories—what BCG terms commodity IT, agile IT, scale IT, and growth IT. Each has its own characteristics and demands and will respond best to different cloud strategies, technologies, and services. (See Exhibit 2.)


A detailed analysis is provided  at

Der moderne CEO nutzt ‘Social Media’.

Hier ein Artikel des Fobes Magazin, mit der Kernaussage: Eine IBM Studie zeigt Social Media Experten sind bei den CEOs unterrepräsentiert. Werden aber in den nächsten 5 Jahre um 57 Prozent zunehmen. Hauptgrund, Social Media Technologien ermöglichen agile und anpassbare Beziehungen zu Kunden, Lieferanten und Mitarbeiter. Damit beeinflusst Social Media alle Unternehmensbereiche. Social Media ist in diesem Kontext mehr als Twitter, Facebook und Xing.

Für angehend ‘moderne CEOs’ ist der Social Media Bereich ein Sprungbrett auf den CEO Posten.

“As CEOs ratchet up the level of openness within their organizations, they are developing collaborative environments where employees are
encouraged to speak up, exercise personal initiative, connect with fellow
collaborators, and innovate,” the IBM study concluded.

Simply put, CEOs and their executives set the cultural tone for an organization. Through participation, they implicitly promote the use of social technologies.  That will make their organizations more competitive and better able to adapt to sudden market changes.

Other key findings of the study include:

  • The study reveals that CEOs are changing the nature of work by adding a powerful dose of openness, transparency and employee empowerment to the command-and-control ethos that has characterized the modern corporation for more than a century.
  • Companies that outperform their peers are 30 percent more likely to identify openness – often characterized by a greater use of social media as a key enabler of collaboration and innovation – as a key influence on their organization.
  • While social media is the least utilized of all customer interaction methods today, it stands to become the number two organizational engagement method within the next five years, a close second to face-to-face interactions.
  • More than half of CEOs (53 percent) are planning to use technology to facilitate greater partnering and collaboration with outside organizations, while 52 percent are shifting their attention to promoting great internal collaboration.
  • Championing collaborative innovation is not something CEOs are delegating to their HR leaders. According to the study findings, the business executives are interested in leading by example.
  • CEOs regard interpersonal skills of collaboration (75 percent), communication (67 percent), creativity (61 percent) and flexibility (61 percent) as key drivers of employee success to operate in a more complex, interconnected environment.
  • The trend toward greater collaboration extends beyond the corporation to external partnering relationships. Partnering is now at an all-time high. In 2008, slightly more than half of the CEOs IBM interviewed planned to partner extensively. Now, more than two-thirds intend to do so.
  • CEOs are most focused on gaining insights into their customers. Seventy-three percent of CEOs are making significant investments in their organizations’ ability to draw meaningful customer insights from available data.

I’ve often held IBM as the best example of a Social Business and a company to emulate rather than Apple. I believe this study and the analysis behind it, reinforces that view.

The IBM study shows that CEOs and the companies they manage must constantly evolve to stay competitive. Partners, suppliers, employees and customers want CEOs to communicate with them on a personal level to build trust and to help align them to the organization’s strategy. There is a lot at stake here. And if CEOs continue to hide in their Ivory Towers under the guise of some old command and control mentality, the next chapter in their career might be written somewhere else.

No one wants that.


Source and all Rights: Fobes Magazin

Der ‚moderne CEO‘ kann Programmieren.

Heute verwenden die meisten Bereiche Computer. Ein ‚moderner CEO‘ muss kein Programmier-Greek sein, aber ein Grundwissen in der Programmierung ist vorteilhaft. Weil:

  1. Er somit seine Geeks versteht und realistische Anforderungen und Bewertung der Leistungen stellt.
  2. Er trainiert sein strukturiertes und analytischen Denken.
  3. Er kann viele seiner Aufgaben automatisieren oder sehr viel effizienter lösen (oder seinem Personal Assistent auf diese Möglichkeiten hinweisen).

Ein moderne CEO hat keine Zeit sich wieder in den Hörsaal zu setzen. Er brauch ein flexibles Lernangebot das sich an seinen zeitlichen Limitationen orientiert. Eine sehr gute Möglichkeit sind neue Onlinekurse, die kostenlose, flexibel und von den weltbesten Professoren (Stanford, Harvard, MIT) konzipiert wurden.

Das beste Angebot für den ‚modernen CEO‘ ist Udacity. Dort wird ein einfacher Python-Kurs angeboten. Dieser erklärt die Grundlagen der Programmierung (vergleichbar mit einer Einführungsveranstaltung einer Universität) und führt direkt durch ein eigenen Projekt (ein eigener  Webcrawler). Diese Projekt kann praktisch verwendet werden, und fördert das Verständnis von modernen Technologie (insbesondere Big Data). Alternativ gibt es Coursera, unterstützt durch die Princton Univerity und Stanford University.
In Zukunft werde ich meine Erfahrungen und Lernstrategien für Onlinekurse in diesem Blog teilen. Zur Zeit nehme ich an ‘Intro to Computer Science’ teil, und muss sagen das es eine kompakte und effiziente Version meines sehr ausführlichen Einführungskurs an der LMU München.

Beispiel in meinem Leben in denen mir Programmierung viel Arbeit erspart hat: Invertierung einer Matrix mit mehreren Millionen Einträgen, Berechnung und Kombination neuer Matrizen, Erstellung von standardisierten auf den Kunden personalisierter Pausentationen, Kundenakquise-Mails und der automatischen Identifikation von Kontaktdaten von relevanten Ansprechpartner.