
Data Science Deep Dive (INWT Statistics GmbH)
Explore every episode of Data Science Deep Dive
Pub. Date | Title | Duration | |
---|---|---|---|
05 Dec 2024 | #61: Technologische Must-Haves: Unser Survival-Guide für Data-Science-Projekte | 00:42:04 | |
Zusammenfassend unsere Must-Haves:
Verwandte Podcast-Episoden Folge #2: Erfolgsfaktoren für Predictive Analytics Projekte Folge #5: Data Warehouse vs. Data Lake vs. Data Mesh Folge #20: Ist Continuous Integration (CI) ein Muss für Data Scientists? Folge #21: Machine Learning Operations (MLOps) Folge #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack Folge #35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida Folge #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage Folge #54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?
Technologien & Tools Datenvisualisierung: Azure Databricks, AWS Quicksight, Redash Entwicklungsumgebung: VSCode, INWT Python IDE V2, Remote Explorer, Pycharm Versionskontrolle: GitHub, GitLab, Azure DevOps CI/CD: GitHub Actions, GitLab CI, Jenkins Deployment: Kubernetes, Docker, Helm, ArgoCD Experiment-Tracking: MLFlow, DVC, Tensorboard Monitoring: Prometheus, Grafana, AWS Cloudwatch | |||
22 Feb 2024 | #41: Strategien zur Performance-Optimierung in Python | 00:27:27 | |
Mit welchen Strategien können Entwickler*innen und Data Scientists die Laufzeit von Python Code verringern? Wir diskutieren warum Performance-Optimierung überhaupt notwendig ist und was das genau bedeutet. Anschließend gehen wir auf häufige Engpässe und verschiedene Ansätze zur Verbesserung der Effizienz, wie Profiling, Refactoring-Techniken und Parallelisierung ein.
***Links:***
| |||
08 Jun 2022 | #2: Erfolgsfaktoren für Predictive Analytics Projekte | 00:50:31 | |
Welche Faktoren entscheiden darüber, ob ein Predictive Analytics Projekt erfolgreich ist? Nach über 10 Jahren Erfahrung und über 180 Projekten ziehen Amit und Sebastian in dieser Episode ein Fazit, welche Stellschrauben gedreht und welche Hürden auf dem Weg zum erfolgreichen Predictive Analytics Projekt genommen werden müssen. Folgende Themen greifen wir auf:
| |||
22 Dec 2022 | #14: Kubernetes | 00:43:34 | |
Kubernetes ist ein Open-Source-System, das für die Verwaltung und Bereitstellung von containerisierten Anwendungen verwendet wird. In dieser Episode besprechen wir, wie Data Scientists Kubernetes nutzen können, um ihre Arbeitsabläufe zu optimieren, ihre Projekte skalierbar & zuverlässig zu machen und wie Kubernetes speziell unseren Arbeitsalltag verändert hat. Links: | |||
28 Sep 2023 | #33: Data Science bei Zalando – Dr. Claudia Baldermann im Gespräch über Product Development & Organisation | 00:46:42 | |
Wie ist Data Science in einem E-Commerce Giganten wie Zalando organisiert - das erfährst du von Dr. Claudia Baldermann, Machine Learning Engineer bei Zalando. Im Interview sprechen wir darüber, wie der Product Development Prozess und die Organisation der Data Science Community bei Zalando gelingen.
| |||
16 May 2024 | #47: Von Prognosen und Prompts: Data Science trifft generative KI mit Tobias Sterbak | 00:46:28 | |
In dieser Episode spricht Mira mit Tobias Sterbak, einem Freelance Machine Learning Engineer mit Fokus auf NLP-Anwendungen, über Data Science und generative KI. Wir vergleichen klassische Data Science-Methoden mit den neuesten KI-Ansätzen wie Large Language Models (LLMs). Ihr erfahrt, wie sich Datenbereitstellung, Validierung und Feature Engineering unterscheiden und welche Herausforderungen dabei auftreten. Außerdem gehen wir auf die Bedeutung der User Experience und die Schwierigkeiten bei der Bewertung der Modelle ein.
***Links:***
| |||
06 Feb 2025 | #65: Sicher ist nur die Unsicherheit: Unsicherheitsintervalle erklärt | 00:28:50 | |
Punktprognosen sind was für Leute, die gerne enttäuscht werden ;) Wir befassen uns in dieser Episode mit der Quantifizierung und Kommunikation von Unsicherheit bei Prognosen. Dabei gehen Mira und Amit auf klassische Statistik, Bayes-Methoden, Machine Learning, Bootstrapping und Conformal Predictions ein. Außerdem gehen sie auf Herausforderungen der Data Literacy und bei rechenintensiven Ansätzen zur Bestimmung der Unsicherheit ein. Zusammenfassung
Links
| |||
23 Jan 2025 | #64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen? | 00:40:31 | |
Teil 2 unseres Preisprognose-Experiments für Gebrauchtfahrzeuge: Können Open-Source-LLMs wie Llama 3.1, Mistral und Leo-HessianAI mit GPT-3.5 mithalten? Wir haben fleißig gefinetuned, bis die Motoren qualmten – und es zeigt sich, dass die Unterschiede gar nicht mehr so groß sind. Mit ausreichend vielen Trainingsbeobachtungen nähern sich die Open-Source-Modelle den Ergebnissen von GPT-3.5 an und können es in einzelnen Metriken sogar übertreffen. Für das Finetuning größerer Modelle sind jedoch auch leistungsfähige GPUs notwendig, was die Ressourcenanforderungen deutlich erhöht. In der Folge beleuchten wir, welchen Mehrwert diese Open-Source-LLMs für praxisnahe Use Cases liefern und welche Herausforderungen dabei auftreten. Zusammenfassung:
***Links***
| |||
13 Jun 2024 | #49: Data Science Projekte richtig managen mit Prof. Dr. Marcel Hebing | 01:10:08 | |
Wer hat Data Science Projekte besser im Griff: erfahrene Data Scientists oder fachfremde Führungskräfte? In dieser Episode gibt uns Marcel Hebing ein paar Einblicke in sein neues Buch "Data Science Management" und dessen Schwerpunkte. Wir diskutieren die optimale Verortung von Data Science Teams, die Bedeutung der Unternehmenskultur und die Herausforderungen bei der praktischen Umsetzung von Data Science Projekten.
***Links***
| |||
30 May 2024 | #48: Open Source vs. Closed Source: Entwicklungen, Trends und Herausforderungen | 01:02:18 | |
Warum entscheiden sich Unternehmen für Open Source oder Closed Source Software im Data Science Bereich? Wir sprechen über verschiedene Aspekte des Technologie-Stacks wie Programmiersprachen, Datenbanken und BI-Tools. Dabei gehen wir auf die historischen Präferenzen und aktuellen Trends ein, insbesondere die zunehmende Bedeutung von Open Source Lösungen. Außerdem diskutieren wir die Vor- und Nachteile beider Ansätze in Bezug auf Support, Sicherheit, Compliance und Kosten.
***Links*** - R: Regulatory Compliance and Validation Issues https://www.r-project.org/doc/R-FDA.pdf - https://streamlit.io/ - https://www.gradio.app/guides/creating-a-dashboard-from-bigquery-data - https://killedbygoogle.com/ - https://en.wikipedia.org/wiki/Revolution_Analytics - Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
| |||
25 May 2023 | #25: Feature Store: Features als wiederverwendbares Datenprodukt | 00:38:52 | |
Feature Stores sind aktuell ein Trend im Bereich MLOps (Machine Learning Operations). Sie zielen darauf ab das Feature Engineering einfacher und schneller zu machen. Um Features nicht in jedem Projekt neu aufzubauen, bietet ein Feature Store die Möglichkeit sie quasi fertig aus dem Regal zu nehmen. Sinnvoll ist dies besonders wenn eine hohe Data Maturity vorhanden ist, d.h. wenn viele Modelle auf Features zugreifen und es viele Überschneidungen gibt. Links: - https://mlops.community/learn/feature-store/ - https://docs.databricks.com/machine-learning/feature-store/online-feature-stores.html | |||
11 May 2023 | #24: Explainable AI: Entscheidungen von Black-Box-Modellen verstehen | 00:34:36 | |
Explainable Artificial Intelligence (XAI) setzt auf Black-Box-Modelle aus der Welt der künstlichen Intelligenz auf und macht sie interpretierbar. Damit verbindet XAI die Vorteile von KI mit denen der klassischen Statistik. Wie ermöglicht XAI komplexe Entscheidungsprozesse von Black-Box-Modellen zu verstehen und ihnen zu vertrauen? Dieser Frage gehen wir in dieser Folge nach. Links:
| |||
08 Feb 2024 | #40: Sonderfolge: Frauen in Data Science und Tech mit Catrin & Isa von Mind the Tech | 00:58:14 | |
Diskriminierung aufgrund des Geschlechts? Leider immer noch ein Thema! Deshalb widmen wir diese Sonderfolge den Frauen in der Data Science & Tech Branche. Zusammen mit Catrin und Isa vom Podcast Mind the Tech ordnen wir das Thema historisch ein, reflektieren unsere eigenen Erfahrungen im Arbeitsalltag und diskutieren, wie die Situation verbessert werden kann. Wir teilen unsere Wünsche und Ideen, wie ein Bewusstsein für geschlechtsbezogene Diskriminierung sowie Chancengleichheit im Berufsleben erreicht werden kann.
***Links*** - Podcast Website von Isa und Cathrin: Mind the Tech - Cyber, Crime, Gesellschaft https://www.mindthetech.de/ - Mind the Tech auf Spotify: https://open.spotify.com/show/6FydYmBjELizU8k8DOIcaA?si=d46c14932a18438d - Film Hidden Figures auf IMDb: https://www.imdb.com/title/tt4846340/ - develop<HER> https://developher.de/ - Wikipedia Artikel "Frauen in der Informatik": https://de.wikipedia.org/wiki/Frauen_in_der_Informatik - A New Approach to Programmer Aptitude Testing by Charles J. Testa: https://dl.acm.org/doi/pdf/10.1145/800120.803918 - WO SIND DIE FRAUEN IN DER IT? Von Deborah Liebig auf get in {IT}: https://www.get-in-it.de/magazin/arbeitswelt/it-arbeitsmarkt/wo-sind-die-frauen-in-der-it - inwt Website: https://www.inwt-statistics.de/ | |||
30 Mar 2023 | #21: Machine Learning Operations (MLOps) | 00:57:31 | |
Software in Form eines Machine Learning Modells bringt zusätzliche Komplexität mit sich, denn die Algorithmen sind nicht deterministisch, sondern stochastischer Natur. Das bedeutet es braucht Expert*innen, die bei der Entwicklung des Modells beteiligt waren, um es produktiv zu bringen. Wir sprechen über die Anforderungen an MLOps auf dem Weg in die Produktivumgebung: Monitoring, CI/CD, Reusability und Modellentwicklung. Links:
| |||
20 Mar 2025 | #68: CI/CD für Daten: Datenversionierung für stabile & nachvollziehbare Systeme | 00:41:29 | |
Daten(banken) versionieren – klingt maximal unsexy, spart aber Stress im Deployment. Warum ohne Schema-Versionierung selbst kleine Änderungen große Probleme verursachen und was ORMs, Flyway oder Liquibase damit zu tun haben, erfahrt ihr hier. Daten historisieren ist ein Must-have für Compliance, Reproduzierbarkeit und Modellierung. Aber Achtung: Nicht jede Lösung passt für jede Datenbank und den Live-Betrieb. Wir geben Tipps, wie ihr eure Datenprodukte systematisch und effizient im Griff behaltet. **Zusammenfassung**
**Links**
| |||
29 Aug 2024 | #54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion? | 00:51:12 | |
Online vs. Offline Serving – welcher Ansatz ist besser? Wir besprechen, wie du dein Modell erfolgreich in die Produktion bringst und eine passende Datenschnittstelle deployst. Dazu gibt’s Tipps zu den Tools, die uns dabei helfen, wie FastAPI, Docker und Kubernetes. Außerdem erfährst du, worauf du bei der Automatisierung und beim Handling vieler Modelle achten solltest. **Links**
| |||
19 Dec 2024 | #62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft | 00:21:02 | |
Kafka, aber in R? Das geht jetzt! In dieser Folge klären wir, warum Kafka für schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofür braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus!
Zusammenfassung
Links
| |||
16 Feb 2023 | #18: Big Data Erfolgsgeschichten | 00:39:26 | |
In dieser Episode erforschen wir 3 vermeintliche Erfolgsgeschichten von Big Data. Wir diskutieren die Herausforderung solche Geschichten richtig zu interpretieren und welche Fragen man sich in diesem Bezug eigentlich stellen sollte. Links:
| |||
09 Nov 2023 | #35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida | 00:45:59 | |
Wie unterscheiden sich eigentlich Machine Learning Projekte von "herkömmlicher" Softwareenwicklung und welche Herausforderungen bieten sie? Darüber unterhält sich Amit mit Philipp Jackmuth, dem Gründer von dida, der übrigens auch unser Büronachbar ist. Philipp teilt anhand eines Anwendungsfalls im Bereich Natural Language Processing wichtige Erfolgsfaktoren, darunter Metriken, Modularität und den Umgang mit Blackbox-Modellen.
*** Links *** - inwt Website https://www.inwt-statistics.de/ - dida Website https://dida.do/de - dida bei LinkedIn https://www.linkedin.com/company/dida-machine-learning/ - Philipp Jackmuth bei LinkedIn https://www.linkedin.com/in/philipp-jackmuth/
| |||
07 Mar 2024 | #42: Frontends in Data Science: Welches Visualisierungstool ist das Richtige? | 00:28:40 | |
Welches das richtige Visualisierungstool ist, hängt stark vom Projekt und auch vom Team ab. Wir erkunden drei Ansätze – interne Umgebungen wie Python Dash oder R Shiny, Dashboard-Tools wie Grafana und Redash, sowie Eigenentwicklung mit JS-Frameworks wie VueJs oder React – und wie sie sich in Bezug auf Entwicklungsgeschwindigkeit, Anpassungsfähigkeit und Skalierbarkeit unterscheiden. Auf dieser Grundlage geben wir eine Entscheidungshilfe, welcher dieser Ansätze "der Richtige" für ein Projekt ist.
***Links***
| |||
11 Jan 2024 | #38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen | 00:26:12 | |
Wir zeigen, wie Echtzeitprognosen trotz eines komplexen Modells im Hintergrund möglich gemacht werden können. In vielen Anwendungsfällen, wie in der Finanzbranche oder bei der Betrugserkennung, ist es entscheidend, dass Prognosen schnell und präzise sind, um innerhalb von Sekunden eingreifen zu können. Wir gehen auf die technischen und modellseitigen Herausforderungen dabei ein und geben Tipps, an welchen Stellschrauben auf Seite der Architektur gedreht werden kann.
*** Links *** - inwt Website: https://www.inwt-statistics.de/
| |||
21 Mar 2024 | #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage | 00:41:55 | |
Zwei Herausforderungen bei der Zuverlässigkeit von Prognosen im Live-Betrieb sind Overfitting (Modell ist zu stark an Trainingsdaten angepasst) und Data Leakage (Modell verfügt über Informationen, die es in der realen Anwendung nicht hat). Wir sprechen darüber, was Overfitting und Data Leakage genau sind und wo ihre Ursachen liegen. Außerdem diskutieren wir Lösungsansätze.
**Links:**
| |||
17 Aug 2023 | #30: Agile Softwareentwicklung im Data-Science-Kontext | 00:35:07 | |
Auch Data Scientists schreiben Software. In diesem Kontext können wir nur empfehlen sich mit dem agilen Manifest auseinanderzusetzen. Die 12 Prinzipien dahinter fassen wir in dieser Episode auf und erklären, was wir darunter verstehen und wie wir sie anwenden.
Links: - Prinzipien hinter dem Agilen Manifest https://agilemanifesto.org/iso/de/principles.html | |||
26 Jan 2024 | #39: Death by Microservices | 00:50:19 | |
Und nun lebe der Monolith? Während Microservices als State-of-the-Art gelten, beobachten wir auf Konferenzen teils gegenläufige Bewegungen zurück zu Monolithen. Gründe dafür sind vor allem die steigende Komplexität durch verteilte Systeme, Dateninkonsistenz und Abhängigkeiten zwischen verschiedenen Komponenten. Wir diskutieren die aktuelle Kritik an Microservices und gehen der Frage auf den Grund, ob und wann der Wechsel zu Monolithen sinnvoll ist.
***Links:*** - denodo https://www.denodo.com/de - YouTube: Microservices by KRAZAM https://www.youtube.com/watch?v=y8OnoxKotPQ - YouTube: When To Use Microservices (And When Not To!) • Sam Newman & Martin Fowler • GOTO 2020 https://www.youtube.com/watch?v=GBTdnfD6s5Q - YouTube: Don’t Build a Distributed Monolith - Jonathan "J." Tower - NDC London 2023 https://www.youtube.com/watch?v=p2GlRToY5HI - inwt Website: https://www.inwt-statistics.de/ | |||
18 Aug 2022 | #7: Data Culture | 01:04:01 | |
Die Kultur in einem Unternehmen ist ein latentes, organisch gewachsenes Gebilde. Und so schwer sie zu greifen oder zu beeinflussen ist, so wichtig ist sie für den Erfolg von Data Science Projekten. Doch warum spielt sie eine solch enorme Rolle und was macht denn eigentlich eine fruchtbare Data Culture aus? Wie kann man einen Kulturwandel anstoßen? | |||
22 Jun 2022 | #3: Statistik vs. Data Science | 00:44:38 | |
Ist Data Science nur ein hipper Begriff für Statistik? In dieser Episode sprechen Amit und Sebastian über den Werdegang bei inwt von der Statistik hin zu Full Stack Data Science. Wir decken auf was hinter den Begriffen "Statistik" und "Data Science" steckt und klären wer im Kampf der Daten um Relevanz eigentlich die Nase vorne hat.. Schaut euch unbedingt das Video von Baba Brinkman auf YouTube an! Links:
| |||
16 Mar 2023 | #20: Ist Continuous Integration (CI) ein Muss für Data Scientists? | 00:45:57 | |
Continuous Integration (CI) ist zwar ein Konzept aus der Softwareentwicklung, aber aus dem Bereich Data Science nicht mehr wegzudenken. Wir diskutieren wie wichtig CI für Data Scientists ist und wie es genutzt werden kann um Data Science Workflows zu verbessern. | |||
18 Apr 2024 | #45: Data Science bei 1&1 Versatel – Dr. Stephan Hausberg im Gespräch über den Aufbau von Data Teams | 00:49:29 | |
Wie baue ich ein Data Team auf? Wie kriege ich beim Hiring the richtigen Leute? Und wie fördere ich eine gute Fehlerkultur? All diesen Fragen ist Dr. Stephan Hausberg, Head of Data Science und Business Analytics bei 1&1 Versatel, in den letzten Jahren begegnet. In diesem Interview lässt er uns an seinen Learnings teilhaben. Enjoy!
**Links**
| |||
25 May 2022 | #1: Big Data Hype | 00:38:02 | |
In dieser Episode reden Amit und Sebastian über den Big Data Hype, in dessen Anfängen das Berufsbild des Data Scientist entstand. Hier erfährst du:
Links
| |||
10 Nov 2022 | #11: Real Time Analytics | 00:42:13 | |
Bei vielen Unternehmen fallen Daten bereits in Echtzeit in der Datenbank an, aber Real Time Analytics ist noch die Ausnahme. Was genau bedeutet Real Time Analytics und was für Implikationen hat es auf die Architektur? Lohnt es sich Real Time Analytics zu implementieren? Links:
| |||
03 Aug 2022 | #6: Statistik vs. Machine Learning | 00:44:32 | |
Hat die Statistik so langsam ausgedient? Dass der Begriff der "Statistik" angestaubt ist, steht außer Frage. Und obwohl es durchaus Gemeinsamkeiten zwischen Statistik und Machine Learning gibt, so liegt der Teufel doch wie immer im Detail. Wir decken auf, welche Unterschiede es gibt und klären, ob Machine Learning die Statistik abgelöst hat. Links: | |||
02 Mar 2023 | #19: Data Science und Story Telling | 00:29:36 | |
Im Anschluss an unsere letzte Episode über Big Data Erfolgsgeschichten, möchten wir heute darüber sprechen, wie man Ergebnisse von Predictive Analytics Projekten richtig kommunizieren kann. Wir diskutieren die Schlüsselelemente einer guten Geschichte und untersuchen, wie man Story Telling mit der Präsentation von objektiven Modellergebnissen zusammen bringen kann. Zum Schluss gibt es noch Tipps, wie Datenvisualisierungen zur Unterstützung einer Erzählung eingesetzt werden können. Links:
| |||
17 Apr 2025 | #70: Der Aufstieg zur Datenreife – Stufe für Stufe zur Data Maturity | 00:46:07 | |
Wie datenreif ist dein Unternehmen eigentlich? Wir sprechen über die fünf Stufen der Data Maturity – von manueller Datensammlung bis zur KI als Teil der Unternehmenskultur. Dabei geht es auch um die Rolle der Organisation, warum viele beim „Death by Dashboards“ hängenbleiben und wie man echte Fortschritte macht. Und wir diskutieren, welche Abkürzungen auf diesem Weg funktionieren – und welche eher nach hinten losgehen.
**Zusammenfassung**
**Links**
| |||
20 Jul 2022 | #5: Data Warehouse vs. Data Lake vs. Data Mesh | 01:00:50 | |
Es gibt viele spannende Technologien um Daten zu halten und zu bewegen. Wenn man noch keine Data Plattform oder Data Warehouse hat, welchen Ansatz sollte man dann verfolgen? Wir sprechen über:
Links: | |||
18 Jul 2024 | #51: Wer rastet, rostet: Die Rolle von Weiterbildung in Data Science | 00:46:22 | |
Data Science entwickelt sich ständig und schnell weiter, was kontinuierliche Weiterbildung unerlässlich macht. In dieser Episode diskutieren wir, wie Arbeitgeber*innen ihre Mitarbeitenden unterstützen können und welche organisatorischen und projektbezogenen Formate sich für uns als effektiv erwiesen haben. Zudem sprechen wir über private Fortbildungsmaßnahmen und geben Tipps zur Auswahl geeigneter Kurse und Konferenzen. ***Links***
| |||
15 Aug 2024 | #53: Agilität à la carte: Das Agile Fluency Model mit Dr. Wolf-Gideon Bleek | 01:12:58 | |
In dieser Episode von Data Science Deep Dive sprechen Mira und Wolf-Gideon über das Agile Fluency Model und dessen Bedeutung im Data-Science-Kontext. Im Fokus stehen die verschiedenen Stufen der Agilität sowie die damit verbundenen Vorteile und notwendigen Investitionen. Wolf-Gideon erklärt, wie man den optimalen Agilitätsgrad für ein Team ermittelt und welche Praktiken dabei relevant sind.
***Links***
| |||
13 Apr 2023 | #22: Sind Makro-Prognosen in Zeiten von Strukturbrüchen noch sinnvoll? | 00:41:47 | |
Wir untersuchen, wie sich Strukturbrüche wie Corona und der Ukraine Krieg sowie anhaltende Unsicherheit auf die Prognose makroökonomischer Zielgrößen auswirken. Anlass dafür ist der Financial Times Artikel "CEOs forced to ditch decades of forecasting habits" über Ikea. Wir diskutieren, wie man Makro-Prognosen nutzen kann, um auch in diesen unsicheren Zeiten einen wirtschaftlichen Mehrwert zu erzielen, und welche Rolle Expertise und Plausibilitätschecks bei der Modellierung spielen. Links:
| |||
05 Jan 2023 | #15: Data Science Architektur: Microservices vs. Data Mesh | 00:49:01 | |
In dieser Episode beschäftigt uns die Frage, wie eine optimale Service-Architektur für Daten-Produkte aussehen kann. Wir vergleichen Microservices mit dem neuen Trend hin zu einem Architekturstil, der auf der Data Mesh Organisationsform beruht ("Data Services"). Links:
| |||
06 Mar 2025 | #67: "It works on my machine" war gestern – Docker Best Practices für Data Science | 00:34:53 | |
Dieser Satz "it works on my machine" hat IT-Teams und Data Scientists lange Nerven gekostet. Früher war Deployment ein mühsames Zusammenspiel aus Setup-Anleitungen, inkompatiblen Umgebungen und endlosen Rückfragen. Docker bringt endlich Ordnung ins Chaos: Anwendungen laufen isoliert, reproduzierbar und unabhängig vom Host-System. Warum Containerisierung für Data Science ein echter Gamechanger ist und welche Best Practices du kennen solltest, erfährst du in dieser Folge!
Zusammenfassung
Links
| |||
19 Jan 2023 | #16: Sind Daten das neue Öl? | 00:30:56 | |
In dieser Episode diskutieren wir einen Artikel von Dr. Paul von Bünau und Dr. Sven Jungmann im Tagesspiegel Background mit dem Titel "Daten sind nicht das neue Öl". Wir greifen die Argumente des Artikels auf und zeigen unsere Sicht auf die vorgestellten Punkte. Link zum Artikel: https://background.tagesspiegel.de/gesundheit/daten-sind-nicht-das-neue-oel | |||
11 Jul 2024 | Ankündigung: Unser Podcast bekommt einen neuen Namen! | 00:01:52 | |
Ab der nächsten Episode ist "In Numbers We Trust - Der Data Science Podcast" Geschichte. Wir benennen unseren Podcast um in "Data Science Deep Dive". Aber keine Sorge, ansonsten wird sich nichts ändern. Auf die nächsten 50 Episoden! Vielen Dank an alle treuen Hörer*innen und herzlich willkommen an alle, die neu dabei sind. Wir sind INWT und wir machen Data Science, von der ersten Idee bis zum fertigen Produkt, und in diesem Podcast sprechen wir darüber. Es ist unser Anspruch, Data Science-Themen tiefgehend zu besprechen und praxisorientiert zu vermitteln. Wir sprechen über alles, was wir spannend finden, mit Leuten, die wir kennen und mögen. Wir freuen uns, wenn ihr auch beim Data Science Deep Dive mit dabei seid! Und wie immer könnt ihr eure Fragen, Anmerkungen und Themenwünsche gern an podcast@inwt-statistics.de schreiben. | |||
24 Nov 2022 | #12: Use Case - Luftschadstoffprognose für Berlin | 00:31:24 | |
In dieser Episode berichten wir über ein aktuelles Projekt für die Senatsverwaltung für Umwelt, Mobilität, Verbraucher- und Klimaschutz (SenUMVK). Hierbei geht es um die Vorhersage der Luftschadstoffbelastung (NO2, PM2.5, PM10) in Berlin. Auf einem 50 x 50m Raster über Berlin erstellen wir für jede Zelle stündliche Prognosen für jeden der 3 Schadstoffe. Wir erzählen euch etwas über die zugrunde liegenden Daten und den Modellierungsansatz und berichten über Lessons Learned in diesem Projekt. Artikel auf der Seite des übergeordneten eUVM-Projektes: https://testfeldstadtverkehr.berlin/prognose-von-luftschadstoffen-in-berlin/ | |||
21 Nov 2024 | #60: Job-Sicherheit als Data Scientist: Personalentwicklung in Zeiten von AI | 00:41:44 | |
Die glorreichen Zeiten des Data Scientist scheinen vorbei zu sein – oder doch nicht? Warum stagnieren die Jobangebote? Und wie passt GenAI ins Bild? Wir sprechen über die neuen Herausforderungen am Arbeitsmarkt, was Unternehmen und Jobsuchende jetzt tun sollten, und warum Data Engineers irgendwie sexy, aber nie so richtig hot waren. Spoiler: Flexibilität und Generalismus sehen wir als wichtige Eigenschaften für die Zukunft!
***Links***
| |||
02 Feb 2023 | #17: Use Case - Kundensegmentierung | 00:46:42 | |
Im Online Marketing und Customer Relation Management kann man nicht alle Kund*innen über einen Kamm scheren, aber sich auch nicht um jede Kund*in individuell kümmern. Der goldene Mittelweg ist die Kundensegmentierung, über die wir in dieser Episode ausführlich sprechen. Sie erlaubt eine optimale Aussteuerung von Werbemitteln und zeitlichen Ressourcen während Kund*innen gezielt und bedürfnisgerecht adressiert werden können. Links:
| |||
26 Oct 2023 | #34: Was ist Attribution im Online Marketing und lohnt sie sich noch? | 00:50:47 | |
Mit Attribution kann das Marketingbudget effektiv und zielgerichtet eingesetzt werden. Damit kann die Wirkung von Werbemaßnahmen auf Mikroebene gemessen und diese Erkenntnisse zur Maximierung des ROI genutzt werden. Wir sprechen über
*** Links ***
| |||
23 Nov 2023 | #36: Der Data Mesh Hype und was davon bleibt | 00:53:10 | |
Data Mesh ist eine innovative Herangehensweise an die Organisation von Daten in Unternehmen. Dabei ist jedes Team für die eigenen Daten und Datenprodukte verantwortlich. Wir beleuchten die vier Prinzipien des Data Mesh (Domain Ownership, Data as a Product, Self-Serve Data Platform und Federated Computational Governance). Zum Schluss stellen wir uns die Frage, welche Eigenschaften eine Plattform mitbringen muss, um ein Data Mesh effektiv zu unterstützen, und ob dieser Hype einen Kulturwandel auslösen wird oder Theorie bleibt. ***Links:*** - inwt Website: https://www.inwt-statistics.de/ - Blog: Data Mesh Principles and Logical Architecture by Zhamak Dehghani https://martinfowler.com/articles/data-mesh-principles.html - Talk: Data - The land DevOps forgot by Michael Nygard https://www.youtube.com/watch?v=459-H33is6o - Blog: How to select technology for Data Mesh by Ryan Dawson https://www.thoughtworks.com/insights/blog/data-strategy/how-to-select-technology-data-mesh - White Paper: Simplifying Data Mesh for Self-Service Analytics on an Open Data Lakehouse by Mike Ferguson https://hello.dremio.com/wp-simplifying-data-mesh-on-data-dakehouse-reg.html - White Paper: How to Knit Your Data Mesh on Snowflake https://snowflake.hub.hushly.com/data-mesh-stream/how-to-knit-your-data-mesh-on-snowflake | |||
16 Sep 2024 | #55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch | 00:42:35 | |
Warum ist XGBoost seit Jahren das Tool der Wahl, wenn es um tabulare Daten geht? Mira spricht zusammen mit Matthäus Deutsch darüber, warum XGBoost State of the Art ist und was es so erfolgreich macht. Außerdem: Wie schlägt sich XGBoost im Vergleich zu Deep Learning? Und gibt es überhaupt bessere Alternativen? **Links**
| |||
04 Apr 2024 | #44: Lineare Regression in der Praxis – Oldie oder Goldie? | 00:40:34 | |
Ist die lineare Regression nicht nur längst überholtes Zeug aus der Statistik 1 Vorlesung? Trotz ihrer vermeintlichen Einfachheit ist sie ein wichtiges Werkzeug in der Data Science. Ein Werkzeug das oft unterschätzt wird. Wir diskutieren wann lineare Regression zum Einsatz kommt, ihre Grenzen, Alternativen und Beispiele aus der Praxis. **Links:**
| |||
07 Nov 2024 | #59: Besser mit Helm: komplexe Deployments einfach(er) umsetzen | 00:18:00 | |
Helm auf und los geht’s! In dieser Episode zeigen wir euch wie wir ein Fraud-Detection-Projekt mit komplexen Deployments mithilfe von Kubernetes und Helm in den Griff bekommen haben – Spoiler: Copy-Paste hatte hier keine Chance! ;) Warum Helm ein Gamechanger für eure Kubernetes-Configs sein kann und was es mit diesen ominösen Charts auf sich hat, erfahrt ihr hier. Für alle, die mehr Ordnung im Deployment-Chaos suchen, ist das die perfekte Folge.
***Links***
| |||
02 May 2024 | #46: Strategien zur Performance-Optimierung in R | 00:24:46 | |
R ist keine Compilersprache und damit von Natur aus eher langsam. Wir sprechen darüber wie man die Performance von R Code optimieren kann und welche spezifischen Herausforderungen R dabei mit sich bringt. Wir besprechen Methoden, um Engpässe im Code effizient zu identifizieren, darunter Tools wie system.time, microbenchmark und profvis. Anschließend teilen wir Techniken für die Arbeit mit großen Datensätzen und die Parallelisierung. Wir zeigen wie durch gezielte Optimierung erhebliche Performance-Verbesserungen erzielt werden können. ***Links:***
| |||
03 Apr 2025 | #69: AI Agents verstehen und evaluieren mit Matthäus Deutsch | 00:47:22 | |
AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie richtig? Wir sprechen über die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos führen und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. Matthäus Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative Ansätze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. Außerdem: welche Metriken wirklich zählen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verändert.
Zusammenfassung
Links
| |||
04 Jul 2024 | #50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost? | 00:38:44 | |
Wir lassen GPT3.5 Turbo und XGBoost bei der Prognose einer metrischen Zielvariablen gegeneinander antreten. Dafür haben wir von LOT Internet Fahrzeugdaten aus dem Portal mobile.de bereitgestellt bekommen, um zu sehen, wer bei der Prognose des Fahrzeugpreises die Nase vorn hat. Zudem besprechen wir das Finetuning und gehen auch darauf ein, wie LLMs und XGBoost kombiniert werden können.
***Links***
| |||
06 Jul 2023 | #27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen? | 00:39:26 | |
Wir diskutieren den Einsatz von Large Language Models (LLMs) zur Klassifikation tabellarischer Daten, ein bis dato eher unerforschtes Anwendungsfeld. Wir vergleichen die Leistung eines LLMs mit der von XGBoost in einem Projekt zur Vorhersage von Churn. Obwohl XGBoost noch die Nase vorn hat, zeigt das LLM bemerkenswerte Ergebnisse. Wir beleuchten die technische Umsetzung, Herausforderungen sowie Potenziale, und geben einen Ausblick auf die Entwicklung dieses spannenden Anwendungsfeldes.
Links:
| |||
01 Aug 2024 | #52: In-process Datenbanken und das Ende von Big Data | 00:41:04 | |
In dieser Episode sprechen wir über die in-process Datenbank DuckDB, die im Juni Version 1.0.0 erreicht hat und einen innovativen Ansatz verfolgt. DuckDB wird direkt aus dem Code heraus gestartet und benötigt keine Berechtigungen oder User-Management, was an SQlite erinnert. Außerdem beleuchten wir die These, dass die "Big Data" Ära vorbei ist, warum das so ist und was das eigentlich mit DuckDB zu tun hat.
***Links***
| |||
01 Sep 2022 | #8: Use Case - Customer Lifetime Value (CLV) | 00:46:27 | |
Der Customer Lifetime Value (CLV) ist eine bekannte Kennzahl im Bereich Online Marketing. Wir schauen hinter die Kulissen und zeigen wie wir ein CLV-Projekt umsetzen und was das eigentlich mit Data Science zu tun hat. Was genau misst der CLV, wie wird er berechnet und was ist zu beachten? White Paper zum Thema Customer Lifetime Value (CLV): | |||
31 Aug 2023 | #31: Ist R eigentlich tot? | 00:45:29 | |
Vor 10 Jahren haben noch alle Mitarbeitenden bei INWT in R programmiert, heute ist das anders. Python läuft R den Rang ab. Wir reflektieren über die Unterschiede der beiden Programmiersprachen und versuchen eine Einschätzung darüber zu geben, wie es mit R weitergehen wird. | |||
26 Sep 2024 | #56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025? | 00:25:16 | |
Vor der Bundestagswahl 2017 haben wir begonnen, ein Prognosemodell für den Wahlausgang zu entwickeln – und seitdem ständig verbessert. Heute präsentieren wir täglich aktualisierte Prognosen, die Verzerrungen einzelner Wahlumfragen korrigieren und das Wahlverhalten am Wahltag vorhersagen. Mit bayesianischen Modellen liefern wir Wahrscheinlichkeiten zur Regierungsbeteiligung und anderer Ereignisse und stellen sie auf wer-gewinnt-die-wahl.de bereit.
***Links***
| |||
27 Oct 2022 | #10: Signifikanz | 00:27:41 | |
Das Thema der Signifikanz ist ein - wenn nicht der - Grundbaustein der Statistik. In dieser Episode widmen wir uns dem Konzept dieses statistischen Standard-Werkzeugs und klären vor allem welche Rolle Signifikanz im Bereich Data Science und Machine Learning spielt. Links:
| |||
24 Oct 2024 | #58: Arm, aber sexy: Data Warehousing at Scale ohne Budget | 00:37:32 | |
Dies ist ein Gedankenexperiment, das euch zeigt, wie man mit wenig Budget und minimaler Hardware eine clevere self-service Umgebung bastelt, die auf dem Laptop oder einer günstigen Cloud-Instanz läuft. Wir sprechen darüber wie so ein Stack aussehen kann (Storage Layer, Data Layer, Compute Layer) und welche Anwendungsszenarien es gibt, aber auch wo die Grenzen bei einem solchen Szenario liegen.
***Links***
| |||
20 Feb 2025 | #66: Developer vs. Data Scientist mit Andy Grunwald und Wolfgang Gassler | 01:03:42 | |
Warum knirscht es immer wieder zwischen Data Scientists und Developern? In dieser Episode holen wir uns Verstärkung von Andy und Wolfi vom Engineering Kiosk Podcast um dieser Frage auf den Grund zu gehen. Wir reden über typische Klischees und warum diese zu Konflikten führen. Gemeinsam sprechen wir darüber, welche Skills helfen, damit beide Spezies am Ende harmonisch zusammenarbeiten können – statt sich gegenseitig auszubremsen. Zusammenfassung
Links
| |||
03 Aug 2023 | #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack | 00:59:32 | |
Die aktuell gegenläufigen Trends zeigen eine Vielzahl von Data Science Plattformen wie Databricks, Snowflake und Kubeflow als Konkurrenz zu individuell entwickelten Stacks. Die Entscheidung für eine der beiden Alternativen ist insbesondere in einer sich rasch entwickelnden Technologie-Landschaft nicht einfach. Als Hilfestellung diskutieren wir die Vor- und Nachteile der jeweiligen Lösungen. | |||
10 Oct 2024 | #57: Mehr als heiße Luft: unsere Berliner Luftschadstoffprognose mit Dr. Andreas Kerschbaumer | 00:51:20 | |
In dieser Episode sprechen wir mit Dr. Andreas Kerschbaumer, Umweltexperte beim Berliner Senat, über unsere Luftschadstoffprognose und warum Berlin immer noch dringend sauberere Luft braucht. Andreas erklärt, wie Machine Learning hilft, die Luftverschmutzung vorherzusagen und welche Rolle klassische Methoden (CTMs) dabei spielen. Wir vergleichen den neuen Machine-Learning-Ansatz mit dem traditionellen und diskutieren, welche Vor- und Nachteile sie mit sich bringen. Außerdem verraten Mira und Andreas, was sie in diesem spannenden Projekt gelernt haben.
***Links***
| |||
22 Jun 2023 | #26: A/B-Testing: Erkenntnisse statt Bauchgefühl | 00:32:39 | |
A/B-Testing ermöglicht datenbasierte Entscheidungen, wir diskutieren Best Practices und tauchen in fortgeschrittene Themen wie Bayesianische A/B-Tests und Multi-Armed Bandits ein. Außerdem geben wir hilfreiche Tipps und erläutern explizit die Fallstricke beim A/B-Testing, damit ihr eure eigenen A/B-Tests effektiver gestalten könnt. Links: | |||
27 Apr 2023 | #23: Unsexy aber wichtig: Tests und Monitoring | 00:34:35 | |
Während Tests und Monitoring in der Softwareentwicklung schon lange Standard sind, ist die Data Science-Welt manchmal noch etwas hinterher. Wir schreiben viel Code, der regelmäßig im Produktivbetrieb läuft, u.a. um Prognosen zu berechnen und unseren Kund*innen zur Verfügung zu stellen. Dabei wollen wir sicher sein, dass alles funktioniert und mögliche Fehler zeitnah bemerken. Welche Besonderheiten es im Bereich Data Science dabei gibt, diskutieren wir in dieser Episode. | |||
14 Sep 2023 | #32: Brauche ich Data-Science-Berater*innen und wenn ja wie viele? | 00:41:41 | |
Wir schwenken den Blick auf unsere Kund*innen und setzen uns damit auseinander, wie man erfolgreiche externe Beratungsprojekte gestaltet. Dabei gehen wir auf die verschiedenen Einsatzmöglichkeiten wie den Team-Ansatz oder Body Leasing ein und geben Tipps zur Auswahl eine*r Beratungspartner*in. Mit dieser Episode knüpfen wir an Episode #2 Erfolgsfaktoren für Predictive Analytics Projekte an. | |||
08 Dec 2022 | #13: Datenqualität | 00:37:37 | |
"Garbage In, Garbage Out" hat auch in der Data Science Praxis eine hohe Relevanz: ein Modell kann nur so gut sein, wie die Daten auf denen es basiert. In dieser Episode sprechen wir darüber, wie Probleme mit der Datenqualität aufgedeckt werden können und welche Strategien es gibt, um Datenqualität in Projekten konsequent sicherzustellen. Links:
| |||
07 Dec 2023 | #37: Deep Learning zur Erkennung von Hochwasser auf Satellitenbildern mit Philip Popien von Floodbase | 00:56:51 | |
Hochwassererkennung mit Satelliten? Wie das funktioniert erklärt Philip Popien, Director of Machine Learning bei Floodbase. Das Unternehmen erstellt mithilfe von Deep Learning Modellen Hochwasserprognosen und ist so in der Lage eine parametrische Flutversicherung anzubieten. Wir sprechen über die Input-Daten, den Labeling Prozess und die Prognosen des Deep Learning Modells. Natürlich gibt es auch Einblicke in die aktuellen Herausforderungen und einen Ausblick über die Weiterentwicklung des Modells. ***Links*** - inwt Website: https://www.inwt-statistics.de/ - Floodbase Website: https://www.floodbase.com/ - Philip Popien bei LinkedIn: https://www.linkedin.com/in/philip-popien/ | |||
15 Sep 2022 | #9: Data Science Project Ownership | 00:55:52 | |
Wie managt man ein Data Science Projekt richtig? Natürlich braucht es auch in einem Data Science Projekt Führung und Koordination. Wir erklären das Konzept von Project Ownership und wie unser nicht ganz so einfacher Weg dorthin aussah. Besonders beschäftigt hat uns hier die Frage, wer eigentlich gut als Project Owner geeignet ist. Sollte es ein Data Scientist sein oder eine reine Führungskraft? Und was sind die Aufgaben und Herausforderungen eines Project Owners? | |||
20 Jul 2023 | #28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten | 00:34:48 | |
Wir tauchen ein in ein Real-Time Analytics-Projekt in dem wir den Fraud-Detection-Prozess mittels Echtzeitdaten für eine*n Kund*in verbessern. Dabei beleuchten wir die von uns antizipierten Herausforderungen des Projekts sowie unsere Lösungsansätze. Natürlich haben wir einige Dinge auch nicht kommen sehen, die daraus resultierenden Erkenntnisse teilen wir mit euch. | |||
06 Jul 2022 | #4: Job-Profile & Arbeitsmarkt | 01:08:01 | |
Welche Job-Profile und Erfahrungsstufen gibt es momentan im Data-Science-Kosmos? Und wie sieht die Perspektive für suchende Unternehmen und Bewerber*innen auf dem Arbeitsmarkt aus? Diesen Fragen gehen wir in der aktuellen Episode auf den Grund. | |||
09 Jan 2025 | #63: Data Mining: der pragmatische Weg zu Datenreife & Datenkultur mit Prof. Dr. Ana Moya | 00:42:39 | |
„Data Mining“ – klingt nach Staub und Schaufeln, ist aber der Schlüssel zur Mustererkennung in Daten! Wir diskutieren, warum einfache Methoden oft besser sind als fancy KI-Lösungen, besonders bei niedriger Datenreife. Außerdem: Wie man nachhaltigen Mehrwert schafft, ohne sich in Dashboards zu verlieren, und welche Skills und Tools wirklich zählen. Hilfreich für alle, die effektiv mit Daten arbeiten wollen.
Zusammenfassung
***Links***
|