Beta
Logo of the podcast Data Science Deep Dive

Data Science Deep Dive (INWT Statistics GmbH)

Explore every episode of Data Science Deep Dive

Dive into the complete episode list for Data Science Deep Dive. Each episode is cataloged with detailed descriptions, making it easy to find and explore specific topics. Keep track of all episodes from your favorite podcast and never miss a moment of insightful content.

Rows per page:

1–50 of 71

Pub. DateTitleDuration
05 Dec 2024#61: Technologische Must-Haves: Unser Survival-Guide für Data-Science-Projekte00:42:04

Zusammenfassend unsere Must-Haves:

  • Datenbank / DWH 
  • Lösung zur Datenvisualisierung
  • Möglichkeit, unkompliziert zu entwickeln (lokal oder im Web)
  • Versionskontrolle / CI/CD
  • Deployment-Lösung
  • Trennung von Entwicklungs- und Produktivumgebung
  • Monitoring für Modell & Ressourcen

 

Verwandte Podcast-Episoden

Folge #2: Erfolgsfaktoren für Predictive Analytics Projekte

Folge #5: Data Warehouse vs. Data Lake vs. Data Mesh

Folge #20: Ist Continuous Integration (CI) ein Muss für Data Scientists?

Folge #21: Machine Learning Operations (MLOps)

Folge #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack

Folge #35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida

Folge #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage

Folge #54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?

 

Technologien & Tools

Datenvisualisierung: Azure Databricks, AWS Quicksight, Redash

Entwicklungsumgebung: VSCode, INWT Python IDE V2, Remote Explorer, Pycharm

Versionskontrolle: GitHub, GitLab, Azure DevOps

CI/CD: GitHub Actions, GitLab CI, Jenkins

Deployment: Kubernetes, Docker, Helm, ArgoCD

Experiment-Tracking: MLFlow, DVC, Tensorboard

Monitoring: Prometheus, Grafana, AWS Cloudwatch

22 Feb 2024#41: Strategien zur Performance-Optimierung in Python00:27:27

Mit welchen Strategien können Entwickler*innen und Data Scientists die Laufzeit von Python Code verringern? Wir diskutieren warum Performance-Optimierung überhaupt notwendig ist und was das genau bedeutet. Anschließend gehen wir auf häufige Engpässe und verschiedene Ansätze zur Verbesserung der Effizienz, wie Profiling, Refactoring-Techniken und Parallelisierung ein. 

 

***Links:***

08 Jun 2022#2: Erfolgsfaktoren für Predictive Analytics Projekte00:50:31

Welche Faktoren entscheiden darüber, ob ein Predictive Analytics Projekt erfolgreich ist? Nach über 10 Jahren Erfahrung und über 180 Projekten ziehen Amit und Sebastian in dieser Episode ein Fazit, welche Stellschrauben gedreht und welche Hürden auf dem Weg zum erfolgreichen Predictive Analytics Projekt genommen werden müssen.

Folgende Themen greifen wir auf:

  • Data Maturity
  • Use Case
  • Minimum Viable Product (MVP)
  • Daten
  • Technologie & Organisation
  • Modell
  • bewertbare Qualität
  • Support
22 Dec 2022#14: Kubernetes00:43:34

Kubernetes ist ein Open-Source-System, das für die Verwaltung und Bereitstellung von containerisierten Anwendungen verwendet wird. In dieser Episode besprechen wir, wie Data Scientists Kubernetes nutzen können, um ihre Arbeitsabläufe zu optimieren, ihre Projekte skalierbar & zuverlässig zu machen und wie Kubernetes speziell unseren Arbeitsalltag verändert hat.

Links:

28 Sep 2023#33: Data Science bei Zalando – Dr. Claudia Baldermann im Gespräch über Product Development & Organisation00:46:42
Wie ist Data Science in einem E-Commerce Giganten wie Zalando organisiert - das erfährst du von Dr. Claudia Baldermann, Machine Learning Engineer bei Zalando. Im Interview sprechen wir darüber, wie der Product Development Prozess und die Organisation der Data Science Community bei Zalando gelingen.      
16 May 2024#47: Von Prognosen und Prompts: Data Science trifft generative KI mit Tobias Sterbak00:46:28

In dieser Episode spricht Mira mit Tobias Sterbak, einem Freelance Machine Learning Engineer mit Fokus auf NLP-Anwendungen, über Data Science und generative KI. Wir vergleichen klassische Data Science-Methoden mit den neuesten KI-Ansätzen wie Large Language Models (LLMs). Ihr erfahrt, wie sich Datenbereitstellung, Validierung und Feature Engineering unterscheiden und welche Herausforderungen dabei auftreten. Außerdem gehen wir auf die Bedeutung der User Experience und die Schwierigkeiten bei der Bewertung der Modelle ein.

 

***Links:***

06 Feb 2025#65: Sicher ist nur die Unsicherheit: Unsicherheitsintervalle erklärt00:28:50

Punktprognosen sind was für Leute, die gerne enttäuscht werden ;) Wir befassen uns in dieser Episode mit der Quantifizierung und Kommunikation von Unsicherheit bei Prognosen. Dabei gehen Mira und Amit auf klassische Statistik, Bayes-Methoden, Machine Learning, Bootstrapping und Conformal Predictions ein. Außerdem gehen sie auf Herausforderungen der Data Literacy und bei rechenintensiven Ansätzen zur Bestimmung der Unsicherheit ein.

Zusammenfassung

  • Warum Unsicherheiten unverzichtbar sind (Beispiel Wetter-, Wahl-, Bewerberprognosen)
  • Klassische Statistik: Konfidenzintervall vs. Prediction Intervall
  • Bayesianische Sicht: Glaubwürdigkeitsintervalle
  • ML-Methoden ohne Verteilungsannahmen: Bootstrapping & Conformal Predictions
  • Rechenaufwand vs. Modellannahmen
  • Data Literacy als Schlüssel zum richtigen Interpretieren von Prognoseintervallen
  • Praxisnahe Beispiele und Entscheidungshilfen

Links

23 Jan 2025#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen?00:40:31

Teil 2 unseres Preisprognose-Experiments für Gebrauchtfahrzeuge: Können Open-Source-LLMs wie Llama 3.1, Mistral und Leo-HessianAI mit GPT-3.5 mithalten? Wir haben fleißig gefinetuned, bis die Motoren qualmten – und es zeigt sich, dass die Unterschiede gar nicht mehr so groß sind. Mit ausreichend vielen Trainingsbeobachtungen nähern sich die Open-Source-Modelle den Ergebnissen von GPT-3.5 an und können es in einzelnen Metriken sogar übertreffen. Für das Finetuning größerer Modelle sind jedoch auch leistungsfähige GPUs notwendig, was die Ressourcenanforderungen deutlich erhöht. In der Folge beleuchten wir, welchen Mehrwert diese Open-Source-LLMs für praxisnahe Use Cases liefern und welche Herausforderungen dabei auftreten.

Zusammenfassung:

  • Vergleich von OpenAI GPT-3.5 und drei Open-Source-LLMs (Llama 3.1, Mistral 7B, Leo-HessianAI)
  • Finetuning der Modelle auf lokalen Daten
  • Ergebnisse: Open-Source-LLMs sind bei größerem Trainingsdatensatz fast so gut wie GPT-3.5
  • XGBoost hinkt etwas hinterher, da Freitexte hier nicht einbezogen wurden
  • Wichtige Faktoren: Batchgröße, Trainingsschritte, Speicherbedarf und Nutzung von Lora-Finetuning
  • Beim Einsatz von Open Source ist mehr Handarbeit nötig, dafür bleibt alles on-premise
  • OpenAI punktet durch Einfachheit und hohe Qualität ohne großen Datenbedarf
  • Frameworks wie Huggingface, Mistral Codebase und Torchtune unterstützen das Finetuning
  • Ausblick: größere LLMs mit Multi-GPU, multimodale Daten und Unsicherheitsquantifizierung

 

***Links***

13 Jun 2024#49: Data Science Projekte richtig managen mit Prof. Dr. Marcel Hebing01:10:08

Wer hat Data Science Projekte besser im Griff: erfahrene Data Scientists oder fachfremde Führungskräfte? In dieser Episode gibt uns Marcel Hebing ein paar Einblicke in sein neues Buch "Data Science Management" und dessen Schwerpunkte. Wir diskutieren die optimale Verortung von Data Science Teams, die Bedeutung der Unternehmenskultur und die Herausforderungen bei der praktischen Umsetzung von Data Science Projekten. 

 

***Links***

 

30 May 2024#48: Open Source vs. Closed Source: Entwicklungen, Trends und Herausforderungen01:02:18

Warum entscheiden sich Unternehmen für Open Source oder Closed Source Software im Data Science Bereich? Wir sprechen über verschiedene Aspekte des Technologie-Stacks wie Programmiersprachen, Datenbanken und BI-Tools. Dabei gehen wir auf die historischen Präferenzen und aktuellen Trends ein, insbesondere die zunehmende Bedeutung von Open Source Lösungen. Außerdem diskutieren wir die Vor- und Nachteile beider Ansätze in Bezug auf Support, Sicherheit, Compliance und Kosten.

 

***Links*** - R: Regulatory Compliance and Validation Issues https://www.r-project.org/doc/R-FDA.pdf  - https://streamlit.io/  - https://www.gradio.app/guides/creating-a-dashboard-from-bigquery-data  - https://killedbygoogle.com/  - https://en.wikipedia.org/wiki/Revolution_Analytics  - Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

 

25 May 2023#25: Feature Store: Features als wiederverwendbares Datenprodukt00:38:52

Feature Stores sind aktuell ein Trend im Bereich MLOps (Machine Learning Operations). Sie zielen darauf ab das Feature Engineering einfacher und schneller zu machen. Um Features nicht in jedem Projekt neu aufzubauen, bietet ein Feature Store die Möglichkeit sie quasi fertig aus dem Regal zu nehmen. Sinnvoll ist dies besonders wenn eine hohe Data Maturity vorhanden ist, d.h. wenn viele Modelle auf Features zugreifen und es viele Überschneidungen gibt. 

Links: - https://mlops.community/learn/feature-store/ - https://docs.databricks.com/machine-learning/feature-store/online-feature-stores.html

11 May 2023#24: Explainable AI: Entscheidungen von Black-Box-Modellen verstehen00:34:36

Explainable Artificial Intelligence (XAI) setzt auf Black-Box-Modelle aus der Welt der künstlichen Intelligenz auf und macht sie interpretierbar. Damit verbindet XAI die Vorteile von KI mit denen der klassischen Statistik. Wie ermöglicht XAI komplexe Entscheidungsprozesse von Black-Box-Modellen zu verstehen und ihnen zu vertrauen? Dieser Frage gehen wir in dieser Folge nach. 

Links:

08 Feb 2024#40: Sonderfolge: Frauen in Data Science und Tech mit Catrin & Isa von Mind the Tech00:58:14

Diskriminierung aufgrund des Geschlechts? Leider immer noch ein Thema! Deshalb widmen wir diese Sonderfolge den Frauen in der Data Science & Tech Branche. Zusammen mit Catrin und Isa vom Podcast Mind the Tech ordnen wir das Thema historisch ein, reflektieren unsere eigenen Erfahrungen im Arbeitsalltag und diskutieren, wie die Situation verbessert werden kann. Wir teilen unsere Wünsche und Ideen, wie ein Bewusstsein für geschlechtsbezogene Diskriminierung sowie Chancengleichheit im Berufsleben erreicht werden kann.

 

***Links*** - Podcast Website von Isa und Cathrin: Mind the Tech - Cyber, Crime, Gesellschaft https://www.mindthetech.de/ - Mind the Tech auf Spotify: https://open.spotify.com/show/6FydYmBjELizU8k8DOIcaA?si=d46c14932a18438d - Film Hidden Figures auf IMDb: https://www.imdb.com/title/tt4846340/ - develop<HER> https://developher.de/ - Wikipedia Artikel "Frauen in der Informatik": https://de.wikipedia.org/wiki/Frauen_in_der_Informatik - A New Approach to Programmer Aptitude Testing by Charles J. Testa: https://dl.acm.org/doi/pdf/10.1145/800120.803918 - WO SIND DIE FRAUEN IN DER IT? Von Deborah Liebig auf get in {IT}:  https://www.get-in-it.de/magazin/arbeitswelt/it-arbeitsmarkt/wo-sind-die-frauen-in-der-it - inwt Website: https://www.inwt-statistics.de/

30 Mar 2023#21: Machine Learning Operations (MLOps)00:57:31

Software in Form eines Machine Learning Modells bringt zusätzliche Komplexität mit sich, denn die Algorithmen sind nicht deterministisch, sondern stochastischer Natur. Das bedeutet es braucht Expert*innen,  die bei der Entwicklung des Modells beteiligt waren, um es produktiv zu bringen. Wir sprechen über die Anforderungen an MLOps auf dem Weg in die Produktivumgebung: Monitoring, CI/CD, Reusability und Modellentwicklung.

Links:

20 Mar 2025#68: CI/CD für Daten: Datenversionierung für stabile & nachvollziehbare Systeme00:41:29

Daten(banken) versionieren – klingt maximal unsexy, spart aber Stress im Deployment. Warum ohne Schema-Versionierung selbst kleine Änderungen große Probleme verursachen und was ORMs, Flyway oder Liquibase damit zu tun haben, erfahrt ihr hier. Daten historisieren ist ein Must-have für Compliance, Reproduzierbarkeit und Modellierung. Aber Achtung: Nicht jede Lösung passt für jede Datenbank und den Live-Betrieb. Wir geben Tipps, wie ihr eure Datenprodukte systematisch und effizient im Griff behaltet.

**Zusammenfassung**

  • Schema-Versionierung ist essenziell, um Änderungen an Datenbanken nachvollziehbar und reibungslos ins Deployment einzubinden
  • Fehlende Versionierung kann zu kaputten Prozessen führen, wenn Schema-Änderungen nicht dokumentiert und automatisiert umgesetzt werden
  • Werkzeuge wie ORMs, Flyway oder Liquibase helfen dabei, Änderungen an Datenbankschemata strukturiert zu verwalten
  • Historisierung von Daten ist für Compliance, Reproduzierbarkeit und Modellierung entscheidend  
  • Ansätze zur Datenhistorisierung: Append-only-Strategien vs. System-Versionierung
  • Herausforderungen: Performance-Engpässe, hohe Pflegekosten und Kompatibilitätsprobleme je nach Datenbank und Migrationstool  
  • Best Practices: Versionierung systematisch einführen, Automatisierung priorisieren und sicherstellen, dass Downgrades funktionieren.  

**Links**

29 Aug 2024#54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?00:51:12

Online vs. Offline Serving – welcher Ansatz ist besser? Wir besprechen, wie du dein Modell erfolgreich in die Produktion bringst und eine passende Datenschnittstelle deployst. Dazu gibt’s Tipps zu den Tools, die uns dabei helfen, wie FastAPI, Docker und Kubernetes. Außerdem erfährst du, worauf du bei der Automatisierung und beim Handling vieler Modelle achten solltest.

**Links**

19 Dec 2024#62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft00:21:02

Kafka, aber in R? Das geht jetzt! In dieser Folge klären wir, warum Kafka für schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofür braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus!

 

Zusammenfassung

  • Apache Kafka als schnelles, ausfallsicheres System für Event-Streaming und Datenströme
  • Einsatzbereiche: Überall wo Daten fortlaufend und in Echtzeit verarbeitet werden
  • Unser R Kafka Client ermöglicht nun die direkte Nutzung von Kafka in R, ohne Umweg über Python
  • Features: Consumer/Producer-Modelle, asynchrone Datenverarbeitung, hohe Performance und Ausfallsicherheit
  • Ausblick: Veröffentlichung auf CRAN, Admin-Client für Cluster-Management, Blogartikel mit Beispiel (siehe unten in den Links)

Links

16 Feb 2023#18: Big Data Erfolgsgeschichten00:39:26

In dieser Episode erforschen wir 3 vermeintliche Erfolgsgeschichten von Big Data. Wir diskutieren die Herausforderung solche Geschichten richtig zu interpretieren und welche Fragen man sich in diesem Bezug eigentlich stellen sollte.

Links:

09 Nov 2023#35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida00:45:59

Wie unterscheiden sich eigentlich Machine Learning Projekte von "herkömmlicher" Softwareenwicklung und welche Herausforderungen bieten sie? Darüber unterhält sich Amit mit Philipp Jackmuth, dem Gründer von dida, der übrigens auch unser Büronachbar ist. Philipp teilt anhand eines Anwendungsfalls im Bereich Natural Language Processing wichtige Erfolgsfaktoren, darunter Metriken, Modularität und den Umgang mit Blackbox-Modellen. 

 

*** Links *** - inwt Website https://www.inwt-statistics.de/ - dida Website https://dida.do/de - dida bei LinkedIn https://www.linkedin.com/company/dida-machine-learning/ - Philipp Jackmuth bei LinkedIn https://www.linkedin.com/in/philipp-jackmuth/

 

07 Mar 2024#42: Frontends in Data Science: Welches Visualisierungstool ist das Richtige?00:28:40

Welches das richtige Visualisierungstool ist, hängt stark vom Projekt und auch vom Team ab. Wir erkunden drei Ansätze – interne Umgebungen wie Python Dash oder R Shiny, Dashboard-Tools wie Grafana und Redash, sowie Eigenentwicklung mit JS-Frameworks wie VueJs oder React – und wie sie sich in Bezug auf Entwicklungsgeschwindigkeit, Anpassungsfähigkeit und Skalierbarkeit unterscheiden. Auf dieser Grundlage geben wir eine Entscheidungshilfe, welcher dieser Ansätze "der Richtige" für ein Projekt ist. 

 

***Links***

11 Jan 2024#38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen00:26:12

Wir zeigen, wie Echtzeitprognosen trotz eines komplexen Modells im Hintergrund möglich gemacht werden können. In vielen Anwendungsfällen, wie in der Finanzbranche oder bei der Betrugserkennung, ist es entscheidend, dass Prognosen schnell und präzise sind, um innerhalb von Sekunden eingreifen zu können. Wir gehen auf die technischen und modellseitigen Herausforderungen dabei ein und geben Tipps, an welchen Stellschrauben auf Seite der Architektur gedreht werden kann. 

 

*** Links *** - inwt Website: https://www.inwt-statistics.de/

 

21 Mar 2024#43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage00:41:55

Zwei Herausforderungen bei der Zuverlässigkeit von Prognosen im Live-Betrieb sind Overfitting (Modell ist zu stark an Trainingsdaten angepasst) und Data Leakage (Modell verfügt über Informationen, die es in der realen Anwendung nicht hat). Wir sprechen darüber, was Overfitting und Data Leakage genau sind und wo ihre Ursachen liegen. Außerdem diskutieren wir Lösungsansätze. 

 

**Links:**

 

17 Aug 2023#30: Agile Softwareentwicklung im Data-Science-Kontext00:35:07

Auch Data Scientists schreiben Software. In diesem Kontext können wir nur empfehlen sich mit dem agilen Manifest auseinanderzusetzen. Die 12 Prinzipien dahinter fassen wir in dieser Episode auf und erklären, was wir darunter verstehen und wie wir sie anwenden. 

 

Links:

- Prinzipien hinter dem Agilen Manifest https://agilemanifesto.org/iso/de/principles.html

26 Jan 2024#39: Death by Microservices00:50:19

Und nun lebe der Monolith? Während Microservices als State-of-the-Art gelten, beobachten wir auf Konferenzen teils gegenläufige Bewegungen zurück zu Monolithen. Gründe dafür sind vor allem die steigende Komplexität durch verteilte Systeme, Dateninkonsistenz und Abhängigkeiten zwischen verschiedenen Komponenten. Wir diskutieren die aktuelle Kritik an Microservices und gehen der Frage auf den Grund, ob und wann der Wechsel zu Monolithen sinnvoll ist. 

 

***Links:*** - denodo https://www.denodo.com/de - YouTube: Microservices by KRAZAM https://www.youtube.com/watch?v=y8OnoxKotPQ - YouTube: When To Use Microservices (And When Not To!) • Sam Newman & Martin Fowler • GOTO 2020 https://www.youtube.com/watch?v=GBTdnfD6s5Q - YouTube: Don’t Build a Distributed Monolith - Jonathan "J." Tower - NDC London 2023 https://www.youtube.com/watch?v=p2GlRToY5HI

- inwt Website: https://www.inwt-statistics.de/

18 Aug 2022#7: Data Culture01:04:01

Die Kultur in einem Unternehmen ist ein latentes, organisch gewachsenes Gebilde. Und so schwer sie zu greifen oder zu beeinflussen ist, so wichtig ist sie für den Erfolg von Data Science Projekten. Doch warum spielt sie eine solch enorme Rolle und was macht denn eigentlich eine fruchtbare Data Culture aus? Wie kann man einen Kulturwandel anstoßen?

22 Jun 2022#3: Statistik vs. Data Science00:44:38

Ist Data Science nur ein hipper Begriff für Statistik? In dieser Episode sprechen Amit und Sebastian über den Werdegang bei inwt von der Statistik hin zu Full Stack Data Science. Wir decken auf was hinter den Begriffen "Statistik" und "Data Science" steckt und klären wer im Kampf der Daten um Relevanz eigentlich die Nase vorne hat.. Schaut euch unbedingt das Video von Baba Brinkman auf YouTube an!

Links:

16 Mar 2023#20: Ist Continuous Integration (CI) ein Muss für Data Scientists?00:45:57

Continuous Integration (CI) ist zwar ein Konzept aus der Softwareentwicklung, aber aus dem Bereich Data Science nicht mehr wegzudenken. Wir diskutieren wie wichtig CI für Data Scientists ist und wie es genutzt werden kann um Data Science Workflows zu verbessern. 

18 Apr 2024#45: Data Science bei 1&1 Versatel – Dr. Stephan Hausberg im Gespräch über den Aufbau von Data Teams00:49:29

Wie baue ich ein Data Team auf? Wie kriege ich beim Hiring the richtigen Leute? Und wie fördere ich eine gute Fehlerkultur? All diesen Fragen ist Dr. Stephan Hausberg, Head of Data Science und Business Analytics bei 1&1 Versatel, in den letzten Jahren begegnet. In diesem Interview lässt er uns an seinen Learnings teilhaben. Enjoy!

 

**Links**

25 May 2022#1: Big Data Hype00:38:02

In dieser Episode reden Amit und Sebastian über den Big Data Hype, in dessen Anfängen das Berufsbild des Data Scientist entstand.

Hier erfährst du:

  • was Big Data eigentlich genau ist,
  • wie es zu dem Hype kam und
  • was daraus geworden ist.

Links

10 Nov 2022#11: Real Time Analytics00:42:13

Bei vielen Unternehmen fallen Daten bereits in Echtzeit in der Datenbank an, aber Real Time Analytics ist noch die Ausnahme. Was genau bedeutet Real Time Analytics und was für Implikationen hat es auf die Architektur? Lohnt es sich Real Time Analytics zu implementieren?

Links:

03 Aug 2022#6: Statistik vs. Machine Learning00:44:32

Hat die Statistik so langsam ausgedient? Dass der Begriff der "Statistik" angestaubt ist, steht außer Frage. Und obwohl es durchaus Gemeinsamkeiten zwischen Statistik und Machine Learning gibt, so liegt der Teufel doch wie immer im Detail. Wir decken auf, welche Unterschiede es gibt und klären, ob Machine Learning die Statistik abgelöst hat.

Links:

02 Mar 2023#19: Data Science und Story Telling00:29:36

Im Anschluss an unsere letzte Episode über Big Data Erfolgsgeschichten, möchten wir heute darüber sprechen, wie man Ergebnisse von Predictive Analytics Projekten richtig kommunizieren kann. Wir diskutieren die Schlüsselelemente einer guten Geschichte und untersuchen, wie man Story Telling mit der Präsentation von objektiven Modellergebnissen zusammen bringen kann. Zum Schluss gibt es noch Tipps, wie Datenvisualisierungen zur Unterstützung einer Erzählung eingesetzt werden können.

Links:

17 Apr 2025#70: Der Aufstieg zur Datenreife – Stufe für Stufe zur Data Maturity00:46:07

Wie datenreif ist dein Unternehmen eigentlich? Wir sprechen über die fünf Stufen der Data Maturity – von manueller Datensammlung bis zur KI als Teil der Unternehmenskultur. Dabei geht es auch um die Rolle der Organisation, warum viele beim „Death by Dashboards“ hängenbleiben und wie man echte Fortschritte macht. Und wir diskutieren, welche Abkürzungen auf diesem Weg funktionieren – und welche eher nach hinten losgehen.

 

**Zusammenfassung**

  • Data Maturity Skala: Fünf Stufen von manueller Datennutzung bis zu datengetriebener Kultur mit AI/ML – viele Unternehmen stecken noch in den unteren Bereichen fest
  • Organisationskultur als Schlüssel: Kultur bestimmt maßgeblich, wie datenreif ein Unternehmen wird – HiPPO-Denke (Highest Paid Person's Opinion), Risikoaversion und fehlende Offenheit sind häufige Bremsklötze
  • Typische Hürden: Datensilos, fehlendes Qualitätsbewusstsein, "Death by Dashboards" und Projekte ohne echten Erkenntnisgewinn
  • Aufbau von Datenreife: Kombination aus Top-Down-Initiativen und Bottom-up-Leuchtturmprojekten, ergänzt durch agile Vorgehensweise
  • PoC → MVP → Produkt: Datenprojekte sollten in kurzen, klar umrissenen Phasen geplant und bei fehlendem Nutzen auch konsequent gestoppt werden
  • Abkürzungen und Workarounds: Externe Daten, simulierte Daten oder cloudbasierte Infrastruktur können helfen – bergen aber auch Risiken für Aussagekraft und Akzeptanz
  • Data Mesh & Self-Service BI: Nur sinnvoll bei entsprechender Datenkultur – sonst droht mehr Chaos als Erkenntnisgewinn

 

**Links**

20 Jul 2022#5: Data Warehouse vs. Data Lake vs. Data Mesh01:00:50

Es gibt viele spannende Technologien um Daten zu halten und zu bewegen. Wenn man noch keine Data Plattform oder Data Warehouse hat, welchen Ansatz sollte man dann verfolgen?

Wir sprechen über:

  • SQL-Datenbanken
  • BI Cubes
  • Data Warehouses
  • Data Lakes
  • Data Mesh

Links:

18 Jul 2024#51: Wer rastet, rostet: Die Rolle von Weiterbildung in Data Science00:46:22

Data Science entwickelt sich ständig und schnell weiter, was kontinuierliche Weiterbildung unerlässlich macht. In dieser Episode diskutieren wir, wie Arbeitgeber*innen ihre Mitarbeitenden unterstützen können und welche organisatorischen und projektbezogenen Formate sich für uns als effektiv erwiesen haben. Zudem sprechen wir über private Fortbildungsmaßnahmen und geben Tipps zur Auswahl geeigneter Kurse und Konferenzen.

***Links***

15 Aug 2024#53: Agilität à la carte: Das Agile Fluency Model mit Dr. Wolf-Gideon Bleek01:12:58
In dieser Episode von Data Science Deep Dive sprechen Mira und Wolf-Gideon über das Agile Fluency Model und dessen Bedeutung im Data-Science-Kontext. Im Fokus stehen die verschiedenen Stufen der Agilität sowie die damit verbundenen Vorteile und notwendigen Investitionen. Wolf-Gideon erklärt, wie man den optimalen Agilitätsgrad für ein Team ermittelt und welche Praktiken dabei relevant sind.    ***Links***
13 Apr 2023#22: Sind Makro-Prognosen in Zeiten von Strukturbrüchen noch sinnvoll?00:41:47

Wir untersuchen, wie sich Strukturbrüche wie Corona und der Ukraine Krieg sowie anhaltende Unsicherheit auf die Prognose makroökonomischer Zielgrößen auswirken. Anlass dafür ist der Financial Times Artikel "CEOs forced to ditch decades of forecasting habits" über Ikea. Wir diskutieren, wie man Makro-Prognosen nutzen kann, um auch in diesen unsicheren Zeiten einen wirtschaftlichen Mehrwert zu erzielen, und welche Rolle Expertise und Plausibilitätschecks bei der Modellierung spielen.

Links:

05 Jan 2023#15: Data Science Architektur: Microservices vs. Data Mesh00:49:01

In dieser Episode beschäftigt uns die Frage, wie eine optimale Service-Architektur für Daten-Produkte aussehen kann. Wir vergleichen Microservices mit dem neuen Trend hin zu einem Architekturstil, der auf der Data Mesh Organisationsform beruht ("Data Services").

Links:

06 Mar 2025#67: "It works on my machine" war gestern – Docker Best Practices für Data Science00:34:53

Dieser Satz "it works on my machine" hat IT-Teams und Data Scientists lange Nerven gekostet. Früher war Deployment ein mühsames Zusammenspiel aus Setup-Anleitungen, inkompatiblen Umgebungen und endlosen Rückfragen. Docker bringt endlich Ordnung ins Chaos: Anwendungen laufen isoliert, reproduzierbar und unabhängig vom Host-System. Warum Containerisierung für Data Science ein echter Gamechanger ist und welche Best Practices du kennen solltest, erfährst du in dieser Folge!

 

Zusammenfassung 

  • Früher war Deployment umständlich: lange Setup-Anleitungen, inkompatible Umgebungen, viele Rückfragen 
  • Virtuelle Maschinen haben das Problem teilweise gelöst, sind aber ressourcenintensiv und unflexibel
  • Data Scientists arbeiten oft mit R/Python, was IT-Abteilungen vor Herausforderungen stellt
  • Fehlende Reproduzierbarkeit führt zu Stress, Verzögerungen und hohem Kommunikationsaufwand
  • Docker schafft eine standardisierte, isolierte und reproduzierbare Umgebung für Anwendungen
  • Container laufen direkt auf dem Host-OS, sind schlanker als VMs und starten schneller
  • Mit Dockerfiles lassen sich Umgebungen als Code definieren und automatisch deployen
  • Best Practices: schlanke Base-Images, .dockerignore, nur benötigte Abhängigkeiten installieren
  • Automatisierung mit CI/CD-Pipelines beschleunigt den Entwicklungs- und Deploy-Prozess
  • Containerisierung ist für moderne Data-Science-Workflows unverzichtbar und spart IT sowie Data Science viel Zeit

Links

19 Jan 2023#16: Sind Daten das neue Öl?00:30:56

In dieser Episode diskutieren wir einen Artikel von Dr. Paul von Bünau und Dr. Sven Jungmann im Tagesspiegel Background mit dem Titel "Daten sind nicht das neue Öl". Wir greifen die Argumente des Artikels auf und zeigen unsere Sicht auf die vorgestellten Punkte.

Link zum Artikel: https://background.tagesspiegel.de/gesundheit/daten-sind-nicht-das-neue-oel

11 Jul 2024Ankündigung: Unser Podcast bekommt einen neuen Namen!00:01:52

Ab der nächsten Episode ist "In Numbers We Trust - Der Data Science Podcast" Geschichte. Wir benennen unseren Podcast um in "Data Science Deep Dive". Aber keine Sorge, ansonsten wird sich nichts ändern. Auf die nächsten 50 Episoden!

Vielen Dank an alle treuen Hörer*innen und herzlich willkommen an alle, die neu dabei sind.

Wir sind INWT und wir machen Data Science, von der ersten Idee bis zum fertigen Produkt, und in diesem Podcast sprechen wir darüber. Es ist unser Anspruch, Data Science-Themen tiefgehend zu besprechen und praxisorientiert zu vermitteln. Wir sprechen über alles, was wir spannend finden, mit Leuten, die wir kennen und mögen.

Wir freuen uns, wenn ihr auch beim Data Science Deep Dive mit dabei seid!

Und wie immer könnt ihr eure Fragen, Anmerkungen und Themenwünsche gern an podcast@inwt-statistics.de schreiben.

24 Nov 2022#12: Use Case - Luftschadstoffprognose für Berlin00:31:24

In dieser Episode berichten wir über ein aktuelles Projekt für die Senatsverwaltung für Umwelt, Mobilität, Verbraucher- und Klimaschutz (SenUMVK). Hierbei geht es um die Vorhersage der Luftschadstoffbelastung (NO2, PM2.5, PM10) in Berlin. Auf einem 50 x 50m Raster über Berlin erstellen wir für jede Zelle stündliche Prognosen für jeden der 3 Schadstoffe. Wir erzählen euch etwas über die zugrunde liegenden Daten und den Modellierungsansatz und berichten über Lessons Learned in diesem Projekt.

Artikel auf der Seite des übergeordneten eUVM-Projektes:

https://testfeldstadtverkehr.berlin/prognose-von-luftschadstoffen-in-berlin/

21 Nov 2024#60: Job-Sicherheit als Data Scientist: Personalentwicklung in Zeiten von AI00:41:44

Die glorreichen Zeiten des Data Scientist scheinen vorbei zu sein – oder doch nicht? Warum stagnieren die Jobangebote? Und wie passt GenAI ins Bild? Wir sprechen über die neuen Herausforderungen am Arbeitsmarkt, was Unternehmen und Jobsuchende jetzt tun sollten, und warum Data Engineers irgendwie sexy, aber nie so richtig hot waren. Spoiler: Flexibilität und Generalismus sehen wir als wichtige Eigenschaften für die Zukunft!

 

***Links***

02 Feb 2023#17: Use Case - Kundensegmentierung00:46:42

Im Online Marketing und Customer Relation Management kann man nicht alle Kund*innen über einen Kamm scheren, aber sich auch nicht um jede Kund*in individuell kümmern. Der goldene Mittelweg ist die Kundensegmentierung, über die wir in dieser Episode ausführlich sprechen. Sie erlaubt eine optimale Aussteuerung von Werbemitteln und zeitlichen Ressourcen während Kund*innen gezielt und bedürfnisgerecht adressiert werden können.

Links:

26 Oct 2023#34: Was ist Attribution im Online Marketing und lohnt sie sich noch?00:50:47

Mit Attribution kann das Marketingbudget effektiv und zielgerichtet eingesetzt werden. Damit kann die Wirkung von Werbemaßnahmen auf Mikroebene gemessen und diese Erkenntnisse zur Maximierung des ROI genutzt werden.

Wir sprechen über 

  • Datenbasis und mögliche Kontaktpunkte einer Attribution,
  • aktuelle Herausforderungen, wie beispielsweise Cross Device & DSGVO,
  • Ansätze zur Attribution, von Heuristiken wie Last Contact bis hin zu statistischen Ansätzen wie logistische Regression und Survival Modelle. 

*** Links ***

23 Nov 2023#36: Der Data Mesh Hype und was davon bleibt00:53:10

Data Mesh ist eine innovative Herangehensweise an die Organisation von Daten in Unternehmen. Dabei ist jedes Team für die eigenen Daten und Datenprodukte verantwortlich. Wir beleuchten die vier Prinzipien des Data Mesh (Domain Ownership, Data as a Product, Self-Serve Data Platform und Federated Computational Governance). Zum Schluss stellen wir uns die Frage, welche Eigenschaften eine Plattform mitbringen muss, um ein Data Mesh effektiv zu unterstützen, und ob dieser Hype einen Kulturwandel auslösen wird oder Theorie bleibt. 

***Links:*** - inwt Website: https://www.inwt-statistics.de/ - Blog: Data Mesh Principles and Logical Architecture by Zhamak Dehghani https://martinfowler.com/articles/data-mesh-principles.html  - Talk: Data - The land DevOps forgot by Michael Nygard https://www.youtube.com/watch?v=459-H33is6o  - Blog: How to select technology for Data Mesh by Ryan Dawson https://www.thoughtworks.com/insights/blog/data-strategy/how-to-select-technology-data-mesh - White Paper: Simplifying Data Mesh for Self-Service Analytics on an Open Data Lakehouse by Mike Ferguson https://hello.dremio.com/wp-simplifying-data-mesh-on-data-dakehouse-reg.html - White Paper: How to Knit Your Data Mesh on Snowflake https://snowflake.hub.hushly.com/data-mesh-stream/how-to-knit-your-data-mesh-on-snowflake

16 Sep 2024#55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch00:42:35

Warum ist XGBoost seit Jahren das Tool der Wahl, wenn es um tabulare Daten geht? Mira spricht zusammen mit Matthäus Deutsch darüber, warum  XGBoost State of the Art ist und was es so erfolgreich macht. Außerdem: Wie schlägt sich XGBoost im Vergleich zu Deep Learning? Und gibt es überhaupt bessere Alternativen?

**Links**

04 Apr 2024#44: Lineare Regression in der Praxis – Oldie oder Goldie?00:40:34

Ist die lineare Regression nicht nur längst überholtes Zeug aus der Statistik 1 Vorlesung? Trotz ihrer vermeintlichen Einfachheit ist sie ein wichtiges Werkzeug in der Data Science. Ein Werkzeug das oft unterschätzt wird. Wir diskutieren wann lineare Regression zum Einsatz kommt, ihre Grenzen, Alternativen und Beispiele aus der Praxis.

**Links:**

07 Nov 2024#59: Besser mit Helm: komplexe Deployments einfach(er) umsetzen00:18:00

Helm auf und los geht’s! In dieser Episode zeigen wir euch wie wir ein Fraud-Detection-Projekt mit komplexen Deployments mithilfe von Kubernetes und Helm in den Griff bekommen haben – Spoiler: Copy-Paste hatte hier keine Chance! ;) Warum Helm ein Gamechanger für eure Kubernetes-Configs sein kann und was es mit diesen ominösen Charts auf sich hat, erfahrt ihr hier. Für alle, die mehr Ordnung im Deployment-Chaos suchen, ist das die perfekte Folge.

 

***Links***

02 May 2024#46: Strategien zur Performance-Optimierung in R00:24:46

R ist keine Compilersprache und damit von Natur aus eher langsam. Wir sprechen darüber wie man die Performance von R Code optimieren kann und welche spezifischen Herausforderungen R dabei mit sich bringt. Wir besprechen Methoden, um Engpässe im Code effizient zu identifizieren, darunter Tools wie system.time, microbenchmark und profvis. Anschließend teilen wir Techniken für die Arbeit mit großen Datensätzen und die Parallelisierung. Wir zeigen wie durch gezielte Optimierung erhebliche Performance-Verbesserungen erzielt werden können.

***Links:***

03 Apr 2025#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch00:47:22

AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie richtig? Wir sprechen über die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos führen und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. Matthäus Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative Ansätze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. Außerdem: welche Metriken wirklich zählen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verändert. 

 

Zusammenfassung

  • AI Agents erweitern klassische Chatbots im Kundenservice, insbesondere im Telefonbereich, durch GenAI-basierte, dynamische Lösungen
  • Parloa demonstriert flexible Plattformintegrationen und den Einsatz von Evaluationsmethoden wie assertion-based Testing und Simulationen
  • Die Evaluation von AI Agents erfordert spezielles Benchmarking auf Plattform- und individueller Ebene
  • Typische Herausforderungen sind Integrationsprobleme, fehlerhafte API-Calls und unzureichendes Instruction Following
  • Tests erfolgen sowohl auf Konversationsebene als auch durch deterministische Ansätze und LLMs als Judge
  • Es müssen komplexe Metriken und Trade-offs beachtet werden, wobei häufig binäre Testansätze aggregiert werden
  • Schnelle Updates auf neue Modellversionen sind möglich, allerdings steigen langfristig die Kosten durch umfangreiche Testzyklen
  • Innovationen wie optimierte Speech-to-Speech-Technologien und Open-Source-Lösungen (z. B. DeepSeek) bieten Potenzial zur Kostenreduktion
  • Der Einsatz von Operatoren-Modellen und Tool-Integrationen ermöglicht auch die Anbindung an Legacy-Systeme, z.B. SAP
  • Ziel ist es, den Automatisierungsanteil im Kundenservice zu erhöhen und eine Balance zwischen bewährter Qualität und neuen Features zu finden

Links

04 Jul 2024#50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost?00:38:44

Wir lassen GPT3.5 Turbo und XGBoost bei der Prognose einer metrischen Zielvariablen gegeneinander antreten. Dafür haben wir von LOT Internet Fahrzeugdaten aus dem Portal mobile.de bereitgestellt bekommen, um zu sehen, wer bei der Prognose des Fahrzeugpreises die Nase vorn hat. Zudem besprechen wir das Finetuning und gehen auch darauf ein, wie LLMs und XGBoost kombiniert werden können. 

 

***Links***

06 Jul 2023#27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen?00:39:26

Wir diskutieren den Einsatz von Large Language Models (LLMs) zur Klassifikation tabellarischer Daten, ein bis dato eher unerforschtes Anwendungsfeld. Wir vergleichen die Leistung eines LLMs mit der von XGBoost in einem Projekt zur Vorhersage von Churn. Obwohl XGBoost noch die Nase vorn hat, zeigt das LLM bemerkenswerte Ergebnisse. Wir beleuchten die technische Umsetzung, Herausforderungen sowie Potenziale, und geben einen Ausblick auf die Entwicklung dieses spannenden Anwendungsfeldes.

 

Links: 

01 Aug 2024#52: In-process Datenbanken und das Ende von Big Data00:41:04

In dieser Episode sprechen wir über die in-process Datenbank DuckDB, die im Juni Version 1.0.0 erreicht hat und einen innovativen Ansatz verfolgt. DuckDB wird direkt aus dem Code heraus gestartet und benötigt keine Berechtigungen oder User-Management, was an SQlite erinnert. Außerdem beleuchten wir die These, dass die "Big Data" Ära vorbei ist, warum das so ist und was das eigentlich mit DuckDB zu tun hat. 

 

***Links***

01 Sep 2022#8: Use Case - Customer Lifetime Value (CLV)00:46:27

Der Customer Lifetime Value (CLV) ist eine bekannte Kennzahl im Bereich Online Marketing. Wir schauen hinter die Kulissen und zeigen wie wir ein CLV-Projekt umsetzen und was das eigentlich mit Data Science zu tun hat. Was genau misst der CLV, wie wird er berechnet und was ist zu beachten?

White Paper zum Thema Customer Lifetime Value (CLV):

31 Aug 2023#31: Ist R eigentlich tot?00:45:29

Vor 10 Jahren haben noch alle Mitarbeitenden bei INWT in R programmiert, heute ist das anders. Python läuft R den Rang ab. Wir reflektieren über die Unterschiede der beiden Programmiersprachen und versuchen eine Einschätzung darüber zu geben, wie es mit R weitergehen wird. 

26 Sep 2024#56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025?00:25:16

Vor der Bundestagswahl 2017 haben wir begonnen, ein Prognosemodell für den Wahlausgang zu entwickeln – und seitdem ständig verbessert. Heute präsentieren wir täglich aktualisierte Prognosen, die Verzerrungen einzelner Wahlumfragen korrigieren und das Wahlverhalten am Wahltag vorhersagen. Mit bayesianischen Modellen liefern wir Wahrscheinlichkeiten zur Regierungsbeteiligung und anderer Ereignisse und stellen sie auf wer-gewinnt-die-wahl.de bereit. 

 

***Links***

27 Oct 2022#10: Signifikanz00:27:41

Das Thema der Signifikanz ist ein - wenn nicht der - Grundbaustein der Statistik. In dieser Episode widmen wir uns dem Konzept dieses statistischen Standard-Werkzeugs und klären vor allem welche Rolle Signifikanz im Bereich Data Science und Machine Learning spielt.

Links:

24 Oct 2024#58: Arm, aber sexy: Data Warehousing at Scale ohne Budget00:37:32

Dies ist ein Gedankenexperiment, das euch zeigt, wie man mit wenig Budget und minimaler Hardware eine clevere self-service Umgebung bastelt, die auf dem Laptop oder einer günstigen Cloud-Instanz läuft.  Wir sprechen darüber wie so ein Stack aussehen kann (Storage Layer, Data Layer, Compute Layer) und welche Anwendungsszenarien es gibt, aber auch wo die Grenzen bei einem solchen Szenario liegen. 

 

***Links***

20 Feb 2025#66: Developer vs. Data Scientist mit Andy Grunwald und Wolfgang Gassler01:03:42

Warum knirscht es immer wieder zwischen Data Scientists und Developern? In dieser Episode holen wir uns Verstärkung von Andy und Wolfi vom Engineering Kiosk Podcast um dieser Frage auf den Grund zu gehen. Wir reden über typische Klischees und warum diese zu Konflikten führen. Gemeinsam sprechen wir darüber, welche Skills helfen, damit beide Spezies am Ende harmonisch zusammenarbeiten können – statt sich gegenseitig auszubremsen.

Zusammenfassung

  • Klischees und Konflikte: Stereotype über Data Scientists (Jupyter-Fans, Doktortitel) und Developer (Perfektionismus, Black-Box-Furcht)
  • Teamorganisation: Cross-funktionale Teams vs. getrennte Abteilungen (Vor- und Nachteile, Agenturmodell)
  • Typische Herausforderungen: Übergabe von Prototypen an die Entwicklung, Verständnis von SLAs/Responsezeiten, Datenbankauswahl
  • Skill-Set und Zusammenarbeit: Generalistisches Grundwissen in DevOps und Softwarearchitektur, offenes Mindset

Links

03 Aug 2023#29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack00:59:32

Die aktuell gegenläufigen Trends zeigen eine Vielzahl von Data Science Plattformen wie Databricks, Snowflake und Kubeflow als Konkurrenz zu individuell entwickelten Stacks. Die Entscheidung für eine der beiden Alternativen ist insbesondere in einer sich rasch entwickelnden Technologie-Landschaft nicht einfach. Als Hilfestellung diskutieren wir die Vor- und Nachteile der jeweiligen Lösungen.   

10 Oct 2024#57: Mehr als heiße Luft: unsere Berliner Luftschadstoffprognose mit Dr. Andreas Kerschbaumer00:51:20

In dieser Episode sprechen wir mit Dr. Andreas Kerschbaumer, Umweltexperte beim Berliner Senat, über unsere Luftschadstoffprognose und warum Berlin immer noch dringend sauberere Luft braucht. Andreas erklärt, wie Machine Learning hilft, die Luftverschmutzung vorherzusagen und welche Rolle klassische Methoden (CTMs) dabei spielen. Wir vergleichen den neuen Machine-Learning-Ansatz mit dem traditionellen und diskutieren, welche Vor- und Nachteile sie mit sich bringen. Außerdem verraten Mira und Andreas, was sie in diesem spannenden Projekt gelernt haben.

 

***Links***

 

22 Jun 2023#26: A/B-Testing: Erkenntnisse statt Bauchgefühl00:32:39

A/B-Testing ermöglicht datenbasierte Entscheidungen, wir diskutieren Best Practices und tauchen in fortgeschrittene Themen wie Bayesianische A/B-Tests und Multi-Armed Bandits ein. Außerdem geben wir hilfreiche Tipps und erläutern explizit die Fallstricke beim A/B-Testing, damit ihr eure eigenen A/B-Tests effektiver gestalten könnt. 

Links:

27 Apr 2023#23: Unsexy aber wichtig: Tests und Monitoring00:34:35

Während Tests und Monitoring in der Softwareentwicklung schon lange Standard sind, ist die Data Science-Welt manchmal noch etwas hinterher. Wir schreiben viel Code, der regelmäßig im Produktivbetrieb läuft, u.a. um Prognosen zu berechnen und unseren Kund*innen zur Verfügung zu stellen. Dabei wollen wir sicher sein, dass alles funktioniert und mögliche Fehler zeitnah bemerken. Welche Besonderheiten es im Bereich Data Science dabei gibt, diskutieren wir in dieser Episode.

14 Sep 2023#32: Brauche ich Data-Science-Berater*innen und wenn ja wie viele?00:41:41

Wir schwenken den Blick auf unsere Kund*innen und setzen uns damit auseinander, wie man erfolgreiche externe Beratungsprojekte gestaltet. Dabei gehen wir auf die verschiedenen Einsatzmöglichkeiten wie den Team-Ansatz oder Body Leasing ein und geben Tipps zur Auswahl eine*r Beratungspartner*in. Mit dieser Episode knüpfen wir an Episode #2 Erfolgsfaktoren für Predictive Analytics Projekte an. 

08 Dec 2022#13: Datenqualität00:37:37

"Garbage In, Garbage Out" hat auch in der Data Science Praxis eine hohe Relevanz: ein Modell kann nur so gut sein, wie die Daten auf denen es basiert. In dieser Episode sprechen wir darüber, wie Probleme mit der Datenqualität aufgedeckt werden können und welche Strategien es gibt, um Datenqualität in Projekten konsequent sicherzustellen.

Links:

  • https://www.inwt-statistics.de/blog-artikel-lesen/Datenqualitaet.html
07 Dec 2023#37: Deep Learning zur Erkennung von Hochwasser auf Satellitenbildern mit Philip Popien von Floodbase00:56:51

Hochwassererkennung mit Satelliten? Wie das funktioniert erklärt Philip Popien, Director of Machine Learning bei Floodbase. Das Unternehmen erstellt mithilfe von Deep Learning Modellen Hochwasserprognosen und ist so in der Lage eine parametrische Flutversicherung anzubieten. Wir sprechen über die Input-Daten, den Labeling Prozess und die Prognosen des Deep Learning Modells. Natürlich gibt es auch Einblicke in die aktuellen Herausforderungen und einen Ausblick über die Weiterentwicklung des Modells.

***Links***

- inwt Website: https://www.inwt-statistics.de/ - Floodbase Website: https://www.floodbase.com/ - Philip Popien bei LinkedIn: https://www.linkedin.com/in/philip-popien/

15 Sep 2022#9: Data Science Project Ownership00:55:52

Wie managt man ein Data Science Projekt richtig? Natürlich braucht es auch in einem Data Science Projekt Führung und Koordination. Wir erklären das Konzept von Project Ownership und wie unser nicht ganz so einfacher Weg dorthin aussah. Besonders beschäftigt hat uns hier die Frage, wer eigentlich gut als Project Owner geeignet ist. Sollte es ein Data Scientist sein oder eine reine Führungskraft? Und was sind die Aufgaben und Herausforderungen eines Project Owners?

20 Jul 2023#28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten00:34:48

Wir tauchen ein in ein Real-Time Analytics-Projekt in dem wir den Fraud-Detection-Prozess mittels Echtzeitdaten für eine*n Kund*in verbessern. Dabei beleuchten wir die von uns antizipierten Herausforderungen des Projekts sowie unsere Lösungsansätze. Natürlich haben wir einige Dinge auch nicht kommen sehen, die daraus resultierenden Erkenntnisse teilen wir mit euch. 

06 Jul 2022#4: Job-Profile & Arbeitsmarkt01:08:01

Welche Job-Profile und Erfahrungsstufen gibt es momentan im Data-Science-Kosmos? Und wie sieht die Perspektive für suchende Unternehmen und Bewerber*innen auf dem Arbeitsmarkt aus? Diesen Fragen gehen wir in der aktuellen Episode auf den Grund.

09 Jan 2025#63: Data Mining: der pragmatische Weg zu Datenreife & Datenkultur mit Prof. Dr. Ana Moya00:42:39

„Data Mining“ – klingt nach Staub und Schaufeln, ist aber der Schlüssel zur Mustererkennung in Daten! Wir diskutieren, warum einfache Methoden oft besser sind als fancy KI-Lösungen, besonders bei niedriger Datenreife. Außerdem: Wie man nachhaltigen Mehrwert schafft, ohne sich in Dashboards zu verlieren, und welche Skills und Tools wirklich zählen. Hilfreich für alle, die effektiv mit Daten arbeiten wollen.

 

Zusammenfassung

  • Data Mining: Definition und Bedeutung als pragmatischer Ansatz zur Mustererkennung
  • Herausforderungen: Niedrige Datenreife und der Druck, „fancy“ Methoden einzusetzen
  • Lösungsansätze: Bewährte Methoden wie Statistik, Visualisierungen und Anomaly Detection
  • Nachhaltigkeit: Optimierte Prozesse und ressourcenschonende Lösungen als Kernnutzen
  • Skills und Tools: Analytisches Denken, Statistik, Programmierkenntnisse, sowie Tools aus dem Bereich Business Intelligence und Programmiersprachen wie R & Python
  • Fehler vermeiden: Datenqualität, Vermeidung von Confirmation Bias und sinnvolle Nutzung von Dashboards

 

***Links***

Enhance your understanding of Data Science Deep Dive with My Podcast Data

At My Podcast Data, we strive to provide in-depth, data-driven insights into the world of podcasts. Whether you're an avid listener, a podcast creator, or a researcher, the detailed statistics and analyses we offer can help you better understand the performance and trends of Data Science Deep Dive. From episode frequency and shared links to RSS feed health, our goal is to empower you with the knowledge you need to stay informed and make the most of your podcasting experience. Explore more shows and discover the data that drives the podcast industry.
© My Podcast Data