Data Science Deep Dive (INWT Statistics GmbH)

Show details Episodes (71)Links (233)RSS Check (53%)Related content (100)

Explore every episode of Data Science Deep Dive

Dive into the complete episode list for Data Science Deep Dive. Each episode is cataloged with detailed descriptions, making it easy to find and explore specific topics. Keep track of all episodes from your favorite podcast and never miss a moment of insightful content.

	Pub. Date	Title	Duration
	05 Dec 2024	#61: Technologische Must-Haves: Unser Survival-Guide für Data-Science-Projekte	00:42:04
Zusammenfassend unsere Must-Haves: Datenbank / DWH Lösung zur Datenvisualisierung Möglichkeit, unkompliziert zu entwickeln (lokal oder im Web) Versionskontrolle / CI/CD Deployment-Lösung Trennung von Entwicklungs- und Produktivumgebung Monitoring für Modell & Ressourcen Verwandte Podcast-Episoden Folge #2: Erfolgsfaktoren für Predictive Analytics Projekte Folge #5: Data Warehouse vs. Data Lake vs. Data Mesh Folge #20: Ist Continuous Integration (CI) ein Muss für Data Scientists? Folge #21: Machine Learning Operations (MLOps) Folge #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack Folge #35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida Folge #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage Folge #54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion? Technologien & Tools Datenvisualisierung: Azure Databricks, AWS Quicksight, Redash Entwicklungsumgebung: VSCode, INWT Python IDE V2, Remote Explorer, Pycharm Versionskontrolle: GitHub, GitLab, Azure DevOps CI/CD: GitHub Actions, GitLab CI, Jenkins Deployment: Kubernetes, Docker, Helm, ArgoCD Experiment-Tracking: MLFlow, DVC, Tensorboard Monitoring: Prometheus, Grafana, AWS Cloudwatch
	22 Feb 2024	#41: Strategien zur Performance-Optimierung in Python	00:27:27
Mit welchen Strategien können Entwicklerinnen und Data Scientists die Laufzeit von Python Code verringern? Wir diskutieren warum Performance-Optimierung überhaupt notwendig ist und was das genau bedeutet. Anschließend gehen wir auf häufige Engpässe und verschiedene Ansätze zur Verbesserung der Effizienz, wie Profiling, Refactoring-Techniken und Parallelisierung ein. Links:* inwt Website: https://www.inwt-statistics.de/
	08 Jun 2022	#2: Erfolgsfaktoren für Predictive Analytics Projekte	00:50:31
Welche Faktoren entscheiden darüber, ob ein Predictive Analytics Projekt erfolgreich ist? Nach über 10 Jahren Erfahrung und über 180 Projekten ziehen Amit und Sebastian in dieser Episode ein Fazit, welche Stellschrauben gedreht und welche Hürden auf dem Weg zum erfolgreichen Predictive Analytics Projekt genommen werden müssen. Folgende Themen greifen wir auf: Data Maturity Use Case Minimum Viable Product (MVP) Daten Technologie & Organisation Modell bewertbare Qualität Support
	22 Dec 2022	#14: Kubernetes	00:43:34
Kubernetes ist ein Open-Source-System, das für die Verwaltung und Bereitstellung von containerisierten Anwendungen verwendet wird. In dieser Episode besprechen wir, wie Data Scientists Kubernetes nutzen können, um ihre Arbeitsabläufe zu optimieren, ihre Projekte skalierbar & zuverlässig zu machen und wie Kubernetes speziell unseren Arbeitsalltag verändert hat. Links: Die Welt der Container: Einführung in Docker
	28 Sep 2023	#33: Data Science bei Zalando – Dr. Claudia Baldermann im Gespräch über Product Development & Organisation	00:46:42
Wie ist Data Science in einem E-Commerce Giganten wie Zalando organisiert - das erfährst du von Dr. Claudia Baldermann, Machine Learning Engineer bei Zalando. Im Interview sprechen wir darüber, wie der Product Development Prozess und die Organisation der Data Science Community bei Zalando gelingen.
	16 May 2024	#47: Von Prognosen und Prompts: Data Science trifft generative KI mit Tobias Sterbak	00:46:28
In dieser Episode spricht Mira mit Tobias Sterbak, einem Freelance Machine Learning Engineer mit Fokus auf NLP-Anwendungen, über Data Science und generative KI. Wir vergleichen klassische Data Science-Methoden mit den neuesten KI-Ansätzen wie Large Language Models (LLMs). Ihr erfahrt, wie sich Datenbereitstellung, Validierung und Feature Engineering unterscheiden und welche Herausforderungen dabei auftreten. Außerdem gehen wir auf die Bedeutung der User Experience und die Schwierigkeiten bei der Bewertung der Modelle ein. *Links:* Website von inwt: https://www.inwt-statistics.de Blog von Tobias Sterbak: https://www.depends-on-the-definition.com/ Website von Tobias Sterbak: https://tobiassterbak.com/ Ein Feuer auf der Tiefe (engl.: A Fire Upon the Deep) von Vernor Vinge https://de.wikipedia.org/wiki/Ein_Feuer_auf_der_Tiefe Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
	06 Feb 2025	#65: Sicher ist nur die Unsicherheit: Unsicherheitsintervalle erklärt	00:28:50
Punktprognosen sind was für Leute, die gerne enttäuscht werden ;) Wir befassen uns in dieser Episode mit der Quantifizierung und Kommunikation von Unsicherheit bei Prognosen. Dabei gehen Mira und Amit auf klassische Statistik, Bayes-Methoden, Machine Learning, Bootstrapping und Conformal Predictions ein. Außerdem gehen sie auf Herausforderungen der Data Literacy und bei rechenintensiven Ansätzen zur Bestimmung der Unsicherheit ein. Zusammenfassung Warum Unsicherheiten unverzichtbar sind (Beispiel Wetter-, Wahl-, Bewerberprognosen) Klassische Statistik: Konfidenzintervall vs. Prediction Intervall Bayesianische Sicht: Glaubwürdigkeitsintervalle ML-Methoden ohne Verteilungsannahmen: Bootstrapping & Conformal Predictions Rechenaufwand vs. Modellannahmen Data Literacy als Schlüssel zum richtigen Interpretieren von Prognoseintervallen Praxisnahe Beispiele und Entscheidungshilfen Links #10: Signifikanz https://www.podbean.com/ew/pb-y25ti-12fab65 #44: Lineare Regression in der Praxis – Oldie oder Goldie? https://www.podbean.com/ew/pb-jiecf-15d0ac1 #56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025? https://www.podbean.com/ew/pb-hwgnd-16e446e Wer gewinnt die Bundestagswahl 2025? www.wer-gewinnt-die-wahl.de Molnar (2023): Introduction To Conformal Prediction With Python. A Short Guide For Quantifying Uncertainty Of Machine Learning Models. Sammlung von Ressourcen zu Conformal Predictions https://github.com/valeman/awesome-conformal-prediction/ Feedback, Fragen oder Themenwünsche gern an podcast@inwt-statistics.de
	23 Jan 2025	#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen?	00:40:31
Teil 2 unseres Preisprognose-Experiments für Gebrauchtfahrzeuge: Können Open-Source-LLMs wie Llama 3.1, Mistral und Leo-HessianAI mit GPT-3.5 mithalten? Wir haben fleißig gefinetuned, bis die Motoren qualmten – und es zeigt sich, dass die Unterschiede gar nicht mehr so groß sind. Mit ausreichend vielen Trainingsbeobachtungen nähern sich die Open-Source-Modelle den Ergebnissen von GPT-3.5 an und können es in einzelnen Metriken sogar übertreffen. Für das Finetuning größerer Modelle sind jedoch auch leistungsfähige GPUs notwendig, was die Ressourcenanforderungen deutlich erhöht. In der Folge beleuchten wir, welchen Mehrwert diese Open-Source-LLMs für praxisnahe Use Cases liefern und welche Herausforderungen dabei auftreten. Zusammenfassung: Vergleich von OpenAI GPT-3.5 und drei Open-Source-LLMs (Llama 3.1, Mistral 7B, Leo-HessianAI) Finetuning der Modelle auf lokalen Daten Ergebnisse: Open-Source-LLMs sind bei größerem Trainingsdatensatz fast so gut wie GPT-3.5 XGBoost hinkt etwas hinterher, da Freitexte hier nicht einbezogen wurden Wichtige Faktoren: Batchgröße, Trainingsschritte, Speicherbedarf und Nutzung von Lora-Finetuning Beim Einsatz von Open Source ist mehr Handarbeit nötig, dafür bleibt alles on-premise OpenAI punktet durch Einfachheit und hohe Qualität ohne großen Datenbedarf Frameworks wie Huggingface, Mistral Codebase und Torchtune unterstützen das Finetuning Ausblick: größere LLMs mit Multi-GPU, multimodale Daten und Unsicherheitsquantifizierung *Links* [Blog] Predictive LLMs: Übertreffen Open-Source-Modelle OpenAI bei Preisprognosen? https://www.inwt-statistics.de/blog/predictive-llms-uebertreffen-os-modelle-openai-bei-preisprognosen [Podcast] #50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost? https://www.podbean.com/ew/pb-n6wem-165cb2c [Blog] Predictive LLMs: Kann GPT-3.5 die Prognosen von XGBoost verbessern? https://www.inwt-statistics.de/blog/predictive-llms-kann-gpt-xgboost-prognosen-verbessern [Podcast] #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage https://www.podbean.com/ew/pb-vw736-15baac0 [Link] Llama-3.1-8B-Instruct auf Huggingface https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct - [Link] Mistral-7B-Instruct-v0.3 auf Huggingface https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3 [Link] Mistral 7B Release Notes https://mistral.ai/news/announcing-mistral-7b/ [Link] leo-hessianai-7b auf Huggingface https://huggingface.co/LeoLM/leo-hessianai-7b [Link] The Hessian Center for Artificial Intelligence https://hessian.ai/de/ [Docs] LangChain: How to return structured data from a model https://python.langchain.com/docs/how_to/structured_output/#the-with_structured_output-method [Link] Wie hoch sind die Treibhausgasemissionen pro Person in Deutschland durchschnittlich? https://www.umweltbundesamt.de/service/uba-fragen/wie-hoch-sind-die-treibhausgasemissionen-pro-person#:~:text=Der%20deutsche%20Aussto%C3%9F%20an%20Treibhausgasen,sehr%20gro%C3%9Fe%20Unterschiede%20im%20Konsumniveau.
	13 Jun 2024	#49: Data Science Projekte richtig managen mit Prof. Dr. Marcel Hebing	01:10:08
Wer hat Data Science Projekte besser im Griff: erfahrene Data Scientists oder fachfremde Führungskräfte? In dieser Episode gibt uns Marcel Hebing ein paar Einblicke in sein neues Buch "Data Science Management" und dessen Schwerpunkte. Wir diskutieren die optimale Verortung von Data Science Teams, die Bedeutung der Unternehmenskultur und die Herausforderungen bei der praktischen Umsetzung von Data Science Projekten. *Links* Marcel Hebing auf LinkedIn: https://www.linkedin.com/in/marcel-hebing/ Impact Distillery: https://www.impactdistillery.com/ kaleidemoskop: https://kaleidemoskop.de/ DBU University of Applied Sciences: https://dbuas.de/ Buch "Data Science Management" von Marcel Hebing & Martin Manhembué: https://dpunkt.de/produkt/data-science-management/ Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
	30 May 2024	#48: Open Source vs. Closed Source: Entwicklungen, Trends und Herausforderungen	01:02:18
Warum entscheiden sich Unternehmen für Open Source oder Closed Source Software im Data Science Bereich? Wir sprechen über verschiedene Aspekte des Technologie-Stacks wie Programmiersprachen, Datenbanken und BI-Tools. Dabei gehen wir auf die historischen Präferenzen und aktuellen Trends ein, insbesondere die zunehmende Bedeutung von Open Source Lösungen. Außerdem diskutieren wir die Vor- und Nachteile beider Ansätze in Bezug auf Support, Sicherheit, Compliance und Kosten. *Links* - R: Regulatory Compliance and Validation Issues https://www.r-project.org/doc/R-FDA.pdf - https://streamlit.io/ - https://www.gradio.app/guides/creating-a-dashboard-from-bigquery-data - https://killedbygoogle.com/ - https://en.wikipedia.org/wiki/Revolution_Analytics - Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
	25 May 2023	#25: Feature Store: Features als wiederverwendbares Datenprodukt	00:38:52
Feature Stores sind aktuell ein Trend im Bereich MLOps (Machine Learning Operations). Sie zielen darauf ab das Feature Engineering einfacher und schneller zu machen. Um Features nicht in jedem Projekt neu aufzubauen, bietet ein Feature Store die Möglichkeit sie quasi fertig aus dem Regal zu nehmen. Sinnvoll ist dies besonders wenn eine hohe Data Maturity vorhanden ist, d.h. wenn viele Modelle auf Features zugreifen und es viele Überschneidungen gibt. Links: - https://mlops.community/learn/feature-store/ - https://docs.databricks.com/machine-learning/feature-store/online-feature-stores.html
	11 May 2023	#24: Explainable AI: Entscheidungen von Black-Box-Modellen verstehen	00:34:36
Explainable Artificial Intelligence (XAI) setzt auf Black-Box-Modelle aus der Welt der künstlichen Intelligenz auf und macht sie interpretierbar. Damit verbindet XAI die Vorteile von KI mit denen der klassischen Statistik. Wie ermöglicht XAI komplexe Entscheidungsprozesse von Black-Box-Modellen zu verstehen und ihnen zu vertrauen? Dieser Frage gehen wir in dieser Folge nach. Links: Impact Distillery: "Explainable AI – Vertrauen ist gut, Verständnis ist besser" von Prof. Dr. Steffen Wagner: https://www.impactdistillery.com/de/blog/2020-11-explainable-ai (inklusive der angesprochenen Grafiken)
	08 Feb 2024	#40: Sonderfolge: Frauen in Data Science und Tech mit Catrin & Isa von Mind the Tech	00:58:14
Diskriminierung aufgrund des Geschlechts? Leider immer noch ein Thema! Deshalb widmen wir diese Sonderfolge den Frauen in der Data Science & Tech Branche. Zusammen mit Catrin und Isa vom Podcast Mind the Tech ordnen wir das Thema historisch ein, reflektieren unsere eigenen Erfahrungen im Arbeitsalltag und diskutieren, wie die Situation verbessert werden kann. Wir teilen unsere Wünsche und Ideen, wie ein Bewusstsein für geschlechtsbezogene Diskriminierung sowie Chancengleichheit im Berufsleben erreicht werden kann. *Links* - Podcast Website von Isa und Cathrin: Mind the Tech - Cyber, Crime, Gesellschaft https://www.mindthetech.de/ - Mind the Tech auf Spotify: https://open.spotify.com/show/6FydYmBjELizU8k8DOIcaA?si=d46c14932a18438d - Film Hidden Figures auf IMDb: https://www.imdb.com/title/tt4846340/ - develop<HER> https://developher.de/ - Wikipedia Artikel "Frauen in der Informatik": https://de.wikipedia.org/wiki/Frauen_in_der_Informatik - A New Approach to Programmer Aptitude Testing by Charles J. Testa: https://dl.acm.org/doi/pdf/10.1145/800120.803918 - WO SIND DIE FRAUEN IN DER IT? Von Deborah Liebig auf get in {IT}: https://www.get-in-it.de/magazin/arbeitswelt/it-arbeitsmarkt/wo-sind-die-frauen-in-der-it - inwt Website: https://www.inwt-statistics.de/
	30 Mar 2023	#21: Machine Learning Operations (MLOps)	00:57:31
Software in Form eines Machine Learning Modells bringt zusätzliche Komplexität mit sich, denn die Algorithmen sind nicht deterministisch, sondern stochastischer Natur. Das bedeutet es braucht Expert*innen, die bei der Entwicklung des Modells beteiligt waren, um es produktiv zu bringen. Wir sprechen über die Anforderungen an MLOps auf dem Weg in die Produktivumgebung: Monitoring, CI/CD, Reusability und Modellentwicklung. Links: MLOps: Market Map & Thesis by Rachit Kansal https://medium.com/@rachit.kansal.19/mlops-market-map-thesis-f5e403780953 MLOps Community https://mlops.community/
	20 Mar 2025	#68: CI/CD für Daten: Datenversionierung für stabile & nachvollziehbare Systeme	00:41:29
Daten(banken) versionieren – klingt maximal unsexy, spart aber Stress im Deployment. Warum ohne Schema-Versionierung selbst kleine Änderungen große Probleme verursachen und was ORMs, Flyway oder Liquibase damit zu tun haben, erfahrt ihr hier. Daten historisieren ist ein Must-have für Compliance, Reproduzierbarkeit und Modellierung. Aber Achtung: Nicht jede Lösung passt für jede Datenbank und den Live-Betrieb. Wir geben Tipps, wie ihr eure Datenprodukte systematisch und effizient im Griff behaltet. Zusammenfassung Schema-Versionierung ist essenziell, um Änderungen an Datenbanken nachvollziehbar und reibungslos ins Deployment einzubinden Fehlende Versionierung kann zu kaputten Prozessen führen, wenn Schema-Änderungen nicht dokumentiert und automatisiert umgesetzt werden Werkzeuge wie ORMs, Flyway oder Liquibase helfen dabei, Änderungen an Datenbankschemata strukturiert zu verwalten Historisierung von Daten ist für Compliance, Reproduzierbarkeit und Modellierung entscheidend Ansätze zur Datenhistorisierung: Append-only-Strategien vs. System-Versionierung Herausforderungen: Performance-Engpässe, hohe Pflegekosten und Kompatibilitätsprobleme je nach Datenbank und Migrationstool Best Practices: Versionierung systematisch einführen, Automatisierung priorisieren und sicherstellen, dass Downgrades funktionieren. Links #58: Arm, aber sexy: Data Warehousing at Scale ohne Budget https://www.podbean.com/ew/pb-gywt4-1719aef #52: In-process Datenbanken und das Ende von Big Data https://www.podbean.com/ew/pb-tekgi-16896e4 #36: Der Data Mesh Hype und was davon bleibt https://www.podbean.com/ew/pb-7er7v-15080c1 Flyway: https://www.red-gate.com/products/flyway/ Liquibase: https://www.liquibase.com/ Alembic (für SQLAlchemy): https://alembic.sqlalchemy.org/en/latest/ MariaDB: https://mariadb.org/ ClickHouse: https://clickhouse.com/ Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
	29 Aug 2024	#54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?	00:51:12
Online vs. Offline Serving – welcher Ansatz ist besser? Wir besprechen, wie du dein Modell erfolgreich in die Produktion bringst und eine passende Datenschnittstelle deployst. Dazu gibt’s Tipps zu den Tools, die uns dabei helfen, wie FastAPI, Docker und Kubernetes. Außerdem erfährst du, worauf du bei der Automatisierung und beim Handling vieler Modelle achten solltest. Links Buch: Designing Machine Learning Systems by Chip Huyen https://www.oreilly.com/library/view/designing-machine-learning/9781098107956/ Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
	19 Dec 2024	#62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft	00:21:02
Kafka, aber in R? Das geht jetzt! In dieser Folge klären wir, warum Kafka für schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofür braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus! Zusammenfassung Apache Kafka als schnelles, ausfallsicheres System für Event-Streaming und Datenströme Einsatzbereiche: Überall wo Daten fortlaufend und in Echtzeit verarbeitet werden Unser R Kafka Client ermöglicht nun die direkte Nutzung von Kafka in R, ohne Umweg über Python Features: Consumer/Producer-Modelle, asynchrone Datenverarbeitung, hohe Performance und Ausfallsicherheit Ausblick: Veröffentlichung auf CRAN, Admin-Client für Cluster-Management, Blogartikel mit Beispiel (siehe unten in den Links) Links Apache Kafka https://kafka.apache.org/ Confluent https://www.confluent.io/ Rcpp (CRAN) https://cran.r-project.org/web/packages/Rcpp/index.html reticulate (CRAN) https://cran.r-project.org/web/packages/reticulate/index.html R Paket kafka auf GitHub https://github.com/INWTlab/r-kafka Blogartikel zum R Paket kafka https://www.inwt-statistics.de/blog/r-paket-kafka nats https://nats.io/ Azure EventHub https://azure.microsoft.com/de-de/products/event-hubs Redpanda https://www.redpanda.com/ Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
	16 Feb 2023	#18: Big Data Erfolgsgeschichten	00:39:26
In dieser Episode erforschen wir 3 vermeintliche Erfolgsgeschichten von Big Data. Wir diskutieren die Herausforderung solche Geschichten richtig zu interpretieren und welche Fragen man sich in diesem Bezug eigentlich stellen sollte. Links: inwt Blog https://www.inwt-statistics.de/blog/tag/Big-Data.html Episode #1: Big Data Hype https://www.podbean.com/ew/pb-dgbkn-12350e3 Big Five (Fünf-Faktoren-Modell) https://de.wikipedia.org/wiki/Big_Five_(Psychologie) Google Flu Trendshttps://en.wikipedia.org/wiki/Google_Flu_Trends Target Story: How companies Learn Your Secrets by Charles Duhigg https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html Cambridge Analytica https://de.wikipedia.org/wiki/Cambridge_Analytica Ingo Dachwitz - netzpolitik.org - Abschlussbericht der Datenschutzbehörde: Nein, der Cambridge-Analytica-Skandal fällt nicht in sich zusammen https://netzpolitik.org/2020/abschlussbericht-der-datenschutzbehoerde-nein-der-cambridge-analytica-skandal-faellt-nicht-in-sich-zusammen/ Der Fall Cambridge Analytica - WDR https://www.ardmediathek.de/video/planet-wissen/der-fall-cambridge-analytica/wdr/Y3JpZDovL3dkci5kZS9CZWl0cmFnLTY5N2RmYTYwLTA1ZTktNGY0Ni1hZTg1LWQyYmY0Njk1YTNmNw
	09 Nov 2023	#35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida	00:45:59
Wie unterscheiden sich eigentlich Machine Learning Projekte von "herkömmlicher" Softwareenwicklung und welche Herausforderungen bieten sie? Darüber unterhält sich Amit mit Philipp Jackmuth, dem Gründer von dida, der übrigens auch unser Büronachbar ist. Philipp teilt anhand eines Anwendungsfalls im Bereich Natural Language Processing wichtige Erfolgsfaktoren, darunter Metriken, Modularität und den Umgang mit Blackbox-Modellen. * Links * - inwt Website https://www.inwt-statistics.de/ - dida Website https://dida.do/de - dida bei LinkedIn https://www.linkedin.com/company/dida-machine-learning/ - Philipp Jackmuth bei LinkedIn https://www.linkedin.com/in/philipp-jackmuth/
	07 Mar 2024	#42: Frontends in Data Science: Welches Visualisierungstool ist das Richtige?	00:28:40
Welches das richtige Visualisierungstool ist, hängt stark vom Projekt und auch vom Team ab. Wir erkunden drei Ansätze – interne Umgebungen wie Python Dash oder R Shiny, Dashboard-Tools wie Grafana und Redash, sowie Eigenentwicklung mit JS-Frameworks wie VueJs oder React – und wie sie sich in Bezug auf Entwicklungsgeschwindigkeit, Anpassungsfähigkeit und Skalierbarkeit unterscheiden. Auf dieser Grundlage geben wir eine Entscheidungshilfe, welcher dieser Ansätze "der Richtige" für ein Projekt ist. *Links* Dash: https://dash.plotly.com/ Shiny: https://shiny.posit.co/ Vue.js: https://vuejs.org/ Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
	11 Jan 2024	#38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen	00:26:12
Wir zeigen, wie Echtzeitprognosen trotz eines komplexen Modells im Hintergrund möglich gemacht werden können. In vielen Anwendungsfällen, wie in der Finanzbranche oder bei der Betrugserkennung, ist es entscheidend, dass Prognosen schnell und präzise sind, um innerhalb von Sekunden eingreifen zu können. Wir gehen auf die technischen und modellseitigen Herausforderungen dabei ein und geben Tipps, an welchen Stellschrauben auf Seite der Architektur gedreht werden kann. * Links * - inwt Website: https://www.inwt-statistics.de/
	21 Mar 2024	#43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage	00:41:55
Zwei Herausforderungen bei der Zuverlässigkeit von Prognosen im Live-Betrieb sind Overfitting (Modell ist zu stark an Trainingsdaten angepasst) und Data Leakage (Modell verfügt über Informationen, die es in der realen Anwendung nicht hat). Wir sprechen darüber, was Overfitting und Data Leakage genau sind und wo ihre Ursachen liegen. Außerdem diskutieren wir Lösungsansätze. Links: Spurious Correlations: https://www.tylervigen.com/spurious-correlations inwt Website: https://www.inwt-statistics.de/
	17 Aug 2023	#30: Agile Softwareentwicklung im Data-Science-Kontext	00:35:07
Auch Data Scientists schreiben Software. In diesem Kontext können wir nur empfehlen sich mit dem agilen Manifest auseinanderzusetzen. Die 12 Prinzipien dahinter fassen wir in dieser Episode auf und erklären, was wir darunter verstehen und wie wir sie anwenden. Links: - Prinzipien hinter dem Agilen Manifest https://agilemanifesto.org/iso/de/principles.html
	26 Jan 2024	#39: Death by Microservices	00:50:19
Und nun lebe der Monolith? Während Microservices als State-of-the-Art gelten, beobachten wir auf Konferenzen teils gegenläufige Bewegungen zurück zu Monolithen. Gründe dafür sind vor allem die steigende Komplexität durch verteilte Systeme, Dateninkonsistenz und Abhängigkeiten zwischen verschiedenen Komponenten. Wir diskutieren die aktuelle Kritik an Microservices und gehen der Frage auf den Grund, ob und wann der Wechsel zu Monolithen sinnvoll ist. *Links:* - denodo https://www.denodo.com/de - YouTube: Microservices by KRAZAM https://www.youtube.com/watch?v=y8OnoxKotPQ - YouTube: When To Use Microservices (And When Not To!) • Sam Newman & Martin Fowler • GOTO 2020 https://www.youtube.com/watch?v=GBTdnfD6s5Q - YouTube: Don’t Build a Distributed Monolith - Jonathan "J." Tower - NDC London 2023 https://www.youtube.com/watch?v=p2GlRToY5HI - inwt Website: https://www.inwt-statistics.de/
	18 Aug 2022	#7: Data Culture	01:04:01
Die Kultur in einem Unternehmen ist ein latentes, organisch gewachsenes Gebilde. Und so schwer sie zu greifen oder zu beeinflussen ist, so wichtig ist sie für den Erfolg von Data Science Projekten. Doch warum spielt sie eine solch enorme Rolle und was macht denn eigentlich eine fruchtbare Data Culture aus? Wie kann man einen Kulturwandel anstoßen?
	22 Jun 2022	#3: Statistik vs. Data Science	00:44:38
Ist Data Science nur ein hipper Begriff für Statistik? In dieser Episode sprechen Amit und Sebastian über den Werdegang bei inwt von der Statistik hin zu Full Stack Data Science. Wir decken auf was hinter den Begriffen "Statistik" und "Data Science" steckt und klären wer im Kampf der Daten um Relevanz eigentlich die Nase vorne hat.. Schaut euch unbedingt das Video von Baba Brinkman auf YouTube an! Links: Data Science - Baba Brinkman Music Video auf YouTube Data Science Mengendiagramm von Drew Conway: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
	16 Mar 2023	#20: Ist Continuous Integration (CI) ein Muss für Data Scientists?	00:45:57
Continuous Integration (CI) ist zwar ein Konzept aus der Softwareentwicklung, aber aus dem Bereich Data Science nicht mehr wegzudenken. Wir diskutieren wie wichtig CI für Data Scientists ist und wie es genutzt werden kann um Data Science Workflows zu verbessern.
	18 Apr 2024	#45: Data Science bei 1&1 Versatel – Dr. Stephan Hausberg im Gespräch über den Aufbau von Data Teams	00:49:29
Wie baue ich ein Data Team auf? Wie kriege ich beim Hiring the richtigen Leute? Und wie fördere ich eine gute Fehlerkultur? All diesen Fragen ist Dr. Stephan Hausberg, Head of Data Science und Business Analytics bei 1&1 Versatel, in den letzten Jahren begegnet. In diesem Interview lässt er uns an seinen Learnings teilhaben. Enjoy! Links Buch: Story Telling with Data https://www.storytellingwithdata.com/books Stephan Hausberg auf LinkedIn: https://www.linkedin.com/in/dr-stephan-hausberg-679750118/ Mira Céline Klein auf LinkedIn: https://www.linkedin.com/in/mira-celine-klein-848753264/ Feedback & Themenwünsche gern an: podcast@inwt-statistics.de Website inwt: https://www.inwt-statistics.de/
	25 May 2022	#1: Big Data Hype	00:38:02
In dieser Episode reden Amit und Sebastian über den Big Data Hype, in dessen Anfängen das Berufsbild des Data Scientist entstand. Hier erfährst du: was Big Data eigentlich genau ist, wie es zu dem Hype kam und was daraus geworden ist. Links 3V Definition: https://www.inwt-statistics.de/blog-artikel-lesen/Big_Data_vs_Smart_Data.html Hypothesengenerierung aus der Datenmenge: https://www.wired.com/2008/06/pb-theory/ Hype-Zyklus: https://de.wikipedia.org/wiki/Hype-Zyklus Unsere Blogartikel zum Thema "Big Data": https://www.inwt-statistics.de/blog/tag/Big-Data.html
	10 Nov 2022	#11: Real Time Analytics	00:42:13
Bei vielen Unternehmen fallen Daten bereits in Echtzeit in der Datenbank an, aber Real Time Analytics ist noch die Ausnahme. Was genau bedeutet Real Time Analytics und was für Implikationen hat es auf die Architektur? Lohnt es sich Real Time Analytics zu implementieren? Links: Emerging Architectures for Real-Time Analytics in Applications: https://softwareengineeringdaily.com/2021/06/15/emerging-architectures-for-real-time-analytics-in-applications/ How Uber scaled its Real Time Infrastructure to Trillion events per day: https://www.youtube.com/watch?v=K-fI2BeTLkk
	03 Aug 2022	#6: Statistik vs. Machine Learning	00:44:32
Hat die Statistik so langsam ausgedient? Dass der Begriff der "Statistik" angestaubt ist, steht außer Frage. Und obwohl es durchaus Gemeinsamkeiten zwischen Statistik und Machine Learning gibt, so liegt der Teufel doch wie immer im Detail. Wir decken auf, welche Unterschiede es gibt und klären, ob Machine Learning die Statistik abgelöst hat. Links: Tyler Vigen - Spurious Correlations Buch Download: An Introduction to Statistical Learning In-depth introduction to machine learning in 15 hours of expert videos Baba Brinkman - Data Science Music Video
	02 Mar 2023	#19: Data Science und Story Telling	00:29:36
Im Anschluss an unsere letzte Episode über Big Data Erfolgsgeschichten, möchten wir heute darüber sprechen, wie man Ergebnisse von Predictive Analytics Projekten richtig kommunizieren kann. Wir diskutieren die Schlüsselelemente einer guten Geschichte und untersuchen, wie man Story Telling mit der Präsentation von objektiven Modellergebnissen zusammen bringen kann. Zum Schluss gibt es noch Tipps, wie Datenvisualisierungen zur Unterstützung einer Erzählung eingesetzt werden können. Links: Episode #18: Big Data Erfolgsgeschichten https://inwt.podbean.com/e/18-big-data-erfolgsgeschichten/ Episode #12: Use Case - Luftschadstoffprognose für Berlin https://inwt.podbean.com/e/12-use-case-luftschadstoffprognose-fur-berlin/ Die vorgestellten Konzepte basieren auf dem Buch von Claus Wilke: "Fundamentals of Data Visualization":https://clauswilke.com/dataviz/ Screenshot der Karte: Unterschätzung der Schadstoffbelastung am Passivsammler Hermannplatz https://i.imgur.com/1t75Ryf.png
	17 Apr 2025	#70: Der Aufstieg zur Datenreife – Stufe für Stufe zur Data Maturity	00:46:07
Wie datenreif ist dein Unternehmen eigentlich? Wir sprechen über die fünf Stufen der Data Maturity – von manueller Datensammlung bis zur KI als Teil der Unternehmenskultur. Dabei geht es auch um die Rolle der Organisation, warum viele beim „Death by Dashboards“ hängenbleiben und wie man echte Fortschritte macht. Und wir diskutieren, welche Abkürzungen auf diesem Weg funktionieren – und welche eher nach hinten losgehen. Zusammenfassung Data Maturity Skala: Fünf Stufen von manueller Datennutzung bis zu datengetriebener Kultur mit AI/ML – viele Unternehmen stecken noch in den unteren Bereichen fest Organisationskultur als Schlüssel: Kultur bestimmt maßgeblich, wie datenreif ein Unternehmen wird – HiPPO-Denke (Highest Paid Person's Opinion), Risikoaversion und fehlende Offenheit sind häufige Bremsklötze Typische Hürden: Datensilos, fehlendes Qualitätsbewusstsein, "Death by Dashboards" und Projekte ohne echten Erkenntnisgewinn Aufbau von Datenreife: Kombination aus Top-Down-Initiativen und Bottom-up-Leuchtturmprojekten, ergänzt durch agile Vorgehensweise PoC → MVP → Produkt: Datenprojekte sollten in kurzen, klar umrissenen Phasen geplant und bei fehlendem Nutzen auch konsequent gestoppt werden Abkürzungen und Workarounds: Externe Daten, simulierte Daten oder cloudbasierte Infrastruktur können helfen – bergen aber auch Risiken für Aussagekraft und Akzeptanz Data Mesh & Self-Service BI: Nur sinnvoll bei entsprechender Datenkultur – sonst droht mehr Chaos als Erkenntnisgewinn Links Maturity Model mit 5 Stufen von Gartner: Gartner Survey Shows Organizations Are Slow to Advance in Data and Analytics https://www.gartner.com/en/newsroom/press-releases/2018-02-05-gartner-survey-shows-organizations-are-slow-to-advance-in-data-and-analytics #61: Technologische Must-Haves: Unser Survival-Guide für Data-Science-Projekte https://www.podbean.com/ew/pb-k6fx5-175ea51 #36: Der Data Mesh Hype und was davon bleibt https://www.podbean.com/ew/pb-7er7v-15080c1 Feedback, Fragen oder Themenwünsche gern an podcast@inwt-statistics.de
	20 Jul 2022	#5: Data Warehouse vs. Data Lake vs. Data Mesh	01:00:50
Es gibt viele spannende Technologien um Daten zu halten und zu bewegen. Wenn man noch keine Data Plattform oder Data Warehouse hat, welchen Ansatz sollte man dann verfolgen? Wir sprechen über: SQL-Datenbanken BI Cubes Data Warehouses Data Lakes Data Mesh Links: Amazon Web Services - Was ist ein Data Lake? Data Mesh and Lakehouse - Matei Zaharia, Databricks
	18 Jul 2024	#51: Wer rastet, rostet: Die Rolle von Weiterbildung in Data Science	00:46:22
Data Science entwickelt sich ständig und schnell weiter, was kontinuierliche Weiterbildung unerlässlich macht. In dieser Episode diskutieren wir, wie Arbeitgeberinnen ihre Mitarbeitenden unterstützen können und welche organisatorischen und projektbezogenen Formate sich für uns als effektiv erwiesen haben. Zudem sprechen wir über private Fortbildungsmaßnahmen und geben Tipps zur Auswahl geeigneter Kurse und Konferenzen. Links* Data Culture Podcast von BARC (deutsch): https://barc.com/de/the-data-culture-podcast/ The MLOps Podcast (english): https://podcast.mlops.community/ Practical AI (english): https://changelog.com/practicalai Software Engineering Radio Podcast (english): https://se-radio.net/ Data Engineering Podcast (english): https://www.dataengineeringpodcast.com/ Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
	15 Aug 2024	#53: Agilität à la carte: Das Agile Fluency Model mit Dr. Wolf-Gideon Bleek	01:12:58
In dieser Episode von Data Science Deep Dive sprechen Mira und Wolf-Gideon über das Agile Fluency Model und dessen Bedeutung im Data-Science-Kontext. Im Fokus stehen die verschiedenen Stufen der Agilität sowie die damit verbundenen Vorteile und notwendigen Investitionen. Wolf-Gideon erklärt, wie man den optimalen Agilitätsgrad für ein Team ermittelt und welche Praktiken dabei relevant sind. *Links* Buch von Henning Wolf und Wolf-Gideon Bleek (2010): Agile Softwareentwicklung: Werte, Konzepte und Methoden (ISBN: 978-3-89864-701-4) it-agile Webseite https://www.it-agile.de/ Mehr Infos zu Wolf-Gideon Bleek auf der Seite von it-agile: https://www.it-agile.de/ueber-it-agile/das-team/dr-wolf-gideon-bleek/ Manifest für Agile Softwareentwicklung https://agilemanifesto.org/iso/de/manifesto.html Agile Fluency Project (EN) https://www.agilefluency.org/ Artikel: The Agile Fluency Model - A Brief Guide to Success with Agile von James Shore & Diana Larsen (EN) https://martinfowler.com/articles/agileFluency.html Buch: Company-wide Agility with Beyond Budgeting, Open Space & Sociocracy von Jutta Eckstein & John Buck https://www.agilebossanova.com/ Feedback, Fragen oder Themenwünsche? Schreib uns gern an podcast@inwt-statistics.de
	13 Apr 2023	#22: Sind Makro-Prognosen in Zeiten von Strukturbrüchen noch sinnvoll?	00:41:47
Wir untersuchen, wie sich Strukturbrüche wie Corona und der Ukraine Krieg sowie anhaltende Unsicherheit auf die Prognose makroökonomischer Zielgrößen auswirken. Anlass dafür ist der Financial Times Artikel "CEOs forced to ditch decades of forecasting habits" über Ikea. Wir diskutieren, wie man Makro-Prognosen nutzen kann, um auch in diesen unsicheren Zeiten einen wirtschaftlichen Mehrwert zu erzielen, und welche Rolle Expertise und Plausibilitätschecks bei der Modellierung spielen. Links: Financial Times Artikel: CEOs forced to ditch decades of forecasting habits von Anne-Sylvaine Chassany https://www.ft.com/content/456baa69-83df-4c7f-af7b-49e6451a1183 Prophet von Facebook https://facebook.github.io/prophet/
	05 Jan 2023	#15: Data Science Architektur: Microservices vs. Data Mesh	00:49:01
In dieser Episode beschäftigt uns die Frage, wie eine optimale Service-Architektur für Daten-Produkte aussehen kann. Wir vergleichen Microservices mit dem neuen Trend hin zu einem Architekturstil, der auf der Data Mesh Organisationsform beruht ("Data Services"). Links: Definition Microservice: https://martinfowler.com/articles/microservices.html Beispiel Microservice: https://microservices.io/patterns/microservices.html Data Mesh – Original Artikel: https://martinfowler.com/articles/data-mesh-principles.html Data Mesh - Architektur Chart: https://www.datamesh-architecture.com/#how-to-design-a-data-mesh "Microservices" video by KRAZAM: https://www.youtube.com/watch?v=y8OnoxKotPQ
	06 Mar 2025	#67: "It works on my machine" war gestern – Docker Best Practices für Data Science	00:34:53
Dieser Satz "it works on my machine" hat IT-Teams und Data Scientists lange Nerven gekostet. Früher war Deployment ein mühsames Zusammenspiel aus Setup-Anleitungen, inkompatiblen Umgebungen und endlosen Rückfragen. Docker bringt endlich Ordnung ins Chaos: Anwendungen laufen isoliert, reproduzierbar und unabhängig vom Host-System. Warum Containerisierung für Data Science ein echter Gamechanger ist und welche Best Practices du kennen solltest, erfährst du in dieser Folge! Zusammenfassung Früher war Deployment umständlich: lange Setup-Anleitungen, inkompatible Umgebungen, viele Rückfragen Virtuelle Maschinen haben das Problem teilweise gelöst, sind aber ressourcenintensiv und unflexibel Data Scientists arbeiten oft mit R/Python, was IT-Abteilungen vor Herausforderungen stellt Fehlende Reproduzierbarkeit führt zu Stress, Verzögerungen und hohem Kommunikationsaufwand Docker schafft eine standardisierte, isolierte und reproduzierbare Umgebung für Anwendungen Container laufen direkt auf dem Host-OS, sind schlanker als VMs und starten schneller Mit Dockerfiles lassen sich Umgebungen als Code definieren und automatisch deployen Best Practices: schlanke Base-Images, .dockerignore, nur benötigte Abhängigkeiten installieren Automatisierung mit CI/CD-Pipelines beschleunigt den Entwicklungs- und Deploy-Prozess Containerisierung ist für moderne Data-Science-Workflows unverzichtbar und spart IT sowie Data Science viel Zeit Links Offizielle Docker Dokumentation https://docs.docker.com/ Docker Hub https://hub.docker.com/ [Blog] Die Welt der Container: Einführung in Docker https://www.inwt-statistics.de/blog/die-welt-der-container-einfuehrung-in-docker [Podcast] #14: Kubernetes https://www.podbean.com/ew/pb-m5ggz-13454c7 [Podcast] #59: Besser mit Helm: komplexe Deployments einfach(er) umsetzen https://www.podbean.com/ew/pb-txhnf-17314de [Video] Solomon Hykes stellt Docker vor (2013) "The future of Linux Containers" https://www.youtube.com/watch?v=wW9CAH9nSLs&t=158s Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
	19 Jan 2023	#16: Sind Daten das neue Öl?	00:30:56
In dieser Episode diskutieren wir einen Artikel von Dr. Paul von Bünau und Dr. Sven Jungmann im Tagesspiegel Background mit dem Titel "Daten sind nicht das neue Öl". Wir greifen die Argumente des Artikels auf und zeigen unsere Sicht auf die vorgestellten Punkte. Link zum Artikel: https://background.tagesspiegel.de/gesundheit/daten-sind-nicht-das-neue-oel
	11 Jul 2024	Ankündigung: Unser Podcast bekommt einen neuen Namen!	00:01:52
Ab der nächsten Episode ist "In Numbers We Trust - Der Data Science Podcast" Geschichte. Wir benennen unseren Podcast um in "Data Science Deep Dive". Aber keine Sorge, ansonsten wird sich nichts ändern. Auf die nächsten 50 Episoden! Vielen Dank an alle treuen Hörer*innen und herzlich willkommen an alle, die neu dabei sind. Wir sind INWT und wir machen Data Science, von der ersten Idee bis zum fertigen Produkt, und in diesem Podcast sprechen wir darüber. Es ist unser Anspruch, Data Science-Themen tiefgehend zu besprechen und praxisorientiert zu vermitteln. Wir sprechen über alles, was wir spannend finden, mit Leuten, die wir kennen und mögen. Wir freuen uns, wenn ihr auch beim Data Science Deep Dive mit dabei seid! Und wie immer könnt ihr eure Fragen, Anmerkungen und Themenwünsche gern an podcast@inwt-statistics.de schreiben.
	24 Nov 2022	#12: Use Case - Luftschadstoffprognose für Berlin	00:31:24
In dieser Episode berichten wir über ein aktuelles Projekt für die Senatsverwaltung für Umwelt, Mobilität, Verbraucher- und Klimaschutz (SenUMVK). Hierbei geht es um die Vorhersage der Luftschadstoffbelastung (NO2, PM2.5, PM10) in Berlin. Auf einem 50 x 50m Raster über Berlin erstellen wir für jede Zelle stündliche Prognosen für jeden der 3 Schadstoffe. Wir erzählen euch etwas über die zugrunde liegenden Daten und den Modellierungsansatz und berichten über Lessons Learned in diesem Projekt. Artikel auf der Seite des übergeordneten eUVM-Projektes: https://testfeldstadtverkehr.berlin/prognose-von-luftschadstoffen-in-berlin/
	21 Nov 2024	#60: Job-Sicherheit als Data Scientist: Personalentwicklung in Zeiten von AI	00:41:44
Die glorreichen Zeiten des Data Scientist scheinen vorbei zu sein – oder doch nicht? Warum stagnieren die Jobangebote? Und wie passt GenAI ins Bild? Wir sprechen über die neuen Herausforderungen am Arbeitsmarkt, was Unternehmen und Jobsuchende jetzt tun sollten, und warum Data Engineers irgendwie sexy, aber nie so richtig hot waren. Spoiler: Flexibilität und Generalismus sehen wir als wichtige Eigenschaften für die Zukunft! *Links* #4: Job-Profile & Arbeitsmarkt https://www.podbean.com/ew/pb-aurkr-126887d https://de.wikipedia.org/wiki/Hype-Zyklus Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
	02 Feb 2023	#17: Use Case - Kundensegmentierung	00:46:42
Im Online Marketing und Customer Relation Management kann man nicht alle Kundinnen über einen Kamm scheren, aber sich auch nicht um jede Kundin individuell kümmern. Der goldene Mittelweg ist die Kundensegmentierung, über die wir in dieser Episode ausführlich sprechen. Sie erlaubt eine optimale Aussteuerung von Werbemitteln und zeitlichen Ressourcen während Kund*innen gezielt und bedürfnisgerecht adressiert werden können. Links: Business Case Kundensegmentierung: https://www.inwt-statistics.de/business-cases/kundensegmentierung.html White Paper Download https://www.inwt-statistics.de/business-cases/kundensegmentierung.html?file=files/INWT/downloads/white_paper/INWT_White_Paper_Kundensegmentierung.pdf
	26 Oct 2023	#34: Was ist Attribution im Online Marketing und lohnt sie sich noch?	00:50:47
Mit Attribution kann das Marketingbudget effektiv und zielgerichtet eingesetzt werden. Damit kann die Wirkung von Werbemaßnahmen auf Mikroebene gemessen und diese Erkenntnisse zur Maximierung des ROI genutzt werden. Wir sprechen über Datenbasis und mögliche Kontaktpunkte einer Attribution, aktuelle Herausforderungen, wie beispielsweise Cross Device & DSGVO, Ansätze zur Attribution, von Heuristiken wie Last Contact bis hin zu statistischen Ansätzen wie logistische Regression und Survival Modelle. * Links * inwt Website https://www.inwt-statistics.de/ inwt bei LinkedIn https://www.linkedin.com/company/inwt-statistics/mycompany/ White Paper zum Thema Attribution "Von einfachen Heuristiken zu optimalen datengetriebenen Modellen" https://www.inwt-statistics.de/blog/white_paper_attribution
	23 Nov 2023	#36: Der Data Mesh Hype und was davon bleibt	00:53:10
Data Mesh ist eine innovative Herangehensweise an die Organisation von Daten in Unternehmen. Dabei ist jedes Team für die eigenen Daten und Datenprodukte verantwortlich. Wir beleuchten die vier Prinzipien des Data Mesh (Domain Ownership, Data as a Product, Self-Serve Data Platform und Federated Computational Governance). Zum Schluss stellen wir uns die Frage, welche Eigenschaften eine Plattform mitbringen muss, um ein Data Mesh effektiv zu unterstützen, und ob dieser Hype einen Kulturwandel auslösen wird oder Theorie bleibt. *Links:* - inwt Website: https://www.inwt-statistics.de/ - Blog: Data Mesh Principles and Logical Architecture by Zhamak Dehghani https://martinfowler.com/articles/data-mesh-principles.html - Talk: Data - The land DevOps forgot by Michael Nygard https://www.youtube.com/watch?v=459-H33is6o - Blog: How to select technology for Data Mesh by Ryan Dawson https://www.thoughtworks.com/insights/blog/data-strategy/how-to-select-technology-data-mesh - White Paper: Simplifying Data Mesh for Self-Service Analytics on an Open Data Lakehouse by Mike Ferguson https://hello.dremio.com/wp-simplifying-data-mesh-on-data-dakehouse-reg.html - White Paper: How to Knit Your Data Mesh on Snowflake https://snowflake.hub.hushly.com/data-mesh-stream/how-to-knit-your-data-mesh-on-snowflake
	16 Sep 2024	#55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch	00:42:35
Warum ist XGBoost seit Jahren das Tool der Wahl, wenn es um tabulare Daten geht? Mira spricht zusammen mit Matthäus Deutsch darüber, warum XGBoost State of the Art ist und was es so erfolgreich macht. Außerdem: Wie schlägt sich XGBoost im Vergleich zu Deep Learning? Und gibt es überhaupt bessere Alternativen? Links Kaggle AI Report 2023: https://storage.googleapis.com/kaggle-media/reports/2023_Kaggle_AI_Report.pdf?trk=public_post_comment-text XGBoost Documentation: https://xgboost.readthedocs.io/en/stable/ Hastie, T.; Tibshirani, R. & Friedman, J. (2009), The elements of statistical learning: data mining, inference and prediction , Springer (ISBN: 0387848576)
	04 Apr 2024	#44: Lineare Regression in der Praxis – Oldie oder Goldie?	00:40:34
Ist die lineare Regression nicht nur längst überholtes Zeug aus der Statistik 1 Vorlesung? Trotz ihrer vermeintlichen Einfachheit ist sie ein wichtiges Werkzeug in der Data Science. Ein Werkzeug das oft unterschätzt wird. Wir diskutieren wann lineare Regression zum Einsatz kommt, ihre Grenzen, Alternativen und Beispiele aus der Praxis. Links: [Blog] Einfache lineare Regression: https://www.inwt-statistics.de/blog/einfache_lineare_regression [Blog] Multiple lineare Regression: https://www.inwt-statistics.de/blog/multiple_lineare_regression [Blog] Beispielregression - Zunge vs. Zahlen: https://www.inwt-statistics.de/blog/beispielregression_zunge_vs_zahlen Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
	07 Nov 2024	#59: Besser mit Helm: komplexe Deployments einfach(er) umsetzen	00:18:00
Helm auf und los geht’s! In dieser Episode zeigen wir euch wie wir ein Fraud-Detection-Projekt mit komplexen Deployments mithilfe von Kubernetes und Helm in den Griff bekommen haben – Spoiler: Copy-Paste hatte hier keine Chance! ;) Warum Helm ein Gamechanger für eure Kubernetes-Configs sein kann und was es mit diesen ominösen Charts auf sich hat, erfahrt ihr hier. Für alle, die mehr Ordnung im Deployment-Chaos suchen, ist das die perfekte Folge. *Links* #14: Kubernetes https://www.podbean.com/ew/pb-m5ggz-13454c7 #28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten https://www.podbean.com/ew/pb-we2f3-145e5fe #38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen https://www.podbean.com/ew/pb-u5qsn-1548784 https://helm.sh/ https://kubernetes.io/ https://argo-cd.readthedocs.io/en/stable/ Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
	02 May 2024	#46: Strategien zur Performance-Optimierung in R	00:24:46
R ist keine Compilersprache und damit von Natur aus eher langsam. Wir sprechen darüber wie man die Performance von R Code optimieren kann und welche spezifischen Herausforderungen R dabei mit sich bringt. Wir besprechen Methoden, um Engpässe im Code effizient zu identifizieren, darunter Tools wie system.time, microbenchmark und profvis. Anschließend teilen wir Techniken für die Arbeit mit großen Datensätzen und die Parallelisierung. Wir zeigen wie durch gezielte Optimierung erhebliche Performance-Verbesserungen erzielt werden können. *Links:* Episode #41: Strategien zur Performance-Optimierung in Python https://www.podbean.com/ew/pb-weg8d-158cd71 Blogartikelserie zu Code Performance in R: R-Code beschleunigen https://www.inwt-statistics.de/blog/code-performanz-in-r-r-code-beschleunigen Warum ist mein Code langsam? https://www.inwt-statistics.de/blog/code-performanz-in-r-warum-ist-mein-code-langsam Parallelisierung https://www.inwt-statistics.de/blog/code-performanz-in-r-parallelisierung Mit großen Datensätzen arbeiten https://www.inwt-statistics.de/blog/code-performanz-in-r-mit-grossen-datensaetzen-arbeiten Rccp: https://www.rcpp.org/ Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de
	03 Apr 2025	#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch	00:47:22
AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie richtig? Wir sprechen über die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos führen und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. Matthäus Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative Ansätze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. Außerdem: welche Metriken wirklich zählen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verändert. Zusammenfassung AI Agents erweitern klassische Chatbots im Kundenservice, insbesondere im Telefonbereich, durch GenAI-basierte, dynamische Lösungen Parloa demonstriert flexible Plattformintegrationen und den Einsatz von Evaluationsmethoden wie assertion-based Testing und Simulationen Die Evaluation von AI Agents erfordert spezielles Benchmarking auf Plattform- und individueller Ebene Typische Herausforderungen sind Integrationsprobleme, fehlerhafte API-Calls und unzureichendes Instruction Following Tests erfolgen sowohl auf Konversationsebene als auch durch deterministische Ansätze und LLMs als Judge Es müssen komplexe Metriken und Trade-offs beachtet werden, wobei häufig binäre Testansätze aggregiert werden Schnelle Updates auf neue Modellversionen sind möglich, allerdings steigen langfristig die Kosten durch umfangreiche Testzyklen Innovationen wie optimierte Speech-to-Speech-Technologien und Open-Source-Lösungen (z. B. DeepSeek) bieten Potenzial zur Kostenreduktion Der Einsatz von Operatoren-Modellen und Tool-Integrationen ermöglicht auch die Anbindung an Legacy-Systeme, z.B. SAP Ziel ist es, den Automatisierungsanteil im Kundenservice zu erhöhen und eine Balance zwischen bewährter Qualität und neuen Features zu finden Links Matthäus Deutsch auf LinkedIn: https://www.linkedin.com/in/matth%C3%A4us-d-928864ab/ Parloa Contact-Center-AI-Plattform https://www.parloa.com/de/ Stellenangebote bei Parloa https://www.parloa.com/company/careers/#jobs #55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch https://www.podbean.com/ew/pb-6gvc6-16d5018 #64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen? https://www.podbean.com/ew/pb-m5qr2-17c425d heise online: "Aromatisches" Chloramingas, Eintopf aus Menschenfleisch: KI-Rezepte irritieren https://www.heise.de/news/Aromatisches-Chlorgas-Eintopf-aus-Menschenfleisch-KI-irritiert-mit-Rezepten-9242991.html Feedback, Fragen oder Themenwünsche gern an podcast@inwt-statistics.de
	04 Jul 2024	#50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost?	00:38:44
Wir lassen GPT3.5 Turbo und XGBoost bei der Prognose einer metrischen Zielvariablen gegeneinander antreten. Dafür haben wir von LOT Internet Fahrzeugdaten aus dem Portal mobile.de bereitgestellt bekommen, um zu sehen, wer bei der Prognose des Fahrzeugpreises die Nase vorn hat. Zudem besprechen wir das Finetuning und gehen auch darauf ein, wie LLMs und XGBoost kombiniert werden können. *Links* Blogartikel: Predictive LLMs: Kann GPT-3.5 die Prognosen von XGBoost verbessern? https://www.inwt-statistics.de/blog/predictive-llms-kann-gpt-xgboost-prognosen-verbessern #27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen? https://inwt.podbean.com/e/27-kann-ein-large-language-model-llm-bei-der-klassifikation-tabellarischer-daten-xgboost-schlagen/ OpenAI API: https://platform.openai.com/docs/introduction LLMs für Prognosen auf tabularen Daten zu nutzen, ist wenig erforscht. Wenn es probiert wurde, geht es meistens um Klassifikation, also keine metrische Zielvariable. Ein oft zitiertes Paper hierzu ist dieses: TabLLM: Few-shot Classification of Tabular Data with Large Language Models (Stefan Hegselmann, Alejandro Buendia, Hunter Lang, Monica Agrawal, Xiaoyi Jiang, David Sontag Proceedings of The 26th International Conference on Artificial Intelligence and Statistics, PMLR 206:5549-5581, 2023.) https://proceedings.mlr.press/v206/hegselmann23a/hegselmann23a.pdf Till mit seinem Song In My Fantasy auf YouTube: https://www.youtube.com/watch?v=MU3oyJ1WR1U
	06 Jul 2023	#27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen?	00:39:26
Wir diskutieren den Einsatz von Large Language Models (LLMs) zur Klassifikation tabellarischer Daten, ein bis dato eher unerforschtes Anwendungsfeld. Wir vergleichen die Leistung eines LLMs mit der von XGBoost in einem Projekt zur Vorhersage von Churn. Obwohl XGBoost noch die Nase vorn hat, zeigt das LLM bemerkenswerte Ergebnisse. Wir beleuchten die technische Umsetzung, Herausforderungen sowie Potenziale, und geben einen Ausblick auf die Entwicklung dieses spannenden Anwendungsfeldes. Links: OpenAI Fine-Tune for Classification Example: https://github.com/openai/openai-cookbook/blob/main/examples/Fine-tuned_classification.ipynb TabLLM Paper: https://arxiv.org/abs/2210.10723 Dataset: https://www.kaggle.com/datasets/datazng/telecom-company-churn-rate-call-center-data Large Language Models in Production Conference: https://home.mlops.community/public/events/llm-in-prod-part-ii-2023-06-20
	01 Aug 2024	#52: In-process Datenbanken und das Ende von Big Data	00:41:04
In dieser Episode sprechen wir über die in-process Datenbank DuckDB, die im Juni Version 1.0.0 erreicht hat und einen innovativen Ansatz verfolgt. DuckDB wird direkt aus dem Code heraus gestartet und benötigt keine Berechtigungen oder User-Management, was an SQlite erinnert. Außerdem beleuchten wir die These, dass die "Big Data" Ära vorbei ist, warum das so ist und was das eigentlich mit DuckDB zu tun hat. *Links* DuckDB: https://duckdb.org/ MotherDB: https://motherduck.com/ Blog: Big Data is Dead by Jordan Tigani https://motherduck.com/blog/big-data-is-dead/ Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
	01 Sep 2022	#8: Use Case - Customer Lifetime Value (CLV)	00:46:27
Der Customer Lifetime Value (CLV) ist eine bekannte Kennzahl im Bereich Online Marketing. Wir schauen hinter die Kulissen und zeigen wie wir ein CLV-Projekt umsetzen und was das eigentlich mit Data Science zu tun hat. Was genau misst der CLV, wie wird er berechnet und was ist zu beachten? White Paper zum Thema Customer Lifetime Value (CLV): Download: Der Kundenlebenswert als zentrale Kennzahl für die unternehmensseitige Aussteuerung der Kundenbeziehung
	31 Aug 2023	#31: Ist R eigentlich tot?	00:45:29
Vor 10 Jahren haben noch alle Mitarbeitenden bei INWT in R programmiert, heute ist das anders. Python läuft R den Rang ab. Wir reflektieren über die Unterschiede der beiden Programmiersprachen und versuchen eine Einschätzung darüber zu geben, wie es mit R weitergehen wird.
	26 Sep 2024	#56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025?	00:25:16
Vor der Bundestagswahl 2017 haben wir begonnen, ein Prognosemodell für den Wahlausgang zu entwickeln – und seitdem ständig verbessert. Heute präsentieren wir täglich aktualisierte Prognosen, die Verzerrungen einzelner Wahlumfragen korrigieren und das Wahlverhalten am Wahltag vorhersagen. Mit bayesianischen Modellen liefern wir Wahrscheinlichkeiten zur Regierungsbeteiligung und anderer Ereignisse und stellen sie auf wer-gewinnt-die-wahl.de bereit. *Links* Website: Wer gewinnt die Wahl 2025? https://wer-gewinnt-die-wahl.de/de Business Case: Bayes'sches Prognosemodell für die Bundestagswahl https://inwt-statistics.de/blog/business_case_wahlprognose Bundestagswahl 2021: Wie gut waren unsere Wahlprognosen? https://inwt-statistics.de/blog/bundestagswahl-2021-wie-gut-waren-unsere-wahlprognosen Podcast Learning Bayesian Statistics von Alexandre Andorra: #52 Election forecasting models in Germany, with Marcus Groß (09.12.2021) https://learnbayesstats.com/episode/52-election-forecasting-models-germany-marcus-gross/ Blog: Das Schlechteste an Wahlprognosen: Wie wir mit ihnen umgehen (Stefan Niggemeier, 13.11.2016) https://uebermedien.de/9664/das-schlechteste-an-wahlprognosen-wie-wir-mit-ihnen-umgehen/ fivethirtyeight: https://projects.fivethirtyeight.com/ Wahlrecht.de: https://www.wahlrecht.de/
	27 Oct 2022	#10: Signifikanz	00:27:41
Das Thema der Signifikanz ist ein - wenn nicht der - Grundbaustein der Statistik. In dieser Episode widmen wir uns dem Konzept dieses statistischen Standard-Werkzeugs und klären vor allem welche Rolle Signifikanz im Bereich Data Science und Machine Learning spielt. Links: Silver, N. (2012). The Signal and the Noise: Why So Many Predictions Fail-but Some Don't. USA: Penguin Publishing Group.
	24 Oct 2024	#58: Arm, aber sexy: Data Warehousing at Scale ohne Budget	00:37:32
Dies ist ein Gedankenexperiment, das euch zeigt, wie man mit wenig Budget und minimaler Hardware eine clevere self-service Umgebung bastelt, die auf dem Laptop oder einer günstigen Cloud-Instanz läuft. Wir sprechen darüber wie so ein Stack aussehen kann (Storage Layer, Data Layer, Compute Layer) und welche Anwendungsszenarien es gibt, aber auch wo die Grenzen bei einem solchen Szenario liegen. *Links* #52: In-process Datenbanken und das Ende von Big Data https://www.podbean.com/ew/pb-tekgi-16896e4 Engineering Kiosk - #129 Simplify Your Stack: Files statt Datenbanken! https://engineeringkiosk.dev/podcast/episode/129-simplify-your-stack-files-statt-datenbanken/ https://delta.io/ https://ibis-project.org/ https://duckdb.org/
	20 Feb 2025	#66: Developer vs. Data Scientist mit Andy Grunwald und Wolfgang Gassler	01:03:42
Warum knirscht es immer wieder zwischen Data Scientists und Developern? In dieser Episode holen wir uns Verstärkung von Andy und Wolfi vom Engineering Kiosk Podcast um dieser Frage auf den Grund zu gehen. Wir reden über typische Klischees und warum diese zu Konflikten führen. Gemeinsam sprechen wir darüber, welche Skills helfen, damit beide Spezies am Ende harmonisch zusammenarbeiten können – statt sich gegenseitig auszubremsen. Zusammenfassung Klischees und Konflikte: Stereotype über Data Scientists (Jupyter-Fans, Doktortitel) und Developer (Perfektionismus, Black-Box-Furcht) Teamorganisation: Cross-funktionale Teams vs. getrennte Abteilungen (Vor- und Nachteile, Agenturmodell) Typische Herausforderungen: Übergabe von Prototypen an die Entwicklung, Verständnis von SLAs/Responsezeiten, Datenbankauswahl Skill-Set und Zusammenarbeit: Generalistisches Grundwissen in DevOps und Softwarearchitektur, offenes Mindset Links Engineering Kiosk Podcast: https://engineeringkiosk.dev/ Andy Grunwald auf LinkedIn: https://www.linkedin.com/in/andy-grunwald-09aa265a/ Wolfgang Gassler auf LinkedIn: https://www.linkedin.com/in/wolfganggassler/ [Engineering Kiosk] #179 MLOps: Machine Learning in die Produktion bringen mit Michelle Golchert und Sebastian Warnholz https://engineeringkiosk.dev/podcast/episode/179-mlops-machine-learning-in-die-produktion-bringen-mit-michelle-golchert-und-sebastian-warnholz/ [Engineering Kiosk] #178 Code der bewegt: Infotainmentsysteme auf Kreuzfahrtschiffen mit Sebastian Hammerl https://engineeringkiosk.dev/podcast/episode/178-code-der-bewegt-infotainmentsysteme-auf-kreuzfahrtschiffen-mit-sebastian-hammerl/ [Engineering Kiosk] #177 Stream Processing & Kafka: Die Basis moderner Datenpipelines mit Stefan Sprenger https://engineeringkiosk.dev/podcast/episode/177-stream-processing-kafka-die-basis-moderner-datenpipelines-mit-stefan-sprenger/ [Data Science Deep Dive] #30: Agile Softwareentwicklung im Data-Science-Kontext https://www.podbean.com/ew/pb-mvspn-1482ea4 [Data Science Deep Dive] #23: Unsexy aber wichtig: Tests und Monitoring https://www.podbean.com/ew/pb-vxp58-13f311a [Data Science Deep Dive] #20: Ist Continuous Integration (CI) ein Muss für Data Scientists? https://www.podbean.com/ew/pb-4mkqh-13bb3b3 Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de
	03 Aug 2023	#29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack	00:59:32
Die aktuell gegenläufigen Trends zeigen eine Vielzahl von Data Science Plattformen wie Databricks, Snowflake und Kubeflow als Konkurrenz zu individuell entwickelten Stacks. Die Entscheidung für eine der beiden Alternativen ist insbesondere in einer sich rasch entwickelnden Technologie-Landschaft nicht einfach. Als Hilfestellung diskutieren wir die Vor- und Nachteile der jeweiligen Lösungen.
	10 Oct 2024	#57: Mehr als heiße Luft: unsere Berliner Luftschadstoffprognose mit Dr. Andreas Kerschbaumer	00:51:20
In dieser Episode sprechen wir mit Dr. Andreas Kerschbaumer, Umweltexperte beim Berliner Senat, über unsere Luftschadstoffprognose und warum Berlin immer noch dringend sauberere Luft braucht. Andreas erklärt, wie Machine Learning hilft, die Luftverschmutzung vorherzusagen und welche Rolle klassische Methoden (CTMs) dabei spielen. Wir vergleichen den neuen Machine-Learning-Ansatz mit dem traditionellen und diskutieren, welche Vor- und Nachteile sie mit sich bringen. Außerdem verraten Mira und Andreas, was sie in diesem spannenden Projekt gelernt haben. *Links* Digitale Plattform Stadtverkehr Berlin: https://viz.berlin.de/site/_masterportal/berlin/index.html (für die Prognosen kann oben links Themen > Fachdaten > Umwelt ausgewählt werden) Episode #12: Use Case - Luftschadstoffprognose für Berlin https://www.podbean.com/ew/pb-j24xm-1321244 Business Case: Customized Stack zur automatisierten Luftschadstoffprognose in Berlin https://www.inwt-statistics.de/blog/business_case_luftschadstoffprognose
	22 Jun 2023	#26: A/B-Testing: Erkenntnisse statt Bauchgefühl	00:32:39
A/B-Testing ermöglicht datenbasierte Entscheidungen, wir diskutieren Best Practices und tauchen in fortgeschrittene Themen wie Bayesianische A/B-Tests und Multi-Armed Bandits ein. Außerdem geben wir hilfreiche Tipps und erläutern explizit die Fallstricke beim A/B-Testing, damit ihr eure eigenen A/B-Tests effektiver gestalten könnt. Links: https://www.inwt-statistics.com/blog/ab-testing https://www.inwt-statistics.de/blog/multi-armed-bandits-als-alternative-zum-a-b-test
	27 Apr 2023	#23: Unsexy aber wichtig: Tests und Monitoring	00:34:35
Während Tests und Monitoring in der Softwareentwicklung schon lange Standard sind, ist die Data Science-Welt manchmal noch etwas hinterher. Wir schreiben viel Code, der regelmäßig im Produktivbetrieb läuft, u.a. um Prognosen zu berechnen und unseren Kund*innen zur Verfügung zu stellen. Dabei wollen wir sicher sein, dass alles funktioniert und mögliche Fehler zeitnah bemerken. Welche Besonderheiten es im Bereich Data Science dabei gibt, diskutieren wir in dieser Episode.
	14 Sep 2023	#32: Brauche ich Data-Science-Berater*innen und wenn ja wie viele?	00:41:41
Wir schwenken den Blick auf unsere Kundinnen und setzen uns damit auseinander, wie man erfolgreiche externe Beratungsprojekte gestaltet. Dabei gehen wir auf die verschiedenen Einsatzmöglichkeiten wie den Team-Ansatz oder Body Leasing ein und geben Tipps zur Auswahl einer Beratungspartner*in. Mit dieser Episode knüpfen wir an Episode #2 Erfolgsfaktoren für Predictive Analytics Projekte an.
	08 Dec 2022	#13: Datenqualität	00:37:37
"Garbage In, Garbage Out" hat auch in der Data Science Praxis eine hohe Relevanz: ein Modell kann nur so gut sein, wie die Daten auf denen es basiert. In dieser Episode sprechen wir darüber, wie Probleme mit der Datenqualität aufgedeckt werden können und welche Strategien es gibt, um Datenqualität in Projekten konsequent sicherzustellen. Links: https://www.inwt-statistics.de/blog-artikel-lesen/Datenqualitaet.html
	07 Dec 2023	#37: Deep Learning zur Erkennung von Hochwasser auf Satellitenbildern mit Philip Popien von Floodbase	00:56:51
Hochwassererkennung mit Satelliten? Wie das funktioniert erklärt Philip Popien, Director of Machine Learning bei Floodbase. Das Unternehmen erstellt mithilfe von Deep Learning Modellen Hochwasserprognosen und ist so in der Lage eine parametrische Flutversicherung anzubieten. Wir sprechen über die Input-Daten, den Labeling Prozess und die Prognosen des Deep Learning Modells. Natürlich gibt es auch Einblicke in die aktuellen Herausforderungen und einen Ausblick über die Weiterentwicklung des Modells. *Links* - inwt Website: https://www.inwt-statistics.de/ - Floodbase Website: https://www.floodbase.com/ - Philip Popien bei LinkedIn: https://www.linkedin.com/in/philip-popien/
	15 Sep 2022	#9: Data Science Project Ownership	00:55:52
Wie managt man ein Data Science Projekt richtig? Natürlich braucht es auch in einem Data Science Projekt Führung und Koordination. Wir erklären das Konzept von Project Ownership und wie unser nicht ganz so einfacher Weg dorthin aussah. Besonders beschäftigt hat uns hier die Frage, wer eigentlich gut als Project Owner geeignet ist. Sollte es ein Data Scientist sein oder eine reine Führungskraft? Und was sind die Aufgaben und Herausforderungen eines Project Owners?
	20 Jul 2023	#28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten	00:34:48
Wir tauchen ein in ein Real-Time Analytics-Projekt in dem wir den Fraud-Detection-Prozess mittels Echtzeitdaten für einen Kundin verbessern. Dabei beleuchten wir die von uns antizipierten Herausforderungen des Projekts sowie unsere Lösungsansätze. Natürlich haben wir einige Dinge auch nicht kommen sehen, die daraus resultierenden Erkenntnisse teilen wir mit euch.
	06 Jul 2022	#4: Job-Profile & Arbeitsmarkt	01:08:01
Welche Job-Profile und Erfahrungsstufen gibt es momentan im Data-Science-Kosmos? Und wie sieht die Perspektive für suchende Unternehmen und Bewerber*innen auf dem Arbeitsmarkt aus? Diesen Fragen gehen wir in der aktuellen Episode auf den Grund. inwt Blog: Datenqualität und die Bedeutung von Data Stewardship inwt Blog: Aufbau eines starken Data Science-Teams von Grund auf
	09 Jan 2025	#63: Data Mining: der pragmatische Weg zu Datenreife & Datenkultur mit Prof. Dr. Ana Moya	00:42:39
„Data Mining“ – klingt nach Staub und Schaufeln, ist aber der Schlüssel zur Mustererkennung in Daten! Wir diskutieren, warum einfache Methoden oft besser sind als fancy KI-Lösungen, besonders bei niedriger Datenreife. Außerdem: Wie man nachhaltigen Mehrwert schafft, ohne sich in Dashboards zu verlieren, und welche Skills und Tools wirklich zählen. Hilfreich für alle, die effektiv mit Daten arbeiten wollen. Zusammenfassung Data Mining: Definition und Bedeutung als pragmatischer Ansatz zur Mustererkennung Herausforderungen: Niedrige Datenreife und der Druck, „fancy“ Methoden einzusetzen Lösungsansätze: Bewährte Methoden wie Statistik, Visualisierungen und Anomaly Detection Nachhaltigkeit: Optimierte Prozesse und ressourcenschonende Lösungen als Kernnutzen Skills und Tools: Analytisches Denken, Statistik, Programmierkenntnisse, sowie Tools aus dem Bereich Business Intelligence und Programmiersprachen wie R & Python Fehler vermeiden: Datenqualität, Vermeidung von Confirmation Bias und sinnvolle Nutzung von Dashboards *Links* Prof. Dr. Ana Moya auf LinkedIn: https://www.linkedin.com/in/doc-moya/ International School of Management (ISM) https://en.ism.de/ INFOMOTION GmbH https://www.infomotion.de/ Power BI https://www.microsoft.com/de-de/power-platform/products/power-bi?market=de Tableau https://www.tableau.com/ Python https://www.python.org/ R https://www.r-project.org/ Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Enhance your understanding of Data Science Deep Dive with My Podcast Data

At My Podcast Data, we strive to provide in-depth, data-driven insights into the world of podcasts. Whether you're an avid listener, a podcast creator, or a researcher, the detailed statistics and analyses we offer can help you better understand the performance and trends of Data Science Deep Dive. From episode frequency and shared links to RSS feed health, our goal is to empower you with the knowledge you need to stay informed and make the most of your podcasting experience. Explore more shows and discover the data that drives the podcast industry.

About us Privacy Policy