Diplomatura en Ciencia de Datos — Proyectos

Selección de 6 proyectos del flujo completo de ciencia de datos: exploración, curación, modelado supervisado y no supervisado. Los datasets cubren salud (diabetes, riesgo crediticio), inmuebles (Melbourne, California Housing), deporte (EA FC 24) y tecnología (encuesta Sysarmy 2025). Trabajo grupal realizado durante la Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones (FAMAF, 2025).

Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones

Esta sección reúne una selección de proyectos desarrollados durante la Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones, enfocados en el análisis de datos reales y la aplicación de técnicas de machine learning supervisado y no supervisado.

Los trabajos cubren distintas etapas del flujo de data science: análisis exploratorio, curación y preprocesamiento de datos, visualización, modelado predictivo, evaluación de modelos y análisis de resultados, con foco tanto en la interpretación como en la toma de decisiones basada en datos.

Autores

Ana Luz Alabi Nassr · Felipe Ávila · Grisel Britos · Paula Nieto · Sofía Perón Santana

📂 Proyectos

🩺 Predicción de Diabetes con Machine Learning

Proyecto de clasificación orientado a predecir la presencia de diabetes a partir de variables clínicas y demográficas. Se realiza análisis exploratorio, preprocesamiento de datos y evaluación comparativa de modelos para identificar factores asociados al riesgo de la enfermedad y medir el desempeño predictivo.

🔗 Ver notebook

⚽ Análisis Exploratorio y Clustering de Jugadores EA FC 24

Proyecto de aprendizaje no supervisado aplicado a datos de jugadores del videojuego EA FC 24 (FIFA). Se exploran atributos personales y de rendimiento, se agrupan variables correlacionadas y se aplican técnicas de clustering (KMeans, DBSCAN y Gaussian Mixture) para identificar perfiles y patrones entre jugadores, apoyándose en visualizaciones interactivas para la interpretación de resultados.

🔗 Ver notebook

🔍 Análisis Exploratorio de Salarios en el Sector IT Argentino (Sysarmy 2025)

Análisis exploratorio del dataset de la encuesta Sysarmy 2025 para estudiar la relación entre salarios, lenguajes de programación, tipo de contrato y modalidad de trabajo. Se utilizan técnicas de estadística descriptiva y visualización para identificar patrones salariales según experiencia, formación y condiciones laborales.

🔗 Ver notebook

🏠 Análisis Exploratorio y Curación del Dataset de Propiedades de Melbourne

Proyecto dividido en dos etapas: exploración y curación avanzada del dataset de propiedades de Melbourne (Australia). Incluye tratamiento de valores faltantes, detección de outliers, codificación de variables categóricas, imputación mediante KNN e Iterative Imputer y reducción de dimensionalidad con PCA. Además, se integran datos externos mediante consultas SQL.

🔗 Exploración · Curación

📈 Regresión y Análisis Exploratorio del Dataset California Housing

Proyecto de machine learning enfocado en el análisis exploratorio y el modelado del valor medio de viviendas en California mediante regresión lineal y polinomial. Se analiza el impacto de los atributos y la complejidad del modelo para lograr un equilibrio entre ajuste y capacidad de generalización.

🔗 Ver notebook

🏦 Predicción de Riesgo Crediticio en Préstamos Hipotecarios

Proyecto de clasificación binaria basado en el Home Equity dataset, orientado a predecir el riesgo de incumplimiento de préstamos hipotecarios. Se aplican técnicas de balanceo de clases y ajuste de hiperparámetros para mejorar la detección de clientes de alto riesgo y analizar variables clave para la toma de decisiones crediticias.

🔗 Ver notebook

Tecnologías

Python

scikit-learn

Pandas / NumPy

Matplotlib / Seaborn / Plotly

imbalanced-learn (SMOTE)

SQLite / SQLAlchemy

Ver Repositorio en GitHub