Установка Python, Jupyter Notebook и необходимых библиотек
🚀 Введение: Почему Python и Jupyter Notebook так важны для аналитика?
Добро пожаловать в модуль, где мы начнем подготовку вашего рабочего пространства! После того как вы узнали, кто такой аналитик данных и какие карьерные возможности перед ним открываются, пришло время освоить один из ключевых инструментов — Python.
Python — это универсальный язык программирования, который стал де-факто стандартом в области анализа данных, машинного обучения и автоматизации. Он позволяет:
- Собирать и очищать данные из самых разных источников.
- Проводить сложный статистический анализ и строить предиктивные модели.
- Автоматизировать рутинные задачи, экономя ваше время.
- Создавать красивые и информативные визуализации.
А Jupyter Notebook — это интерактивная среда, которая позволяет писать код на Python, выполнять его по частям, видеть результаты сразу же, а также добавлять текст, формулы и изображения. Это идеальный инструмент для исследовательского анализа данных (EDA) и создания отчетов, где код, его вывод и пояснения находятся в одном месте.
В этом уроке мы шаг за шагом установим Python и Jupyter Notebook, а также основные библиотеки, которые будут вашими верными помощниками на пути к новой профессии.
🛠️ Установка Python (дистрибутив Anaconda)
Для новичков в аналитике данных мы рекомендуем устанавливать Python через дистрибутив Anaconda. Почему именно Anaconda?
- Все в одном: Anaconda включает в себя Python, Jupyter Notebook и более 250 популярных библиотек для анализа данных (таких как Pandas, NumPy, Matplotlib, Seaborn), что избавляет вас от необходимости устанавливать их по отдельности.
- Удобное управление средами: Позволяет легко создавать и переключаться между различными версиями Python и наборами библиотек для разных проектов.
- Простота установки: Процесс установки максимально упрощен и интуитивно понятен.
Пошаговая инструкция по установке Anaconda:
-
Скачайте Anaconda Individual Edition:
- Перейдите на официальный сайт Anaconda: https://www.anaconda.com/download
- Нажмите кнопку "Download" для вашей операционной системы (Windows, macOS, Linux). Убедитесь, что вы скачиваете версию для Python 3.x (обычно это версия по умолчанию).
-
Запустите установочный файл:
- После загрузки найдите файл
Anaconda3-*-Windows-x86_64.exe(или аналогичный для вашей ОС) и запустите его.
- После загрузки найдите файл
-
Следуйте инструкциям установщика:
- Нажмите "Next" на первом экране.
- Примите лицензионное соглашение ("I Agree").
- Выберите "Just Me" (рекомендуется для большинства пользователей) и нажмите "Next".
- Выберите папку для установки. По умолчанию это
C:\Users\ВашеИмяПользователя\anaconda3. Рекомендуется оставить путь по умолчанию, если у вас нет особых причин его менять. Нажмите "Next". - Важный шаг: На экране "Advanced Installation Options" обязательно поставьте галочку напротив пункта "Add Anaconda3 to my PATH environment variable". Это позволит вам запускать Python и Jupyter из командной строки из любого места. Если вы пропустите этот шаг, вам придется настраивать PATH вручную позже, что может быть сложнее.
- Нажмите "Install" и дождитесь завершения установки. Это может занять несколько минут.
- После завершения установки нажмите "Next", затем "Finish". Вы можете снять галочки с "Learn more about Anaconda Distribution" и "Learn how to get started with Anaconda" перед нажатием "Finish".
Совет: Если вы случайно пропустили шаг с добавлением Anaconda в PATH, не переживайте. Вы всегда сможете запускать Jupyter Notebook через Anaconda Navigator (об этом ниже) или найти инструкции по ручной настройке PATH для вашей операционной системы.
🚀 Запуск Jupyter Notebook
После успешной установки Anaconda у вас есть два основных способа запустить Jupyter Notebook:
1. Через Anaconda Navigator (рекомендуется для новичков)
Anaconda Navigator — это графический интерфейс, который позволяет легко запускать приложения и управлять средами.
- Найдите "Anaconda Navigator" в меню "Пуск" (Windows) или в папке "Приложения" (macOS).
- Запустите его. Это может занять некоторое время при первом запуске.
- В окне Anaconda Navigator найдите плитку "Jupyter Notebook" и нажмите кнопку "Launch".
- Jupyter Notebook откроется в вашем веб-браузере по умолчанию.
2. Через командную строку (для более опытных пользователей)
- Откройте командную строку (Windows: "cmd" или "PowerShell"; macOS/Linux: "Terminal").
- Введите команду:
jupyter notebook - Нажмите Enter. Jupyter Notebook также откроется в вашем веб-браузере.
После запуска Jupyter Notebook вы увидите интерфейс, который отображает файлы и папки на вашем компьютере. Это ваш "домашний" каталог Jupyter.
- Чтобы создать новый ноутбук, нажмите кнопку "New" в правом верхнем углу и выберите "Python 3" (или "Python [ipykernel]").
- Откроется новая вкладка с пустым ноутбуком, готовым к работе!
📚 Установка необходимых библиотек
Как мы уже упоминали, Anaconda поставляется с большинством необходимых библиотек. Однако, если вам понадобится какая-то специфическая библиотека, или вы захотите обновить существующую, вы будете использовать менеджер пакетов pip.
Основные библиотеки для аналитика данных:
pandas: Фундаментальная библиотека для работы с табличными данными (DataFrame). Позволяет легко загружать, очищать, трансформировать и анализировать данные.numpy: Основа дляpandas, предоставляет мощные инструменты для работы с числовыми массивами и математическими операциями.matplotlib: Базовая библиотека для создания статических, анимированных и интерактивных визуализаций в Python.seaborn: Библиотека для статистической визуализации, построенная на Matplotlib, которая делает графики более привлекательными и информативными с меньшим количеством кода.
Как проверить и установить/обновить библиотеки:
Откройте командную строку (или терминал) и используйте команду pip.
-
Проверка установленных версий:
pip show pandas pip show numpy pip show matplotlib pip show seabornЕсли библиотека установлена, вы увидите информацию о ней, включая версию.
-
Установка или обновление библиотеки: Если какой-то библиотеки нет или вы хотите обновить ее до последней версии, используйте:
pip install pandas numpy matplotlib seabornЭта команда установит или обновит все перечисленные библиотеки.
Важно: Если вы используете Anaconda, то часто более предпочтительным способом установки или обновления библиотек является использование
condaвместоpip, так какcondaлучше управляет зависимостями в экосистеме Anaconda. Однакоpipтакже будет работать.conda install pandas numpy matplotlib seabornВ рамках этого курса
pipбудет достаточно для большинства задач.
✅ Проверка установки
Чтобы убедиться, что все установлено корректно, создайте новый Jupyter Notebook и выполните в нем следующий код:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")
print(f"Matplotlib version: {plt.matplotlib.__version__}")
print(f"Seaborn version: {sns.__version__}")
# Простой тест: создадим DataFrame
data = {'Имя': ['Анна', 'Борис', 'Вера'],
'Возраст': [25, 30, 22],
'Город': ['Москва', 'Санкт-Петербург', 'Казань']}
df = pd.DataFrame(data)
print("\nСозданный DataFrame:")
print(df)
# Простой график
plt.figure(figsize=(6, 4))
sns.barplot(x='Имя', y='Возраст', data=df)
plt.title('Возраст по имени')
plt.show()
Если код выполнится без ошибок и вы увидите версии библиотек, созданный DataFrame и простой график, значит, ваша среда Python для аналитики данных успешно настроена! Поздравляем! 🎉
🧠 Задания для самопроверки и закрепления
-
Убедитесь, что вы можете запустить Jupyter Notebook через Anaconda Navigator.
-
Создайте новый Jupyter Notebook.
-
В первой ячейке напишите
print("Привет, аналитик данных!")и выполните ее. -
В новой ячейке импортируйте библиотеку
pandasкакpdиnumpyкакnp. -
Попробуйте создать простой список чисел в Python и преобразовать его в массив NumPy.
my_list = [10, 20, 30, 40, 50] my_numpy_array = np.array(my_list) print(my_numpy_array)Выполните эту ячейку.
💡 Ключевые выводы и дальнейшие шаги
- Вы успешно установили Python и Jupyter Notebook с помощью дистрибутива Anaconda, что является фундаментом для вашей работы аналитика данных.
- Вы узнали, как запускать Jupyter Notebook и как создавать новые рабочие файлы.
- Вы установили или проверили наличие ключевых библиотек: Pandas, NumPy, Matplotlib и Seaborn, которые будут вашими основными инструментами.
- Вы проверили работоспособность вашей среды.
Теперь, когда ваш Python-инструментарий готов, пришло время настроить еще один важный инструмент — SQL-клиент. В следующем уроке мы займемся настройкой SQL-клиента и подключением к базе данных, чтобы вы могли начать работать с реляционными базами данных, которые являются источником огромного количества информации.