Установка Python, Jupyter Notebook и необходимых библиотек - Аналитик Данных с Нуля: Полный Курс для Смены Профессии - Qpel.AI

Установка Python, Jupyter Notebook и необходимых библиотек

🚀 Введение: Почему Python и Jupyter Notebook так важны для аналитика?

Добро пожаловать в модуль, где мы начнем подготовку вашего рабочего пространства! После того как вы узнали, кто такой аналитик данных и какие карьерные возможности перед ним открываются, пришло время освоить один из ключевых инструментов — Python.

Python — это универсальный язык программирования, который стал де-факто стандартом в области анализа данных, машинного обучения и автоматизации. Он позволяет:

  • Собирать и очищать данные из самых разных источников.
  • Проводить сложный статистический анализ и строить предиктивные модели.
  • Автоматизировать рутинные задачи, экономя ваше время.
  • Создавать красивые и информативные визуализации.

А Jupyter Notebook — это интерактивная среда, которая позволяет писать код на Python, выполнять его по частям, видеть результаты сразу же, а также добавлять текст, формулы и изображения. Это идеальный инструмент для исследовательского анализа данных (EDA) и создания отчетов, где код, его вывод и пояснения находятся в одном месте.

В этом уроке мы шаг за шагом установим Python и Jupyter Notebook, а также основные библиотеки, которые будут вашими верными помощниками на пути к новой профессии.

🛠️ Установка Python (дистрибутив Anaconda)

Для новичков в аналитике данных мы рекомендуем устанавливать Python через дистрибутив Anaconda. Почему именно Anaconda?

  • Все в одном: Anaconda включает в себя Python, Jupyter Notebook и более 250 популярных библиотек для анализа данных (таких как Pandas, NumPy, Matplotlib, Seaborn), что избавляет вас от необходимости устанавливать их по отдельности.
  • Удобное управление средами: Позволяет легко создавать и переключаться между различными версиями Python и наборами библиотек для разных проектов.
  • Простота установки: Процесс установки максимально упрощен и интуитивно понятен.

Пошаговая инструкция по установке Anaconda:

  1. Скачайте Anaconda Individual Edition:

    • Перейдите на официальный сайт Anaconda: https://www.anaconda.com/download
    • Нажмите кнопку "Download" для вашей операционной системы (Windows, macOS, Linux). Убедитесь, что вы скачиваете версию для Python 3.x (обычно это версия по умолчанию).
  2. Запустите установочный файл:

    • После загрузки найдите файл Anaconda3-*-Windows-x86_64.exe (или аналогичный для вашей ОС) и запустите его.
  3. Следуйте инструкциям установщика:

    • Нажмите "Next" на первом экране.
    • Примите лицензионное соглашение ("I Agree").
    • Выберите "Just Me" (рекомендуется для большинства пользователей) и нажмите "Next".
    • Выберите папку для установки. По умолчанию это C:\Users\ВашеИмяПользователя\anaconda3. Рекомендуется оставить путь по умолчанию, если у вас нет особых причин его менять. Нажмите "Next".
    • Важный шаг: На экране "Advanced Installation Options" обязательно поставьте галочку напротив пункта "Add Anaconda3 to my PATH environment variable". Это позволит вам запускать Python и Jupyter из командной строки из любого места. Если вы пропустите этот шаг, вам придется настраивать PATH вручную позже, что может быть сложнее.
    • Нажмите "Install" и дождитесь завершения установки. Это может занять несколько минут.
    • После завершения установки нажмите "Next", затем "Finish". Вы можете снять галочки с "Learn more about Anaconda Distribution" и "Learn how to get started with Anaconda" перед нажатием "Finish".

Совет: Если вы случайно пропустили шаг с добавлением Anaconda в PATH, не переживайте. Вы всегда сможете запускать Jupyter Notebook через Anaconda Navigator (об этом ниже) или найти инструкции по ручной настройке PATH для вашей операционной системы.

🚀 Запуск Jupyter Notebook

После успешной установки Anaconda у вас есть два основных способа запустить Jupyter Notebook:

1. Через Anaconda Navigator (рекомендуется для новичков)

Anaconda Navigator — это графический интерфейс, который позволяет легко запускать приложения и управлять средами.

  • Найдите "Anaconda Navigator" в меню "Пуск" (Windows) или в папке "Приложения" (macOS).
  • Запустите его. Это может занять некоторое время при первом запуске.
  • В окне Anaconda Navigator найдите плитку "Jupyter Notebook" и нажмите кнопку "Launch".
  • Jupyter Notebook откроется в вашем веб-браузере по умолчанию.

2. Через командную строку (для более опытных пользователей)

  • Откройте командную строку (Windows: "cmd" или "PowerShell"; macOS/Linux: "Terminal").
  • Введите команду: jupyter notebook
  • Нажмите Enter. Jupyter Notebook также откроется в вашем веб-браузере.

После запуска Jupyter Notebook вы увидите интерфейс, который отображает файлы и папки на вашем компьютере. Это ваш "домашний" каталог Jupyter.

  • Чтобы создать новый ноутбук, нажмите кнопку "New" в правом верхнем углу и выберите "Python 3" (или "Python [ipykernel]").
  • Откроется новая вкладка с пустым ноутбуком, готовым к работе!

📚 Установка необходимых библиотек

Как мы уже упоминали, Anaconda поставляется с большинством необходимых библиотек. Однако, если вам понадобится какая-то специфическая библиотека, или вы захотите обновить существующую, вы будете использовать менеджер пакетов pip.

Основные библиотеки для аналитика данных:

  • pandas: Фундаментальная библиотека для работы с табличными данными (DataFrame). Позволяет легко загружать, очищать, трансформировать и анализировать данные.
  • numpy: Основа для pandas, предоставляет мощные инструменты для работы с числовыми массивами и математическими операциями.
  • matplotlib: Базовая библиотека для создания статических, анимированных и интерактивных визуализаций в Python.
  • seaborn: Библиотека для статистической визуализации, построенная на Matplotlib, которая делает графики более привлекательными и информативными с меньшим количеством кода.

Как проверить и установить/обновить библиотеки:

Откройте командную строку (или терминал) и используйте команду pip.

  1. Проверка установленных версий:

    pip show pandas
    pip show numpy
    pip show matplotlib
    pip show seaborn
    

    Если библиотека установлена, вы увидите информацию о ней, включая версию.

  2. Установка или обновление библиотеки: Если какой-то библиотеки нет или вы хотите обновить ее до последней версии, используйте:

    pip install pandas numpy matplotlib seaborn
    

    Эта команда установит или обновит все перечисленные библиотеки.

Важно: Если вы используете Anaconda, то часто более предпочтительным способом установки или обновления библиотек является использование conda вместо pip, так как conda лучше управляет зависимостями в экосистеме Anaconda. Однако pip также будет работать.

conda install pandas numpy matplotlib seaborn

В рамках этого курса pip будет достаточно для большинства задач.

✅ Проверка установки

Чтобы убедиться, что все установлено корректно, создайте новый Jupyter Notebook и выполните в нем следующий код:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")
print(f"Matplotlib version: {plt.matplotlib.__version__}")
print(f"Seaborn version: {sns.__version__}")

# Простой тест: создадим DataFrame
data = {'Имя': ['Анна', 'Борис', 'Вера'],
        'Возраст': [25, 30, 22],
        'Город': ['Москва', 'Санкт-Петербург', 'Казань']}
df = pd.DataFrame(data)
print("\nСозданный DataFrame:")
print(df)

# Простой график
plt.figure(figsize=(6, 4))
sns.barplot(x='Имя', y='Возраст', data=df)
plt.title('Возраст по имени')
plt.show()

Если код выполнится без ошибок и вы увидите версии библиотек, созданный DataFrame и простой график, значит, ваша среда Python для аналитики данных успешно настроена! Поздравляем! 🎉

🧠 Задания для самопроверки и закрепления

  1. Убедитесь, что вы можете запустить Jupyter Notebook через Anaconda Navigator.

  2. Создайте новый Jupyter Notebook.

  3. В первой ячейке напишите print("Привет, аналитик данных!") и выполните ее.

  4. В новой ячейке импортируйте библиотеку pandas как pd и numpy как np.

  5. Попробуйте создать простой список чисел в Python и преобразовать его в массив NumPy.

    my_list = [10, 20, 30, 40, 50]
    my_numpy_array = np.array(my_list)
    print(my_numpy_array)
    

    Выполните эту ячейку.

💡 Ключевые выводы и дальнейшие шаги

  • Вы успешно установили Python и Jupyter Notebook с помощью дистрибутива Anaconda, что является фундаментом для вашей работы аналитика данных.
  • Вы узнали, как запускать Jupyter Notebook и как создавать новые рабочие файлы.
  • Вы установили или проверили наличие ключевых библиотек: Pandas, NumPy, Matplotlib и Seaborn, которые будут вашими основными инструментами.
  • Вы проверили работоспособность вашей среды.

Теперь, когда ваш Python-инструментарий готов, пришло время настроить еще один важный инструмент — SQL-клиент. В следующем уроке мы займемся настройкой SQL-клиента и подключением к базе данных, чтобы вы могли начать работать с реляционными базами данных, которые являются источником огромного количества информации.