-> Начни карьеру в Data Science — Профессия Data Scientist
Pandas Data Science
Pandas — это библиотека Python с открытым исходным кодом, которая позволяет работать с табличными данными. Термин произошел от эконометрического термина панельные данные и, таким образом, PAN(el)-DA(ta)-S.
На высоком уровне Pandas работает очень похоже на электронную таблицу (т.е. вспомните Microsoft Excel или Google Sheets), поскольку вы работаете со строками и столбцами. Pandas служит одной из основных библиотек любого рабочего процесса в области Data Science, поскольку она позволяет выполнять обработку, перебор и сортировку данных. Это особенно важно, поскольку многие считают, что этап предварительной обработки данных занимает до 80% времени специалиста по анализу данных.
Я знаю, что это очевидно, но Pandas — это действительно замечательный пакет для работы с данными, но он также делает некоторые довольно сложные вещи, о которых многие люди не знают.
Например, с помощью функции read_html в Pandas можно выполнять веб-скраппинг:
pd.read_html("url")
Или найти количество всех уникальных значений в массиве данных:
df.nunique()
Mito Data Science
Mito — это электронная таблица, которая генерирует Python. Вы чувствуете себя так, как будто работаете в Excel или Google Sheets, и каждая ваша правка генерирует код, эквивалентный Python.
В Mito вы можете:
- Объединять
- Фильтровать
- строить графики
- Использовать формулы
- и многое другое!
Вот инструкции по установке Mito
Tensorflow Data Science
Tensorflow — это пакет ML, который позволяет пользователям очень быстро создавать модели. Изначально он был разработан в Google.
Tensorflow стал популярным первым пакетом для тех, кто начинает изучать машинное обучение.
В рамках этого пакета вы можете делать следующее:
- строить нейронные сети
- Создавать рекомендательные системы
- Создавать состязательные сети
Вот отличный 10-минутный вводный видеоролик по TensorFlow:
Beautiful Soup
Beautiful soup — это пакет Python, который позволяет легко извлекать данные из форматов html и xml — по сути, является веб-скраппингом.
Чтобы установить:
$ pip install beautifulsoup4
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
В пакете есть простые команды для анализа html.
Чтобы получить заголовок:
soup.title
Чтобы найти все URL-адреса на странице:
for link in soup.find_all('a'):
Чтобы получить весь текст на странице:
print(soup.get_text())
Matplotlib
Matplotlib — один из лучших графических пакетов Python. Вы можете создавать как простые визуальные представления, так и более продвинутые, интерактивные графики.Вот команды установки:
python -m pip install -U pip
python -m pip install -U matplotlib