5 инструментов, которые должен использовать каждый Data Scientist

5 инструментов, которые должен использовать каждый Data Scientist Блог

-> Начни карьеру в Data Science — Профессия Data Scientist

Pandas Data Science

Pandas — это библиотека Python с открытым исходным кодом, которая позволяет работать с табличными данными. Термин произошел от эконометрического термина панельные данные и, таким образом, PAN(el)-DA(ta)-S.
На высоком уровне Pandas работает очень похоже на электронную таблицу (т.е. вспомните Microsoft Excel или Google Sheets), поскольку вы работаете со строками и столбцами. Pandas служит одной из основных библиотек любого рабочего процесса в области Data Science, поскольку она позволяет выполнять обработку, перебор и сортировку данных. Это особенно важно, поскольку многие считают, что этап предварительной обработки данных занимает до 80% времени специалиста по анализу данных.

Я знаю, что это очевидно, но Pandas — это действительно замечательный пакет для работы с данными, но он также делает некоторые довольно сложные вещи, о которых многие люди не знают.


Например, с помощью функции read_html в Pandas можно выполнять веб-скраппинг:

pd.read_html("url")

Или найти количество всех уникальных значений в массиве данных:

df.nunique()

Mito Data Science

Mito — это электронная таблица, которая генерирует Python. Вы чувствуете себя так, как будто работаете в Excel или Google Sheets, и каждая ваша правка генерирует код, эквивалентный Python.

В Mito вы можете:

  • Объединять
  • Фильтровать
  • строить графики
  • Использовать формулы
  • и многое другое!

Вот инструкции по установке Mito


Вот демонстрационное видео:

Tensorflow Data Science

Tensorflow — это пакет ML, который позволяет пользователям очень быстро создавать модели. Изначально он был разработан в Google.

Tensorflow стал популярным первым пакетом для тех, кто начинает изучать машинное обучение.

В рамках этого пакета вы можете делать следующее:

  • строить нейронные сети
  • Создавать рекомендательные системы
  • Создавать состязательные сети

Вот отличный 10-минутный вводный видеоролик по TensorFlow:

Beautiful Soup

Beautiful soup — это пакет Python, который позволяет легко извлекать данные из форматов html и xml — по сути, является веб-скраппингом.
Чтобы установить:

$ pip install beautifulsoup4
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

В пакете есть простые команды для анализа html.
Чтобы получить заголовок:

soup.title

Чтобы найти все URL-адреса на странице:

for link in soup.find_all('a'):


Чтобы получить весь текст на странице:

print(soup.get_text())

Вот полная документация.

Matplotlib


Matplotlib — один из лучших графических пакетов Python. Вы можете создавать как простые визуальные представления, так и более продвинутые, интерактивные графики.Вот команды установки:

python -m pip install -U pip
python -m pip install -U matplotlib

Полная документация

-> Начни карьеру в Data Science — Профессия Data Scientist

Поделиться с друзьями
Аватар Юрий Мурадов

Основатель сайта. Специализируюсь на веб-дизайне, веб-разработке и обожаю технологии. Рассказываю об актуальных профессиях.

Оцените автора
( Пока оценок нет )
TOP-PROF
Добавить комментарий