Расширенный анализ данных в PySpark. Методы

Товар

3 128  ₽
Расширенный анализ данных в PySpark. Методы

Доставка

  • Почта России

    от 990 ₽

  • Курьерская доставка EMS

    от 1290 ₽

Характеристики

Артикул
15992756992
Состояние
Новый
Język publikacji
polski
Tytuł
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok skal z wykorzystaniem Pythona i systemu Spark
Autor
Akash Tandon
Nośnik
książka papierowa
Okładka
miękka
Rok wydania
2023
Wydawnictwo
Helion
Liczba stron
192
Numer wydania
1
Szerokość produktu
16.5 cm
Wysokość produktu
23.5 cm

Описание

Zaawansowana analiza danych w PySpark. Metody

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark

Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.

Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.

Dzięki książce poznasz:

  • model programowania w ekosystemie Spark
  • podstawowe metody stosowane w nauce o danych
  • pełne implementacje analiz dużych publicznych zbiorów danych
  • konkretne przypadki użycia narzędzi uczenia maszynowego
  • kod, który łatwo dostosujesz do swoich potrzeb

PySpark: systemowa odpowiedź na problemy inżyniera danych!

O autorze:

Akash Tandon jest inżynierem danych i przedsiębiorcą, a także współzałożycielem i dyrektorem technicznym firmy Looppanel.

Sandy Ryza jest starszym analitykiem w Cloudera i aktywnym uczestnikiem projektu Apache Spark.

Uri Laserson jest starszym analitykiem w Cloudera, gdzie pracuje nad językiem Python w środowisku Hadoop.

Sean Owen jest dyrektorem działu analiz danych na region EMEA w Cloudera i uczestnikiem projektu Apache Spark.

Josh Wills jest starszym menedżerem działu analiz danych w Cloudera i inicjatorem pakietu Apache Crunch.

Spis treści:

Słowo wstępne

1. Analiza wielkich zbiorów danych

  • Praca z wielkimi zbiorami danych
  • Przedstawiamy Apache Spark i PySpark

    Komponenty

    PySpark

    Ekosystem

  • Spark 3.0
  • PySpark i wyzwania w nauce o danych
  • O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocą PySpark

  • Architektura systemu Spark
  • Instalacja interfejsu PySpark
  • Przygotowanie danych
  • Analiza danych za pomocą struktury DataFrame
  • Szybkie statystyki zbiorcze w strukturze DataFrame
  • Przestawienie i przekształcenie struktury DataFrame
  • Złączenie struktur DataFrame i wybór cech
  • Ocena modelu
  • Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler

  • Zbiór danych
  • Wymagania dla systemu rekomendacyjnego
  • Algorytm naprzemiennych najmniejszych kwadratów
  • Przygotowanie danych
  • Utworzenie pierwszego modelu
  • Wyrywkowe sprawdzanie rekomendacji
  • Ocena jakości rekomendacji
  • Obliczenie wskaźnika AUC
  • Dobór wartości hiperparametrów
  • Przygotowanie rekomendacji
  • Dalsze kroki

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego

  • Drzewa i lasy decyzyjne
  • Przygotowanie danych
  • Pierwsze drzewo decyzyjne
  • Hiperparametry drzewa decyzyjnego
  • Regulacja drzewa decyzyjnego
  • Weryfikacja cech kategorialnych
  • Losowy las decyzyjny
  • Prognozowanie
  • Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

  • Grupowanie według k-średnich
  • Wykrywanie anomalii w ruchu sieciowym

    Dane KDD Cup 1999

  • Pierwsza próba grupowania
  • Dobór wartości k
  • Wizualizacja w środowisku R
  • Normalizacja cech
  • Zmienne kategorialne
  • Wykorzystanie etykiet i wskaźnika entropii
  • Grupowanie w akcji
  • Dalsze kroki

6. Wikipedia, algorytmy LDA i Spark NLP

  • Algorytm LDA

    Algorytm LDA w interfejsie PySpark

  • Pobranie danych
  • Spark NLP

    Przygotowanie środowiska

  • Przekształcenie danych
  • Przygotowanie danych za pomocą biblioteki Spark NLP
  • Metoda TF-IDF
  • Wyliczenie wskaźników TF-IDF
  • Utworzenie modelu LDA
  • Dalsze kroki

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

  • Przygotowanie danych

    Konwersja ciągów znaków na znaczniki czasu

    Obsługa błędnych rekordów danych

  • Analiza danych geoprzestrzennych

    Wprowadzenie do formatu GeoJSON

    Biblioteka GeoPandas

  • Sesjonowanie w interfejsie PySpark

    Budowanie sesji - dodatkowe sortowanie danych w systemie Spark

  • Dalsze kroki

8. Szacowanie ryzyka finansowego

  • Terminologia
  • Metody obliczania wskaźnika VaR

    Wariancja-kowariancja

    Symulacja historyczna

    Symulacja Monte Carlo

  • Nasz model
  • Pobranie danych
  • Przygotowanie danych
  • Określenie wag czynników
  • Losowanie prób

    Wielowymiarowy rozkład normalny

  • Wykonanie testów
  • Wizualizacja rozkładu zwrotów
  • Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

  • Rozdzielenie sposobów zapisu i modelowania danych
  • Przygotowanie pakietu ADAM
  • Przetwarzanie danych genomicznych za pomocą pakietu ADAM

    Konwersja formatów plików za pomocą poleceń pakietu ADAM

    Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM

  • Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
  • Dalsze kroki

10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH

  • PyTorch

    Instalacja

  • Przygotowanie danych

    Skalowanie obrazów za pomocą PyTorch

  • Wektoryzacja obrazów za pomocą modelu głębokiego uczenia

    Osadzenie obrazów

    Import osadzeń obrazów do pakietu PySpark

  • Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH

    Wyszukiwanie najbliższych sąsiadów

  • Dalsze kroki

11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow

  • Cykl uczenia maszynowego
  • Platforma MLflow
  • Śledzenie eksperymentów
  • Zarządzanie modelami uczenia maszynowego i udostępnianie ich
  • Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
  • Dalsze kroki

    Гарантии

    • Гарантии

      Мы работаем по договору оферты и предоставляем все необходимые документы.

    • Лёгкий возврат

      Если товар не подошёл или не соответсвует описанию, мы поможем вернуть его.

    • Безопасная оплата

      Банковской картой, электронными деньгами, наличными в офисе или на расчётный счёт.

    Отзывы о товаре

    Рейтинг товара 5 / 5

    7 отзывов

    Russian English Polish