Расширенный анализ данных в PySpark. Методы

Вернуться к E-Business

Товар

3 128 ₽

Расширенный анализ данных в PySpark. Методы

0 раз купили
5 оценка
3 осталось
7 отзывов

Доставка

Почта России
от 990 ₽
Курьерская доставка EMS
от 1290 ₽

Характеристики

Артикул

15992756992

Состояние

Новый

Język publikacji

polski

Tytuł

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szerok skal z wykorzystaniem Pythona i systemu Spark

Autor

Akash Tandon

Nośnik

książka papierowa

Okładka

miękka

Rok wydania

2023

Wydawnictwo

Helion

Liczba stron

192

Numer wydania

Szerokość produktu

16.5 cm

Wysokość produktu

23.5 cm

Описание

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark

Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.

Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.

Dzięki książce poznasz:

model programowania w ekosystemie Spark
podstawowe metody stosowane w nauce o danych
pełne implementacje analiz dużych publicznych zbiorów danych
konkretne przypadki użycia narzędzi uczenia maszynowego
kod, który łatwo dostosujesz do swoich potrzeb

PySpark: systemowa odpowiedź na problemy inżyniera danych!

O autorze:

Akash Tandon jest inżynierem danych i przedsiębiorcą, a także współzałożycielem i dyrektorem technicznym firmy Looppanel.

Sandy Ryza jest starszym analitykiem w Cloudera i aktywnym uczestnikiem projektu Apache Spark.

Uri Laserson jest starszym analitykiem w Cloudera, gdzie pracuje nad językiem Python w środowisku Hadoop.

Sean Owen jest dyrektorem działu analiz danych na region EMEA w Cloudera i uczestnikiem projektu Apache Spark.

Josh Wills jest starszym menedżerem działu analiz danych w Cloudera i inicjatorem pakietu Apache Crunch.

Spis treści:

Słowo wstępne

1. Analiza wielkich zbiorów danych

Praca z wielkimi zbiorami danych
Przedstawiamy Apache Spark i PySpark
Komponenty
PySpark
Ekosystem
Spark 3.0
PySpark i wyzwania w nauce o danych
O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocą PySpark

Architektura systemu Spark
Instalacja interfejsu PySpark
Przygotowanie danych
Analiza danych za pomocą struktury DataFrame
Szybkie statystyki zbiorcze w strukturze DataFrame
Przestawienie i przekształcenie struktury DataFrame
Złączenie struktur DataFrame i wybór cech
Ocena modelu
Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler

Zbiór danych
Wymagania dla systemu rekomendacyjnego
Algorytm naprzemiennych najmniejszych kwadratów
Przygotowanie danych
Utworzenie pierwszego modelu
Wyrywkowe sprawdzanie rekomendacji
Ocena jakości rekomendacji
Obliczenie wskaźnika AUC
Dobór wartości hiperparametrów
Przygotowanie rekomendacji
Dalsze kroki

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego

Drzewa i lasy decyzyjne
Przygotowanie danych
Pierwsze drzewo decyzyjne
Hiperparametry drzewa decyzyjnego
Regulacja drzewa decyzyjnego
Weryfikacja cech kategorialnych
Losowy las decyzyjny
Prognozowanie
Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

Grupowanie według k-średnich
Wykrywanie anomalii w ruchu sieciowym
Dane KDD Cup 1999
Pierwsza próba grupowania
Dobór wartości k
Wizualizacja w środowisku R
Normalizacja cech
Zmienne kategorialne
Wykorzystanie etykiet i wskaźnika entropii
Grupowanie w akcji
Dalsze kroki

6. Wikipedia, algorytmy LDA i Spark NLP

Algorytm LDA
Algorytm LDA w interfejsie PySpark
Pobranie danych
Spark NLP
Przygotowanie środowiska
Przekształcenie danych
Przygotowanie danych za pomocą biblioteki Spark NLP
Metoda TF-IDF
Wyliczenie wskaźników TF-IDF
Utworzenie modelu LDA
Dalsze kroki

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

Przygotowanie danych
Konwersja ciągów znaków na znaczniki czasu
Obsługa błędnych rekordów danych
Analiza danych geoprzestrzennych
Wprowadzenie do formatu GeoJSON
Biblioteka GeoPandas
Sesjonowanie w interfejsie PySpark
Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
Dalsze kroki

8. Szacowanie ryzyka finansowego

Terminologia
Metody obliczania wskaźnika VaR
Wariancja-kowariancja
Symulacja historyczna
Symulacja Monte Carlo
Nasz model
Pobranie danych
Przygotowanie danych
Określenie wag czynników
Losowanie prób
Wielowymiarowy rozkład normalny
Wykonanie testów
Wizualizacja rozkładu zwrotów
Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

Rozdzielenie sposobów zapisu i modelowania danych
Przygotowanie pakietu ADAM
Przetwarzanie danych genomicznych za pomocą pakietu ADAM
Konwersja formatów plików za pomocą poleceń pakietu ADAM
Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
Dalsze kroki

10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH

PyTorch
Instalacja
Przygotowanie danych
Skalowanie obrazów za pomocą PyTorch
Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
Osadzenie obrazów
Import osadzeń obrazów do pakietu PySpark
Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
Wyszukiwanie najbliższych sąsiadów
Dalsze kroki

11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow

Cykl uczenia maszynowego
Platforma MLflow
Śledzenie eksperymentów
Zarządzanie modelami uczenia maszynowego i udostępnianie ich
Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
Dalsze kroki

Гарантии

Гарантии
Мы работаем по договору оферты и предоставляем все необходимые документы.
Лёгкий возврат
Если товар не подошёл или не соответсвует описанию, мы поможем вернуть его.
Безопасная оплата
Банковской картой, электронными деньгами, наличными в офисе или на расчётный счёт.

Рейтинг товара 5 / 5

7 отзывов

Расширенный анализ данных в PySpark. Методы

Товар

Доставка

Почта России

Курьерская доставка EMS

Характеристики

Описание

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark

Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

O autorze:

Гарантии

Гарантии

Лёгкий возврат

Безопасная оплата

Отзывы о товаре

Рейтинг товара 5 / 5