Spark Là Gì

  -  

Ngày nay có khá nhiều hệ thống đang thực hiện Hadoop để phân tích cùng xử lý tài liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa vào một mô hình lập trình song song với xử lý dữ liệu lớn là MapReduce, mô hình này có thể chấp nhận được khả năng tính toán có thể mở rộng, linh hoạt, khả năng chịu lỗi, ngân sách chi tiêu rẻ. Điều này cho phép tăng tốc thời hạn xử lý những dữ liệu mập nhằm gia hạn tốc độ, bớt thời gian chờ đón khi tài liệu ngày càng lớn.

Bạn đang xem: Spark là gì

Dù có khá nhiều điểm mạnh bạo về khả năng giám sát song tuy nhiên và năng lực chịu lỗi cao cơ mà Apache Haddop bao gồm một điểm yếu là tất cả các thao tác đều phải triển khai trên ổ đĩa cứng điều này đã làm giảm tốc độ giám sát và đo lường đi gấp nhiều lần.

Để khắc phục và hạn chế được nhược điểm này thì Apache Spark được ra đời. Apache Spark có thể chạy cấp tốc hơn 10 lần so với Haddop ở trên đĩa cứng và 100 lần lúc chạy trên bộ lưu trữ RAM.

1. Ra mắt về Apache Spark

*

Apache Spark là 1 trong framework mã mối cung cấp mở đo lường cụm, được cách tân và phát triển sơ khởi vào khoảng thời gian 2009 vì AMPLab. Sau này, Spark đã được trao mang lại Apache Software Foundation vào năm trước đó và được phát triển cho tới nay.

Tốc độ xử trí của Spark có được do việc giám sát và đo lường được triển khai cùng cơ hội trên những máy khác nhau. Đồng thời việc đo lường và tính toán được tiến hành ở bộ lưu trữ trong (in-memories) giỏi thực hiện hoàn toàn trên RAM.

Spark cho phép xử lý dữ liệu theo thời hạn thực, vừa nhận dữ liệu từ các nguồn không giống nhau đồng thời triển khai ngay vấn đề xử lý trên tài liệu vừa nhận được ( Spark Streaming).

Spark ko có khối hệ thống file của riêng rẽ mình, nó sử dụng khối hệ thống file khác như: HDFS, Cassandra, S3,…. Spark hỗ trợ nhiều mẫu mã định dạng file không giống nhau (text, csv, json…) bên cạnh đó nó hoàn toàn không nhờ vào vào bất cứ một khối hệ thống file nào.

Xem thêm: Tận Dụng Price Matching Là Gì ? Định Nghĩa, Ví Dụ, Giải Thích

2. Nhân tố của Spark

*

Apache Spark gồm gồm 5 thành phần thiết yếu : Spark Core, Spark Streaming, Spark SQL, MLlib với GraphX, trong đó:

Spark Core là nền tảng cho các thành phần còn sót lại và những thành phần này ước ao khởi chạy được thì đều phải trải qua Spark Core bởi Spark Core đảm nhận vai trò thực hiện công việc tính toán và cách xử lý trong bộ nhớ lưu trữ (In-memory computing) mặt khác nó cũng tham chiếu những dữ liệu được lưu trữ tại các hệ thống lưu trữ mặt ngoài.

Spark SQL hỗ trợ một thứ hạng data abstraction bắt đầu (SchemaRDD) nhằm hỗ trợ cho tất cả kiểu dữ liệu có cấu tạo (structured data) và dữ liệu nửa cấu trúc (semi-structured data – thường là dữ liệu dữ liệu có cấu trúc nhưng không nhất quán và kết cấu của dữ liệu nhờ vào vào chủ yếu nội dung của dữ liệu ấy). Spark SQL hỗ trợ DSL (Domain-specific language) để thực hiện các thao tác làm việc trên DataFrames bằng ngữ điệu Scala, Java hoặc Python và nó cũng cung ứng cả ngôn từ SQL với hình ảnh command-line và ODBC/JDBC server.

Spark Streaming được áp dụng để thực hiện việc so sánh stream bằng việc xem stream là các mini-batches và thực hiệc nghệ thuật RDD transformation đối với các dữ liệu mini-batches này. Qua đó cho phép các đoạn code được viết cho cách xử trí batch rất có thể được tận dụng lại vào trong vấn đề xử lý stream, tạo cho việc trở nên tân tiến lambda architecture được tiện lợi hơn. Tuy vậy điều này lại tạo thành độ trễ trong xử lý tài liệu (độ trễ chính bởi mini-batch duration) và cho nên vì thế nhiều chuyên gia cho rằng Spark Streaming không thực thụ là biện pháp xử lý streaming giống như Storm hoặc Flink.

MLlib (Machine Learning Library): MLlib là một trong những nền tảng học thiết bị phân tán trên Spark do kiến trúc phân tán dựa vào bộ nhớ. Theo những so sánh benchmark Spark MLlib cấp tốc hơn 9 lần đối với phiên phiên bản chạy trên Hadoop (Apache Mahout).

GrapX: Grapx là gốc rễ xử lý trang bị thị dựa vào Spark. Nó cung ứng các Api nhằm diễn tảcác thống kê giám sát trong vật dụng thị bằng phương pháp sử dụng Pregel Api.

Xem thêm: Thiện Nữ U Hồn Trung Quốc - Tải Game Thiện Nữ U Hồn Mobile Trung Quốc

3. Những điểm nổi bật của SparkXử lý dữ liệu: Spark xử lý dữ liệu theo lô và thời gian thựcTính tương thích: hoàn toàn có thể tích hợp với tất cả các nguồn tài liệu và format tệp được cung ứng bởi cụm Hadoop.Hỗ trợ ngôn ngữ: hỗ trợ Java, Scala, Python với R.Phân tích thời gian thực:Apache Spark có thể xử lý dữ liệu thời gian thực có nghĩa là dữ liệu cho từ những luồng sự kiện thời hạn thực với vận tốc hàng triệu sự khiếu nại mỗi giây. Ví dụ: Data Twitter ví dụ điển hình hoặc luợt phân tách sẻ, đăng bài xích trên Facebook. Sức khỏe Spark là kĩ năng xử lý luồng thẳng hiệu quả.Apache Spark có thể được áp dụng để cách xử trí phát hiện gian lận trong khi tiến hành các giao dịch ngân hàng. Đó là bởi vì, tất cả các khoản thanh toán giao dịch trực con đường được triển khai trong thời hạn thực và chúng ta cần dứt giao dịch ăn gian trong khi quy trình thanh toán vẫn diễn ra.Mục tiêu sử dụng:Xử lý tài liệu nhanh và tương tácXử lý đồ thịCông việc lặp đi lặp lạiXử lý thời hạn thựcjoining DatasetMachine LearningApache Spark là Framework thực thi dữ liệu dựa trên Hadoop HDFS. Apache Spark không sửa chữa thay thế cho Hadoop cơ mà nó là 1 framework ứng dụng. Apache Spark tuy thành lập và hoạt động sau nhưng được rất nhiều người biết đến hơn Apache Hadoop vì kĩ năng xử lý một loạt và thời gian thực.Những doanh nghiệp sử dụng Apache Spark

Hiện nay, có nhiều hãng mập đã cần sử dụng Spark cho những sản phẩm của mình như Yahoo, ebay, IBM, Cisco…

*

Tổng kết

Với sự phạt triển trẻ khỏe trong vài ba năm quay lại đây của Apache Spark thì thiết kế viên, các nhà khoa học máy tính có thêm cơ chế hữu hiệu nhằm phục vụ quá trình của mình và người ta sẽ dần quên “Hadoop Stack” mà sửa chữa thay thế vào này sẽ là “Big data Stack”, với rất nhiều sự lựa chọn hơn không những là Hadoop.