Ajánlott, 2024

Választható editor

Az Apache Kafka a nagyméretű adatok kerekeit zsírozva

Mégis mi kerül egy autógumin ennyibe?

Mégis mi kerül egy autógumin ennyibe?
Anonim

Az Analytics-t gyakran a nagy adatokhoz kapcsolódó legnagyobb kihívásoknak nevezik, de még mielőtt ez a lépés megtörténhetne, az adatokat el kell nyelni és elérhetővé kell tenni a vállalati felhasználók számára. Innen érkezik Apache Kafka.

Eredetileg a LinkedIn-ben kifejlesztett Kafka egy nyílt forráskódú rendszer a weboldalak, alkalmazások és érzékelők valós idejű adatfolyamainak kezelésében.

Alapvetően egyfajta vállalkozásként működik " központi idegrendszer ", amely nagy mennyiségű adatot gyűjti például olyan dolgokról, mint a felhasználói tevékenység, a naplók, az alkalmazások mutatói, a tőzsdei tickerek és az eszközberendezések, és elérhetővé teszi azt a valós idejű áramként a vállalati felhasználók fogyasztására.

[ További információk: A legjobb fehér LED izzós izzók]

A Kafka-t gyakran hasonlítják az olyan technológiákhoz, mint az ActiveMQ vagy a RabbitMQ a helyszíni megvalósításokhoz, vagy az Amazon Web Services "Kinesis a felhő ügyfelekhez", mondta Stephen O'Grady társalapító és a fő elemző a RedMonk-szal.

"Ez egyre jobban láthatóvá válik, mert ez egy kiváló minőségű nyílt forrású projekt, hanem azért is, mert a nagy sebességű információáramlás kezelésének képessége egyre inkább igénybe veszi az olyan terhelések kiszolgálását, mint az IoT, többek között "- tette hozzá O'Grady.

A LinkedIn-től fogva a Kafka nagy horderejű támogatást kapott olyan cégektől, mint a Netflix, az Uber, a Cisco és a Goldman Sachs. Pénteken új lendületet kapott az IBM, amely bejelentette két új Kafka-alapú szolgáltatás elérhetőségét a Bluemix platformon keresztül.

Az IBM új Streaming Analytics szolgáltatásának célja, hogy másodpercenként milliós eseményeket elemezzen a másodpercenkénti milliszekundumos válaszidőkre és azonnali döntéshozatal. Az IBM Message Hub most már béta verzióban skálázható, elosztott, nagy áteresztőképességű, aszinkron üzeneteket biztosít a felhőalapú alkalmazások számára, azzal a lehetőséggel, hogy REST vagy Apache Kafka API (alkalmazásprogramozási felület) segítségével más alkalmazásokkal kommunikálhasson.

Kafka nyílt forrású 2011-ben. Tavaly a Kafka alkotói közül három elindította a Confluent-et, melynek célja, hogy segítse a vállalkozásokat a méretarányos felhasználásban.

"A LinkedIn robbanásszerű növekedési szakaszában nem tudtunk lépést tartani a növekvő felhasználókkal alapot és azokat az adatokat, amelyeket felhasználhatunk a felhasználói élmény javításában "- mondta Neha Narkhede, a Kafka egyik alkotója és a Confluent társalapítója.

" Amit a Kafka lehetővé teszi, az adatok áthelyezése a vállalaton belül, folyamatosan szabadon áramló adatfolyamként elérhetőek másodpercek alatt azoknak, akiknek szüksége van rá. "- magyarázta Narkhede. "És ez a méretarány."

A LinkedIn-re gyakorolt ​​hatás "transzformációs" volt. Ma a LinkedIn továbbra is a legnagyobb Kafka telepítés a termelésben; meghaladja az 1,1 billió üzenetet naponta.

A konfluens időközben olyan előfizetői szoftvereket ajánl fel, amelyek segítenek a nagyvállalatok számára a Kafka gyártási rendszerek működtetéséhez. Ügyfelei körében egy nagy nagykereskedelmi kiskereskedő és "az Egyesült Államok egyik legnagyobb hitelkártya-kibocsátója" - mondta Narkhede.

Ez utóbbi a valós idejű csalás elleni védelem technológiáját használja. > A Kafka "hihetetlenül gyors üzenetküldő busz", ami jó segítséget nyújt a különböző típusú adatok gyors integrálásában, mondta Jason Stamper, a 451 Research elemzője. "Ezért emelkedik ki az egyik legnépszerűbb választásként."

Az ActiveMQ és a RabbitMQ mellett egy másik hasonló funkciót kínáló termék is az Apache Flume. A Storm and Spark Streaming hasonlóan sok szempontból is létezik.

A kereskedelmi térben a Confluent versenytársai közé tartozik az IBM InfoSphere Streams, az Informatica Ultra Messaging Streaming Edition és a SAS Event Stream Processing Engine (ESP), valamint a Software AG Apama, a Tibco StreamBase és a SAP Aleri, hozzátette Stamper. A kisebb versenytársak közé tartozik a DataTorrent, Splunk, Loggly, Logentries, X15 szoftver, Sumo Logic és Glassbeam.

A felhőben az AWS Kinesis adatfolyam-feldolgozási szolgáltatása "a Redshift adattárházához és az S3 tárolóplatformhoz hasonló integrációval jár," - mondta.

A Teradata újonnan bejelentett meghallgatója egy másik versenyző, és ez a Kafka-alapú valamint a Forrester Research alelnöke és fő elemzője, Brian Hopkins.

Általában a valós idejű adatok felé mutató tendencia figyelhető meg, Hopkins azt mondta: <2013> 2013-ig "nagy adatok voltak a Hadoopban feltöltött adatok nagy mennyiségéről "- mondta. "Most, ha ezt nem teszed meg, akkor már a teljesítménygörbe mögött van."

Az okostelefonok és más források adatai ma a vállalkozások számára lehetővé teszik, hogy valós időben vegyenek részt a fogyasztókkal, és kontextuális élményeket nyújtsanak. mondott. Ez viszont azon a képességen nyugszik, hogy képes gyorsabban megérteni az adatokat.

"A tárgyak internete olyan, mint a mobil egy második hulláma" - magyarázta Hopkins. "Minden gyártó helyezi el egy lavina adatot."

Ennek eredményeképpen a technológia ennek megfelelően alkalmazkodik.

"2014-ig mindegyik a Hadoopról szólt, akkor Spark volt" - mondta. "Most már Hadoop, Spark és Kafka: három egyenrangú társa van az adatbevezetési csővezetékben ebben a modern analitikus felépítésben."

Top