A szikrafrissítés hozza az R támogatást és a gépi tanulási szeleteket

2024

BEST BEATBOX CHALLENGE 2020 / Spencer X Vs Bigman

a legnépszerűbb nagy adatfeldolgozó platformok, a Spark, támogatják az egyik premier statisztikai programozási nyelvet, az R-t, amely elősegítheti az egyszerűsített statisztikai elemzést.

"R az adatkutatók nyelvi franca, az elmúlt két évben "írta Patrick Wendell, az egyik fő beszámoló a Spark-nak egy e-mailben. A Wendell szintén a Databricks társalapítója és szoftverfejlesztője, amely a Spark vállalati felhőalapú verzióját kínálja.

Az új verzió "lehetővé teszi az R felhasználók számára, hogy közvetlenül a nagy adatkészleteken dolgozhassanak, akár több száz vagy több ezer gépre az önálló R program határain túl "- írta Wendell.

Az újonnan frissített Spark 1.4-es változata magában foglalja a gyártásra kész gépi tanulási lehetőségeket és a vizuális hibakeresési eszközök átfogóbb készletét.

Több mint 2 millió felhasználó világszerte, R az egyik legelterjedtebb programozási nyelv, amelyet kifejezetten a statisztikai számításokhoz és a prediktív analitikához terveztek.

Egy nyílt forráskódú projektet úgy tervezték, hogy csak egy számítógépen dolgozzon, ami korlátozza az elemzés méretét könnyen végrehajtható feladatok. Volt néhány erőfeszítés, hogy nagy R feladatok futjanak a nagyobb munkahelyeken, például a Hewlett-Packard Distributed R csomagján.

Az újonnan frissített Spark egy újabb lendületet ad az R párhuzamos futtatásához. Az elmúlt évben a Spark adatfeldolgozó platform, az Apache Software Foundation által felügyelt nyílt forráskódú projekt népszerűsége egyre népszerűbb, hiszen sok szervezet használta a számítógéppel tárolt adatok elemzésére szolgáló technológiát.

Olyan vállalatok, mint például Az Autodesk, az eBay, a NASA, az Opentable és a Yahoo mindenki használta a Sparkot, hogy nagy mennyiségű adatgyűjtést kapjon. A Java-szerszámszolgáltató TypeSafe által végzett 2014. decemberi felmérés szerint a Spark 1.4 a SparkR programmal jött, ami API (alkalmazásprogramozási felület), amely lehetővé teszi a Spark-ot programokat, amelyekkel az R-alapú elemzési feladatokat a Spark-hoz kell végrehajtani. Az elemzendő adatok különböző forrásokból származhatnak, beleértve a Hadoop Hive-alapú adattárházakat, a Hadoop fájlrendszert, az Apache Parkett oszloptárat vagy a JSON (JavaScript Object Notation) formátumú adatcsomagot.

"Mivel A SparkR a Spark párhuzamos motorját használja alul, a műveletek többféle magot vagy több gépet használnak, és az önálló R programokhoz képest sokkal nagyobb méretűre méretezhetők "- jegyezte meg Wendell a kiadást bejelentő blogbejegyzésben.

Az új kiadás szintén egy gyártásra kész gépi tanulási csővezetékkel van ellátva, először a Spark 1.2 alfa funkciójaként. A gépi tanulás a számítógéppel szemben támasztott programszerű megközelítés arra, hogy új információkat lehessen előterjeszteni előre meghatározott szabályok és bőséges adatmennyiségek segítségével. Az új gépi tanulási csővezeték egy sor általánosan használt algoritmussal jön létre az adatok készítéséhez és átalakításához. Az alfa állapotból fakadóan a fejlesztők biztonságosan használhatják az API-t, anélkül, hogy aggódnának, hogy változni fognak a Spark jövőbeni kiadásaiban.

Az új kiadás éppen időben érkezik a Spark Summit felhasználói konferenciára, amelyet a következő héten San Franciscóban tartanak.