BEST BEATBOX CHALLENGE 2020 / Spencer X Vs Bigman
a legnépszerűbb nagy adatfeldolgozó platformok, a Spark, támogatják az egyik premier statisztikai programozási nyelvet, az R-t, amely elősegítheti az egyszerűsített statisztikai elemzést.
"R az adatkutatók nyelvi franca, az elmúlt két évben "írta Patrick Wendell, az egyik fő beszámoló a Spark-nak egy e-mailben. A Wendell szintén a Databricks társalapítója és szoftverfejlesztője, amely a Spark vállalati felhőalapú verzióját kínálja.
Az új verzió "lehetővé teszi az R felhasználók számára, hogy közvetlenül a nagy adatkészleteken dolgozhassanak, akár több száz vagy több ezer gépre az önálló R program határain túl "- írta Wendell.
Az újonnan frissített Spark 1.4-es változata magában foglalja a gyártásra kész gépi tanulási lehetőségeket és a vizuális hibakeresési eszközök átfogóbb készletét.
Több mint 2 millió felhasználó világszerte, R az egyik legelterjedtebb programozási nyelv, amelyet kifejezetten a statisztikai számításokhoz és a prediktív analitikához terveztek.
Egy nyílt forráskódú projektet úgy tervezték, hogy csak egy számítógépen dolgozzon, ami korlátozza az elemzés méretét könnyen végrehajtható feladatok. Volt néhány erőfeszítés, hogy nagy R feladatok futjanak a nagyobb munkahelyeken, például a Hewlett-Packard Distributed R csomagján.
Az újonnan frissített Spark egy újabb lendületet ad az R párhuzamos futtatásához. Az elmúlt évben a Spark adatfeldolgozó platform, az Apache Software Foundation által felügyelt nyílt forráskódú projekt népszerűsége egyre népszerűbb, hiszen sok szervezet használta a számítógéppel tárolt adatok elemzésére szolgáló technológiát.
Olyan vállalatok, mint például Az Autodesk, az eBay, a NASA, az Opentable és a Yahoo mindenki használta a Sparkot, hogy nagy mennyiségű adatgyűjtést kapjon. A Java-szerszámszolgáltató TypeSafe által végzett 2014. decemberi felmérés szerint a Spark 1.4 a SparkR programmal jött, ami API (alkalmazásprogramozási felület), amely lehetővé teszi a Spark-ot programokat, amelyekkel az R-alapú elemzési feladatokat a Spark-hoz kell végrehajtani. Az elemzendő adatok különböző forrásokból származhatnak, beleértve a Hadoop Hive-alapú adattárházakat, a Hadoop fájlrendszert, az Apache Parkett oszloptárat vagy a JSON (JavaScript Object Notation) formátumú adatcsomagot.
"Mivel A SparkR a Spark párhuzamos motorját használja alul, a műveletek többféle magot vagy több gépet használnak, és az önálló R programokhoz képest sokkal nagyobb méretűre méretezhetők "- jegyezte meg Wendell a kiadást bejelentő blogbejegyzésben.
Az új kiadás szintén egy gyártásra kész gépi tanulási csővezetékkel van ellátva, először a Spark 1.2 alfa funkciójaként. A gépi tanulás a számítógéppel szemben támasztott programszerű megközelítés arra, hogy új információkat lehessen előterjeszteni előre meghatározott szabályok és bőséges adatmennyiségek segítségével. Az új gépi tanulási csővezeték egy sor általánosan használt algoritmussal jön létre az adatok készítéséhez és átalakításához. Az alfa állapotból fakadóan a fejlesztők biztonságosan használhatják az API-t, anélkül, hogy aggódnának, hogy változni fognak a Spark jövőbeni kiadásaiban.
Az új kiadás éppen időben érkezik a Spark Summit felhasználói konferenciára, amelyet a következő héten San Franciscóban tartanak.
A szikrafrissítés hozza az R támogatást és a gépi tanulási szeleteket
A szikrahasználók R munkákat futtathatnak több szerveren tárolt adatokon
A Microsoft adatkezelője szerint a jelenlegi gépi tanulási eszközök olyanok, mint a szabott ingek
Amikor a Microsoft adat- és géptanulási vezetője a jövőben egy olyan világot lát, ahol a fejlesztők olyan alkalmazásokat hoznak létre, amelyek a gépi tanulás és a prediktív elemzés kihasználására épülnek anélkül, hogy szükség lenne egy adatkutató segítségére.
Tesztelje Super Bowl választásait ezzel az új gépi tanulási predikciós eszközzel
A gép előrehaladásának nincs vége a vállalati szoftverek világába való elsajátítása, de ezen a héten egy új online eszköz debütált a puszta szórakozás érdekében: a Super Bowl győztesének előrejelzése.