教 程 目 录
Talend Tutorial
Talend是一个用于数据集成的ETL工具.它为数据准备,数据质量,数据集成,应用程序集成,数据管理和大数据提供软件解决方案. Talend为所有这些解决方案提供单独的产品.数据集成和大数据产品被广泛使用.本教程通过示例帮助您了解数据集成和大数据的Talend工具的所有基础知识.
受众
本教程适用于初学者有志成为ETL专家.对于希望使用具有大数据生态系统的ETL工具的大数据专业人士来说,它也是理想选择.
先决条件
在继续本教程之前,您应该熟悉基本的数据仓库概念以及ETL(提取,转换,加载)的基础知识.如果您是这些概念的初学者,我们建议您首先阅读基于这些概念的教程,以便深入了解Talend.
本文地址:https://itbaoku.cn/tutorial/talend-index.html
相关问答
我试图在 Talend 中实现日志记录.所以我用普通的组件做了一个工作,我通过 Twarn 和 Tdie 记录了错误、信息和调试.使用 Logcatcher ,我将日志分为调试和错误两个文件.这部分工作正常. 现在我做了两份工作, 首先:- 使用 trowgenerator 生成线,然后发送到 tmap 和从 tmap,我根据某些条件发送到两个 twarn 组件. 第二个:- 具有 tlogcatcher、t_filterrow 并根据某些条件分离到两个文件的作业. 所以我正在与第一个作业并行运行第二个作业以捕获日志,但它不起作用. 我已经尝试了几个选项并停留在这一点上. 主要思想是有一个通用的日志记录组件,可以插入到任何日志作业中. 有什么方法可以实现吗? 解决方案 以下是弹出的 3 种方式: log4j:企业版内置了log4j,这意味着你可以在tWarn/tDie中设置一个调试级别,并配置log4j将它们放到不同的文件中.(使用它时,我发现最好将警告作为我自己的信息级别日志,因为 talends 信息级别太深了.)我敢肯定 log4j 也可以被“入侵"到开放工作室.那会解决你的问题.https://exchange.talend.com 搜索log4j的时候有很多结果,你应该看看. joblet:如果您更喜欢当前的方
)
我们有一个要求,我们正在读取来自三个不同文件的数据并在同一作业中使用不同列的这些文件中进行加入. 每个文件大小约为25-30 GB.我们的系统RAM尺寸仅为16GB.与TMAP一起加入. Talend将所有参考数据保留在物理内存中.就我而言,我无法提供那么多的记忆.作业因记忆力不足而失败.如果我在TMAP中使用与Temp Disk选项一起使用,Job的速度很慢. 请帮助我解决这些问题. 如何处理大于RAM大小的数据? 管道并行性与塔伦德(Talend)建立?我缺少什么吗 在代码中以实现这一目标? tuniq&加入操作是在物理记忆中完成的,导致了作业 慢慢奔跑.磁盘选项可用于处理这些 功能,但是太慢了. 如何在不将数据推到DB(ELT)的情况下如何提高性能. 塔伦德是否可以在数百万中处理大量数据. 较少量的RAM的数据? 谢谢 解决方案 talend处理大量数据非常快速,有效.这一切都取决于您对TALEND平台的了解. 请考虑以下评论作为您的问题的答案. Q1.talend过程如何大于RAM大小? a.您无法将整个RAM用于Talend Studio.只有一小部分RAM可以使用其几乎一半的RAM. 例如: - 在64位系统上可用8 GB的内存,最佳设置可以是: -vmargs -XMS1024M -xmx409
)
我正在寻找运营商的前端,以运行我们的塔伦德工作.我们不希望他能够删除或修改作业.只是为了运行它们并监视他们的结果.任何有关执行此操作的工具的建议吗? 谢谢 解决方案 Talend的订阅版本(称为Talend Integration Suite或TIS)就是这样.这是一个基于网络的控制台,称为TALEND管理中心(TAC),它允许操作员运行作业并监视其结果 - 等等.可以以您描述的方式设置权限,以使操作员无法删除或修改作业. 其他解决方案 在我的公司中,我们使用 SOS Job Scheduler ,您可以将其与TOS开箱箱一起用作一般的DIY调度解决方案.就这些天,我正在研究一个自定义组件,以在第一个和后者之间深入集成(例如日志传播,上下文参数共享等.基本上,它让您使用TOS作业中的SOS API).如果需要的话,我可以加速并在几天内放在GitHub上:) 其他解决方案 您可以按照脚本(.sh)的形式导出作业,任何人都可以执行它,并且将无法删除这些作业. 要查看执行详细信息,将一些TLOG组件放入您的talend作业中. 如果您只有开放式工作室(免费版本),这只是解决方案的工作.
)
您好,我使用的是 talend open studio 5.5.我想导出 talend 工作并放入 SVN.它包含以下文件.1) 过程a) .项目b) .properties 我想以此构建 talend 作业并创建 jar、bat 和 sh 文件,就像在 talend open studion 中构建作业时创建的那样. 解决方案 series 解释了如何使用 Talend 命令行工具从工作室外部构建作业.它是可编写脚本的,因此可以从外部工具访问,在这种情况下,Jean-Baptiste 使用 Maven 作为构建工具. 他的示例 commandline-script.sh 初始化 Talend 存储库,以用户身份登录,然后发布 ESB 路由: initRemote ${tac.location} logonProject -pn ${talend.project} -ul "${tac.user}" -up ${tac.password} publishRoute ${project.artifactId} -r "${repo.snapshot}" -u ${repo.user} -p ${repo.password} -pv ${project.version} -g ${project.groupId} -a ${project.artifactId}
)
我想通过tmssqlrow获得影响/删除/更新的行的数量. 这是工作的方式: 文件使用包含大量SQL语句,例如删除...插入...更新... 每行都是";" 分开的 但是,现在,我想获得每个语句的结果(x行更新,例如在管理工作室中显示结果). 当我转到tmssqlrow的"高级设置"选项卡时,我选择"传播Query's RecordSet",然后选择我创建之前创建的列(对象类型). 在执行时,我有一个错误: executeQuery方法必须返回结果集. 那么,我如何获得每个语句的结果并在数据库/文件中插入它? 解决方案 必须将选项"传播查询的记录集"与TPARSERECORDSET结合使用,以便从返回的记录集中提取信息.但是,这是不够的:您必须明确编写查询才能返回已更新/删除的记录数. 这是我所做的: 我的tjdbcrow(与tmssqlrow相同)查询看起来像这样(请注意,在更新查询之前我必须如何添加'set nocount on',然后'select @@ rowcount'之后) ) > tparseRecordSet检索列结果集的行数(nblines是我的rowcount的别名) 其他解决方案 如果需要影响的行数,则更好的选择是使用可以更新,插入或删除行的TMSSSQLOUTPUT组件.执行后,该
)
我正在尝试自动化一些我必须手动做的事情,因此我可以运行一个python脚本,而不是采取一系列步骤.我想找到一种从python脚本运行talend作业的方法. 我该如何完成?甚至可能吗? 解决方案 糟糕!对不起. 在工作室中,建立工作以获得可以从命令行启动的自主工作. 从生成的存档中提取文件. 搜索文件夹"脚本/yourjobname". 根据您喜欢的一个或.sh检查一个.bat或.sh的语法. 使用subprocess.call启动JAR文件(或其他从Python执行JAR文件的方法). 希望这会有所帮助. trf 其他解决方案 您一旦可以从命令行运行Python脚本,就应该能够使用TSYSTEM组件从TALEND运行它.
)